statistica
TRANSCRIPT
1
STATISTICĂ CURS 4
Prezentarea şi reprezentarea datelor statistice
2
Principiile clasificării şi grupării
Agregarea/sistematizarea datelor se realizează prin clasificare (vb. nenumerice) şi grupare (vb. numerice)
Sistematizarea = împărţirea datelor în grupe omogene, după unul sau mai multe criterii.
Criteriul de grupare este dat de variabila statistică
Grupările sunt simple sau combinate în funcţie de numărul criteriilor utilizate
Gruparea datelor trebuie să se facă după principiile:
omogenităţii
unicităţii
universalităţii
Grupele constituite trebuie să fie deci exhaustive şi mutual exclusive.
Rezultatul grupării datelor îl reprezintă seria de distribuţie de frecvenţe.
3
Sistematizarea datelor nenumerice
Clasificarea = împărţirea unităţilor în categoriile variabilei nenumerice
Prin numărarea unităţilor statistice ce se încadrează în fiecare clasă se stabileşte frecvenţa clasei
Dacă variabila este măsurată pe scala nominală ordinea claselor o alege cercetătorul.
Sistematizarea datelor privind muzeele, în anul 2007, în România, în funcţie de tipul acestora:
Tipul muzeului Numărul muzeelor (la sfârşitul anului)
( in )
Ponderea muzeelor
(*%in )
Ştiinţele naturii 44 6,6 Istoria tehnicii şi ştiinţei 21 3,1 Istorie 117 17,5 Etnografie 115 17,2 Istoria culturii 152 22,8 Artă 149 22,3 Mixte 70 10,5
Total 668 100 Sursa: Anuarul Statistic al României, 2008.
4
Sistematizarea datelor nenumerice
Dacă datele se referă la variabile măsurate pe scala ordinală, clasele vor respecta criteriul de ordine:
Sistematizarea datelor privind clasamentul general la competiţiile internaţionale oficiale pentru Federaţia Română de Atletism, în anul 2006
Locul Nr. sportivi I 50 II 36 III 31 IV 2 V 3 VI 7
Total 129 Sursa: Anuarul Statistic al României, 2008.
5
Reprezentarea grafică a seriilor de distribuţie de frecvenţe
pentru variabile nenumerice
Diagrama prin coloane (în cazul frecvenţelor absolute)
0
20
40
60
80
100
120
140
160
Ştiinţelenaturii
Istoriatehnicii şi
ştiinţei
Istorie Etnografie Istoriaculturii
Artă Mixte
tipul de muzeu
Nr. m
uzee
(fre
cven
te a
bsol
ute)
Distribuţia muzeelor după tipul lor
6
Reprezentarea grafică a seriilor de distribuţie de frecvenţe pentru variabile nenumerice
Graficul „pie chart” (în cazul frecvenţelor relative).
7% 3%
18%
17%
23%
22%
10%
Ştiinţele naturii Istoria tehnicii şi ştiinţei Istorie Etnografie Istoria culturii Artă Mixte
Structura muzeelor după tipul lor
7
Sistematizarea datelor numerice Gruparea reprezintă sistematizarea datelor după o variabilă numerică
A. Dacă variabila este discretă şi cu un număr redus de valori distincte (max. 10) sistematizarea datelor se face prin gruparea pe variante, obţinându-se o serie de distribuţie de frecvenţe pe variante.
Frecvenţa grupelor se stabileşte prin numărarea unităţilor care iau aceeaşi valoare.
Gruparea a 50 de manageri ai unor firme de I T, în funcţie de numărul de deplasări în străinătate, în interes de serviciu, în luna mai 2007:
Număr deplasări Număr manageri 0 3 1 16 2 19 3 7 4 4 5 1
Total 50
O serie de distribuţie de frecvenţe pentru o variabilă discretă poate fi prezentată şi sub următoarea formă:
r
r
... n nn
... x xxX
21
21:.
8
Sistematizarea datelor numerice
Reprezentarea grafică a unei serii de distribuţie de frecvenţe alcătuită după o variabilă numerică discretă cu număr redus de valori distincte este poligonul frecvenţelor:
0123456789
1011121314151617181920
0 1 2 3 4 5
Nr. deplasari
nr.
man
ager
i
Distribuţia managerilor în funcţie de numărul de deplasări (poligonul frecvenţelor)
9
Sistematizarea datelor numerice
B. Dacă variabila numerică este discretă şi are un număr mare de valori distincte sau este continuă sistematizarea presupune gruparea pe intervale de variaţie
Se obţine o serie de distribuţie de frecvenţe pe intervale.
Intervalul de variaţie reprezintă un şir de valori ale variabilei delimitat prin limita inferioară şi limita superioară.
Intervalele de variaţie pot fi de mărime egală sau neegală.
Pentru gruparea pe intervale de variaţie se recomandă utilizarea unui număr moderat de grupe (5-15 grupe).
Numărul intervalelor depinde de numărul unităţilor statistice. Un număr mare de date necesită un număr mai mare de intervale de grupare.
10
Alcătuirea intervalelor de variaţiea. Determinarea numărului de intervale
Pentru alegerea numărului de intervale (r) se poate utiliza relaţia:
nr 10log322,31 , unde n reprezintă volumul colectivităţii.
b. Stabilirea mărimii intervalului (h) de variaţie
r
xx
r
Ah minmax
c. Sabilirea intervalelor
Punctul de plecare în alcătuirea intervalelor de grupare se alege, convenabil, 0 sau un număr întreg mai mic sau egal decât xmin.
xmin xmin+h xmin+h xmin+2h ..................................................... xmin + (r — 1)h xmin + r h
Frecvenţa fiecărui interval in (numită frecvenţă absolută) se obţine prin numărarea unităţilor care se încadrează în fiecare grupă.
11
Exemplu
Tabelul statistic ce se obţine prin gruparea datelor pe intervale de variaţie este:
Intervale de variaţie a vechimii în activitate (ani)
Număr salariaţi in
0-5 5 5-10 8
10-15 17 15-20 20 20-25 14 25-30 10
30 şi peste 6 TOTAL 80
Notă: limita superioară este inclusă în interval
12
Reprezentarea grafică a seriilor de distribuţie de frecvenţe pe intervale
O serie de distribuţie de frecvenţe pe intervale de variaţie se reprezintă grafic cu ajutorul histogramei şi a poligonului frecvenţelor.
Histograma se construieşte prin ridicarea unor dreptunghiuri, fiecare dreptunghi fiind de lăţime egală cu mărimea intervalului de grupare şi de înălţime egală cu frecvenţa intervalului
0
2
4
6
8
10
12
14
10 20 30 40 50 60 70 80 90
Intervale
Frec
vent
e
0
5
10
15
20
25
30
35
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46
Intervale
Frec
vent
e
set mic de date set mare de date
13
Exemplu
distributia salariatilor in functie de vechimea in activitate
5
8
17
20
14
10
6
0
5
10
15
20
25
2,5 7,5 12,5 17,5 22,5 27,5 32,5
nr.ani
nr.
sla
riat
i
14
Exemplu
poligonul frecventelor
0
5
10
15
20
25
-2,5 2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5
nr.ani
nr.
sla
riat
i
15
Distribuţia normală
Distribuţia normală, perfect simetrică, în forma clopotului lui Gauss-Laplace este foarte rar întâlnită în practică, fiind de fapt o distribuţie teoretică de referinţă în analiza statistică.
16
Distribuţii asimetrice
În cele mai multe cazuri, distribuţiile de frecvenţe empirice au
tendinţă de normalitate, dar un anumit grad de asimetrie
17
Distribuţia în formă de J
Distribuţia în formă de J este o distribuţie profund asimetrică, în care frecvenţa maximă se întâlneşte în primul ori în ultimul interval, pentru ca apoi frecvenţele să descrească spre zero
18
Distribuţia în formă de U Distribuţia în formă de U este o distribuţie cu frecvenţe
maxime în ambele intervale extreme de variaţie şi cu frecvenţă minimă în jurul intervalului central
Este firesc, aşadar, ca analiza statistică să înceapă cu vizualizarea, pe cale grafică, a tendinţei de distribuţie a valorilor în colectivitatea cercetată.
19
Seria de distribuţie de frecvenţe pe intervale
În cazul seriilor de distribuţie de frecvenţe pe intervale se mai determină:
1. Centrul de interval = valoarea situată la jumătatea distanţei dintre limitele intervalului şi este considerat reprezentativ pentru datele din interiorul intervalului:
2infi
iih
xx sau 2
supinf iii
xxx
, ri ,1 .
2. Frecvenţa absolută cumulată crescător a unei grupe (Fci) = nr. unităţilor statistice care au valoarea variabilei mai mică sau egală cu limita superioară a intervalului
i
kkci nF
1.
3. Frecvenţa relativă cumulată crescător a unei grupe (*
ciF ) = procentul unităţilor statistice care au valoarea variabilei mai mică sau egală cu limita superioară a grupei:
i
kkci nF
1
**.
4. Frecvenţe absolute şi relative cumulate descrescător = nr. sau procentul unităţilor statistice care au valoarea variabilei mai mare sau egală cu limita inferioară a intervalului
r
ikkdi nF ,
r
ikkdi nF **
.
20
Seria de distribuţie de frecvenţe pe intervale
Frecvenţele absolute, relative şi cumulate oferă o imagine de ansamblu asupra tendinţei de distribuţie a valorilor în colectivitate, asupra normalităţii, simetriei ori asimetriei repartiţiei de frecvenţe.
Intervale de variaţie
a vechimii în activitate
(ani)
Număr salariaţi
in
Ponderea salariaţilor
*%in
Centrul de
interval
ix
ciF diF *
ciF *diF
0-5 5 6,25 2,5 5 80 6,25 100 5-10 8 10 7,5 13 75 16,25 93,75
10-15 17 21,25 12,5 30 67 37,5 83,75 15-20 20 25 17,5 50 50 62,5 62,5 20-25 14 17,5 22,5 64 30 80 37,5 25-30 10 12,5 27,5 74 16 92,5 20 30-35 6 7,5 32,5 80 6 100 7,5
TOTAL 80 100 - - - - - Notă: limita superioară este inclusă în interval
21
Curbele cumulative ale frecvenţelor
curbele cumulative ale frecventelor
0
10
20
30
40
50
60
70
80
90
0 5 10 15 20 25 30 35
Fci
Fdi