statistica

21
1 STATISTICĂ CURS 4 Prezentarea şi reprezentarea datelor statistice

Upload: paulaturculeanu

Post on 11-Jan-2016

6 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: statistica

1

STATISTICĂ CURS 4

Prezentarea şi reprezentarea datelor statistice

Page 2: statistica

2

Principiile clasificării şi grupării

Agregarea/sistematizarea datelor se realizează prin clasificare (vb. nenumerice) şi grupare (vb. numerice)

Sistematizarea = împărţirea datelor în grupe omogene, după unul sau mai multe criterii.

Criteriul de grupare este dat de variabila statistică

Grupările sunt simple sau combinate în funcţie de numărul criteriilor utilizate

Gruparea datelor trebuie să se facă după principiile:

omogenităţii

unicităţii

universalităţii

Grupele constituite trebuie să fie deci exhaustive şi mutual exclusive.

Rezultatul grupării datelor îl reprezintă seria de distribuţie de frecvenţe.

Page 3: statistica

3

Sistematizarea datelor nenumerice

Clasificarea = împărţirea unităţilor în categoriile variabilei nenumerice

Prin numărarea unităţilor statistice ce se încadrează în fiecare clasă se stabileşte frecvenţa clasei

Dacă variabila este măsurată pe scala nominală ordinea claselor o alege cercetătorul.

Sistematizarea datelor privind muzeele, în anul 2007, în România, în funcţie de tipul acestora:

Tipul muzeului Numărul muzeelor (la sfârşitul anului)

( in )

Ponderea muzeelor

(*%in )

Ştiinţele naturii 44 6,6 Istoria tehnicii şi ştiinţei 21 3,1 Istorie 117 17,5 Etnografie 115 17,2 Istoria culturii 152 22,8 Artă 149 22,3 Mixte 70 10,5

Total 668 100 Sursa: Anuarul Statistic al României, 2008.

Page 4: statistica

4

Sistematizarea datelor nenumerice

Dacă datele se referă la variabile măsurate pe scala ordinală, clasele vor respecta criteriul de ordine:

Sistematizarea datelor privind clasamentul general la competiţiile internaţionale oficiale pentru Federaţia Română de Atletism, în anul 2006

Locul Nr. sportivi I 50 II 36 III 31 IV 2 V 3 VI 7

Total 129 Sursa: Anuarul Statistic al României, 2008.

Page 5: statistica

5

Reprezentarea grafică a seriilor de distribuţie de frecvenţe

pentru variabile nenumerice

Diagrama prin coloane (în cazul frecvenţelor absolute)

0

20

40

60

80

100

120

140

160

Ştiinţelenaturii

Istoriatehnicii şi

ştiinţei

Istorie Etnografie Istoriaculturii

Artă Mixte

tipul de muzeu

Nr. m

uzee

(fre

cven

te a

bsol

ute)

Distribuţia muzeelor după tipul lor

Page 6: statistica

6

Reprezentarea grafică a seriilor de distribuţie de frecvenţe pentru variabile nenumerice

Graficul „pie chart” (în cazul frecvenţelor relative).

7% 3%

18%

17%

23%

22%

10%

Ştiinţele naturii Istoria tehnicii şi ştiinţei Istorie Etnografie Istoria culturii Artă Mixte

Structura muzeelor după tipul lor

Page 7: statistica

7

Sistematizarea datelor numerice Gruparea reprezintă sistematizarea datelor după o variabilă numerică

A. Dacă variabila este discretă şi cu un număr redus de valori distincte (max. 10) sistematizarea datelor se face prin gruparea pe variante, obţinându-se o serie de distribuţie de frecvenţe pe variante.

Frecvenţa grupelor se stabileşte prin numărarea unităţilor care iau aceeaşi valoare.

Gruparea a 50 de manageri ai unor firme de I T, în funcţie de numărul de deplasări în străinătate, în interes de serviciu, în luna mai 2007:

Număr deplasări Număr manageri 0 3 1 16 2 19 3 7 4 4 5 1

Total 50

O serie de distribuţie de frecvenţe pentru o variabilă discretă poate fi prezentată şi sub următoarea formă:

r

r

... n nn

... x xxX

21

21:.

Page 8: statistica

8

Sistematizarea datelor numerice

Reprezentarea grafică a unei serii de distribuţie de frecvenţe alcătuită după o variabilă numerică discretă cu număr redus de valori distincte este poligonul frecvenţelor:

0123456789

1011121314151617181920

0 1 2 3 4 5

Nr. deplasari

nr.

man

ager

i

Distribuţia managerilor în funcţie de numărul de deplasări (poligonul frecvenţelor)

Page 9: statistica

9

Sistematizarea datelor numerice

B. Dacă variabila numerică este discretă şi are un număr mare de valori distincte sau este continuă sistematizarea presupune gruparea pe intervale de variaţie

Se obţine o serie de distribuţie de frecvenţe pe intervale.

Intervalul de variaţie reprezintă un şir de valori ale variabilei delimitat prin limita inferioară şi limita superioară.

Intervalele de variaţie pot fi de mărime egală sau neegală.

Pentru gruparea pe intervale de variaţie se recomandă utilizarea unui număr moderat de grupe (5-15 grupe).

Numărul intervalelor depinde de numărul unităţilor statistice. Un număr mare de date necesită un număr mai mare de intervale de grupare.

Page 10: statistica

10

Alcătuirea intervalelor de variaţiea. Determinarea numărului de intervale

Pentru alegerea numărului de intervale (r) se poate utiliza relaţia:

nr 10log322,31 , unde n reprezintă volumul colectivităţii.

b. Stabilirea mărimii intervalului (h) de variaţie

r

xx

r

Ah minmax

c. Sabilirea intervalelor

Punctul de plecare în alcătuirea intervalelor de grupare se alege, convenabil, 0 sau un număr întreg mai mic sau egal decât xmin.

xmin xmin+h xmin+h xmin+2h ..................................................... xmin + (r — 1)h xmin + r h

Frecvenţa fiecărui interval in (numită frecvenţă absolută) se obţine prin numărarea unităţilor care se încadrează în fiecare grupă.

Page 11: statistica

11

Exemplu

Tabelul statistic ce se obţine prin gruparea datelor pe intervale de variaţie este:

Intervale de variaţie a vechimii în activitate (ani)

Număr salariaţi in

0-5 5 5-10 8

10-15 17 15-20 20 20-25 14 25-30 10

30 şi peste 6 TOTAL 80

Notă: limita superioară este inclusă în interval

Page 12: statistica

12

Reprezentarea grafică a seriilor de distribuţie de frecvenţe pe intervale

O serie de distribuţie de frecvenţe pe intervale de variaţie se reprezintă grafic cu ajutorul histogramei şi a poligonului frecvenţelor.

Histograma se construieşte prin ridicarea unor dreptunghiuri, fiecare dreptunghi fiind de lăţime egală cu mărimea intervalului de grupare şi de înălţime egală cu frecvenţa intervalului

0

2

4

6

8

10

12

14

10 20 30 40 50 60 70 80 90

Intervale

Frec

vent

e

0

5

10

15

20

25

30

35

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46

Intervale

Frec

vent

e

set mic de date set mare de date

Page 13: statistica

13

Exemplu

distributia salariatilor in functie de vechimea in activitate

5

8

17

20

14

10

6

0

5

10

15

20

25

2,5 7,5 12,5 17,5 22,5 27,5 32,5

nr.ani

nr.

sla

riat

i

Page 14: statistica

14

Exemplu

poligonul frecventelor

0

5

10

15

20

25

-2,5 2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5

nr.ani

nr.

sla

riat

i

Page 15: statistica

15

Distribuţia normală

Distribuţia normală, perfect simetrică, în forma clopotului lui Gauss-Laplace este foarte rar întâlnită în practică, fiind de fapt o distribuţie teoretică de referinţă în analiza statistică.

Page 16: statistica

16

Distribuţii asimetrice

În cele mai multe cazuri, distribuţiile de frecvenţe empirice au

tendinţă de normalitate, dar un anumit grad de asimetrie

Page 17: statistica

17

Distribuţia în formă de J

Distribuţia în formă de J este o distribuţie profund asimetrică, în care frecvenţa maximă se întâlneşte în primul ori în ultimul interval, pentru ca apoi frecvenţele să descrească spre zero

Page 18: statistica

18

Distribuţia în formă de U Distribuţia în formă de U este o distribuţie cu frecvenţe

maxime în ambele intervale extreme de variaţie şi cu frecvenţă minimă în jurul intervalului central

Este firesc, aşadar, ca analiza statistică să înceapă cu vizualizarea, pe cale grafică, a tendinţei de distribuţie a valorilor în colectivitatea cercetată.

Page 19: statistica

19

Seria de distribuţie de frecvenţe pe intervale

În cazul seriilor de distribuţie de frecvenţe pe intervale se mai determină:

1. Centrul de interval = valoarea situată la jumătatea distanţei dintre limitele intervalului şi este considerat reprezentativ pentru datele din interiorul intervalului:

2infi

iih

xx sau 2

supinf iii

xxx

, ri ,1 .

2. Frecvenţa absolută cumulată crescător a unei grupe (Fci) = nr. unităţilor statistice care au valoarea variabilei mai mică sau egală cu limita superioară a intervalului

i

kkci nF

1.

3. Frecvenţa relativă cumulată crescător a unei grupe (*

ciF ) = procentul unităţilor statistice care au valoarea variabilei mai mică sau egală cu limita superioară a grupei:

i

kkci nF

1

**.

4. Frecvenţe absolute şi relative cumulate descrescător = nr. sau procentul unităţilor statistice care au valoarea variabilei mai mare sau egală cu limita inferioară a intervalului

r

ikkdi nF ,

r

ikkdi nF **

.

Page 20: statistica

20

Seria de distribuţie de frecvenţe pe intervale

Frecvenţele absolute, relative şi cumulate oferă o imagine de ansamblu asupra tendinţei de distribuţie a valorilor în colectivitate, asupra normalităţii, simetriei ori asimetriei repartiţiei de frecvenţe.

Intervale de variaţie

a vechimii în activitate

(ani)

Număr salariaţi

in

Ponderea salariaţilor

*%in

Centrul de

interval

ix

ciF diF *

ciF *diF

0-5 5 6,25 2,5 5 80 6,25 100 5-10 8 10 7,5 13 75 16,25 93,75

10-15 17 21,25 12,5 30 67 37,5 83,75 15-20 20 25 17,5 50 50 62,5 62,5 20-25 14 17,5 22,5 64 30 80 37,5 25-30 10 12,5 27,5 74 16 92,5 20 30-35 6 7,5 32,5 80 6 100 7,5

TOTAL 80 100 - - - - - Notă: limita superioară este inclusă în interval

Page 21: statistica

21

Curbele cumulative ale frecvenţelor

curbele cumulative ale frecventelor

0

10

20

30

40

50

60

70

80

90

0 5 10 15 20 25 30 35

Fci

Fdi