1-statistica

68
Constantin Pătrăşcoiu 1 STATISTICĂ INTRODUCERE Statistica (de la cuvintul latin status) a fost la origine, mulţimea datelor numerice rezultatele din recensământul populaţiei, care permiteau descrierea statului. Aşa se explică vocabularul utilizat azi de statistică, cu toate că, ea a devenit indispensabilă unor domenii ca: economie, biologie, sociologie, agronomie, medicină, meteorologie, etc. Studiul statistic al unui fenomen, constă mai întâi în culegerea datelor corespunzatoare care apoi sunt grupate, analizate şi interpretate. Se cunosc mai multe modalităţi de culegere a datelor în funcţie de repetarea sau întinderea lor. Există culegeri sistematice (registrul stării civile), culegeri periodice (recensăminte, inventare, bilanţuri anuale) sau culegeri ocazionale (pierderi datorită unor accidente, previziuni preelectorale). O culegere este exhaustivă dacă cuprinde toţi indivizii unei populaţii şi parţială in caz contrar. Culegerea şi interpretarea datelor formează obiectul statisticii descriptive, gruparea, analizarea şi interpretarea lor formeza obiectul statisticii matematice. Mulţimea metodelor care permit culegerea, gruparea, analiza şi interpretarea datelor corespunzătoare unui fenomen în vederea formării unor previziuni sau luării unor decizii în cunostintă de cauză, se numeşte statistică.

Upload: iullya-lacatus

Post on 20-Dec-2015

2 views

Category:

Documents


0 download

DESCRIPTION

1-statistica

TRANSCRIPT

Page 1: 1-statistica

Constantin Pătrăşcoiu

1

STATISTICĂ

INTRODUCERE

Statistica (de la cuvintul latin status) a fost la origine, mulţimea datelor numerice rezultatele din recensământul populaţiei, care permiteau descrierea statului.

Aşa se explică vocabularul utilizat azi de statistică, cu toate că, ea a devenit indispensabilă unor domenii ca: economie, biologie, sociologie, agronomie, medicină, meteorologie, etc.

Studiul statistic al unui fenomen, constă mai întâi în culegerea datelor corespunzatoare care apoi sunt grupate, analizate şi interpretate.

Se cunosc mai multe modalităţi de culegere a datelor în funcţie de repetarea sau întinderea lor.

Există culegeri sistematice (registrul stării civile), culegeri periodice (recensăminte, inventare, bilanţuri anuale) sau culegeri ocazionale (pierderi datorită unor accidente, previziuni preelectorale). O culegere este exhaustivă dacă cuprinde toţi indivizii unei populaţii şi parţială in caz contrar.

Culegerea şi interpretarea datelor formează obiectul statisticii

descriptive, gruparea, analizarea şi interpretarea lor formeza obiectul statisticii matematice.

Mulţimea metodelor care permit culegerea, gruparea,

analiza şi interpretarea datelor corespunzătoare unui fenomen în

vederea formării unor previziuni sau luării unor decizii în

cunostintă de cauză, se numeşte statistică.

Page 2: 1-statistica

Constantin Pătrăşcoiu

2

Statistică descriptivă - Statistică inferenţială

Page 3: 1-statistica

Constantin Pătrăşcoiu

3

1. POPULAŢIE. VARIABILĂ STATISTICĂ (CRACTERISTICĂ).

Intrucât statistica descriptivă implică colectarea şi interpretarea datelor, inainte de a întreprinde analize sofisticate, va trebui să înţelegem cum putem prezenta şi sumariza o cantitate mare de informatie.

De exemplu, atunci când cumpărăm un automobil nou ar fi util să ştim ce costuri implică utilizarea acestuia în primii trei ani. Evident, nu vom putea face o previziune exactă, dar, colectând date de la persoane care au cumpărat automobile de aceeaşi şi capacitate marcă ne putem face o idee asupra distribuţiei costurilor in populaţia

automobilelor având marca şi caracteristicile care ne interesează. Vom putea astfel estima cu aproximaţie costul utilizării automobilului respectiv. În studiul statistic al unui fenomen se consideră o mulţime de obiecte E şi se asociază fiecărui element al mulţimii E valoarea (valorile) corespunzătoare fenomenului studiat. DEFINIŢIE 1.1. Mulţimea E a obiectelor care intervin în studiul statistic al unui fenomen se numeşte populaţie statistică. Elementele sale se numesc unităţi statistice sau indivizi.

DEFINIŢIE 1.2. Proprietatea elementelor mulţimii E avută în vedere în studiul statistic al fenomenului considerat se numeşte caracteristică sau variabila statistică. REMARCĂ 1.1. O variabilă statistică (caracteristică) poate fi

interpretată ca o funcţie care asociază oricărui individ din E o

valoare corespunzatoare. OBSERVAŢIE 1.1. În studiul statistic al unui fenomen pot interveni una sau mai multe caracteristici.

Page 4: 1-statistica

Constantin Pătrăşcoiu

4

DEFINIŢIE 1.3. O variabilă statistică (caracteristică) se numeşte cantitativă sau numerică dacă valorile sale sunt măsurabile (se exprimă prin numere reale) şi calitativă sau nenumerică în caz contrar. DEFINIŢIE 1.4. O variabilă statistică (cracteristică) numerică se numeşte discretă dacă valorile sale sunt izolate şi continuă în caz contrar. OBSERVAŢIE 1.2. În cazul unei variabile continue valorile sale pot fi orice număr dintr-un interval. EXEMPLE 1.1.

1. În studiul costurilor pe care le implică automobil nou în primii trei ani, populatia statistică este mulţimea automobilelor având marca şi caracteristicile care ne interesează variabila statistică (cracteristica) este numerică discretă şi reprezintă costul întreţinerii acestora.

2. În studiul rezultatelor obţinute la campionatul diviziei

naţionale de fotbal, populatia statistică este mulţimea echipelor din campionat. Indivizii sunt echipele respective; caracteristica: numărul punctelor obţinute de fiecare echipă. Această cracteristică este numerică discretă.

3. În studiul înălţimii locuitorilor unui oraş populaţia statistică

este mulţimea locuitorilor oraşului,indivizii sunt locuitorii, caracteristica: înălţimea locuitorilor. Variabila statistică (cracteristica) din acest exemplu este numerică continuă.

4. În studiul naţionalităţilor turiştilor cazaţi la hotelul

Intercontinen-tal,populaţia statistică este mulţimea turiştilor,indivizii sunt turiştii respectivi, caracteristica: naţionalitatea turiştilor.Variabila statistică (cracteristica)din acest exemplu este calitativă.

Page 5: 1-statistica

Constantin Pătrăşcoiu

5

2. SERII STATISTICE. GRUPAREA DATELOR

DEFINIŢIE 1.5. Se numeşte serie statistică de o variabilă mulţimea valorilor luate pe o populaţie de o variabilă statistică (caracteristică) dată. EXEMPLE 1.2.

a) Notele la examenul de statistică pentru o grupă de studenti au fost:7,5,9,8,7,6,4,10,8,3,5,4,10,9,8,9,7,9,8,7,6,6,5,6,4,5,7,8,8,9,7,8,6,7,8,8.

In acest caz variabila statistică sau caracteristica (numerică discretă) este nota la examen, populaţia fiind mulţimea studenţilor din grupa respectivă.

b) În urma măsurării lungimi unui teren de către douăzeci şi una de persoane au fost obţinute următoarele rezultate (în metri): 523,4; 521,3; 526,2; 526,6 ; 524,3; 524,7; 525,8; 525,9; 525,2; 525,7; 525,4; 525,3; 525,7; 527,1; 526,3; 524,5; 521,6; 524,8; 525,3; 525,9; 525,4.

In acest caz variabila statistică sau caracteristica este lungimea terenului, populaţia fiind mulţimea formată din persoanele care efectuiază masurătoarea respectivă. Această caracteristică este numerică continuă întrucât poate lua orice In acest caz variabila statistică sau caracteristica valoare dintr-un interval.

c) Înregistrând culorile unui lot de zece autoturisme s-a obţinut: roşu, alb, negru, negru, roşu, verde, alb, verde, negru, roşu.

In acest caz variabila statistică sau caracteristica (calitativă) este culoarea, populaţia fiind mulţimea celor zece autoturisme. OBSERVAŢIE 1.3. O mulţime de date de multe ori aşa cum se prezintă este greu de interpretat. Există o mulţime de informaţii conţinute de datele respective care nu pot fi usor observate. Este necesar deci să găsim posibilităţi de a rearanja datele de care dispunem pentru a putea extrage mai uşor informatii utile.

Page 6: 1-statistica

Constantin Pătrăşcoiu

6

Datele obţinute în legatură cu caracteristica studiată pe o populaţie trebuie organizate şi prezentate sub o forma clară şi exploatabilă. • Populaţia se împarte în submulţimi, fiecare submulţime corespunzând unei valori(dacă caracteristica este discretă) sau unei clase(în cazul caracteristicilor continue). Numărul de indivizi care corespund valorii sau clasei respective se numeşte efectivul

corespunzător valorii respectiv efectivul clasei

• Se construeşte un tabel conţinând valorile sau clasele variabilei statistice şi efectivele corespunzătoare valorilor respectiv claselor respective. Operaţiile de mai sus poartă numele de gruparea datelor. Uneori, în cazul variabilelor statistice (caracteristicilor) discrete care au un număr mare de valori, se împarte mulţimea valorilor posibile în clase (intervale), dacă este posibil de aceeaşi lungime, obţinându-se o situaţie caracteristică unei variabile statistice continue. De asemenea se pot înlocui clasele unei variabile aleatoare numerice continue cu valoarea lor centrală(media aritmetică a capetelor intervalelor) ajungând în situaţia unei variabile statistice numerice discrete. Grupând datele, o serie statistică de o variabilă cu caracteristică discretă se defineşte adesea printr-un tabel de forma:

m

m

nnn

xxx

efectiv

valoare

...

...

21

21

, sau

mm n

n

n

x

x

x

efectivvaloare

......2

1

2

1

unde ni (i=1,2,3,…,m) sunt efectivele (numărul de indivizi) corespunzătoare valorilor xi. O serie statistică de o variabilă cu caracteristică continuă se defineşte printr-un tabel de forma:

Page 7: 1-statistica

Constantin Pătrăşcoiu

7

m

mm

nnn

bababa

efectiv

clasa

...

),[...).[),[

21

2211

, sau

mmmn

n

n

efectiv

ba

ba

ba

clasa

...

),[

...

),[

),[

2

1

22

11

unde ni (i=1,2,3,…,m) sunt efectivele (numărul de indivizi) corespunzătoare claselor [ai, bi). Observaţie. Uneori clasele [ai, bi) se înlocuiesc cu valorole lor

centrale 2

ii ba +, obţinând serii statistice cu caracteristică discretă.

Exemple. a) Notele la o testare la matematică pentru un grup de elevi au fost: 7,5,9,8,7,6,4,10,8,3,5,4,10,9,8,9,7,9,8,7,6,6,5,6,4,5,7,8,8,9,7,8,6,7,8,8 Avem o serie statistică cu caracteristică discretă. Populaţia statistică este mulţimea elevilor grupului respectiv (indivizii ,sunt elevii grupului). Caracteristica este nota obţinută. Interpretarea rezultatelor astfel prezentate este dificilă, de aceea le vom grupa. Seria statistică respectivă va fi dată de tabelul:

nota

efectiv

1 2 3 4 5 6 7 8 9 10

0 0 1 3 4 5 7 9 5 2 b) În urma măsurării aceleiaşi lungimi de către douăzeci şi una de persoane au fost obţinute următoarele rezultate (în metri): 523,4; 521,3; 526,2; 526,6 ; 524,3; 524,7; 525,8; 525,9; 525,2; 525,7; 525,4; 525,3; 525,7; 527,1; 526,3; 524,5; 521,6; 524,8; 525,3; 525,9; 525,4.

Page 8: 1-statistica

Constantin Pătrăşcoiu

8

Avem o serie statistică cu caracteristică continuă. Populaţia este mulţimea persoanelor participante la măsurătoare (indivizii sunt persoanele respective), caracteristica: distanţa măsurată,este continuă, putând lua teoretic orice valoare dintr-un interval. Grupând datele seria statistică va fi dată de tabelul:

clasa

efectiv

[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)

2 0 1 4 10 3 1

c) Înregistrând culorile unui lot de zece autoturisme s-a obţinut: roşu, alb, negru, negru, roşu, verde, alb, verde, negru, roşu. Se obţine o serie statistică cu caracteristică calitativă. Populaţia statistică este multimea autoturismelor ( indivizii sunt autoturisme ), caracteristica: culoarea autoturismelor. Grupând datele, seria statistică va fi dată de tabelul:

culoarea efectiv

roşu

alb

negru

verde

3 2 3 2

3. EFECTIV CUMULAT. FRECVENŢĂ. FRECVENŢĂ

CUMULATĂ.

Fie o serie statistică de o variabilă dată de tabelul:

unde αi (i = 1, 2, …, m) reprezintă valorile caracteristicii dacă aceasta este discretă şi clasele respective dacă caracteristica este continuă; ni fiind efectivele corespunzătoare (αi = xi sau αi = [ai,bi)). Evident, numărul mnnnN +++= ...21 reprezintă efectivul total al

populaţiei.

valoarea (clasa) α1 α2 … αm

efectiv n1 n2 … nm

Page 9: 1-statistica

Constantin Pătrăşcoiu

9

Definiţie. Se numeşte efectiv cumulat până la valoarea (clasa) αi a caracteristicii (i = 1, 2, . . . , m) numărul ii nnnN +++= ...21 Observaţie. Evident, 11 nN = , NNm =

Definiţie. Se numeşte frecvenţă a valorii (clasei) αi numărul:

fi = in

N (i = 1, 2, . . . , m).

Observaţie. 0 ≤ fi ≤ 1; (i = 1, 2, . . . , m) şi 1...21 =+++ mfff

Definiţie. Se numeşte frecvenţă cumulată (crescător) până la valoarea (clasa) αi a caracteristicii, numărul ii fffF +++= ...21 .

Observaţie. 11 fF = şi 1=mF

Observaţie. Numărul ni se mai numeşte şi frecvenţă absolută a valorii (clasei) αi ; numărul fi se mai numeşte frecvenţă relativă corespunzătoare valorii (clasei) αi; numărul Fi se mai numeşte frecvenţă relativă cumulată (crescător) până la valoarea (clasa) αi. __________________________ Unei serii statistice de o variabilă dată de tabelul:

valoarea (clasa) α1 α2 … αm

efectiv n1 n2 … nm

i se asociază alte trei serii care pot uşura analiza şi interpretarea rezultatelor: • Seria efectivelor cumulate (crescător) dată de tabelul:

valoarea (clasa) α1 α2 … αm

efectiv cumulat. N1 N2 … Nm

Page 10: 1-statistica

Constantin Pătrăşcoiu

10

• Seria frecvenţelor dată de tabelul:

valoarea (clasa) α1 α2 … αm

frecvenţa f1 f2 … fm

• Seria frecventelor cumulate (crescător) dată de tabelul:

valoarea (clasa) α1 α2 … αm

frecvenţa cumulată F1 F2 … Fm

Exemple: a) Pentru seria statistică conţinând notele la o testare la matematică

pentru un grup de elevi, dată de tabelul:

valoare (nota) 1 2 3 4 5 6 7 8 9 10 efectiv 0 0 1 3 4 5 7 9 5 2

• Seria efectivelor cumulate(crescător): valoare (nota) 1 2 3 4 5 6 7 8 9 10 efectiv cumulat 0 0 1 4 8 13 20 29 34 36

• Seria frecvenţelor: valoare (nota) 1 2 3 4 5 6 7 8 9 10 frcevenţă

0 0 36

1 36

3 36

4

36

5

36

7

36

9

36

5

36

2

• Seria frecvenţelor cumulate(crescător): valoare (nota) 1 2 3 4 5 6 7 8 9 10 Frcevenţă cumulată

0 0 36

1 36

4 36

8

36

13

36

20

36

29

36

34 1

Page 11: 1-statistica

Constantin Pătrăşcoiu

11

Seriile statistice de mai sus pot fi incluse într-un singur tabel, frecvenţele putând fi scrise în procente (obţinute înmulţind frecvenţele relative respective cu 100):

Valoare

(nota) Efectiv

(nr. elevi) Efectiv

cumulat

Frecvenţă (%)

Frcvenţă cumulată

(%) 1 0 0 0 0 2 0 0 0 0 3 1 1 2,7778 2,7778 4 3 4 8,3333 11,1111 5 4 8 11,1111 22,2222 6 5 13 13,8889 36,1111 7 7 20 19,4444 55,5556 8 9 29 25 80,5556 9 5 34 13,88889 94,4444 10 2 36 5,5556 100

Privind tabelul precedent putem spune imediat că 19,4444 % din elevi au obţinut nota 7 şi 11,1111% din elevi nu au obţinut note de trecere; 55,5556% au obţinut note mai mici ca 8, etc. Pentru seria statistica dată de tabelul:

clasa

efectiv

[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)

2 0 1 4 10 3 1

• Seria efectivelor cumulate:

clasa

efectivcumulat

[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)

2 2 3 7 17 20 21

• Seria frecvenţelor:

clasa

frecventa

[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)

2 0 1 4 10 3 1 21 21 21 21 21 21

Page 12: 1-statistica

Constantin Pătrăşcoiu

12

• Seria frecvenţelor cumulate:

clasa

frecventacumulata

[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)

2 2 3 7 17 20 2121 21 21 21 21 21 21

In tabelul următor avem seria statistică priviind durata a 670 de călătorii cu trenul (în ore) pe ruta Bucureşti – Predeal, seria frecvenţelor şi seria frecvenţelor cumulate.

Durată călătorie (h)

Număr

călători

Frecvenţă %

Frecvenţă cumulată %

[1,9 ; 1,95) 19 2,8 2,8 [1,95 ; 2) 19 2,9 5,7 [2 ; 2,05) 39 5,8 11,5 [2,05 ; 2,1) 48 7,2 18,7 [2,1 ; 2,15) 87 12,9 31,6 [2,15 ; 2,2) 94 14,1 15,7 [2,2 ; 2,25) 104 15,5 61,2 [2,25 ; 2,3) 92 13,7 74,9 [2.3 ; 2,35) 57 8,5 83,4 [2,35 ; 2,4) 44 6,6 90 [2,4 ; 2,45) 28 4,2 94,2 [2,45 ; 2,5) 26 3,9 98,1 [2,5 ; 2,55) 13 1,9 100

In acest caz, clasele sunt intervalele orare de lungime 0,05 ore, efectivele sau frecvenţele absolute sunt reprezentate de numărul de călători corespunzătoare, frecvenţele (relative) în procente se calculează împărţind efectivul absolut(nr. de zboruri) la 760 şi rezultatul se înmulţeşte cu 100. Din seria frecvenţelor cumulate putem constata de exemplu că 61,2% din călătorii au durat mai puţin de 2,25 ore (duă ore şi 15 minute).

Page 13: 1-statistica

Constantin Pătrăşcoiu

13

4. REPREZENTAREA GRAFICA A SERIILOR

STATISTICE

Lectura şi interpretarea tabelelor asociate seriilor statistice nu este întotdeauna uşoară.

Un tabel de numere chiar dacă este sugestiv nu stimulează imaginaţia.

De aceea sunt utilizate diverse reprezentări grafice pentru vizualizarea tabelelor respective,în scopul formării unei imagini intuitive şi imediate a fenomenului studiat.

4.1. Reprezentarea seriilor statistice cu caracteristici

discrete.

Intr-un sistem ortogonal de coordonate se iau pe axa absciselor valorile caracteristicii şi se ridică în punctele respectivelor valori,segmente de lungimi proporţionale cu efectivele claselor corespunzătoare. O astfel de reprezentare se numeşte diagramă în

batoane. Se numeşte poligon statistic, poligonul având vârfurile extremitătilor segmentelor din diagrama în batoane. Exemplu: Pentru seria statistică conţinând notele la o testare la matematică pentru un grup de elevi, dată de tabelul:

valoare (nota) 1 2 3 4 5 6 7 8 9 10 (1)

efectiv 0 0 1 3 4 5 7 9 5 2 * Diagrama în batoane:

Fig. 1. Diagrama în batoane a seriei statistice (1).

Page 14: 1-statistica

Constantin Pătrăşcoiu

14

* Poligonul statistic:

Fig. 2. Poligonul statistic a seriei statistice (1).

Pentru un aspect mai spectaculos se pot construi diagrame în batoane (3D). De exemplu pentru seria precedentă avem reprezentarea:

0

1

2

3

4

5

6

7

8

9

1 2 3 4 5 6 7 8 9 10

Fig. 3. Diagrama în batoane (3D) a seriei statistice (1).

Page 15: 1-statistica

Constantin Pătrăşcoiu

15

4.2. Reprezentarea seriilor statistice cu caracteristică continuă

Dacă clasele au aceeaşi amplitudine,se trec pe axa absciselor

clasele respective şi se construiesc dreptunghiuri cu bazele ,clasele seriei şi inălţimile proportionale cu efectivele lor.Reprezentarea grafică obţinută se numeşte HISTOGRAMĂ.

Poligonul statistic va fi dat de mijloacele laturilor paralele cu

axa absciselor. Exemplu: Pentru seria statistică dată de tabelul:

Histograma seriei:

1

2

3

4

10

521 522 523 524 525 526 527 528

Fig. 4. Histograma seriei statistice (2).

Page 16: 1-statistica

Constantin Pătrăşcoiu

16

Poligonul statistic:

Fig. 5. Poligonul statistic a seriei statistice (2).

Dacă clasele nu au aceeaşi amplitudine pe axa absciselor se consideră clasele respective şi se construiesc dreptunghiuri având bazele,clasele date şi ariile proporţionale cu efectivele corespunzatoare. Exemple 1. Pentru seria statistică dată de tabelul:

• Histograma seriei:

1 2 4 5 8 10

1

2

3

Fig. 6. Histograma seriei statistice (3).

Page 17: 1-statistica

Constantin Pătrăşcoiu

17

• Poligonul statistic:

1 2 3 4 5 6 7 8 9 10

123

Fig. 7. Poligonul statistic a seriei statistice (3).

2. Greutatea ( în kg ) a 15 persoane este dată de tabelul

Greutatea (kg) [0,50) [50,60) [60,70) [70,90) (4) Nr. persoane 5 2 4 4

Histograma şi poligonul statistic al seriei va fi:

Fig. 8. Histograma şi poligonul statistic pentru seria statistică (4).

Page 18: 1-statistica

Constantin Pătrăşcoiu

18

4.3. Alte reprezentări ale seriilor statistice

Reprezentarea în sectoare circulare se foloseşte pentru formarea unei viziuni globale a mărimii relative a diferitelor clase şi pentru reprezentarea seriilor cu caracteristică calitativă. Se atribuie fiecărei clase câte un sector circular având unghiul la centru direct proportional cu efectivul clasei (frecvenţa ei).

Fie seria:

valoarea (clasa) α1 α2 … αm

efectiv n1 n2 … nm

Dacă mnnnN +++= ...21 este efectivul total al populaţiei atunci

Toată populaţia: N indivizi 0360↔

Atunci: 1 individ N

0360↔

Pentru valoarea(clasa) αi: ni indivizi inN

⋅↔0360

Vom atribui deci valorii(clasei) αi un sector circular de inN

⋅0360

Fig. 9. Calculul unghiului la centru pentru valoarea (clasa) αi.

Page 19: 1-statistica

Constantin Pătrăşcoiu

19

Exemplu. Fie seria statistică conţinând naţionalităţile turiştilor dintr-un hotel dată de tabelul:

Naţionalitate romani rusi englezi greci spanioli (5) efectiv 4 8 12 6 4

. Calculând unghiul la centru corespunzător fiecărei clase obţinem reprezentarea grafică în sectoare circulare(2D):

romani

rusi

englezi

greci

spanioli

Fig. 10. Reprezentarea grafică în sectoare circulare(2D) a seriei (5) sau reprezentarea grafică în sectoare circulare (3D):

romani

rusi

englezi

galben

violet

Fig. 11. Reprezentarea grafică în sectoare circulare(3D) a seriei (5)

Page 20: 1-statistica

Constantin Pătrăşcoiu

20

Exemplu. Un magazin dispune de şase produse notate A,B,C,D,E,F. Rezultatul vânzărilor este reprezentat de seria statistică dată in tabelul următor:

Produsul Unităţi vândute Frecvenţa A 480 0,12 B 1200 0,3 C 1040 0,26 (6) D 640 0,16 E 160 0,04 F 480 0,12

Reprezentarea grafică a seriei în sectoare circulare este:

Fig. 12. Reprezentarea grafică în sectoare circulare(2D) a seriei (6)

Fig. 13. Reprezentarea grafică în batoane a seriei frecvenţelor (6)

Page 21: 1-statistica

Constantin Pătrăşcoiu

21

Dacă caracteristica studiată prezintă o anumită periodicitate este indicat să se pună în evidenţă acest lucru printr-un grafic "polarizat", metodă curentă în cazul seriilor cronologice ( serii care evidenţiază evoluţia în timp a unor fenomene ). Exemplu: Studiind numărul naşterilor în perioada 1991-1993 intr-o localitate s-a obţinut pentru cele 24 de luni seria statistică:

luna

efectivulnasterilor

I F M A M Iun Iul A S O N D I F M A M Iun Iul A S O N D

3 2 5 4 0 2 1 4 1 0 3 5 4 3 8 5 5 3 3 2 3 4 3 2

Acesteia ii vom asocia reprezentarea "polarizată":

Fig. 14. Reprezentarea seriei reprezentând numărul naşterilor

Observaţie: Se pot folosi reprezentări grafice şi pentru seriile asociate seriei date ( seria efectivelor cumulate, seria frecvenţelor, seria frecvenţelor cumulate). Frecvent diagramele în batoane (sau histogramele) seriilor statistice având aceleaşi caracteristici şi aceleaşi valori (sau aceleaşi clase ) se “alipesc” după baza comună formând o “piramidă” care permite comparaţii utile: Exemplu: Într-o mică localitate în urma unui studiu în legătură cu vârsta persoanelor s-au obţinut rezultatele date de tabelul următor.

Page 22: 1-statistica

Constantin Pătrăşcoiu

22

Sexul

Vârsta Masculin Femenin

[0,10) 87 83 [10,20) 90 85 [20,30) 81 83 (7) [30,40) 70 75 [40,50) 53 60 [50,60) 45 55 [60,70) 20 32 [70,80) 8 15

Fig. 15. Reprezentarea grafică a celor două serii statistice (6) Din histogramele celor două serii statistice se pot trage anumite concluzii: • Numărul persoanelor de sex masculin este mai mare ca numărul

pesoanelor de sex feminin la vârste mai mici • Pe măsura înaintării în vârstă raportul se schimbă în favoarea persoanelor de sex feminin. • O concluzie posibilă ar fi că mortalitatea la persoanele de sex masculin este mai ridicată decât la cele de sex feminin. (Desigur o asemenea concluzie nu poate fi validată doar pe seama unei mici localităţi).

Page 23: 1-statistica

Constantin Pătrăşcoiu

23

Fie o seria statistică cu caracteristică continuă

m

mm

nnn

bababa

efectiv

clasa

...

),[...).[),[

21

2211

şi ),[ kk ba o clasă a sa.

Dacă kf este frecvenţa relativă a clasei ),[ kk ba ; ka este marginea

inferioară şi kb este marginea superioară a clasei ),[ kk ba ,

mk ,...,2,1= ; atunci: kkk ab −=δ se numeşte diametrul clasei ),[ kk ba ;

2

kk

k

bax

+= se numeşte centrul (valoarea centrală) a

clasei ),[ kk ba ;

k

k

k

fd

δ= se numeşte densitatea de fecvenţă a

clasei ),[ kk ba .

Histograma seriei fecvenţelor asociate seriei date se poate obţine construind dreptunghiuri cu baza kδ şi înălţimea kd .

. Fig. 16. Histograma frecvenţelor unei serii cu caracteristică continuă

Page 24: 1-statistica

Constantin Pătrăşcoiu

24

5. ELEMENTE DE CARACTERIZARE A SERIILOR

STATISTICE DE O VARIABILĂ.

Diferitele reprezentări grafice ale seriilor statistice de o variabilă ,deşi sugestive nu pot fi utilizate cu uşurinţă în calcule ulterioare sau în compara-rea seriilor statistice, rol ce revine mărimilor ce vor fi introduse în continu-are şi care vor permite caracterizarea acestora.

5.1. Modulul sau dominanta unei serii statistice

Definiţie :Fiind dată o serie statistică de o variabilă, se numeşte modulul sau dominanta sa,valoarea (sau clasa) caracteristicii care corespunde celui mai mare efectiv. Observaţie. O serie statistică de o variabilă poate să aibă mai multe module sau dominante.Această mărime prezintă interes dacă seria respectivă are dominantă unică. În cazul cînd aceasta este o clasă, această clasă se înlocuieşte uneori cu valoarea sa centrală. Exemple. Fie seriile statistice date de tabelele:

valoare

efectiv

1 2 3 4 5 6 7 8 9 10

0 0 1 3 4 5 7 9 5 2

clasa

efectiv

[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)

2 0 1 4 10 3 1

Prima are dominanta 8, cea de-a doua are dominanta [525,526) (sau valoarea sa centrală 525,5) Seria statistică dată de tabelul:

valoare

efectiv

1 2 3 4 5 6 7 8 9 10

0 2 7 4 1 7 1 3 5 7

are mai multe dominante şi anume 3, 6 şi 10.

Page 25: 1-statistica

Constantin Pătrăşcoiu

25

5.2. Mediana unei serii statistice de o variabilă.

Definiţie. Mediana unei serii statistice de o variabilă este o valoare m care împarte seria respectivă în două grupe de acelaşi efectiv: -valorile mai mici sau egale ca mediana m; -valorile mai mari sau egale ca mediana m. Dacă seria statistică este numerică discretă având n valori nxxx ,....,, 21

(nu toate distincte), ordonate crescător, atunci mediana sa va fi dată de formula:

+=

+

+

parnpentruxx

imparnpentrux

mediana

nn

n

,2

1

2

1

,

122

2

1

Dacă caracteristica este continuă clasa mediană este prima clasă din seria efectivelor cumulate, care conţine cel puţin jumătate din numărul indivizilor. Mediana unei astfel de serii se poate găsi prin interpolare. Observaţie. Dacă seria statistică are un număr impar de valori atunci există o singură mediană. Dacă seria statistică are un număr par de valori atunci există două mediane care de obicei (dacă sunt diferite) se înlocuesc cu media lor aritmetică. Exemplu. Fie seria statistică:

7,8,9,9,10,10,11,12,13,14,14,15,17; constituită din vârsta în ani ai unui grup de 13 băieţi ai unei şcoli şi seria statistică: 7,7,9,9,10,11,12,13,13,13,14,14,15,15; constituită din vârsta în ani ai unui grup de 14 fete ale aceleiaşi scoli.

Page 26: 1-statistica

Constantin Pătrăşcoiu

26

Seria statistică a vârstei băieţilor are o singură mediană 11, iar a fetelor două mediane 12 şi 13 care se înlocuesc cu media lor aritmetică 12,5. Exemplu. Fie seria statistică reprezentând notele unei grupe de 22 de studenţi la un examen:

nota 3 4 5 6 7 8 9 10 efectiv 2 1 3 4 3 2 5 2

Seria de mai sus înainte de gruparea datelor a fost:

Deci mediana acestei serii este 7. Observaţie. In cazul în care aeria are multe valori se poate folosi si seria efectivelor cumulate care ne poate conduce la determinarea medianei

Page 27: 1-statistica

Constantin Pătrăşcoiu

27

Observaţie: Mediana unei serii cu caracteristică continuă se consideră numărul obţinut cu ajutorul unei interpolări liniare ca în exemplul următor: Fie seria statistică de o variabilă cu caracteristică continuă dată de tabelul:

clasa

efectiv

[20,23) [23,26) [26,29) [29,32) [32,35) [35,38)

30 74 26 20 56 14

Seria efectivelor cumulate va fi:

Jumătate din efectiv fiind 110 clasa mediană va fi [26,29)

Presupunând că avem o creştere direct proporţională a efectivelor în raport cu valorile caracteristicii obţinem:

La creşterea efectivului cu 130-104 corespunde creşterea valorilor caracteristicii cu 29-26. Atunci la o creştere cu 110-104 a efectivelor corespunde o creştere cu

(110 104 )(29 26 )

130 104

− −

−= ≈

18

260 61. a valorilor caracteristicii.

Deci mediana m = 26+0.61=26.61 Observaţie. Procedeul de mai sus se numeşte interpolare liniară. Geometric avem urmatoarea situaţie:

104

110

130

26 29

A

M

B

µ Fig. 17. Interpretarea geometrică a interpolării liniare.

Page 28: 1-statistica

Constantin Pătrăşcoiu

28

Dreapta AB are ecuaţia y x−

−=

104

130 104

26

29 26

Punctul M de coordonate (m,110) aparţine dreptei AB pentru y =110

61.2626104130

)2629)(104110(

2629

26

104130

104110=+

−−=⇒

−=

−⇒ µ

µ

Observaţie. Efectuând un calcul similar cu cel precedent pentru cazul general găsim: Mediana

k

k

kkkn

CN

xxx

−++= +

2)( 1µ ,

unde N este efectivul total, ),[ 1+kk xx este calasa mediană, kC

efectivul cumulat inferior lui kx ; kn este efectivul clasei mediane.

5.3.Valoarea medie a unei serii statistice de o variabilă Fie o serie statistică de o variabilă cu caracteristică numerică

discretă dată de tabelul:

valoare x1 x2 … xm (8) efectiv n1 n2 … nm

Definiţie. Valoarea medie a seriei de mai sus este numărul:

m

mm

nnn

nxnxnxx

+++

+++=

...

...

21

2211 (9)

Propoziţie. Valoarea medie a seriei (8) poate fi dată de formula:

i

m

i

i fxx ∑=

=1

(10)

unde fi sunt frecvenţele relative ale valorilor xi (i=1,2,3,4,…,m). Demonstraţie: Fie mnnnN +++= ...21 efectivul total al populaţiei

şi fi = in

N , (i = 1, 2, . . . , m) frecvenţele relative.

Page 29: 1-statistica

Constantin Pătrăşcoiu

29

Atunci : i

m

i

i

im

i

i

m

i

ii

fxN

nx

N

nx

x ∑∑∑

==

= ===11

1 .

Observaţie. Putem spune că valoarea medie este suma tuturor valorilor seriei (înainte de gruparea lor) împărţită la efectivul total întrucât:

N

xxxxxxxxxx

orinde

mmm

orindeorinde m

)....(...)....()....(21

222111 ++++++++++++=

Observaţie. Pentru calcularea valorii medii în cazul seriilor cu caracteristică continuă dacă se poate reveni la datele iniţiale obţinându-se o caracteristică discretă se poate aplica procedeul precedent. Acest lucru nu este totdeauna posibil şi nici usor. În practică se găseşte o valoare apropiată de valoarea medie înlocuind clasele cu valorile lor centrale(media aritmetică a capetelor intervalelor respective ) obţinându-se o serie statistică cu caracteristică discretă căreia îi putem calcula cu formula (8) sau (9) valoarea medie.

Exemple. 1. Pentru seria statistică de o variabilă dată de tabelul:

valoare

efectiv

1 2 3 4 5 6 7 8 9 10

0 0 1 3 4 5 7 9 5 2

valoarea medie este 6,936

251==x .

2. Pentru seria statistică de o variabilă dată de tabelul:

clasa

efectiv

[20,23) [23,26) [26,29) [29,32) [32,35) [35,38)

30 74 26 20 56 14

Page 30: 1-statistica

Constantin Pătrăşcoiu

30

Valorile centrale sunt: 21,5 ; 24,5 ; 27,5 ; 30,5 ; 33,5 ;36,5 . ătunci valoarea medie este:

220

1436.55633.52030.52627,57424,53021,5 ×+×+×+×+×+×≈x =51,45

3. Să se calculeze vârsta medie a pacienţilor dintr-o staţiune balneară dacă situaţia acestora eset dată de tabelul: Vârsta [55,60) [60,65) [65,70) [70,75) [75,80) [80,85) Efectiv 130 200 320 240 270 160 Cum valorile centrale ale claselor sunt respectiv: 57,5; 62,5; 67,5; 72,5; 77,5; 82,5, vârsta medie este cu aproximaţie de o zecime:

5,70160270240320200130

5,821605,772705,722405,673205,622005,57130=

+++++

×+×+×+×+×+×

Observaţii.

Modulul(sau dominanta) unei serii statistice de o variabilă se calculează uşor dar are inconvenientul că depinde de gruparea datelor.

Mediana unei serii statistice se calculează relativ uşor, dar are

inconvenientul că nu depinde strict de situarea indivizilor în clase (de exemplu, în stinga sa ,dacă mutăm indivizi dintr-o clasă în alta mediana nu-şi schimbă valoarea. Ea este puţin sensibilă la variaţiile de amplitudine ale valorilor(claselor) caracteristicii.

Valoarea medie se calculează uşor şi răspunde principiului

celor mai mici pătrate dar este puternic influenţată de valori extreme şi nu reprezintă bine o populaţie eterogenă (polimodală).

Modulul Mediana şi Valoarea medie se mai numesc indicatori de

poziţie.

Page 31: 1-statistica

Constantin Pătrăşcoiu

31

Fig. 18. Indicatori de poziţie: Modulul Mediana şi Valoarea medie.

5.4. Compararea indicatorilor de poziţie.

AVANTAJE INCONVENIENTE

Modulul

- Nu este influenţat de valorile extreme ale variabilei statistice (caracteristicii). - Calculabilă pentru caracteristici ciclice(sezon, etc.) unde valoarea medie are semnificaţie redusă. - Este un bun indicator al unei populaţii eterogene (neomogene)

- Se pretează slab la calcule statistice. - Este prea sensibil la variaţiile de amplitudine ale valorilor(claselor) caracteristicii. - Determinarea sa nu ţine cont decât de indivizi pentru care valorile caracteristicii sunt apropiate de modulul seriei.

Mediana - Nu este influenţat de valorile extreme ale variabilei statistice (caracteristicii). - este puţin sensibilă la variaţiile de amplitudine ale valorilor (claselor) caracteristicii. - Calculabilă pentru caracteristici ciclice (sezon, etc.) unde valoarea medie are semnificaţie redusă.

- Se pretează slab la calcule statistice. - Presupune echi-repartiţii de date. - Nu reprezintă decât valoarea care împarte populaţia în două părţi egale

Valoarea

medie

- Se calculează uşor. - Răspunde principiului celor mai mici pătrate.

- Este puternic influenţată de valori extreme. - Nu reprezintă bine o populaţie eterogenă (polimodală).

Page 32: 1-statistica

Constantin Pătrăşcoiu

32

Observaţie. Modulul, mediana şi valoarea medie nu sunt suficiente pentru caracterizarea seriilor statistice după cum rezultă din urmatorul exemplu. Exemplu. Fie seriile statistice de o variabilă date de următorul tabel :

Reprezentarea lor grafică este:

1

2

3

4

1

2

3

4

5 6 7 8 9 10 11 12 13 14 15 16 17

seria 1

seria 2

Fig. 19. Reprezentarea grafică a seriilor (11). Cele două serii au:

acelaşi modul 10; aceeaşi mediană 10; aceeaşi valoare medie 10,2.

Totuşi cele două serii sunt diferite. Valorile primei serii sunt mai dispersate decît valorile celei de-a doua serii.

Page 33: 1-statistica

Constantin Pătrăşcoiu

33

5.5. Quantile

Definiţie. Se numeşte quantilă de ordin p ( ]1,0[∈p ) cantitatea

{ }pxFxq p ≥= )(inf unde F este curba frecvenţelor cumulate

crescător (sau funcţia de repartiţie empirică).

Pentru 2

1=p se obţine mediana.

Dacă F şi p sunt date în procente qantilele se numesc percentile.

Deci, percentila p este acea valoare sub care se află p% din cazuri şi deasupra căreia se află (100-p)% din cazuri. De exemplu, mediana este percentila 50%. Cele mai cunoscute quantile sunt quartilele, quintilele şi decilele. Quartilele sunt acele valori ale seriei de date care o împart în patru părţi egale.

Quintilele sunt sunt acele valori ale seriei de date care o împart în cinci părţi egale. Decilele sunt acele valori ale seriei de date care o împart în 10. Sub prima quartilă Q1 se află 25% din valori , iar deasupra ei 75%. Sub a doua quartilă Q2 se afla 50% din valori, de unde reiese ca această quartilă este chiar mediana. Sub a treia quartilă Q3 se află 75% din valori, iar deasupra ei se află 25% din valori. Deci există numai 3 quartile (Q1, Q2 şi Q3), deoarece pentru a împărţi o serie de date în m părţi egale sunt suficiente m-1 valori.

Page 34: 1-statistica

Constantin Pătrăşcoiu

34

Exemplu. Timpul pentru micul dejun a 16 persoane a fost: 16 12 1 9 17 19 13 10 4 8 7 8 14 12 14 9 Determinaţi mediana, valoarea medie, prima şi a treia quartilă. Rearanjăm valorile seriei în ordine crescătoare: 1 4 7 8 8 9 9 10 12 12 13 14 14 16 17 19

• Mediana acestei serii este 112

1210=

+(jumătate din persoane

consacră cel mult 11 minute micului dejun). • Valoarea medie este 10,8125, deci în medie timpul alocat

micului dejun este 10,8125 minute. • 25% din 16 este 4 şi deci prima quartilă este a patra valoare a

seriei, deci Q1 = 8 • 75% din 16 este 12 şi deci a treia quartilă este a doisprezecea

valoare a seriei, deci Q3 = 14

5.6. Dispersia. Abaterea medie pătratică. Coeficient de variaţie

Definiţie. Fiind dată seria statistică de o variabilă cu caracteristică numerică discretă:

valoare x1 x2 … xm

efectiv n1 n2 … nm

se numeşte dispersie numărul :

N

nxxnxxnxx mm ⋅−++⋅−+⋅−=

22

221

212 )(...)()(

σ

.

Page 35: 1-statistica

Constantin Pătrăşcoiu

35

În cazul seriilor statistice de o variabilă cu caracteristică continuă, dispersia este dată de formula precedentă, în care, numerele xi sunt valorile centrale ale claselor. Propoziţie: Dispersia seriei statistice din definiţie se poate calcula cu

formula: i

m

i

i fxx2

1

2 )( −= ∑=

σ

Demonstraţie:

∑∑∑

==

= ⋅−=⋅−=

⋅−

=m

i

ii

m

i

i

i

m

i

ii

fxxN

nxx

N

nxx

1

2

1

21

2

2 )()()(

σ

Definiţie: Se numeşte abatere medie pătratică numărul: 2σσ =

Definitie: Se numeşte abatere medie numărul: xxnN

A i

m

i

i −= ∑=1

1

Remarcă. Dispersia, abaterea medie şi abaterea medie patratică caracterizează imprăştierea valorilor caracteristicii în jurul valorii medii. Cu cât acestea sunt mai mici cu atât valorile caracteristicii sunt mai aproape de valoarea medie.Abaterea medie pătratică are avantajul că se exprimă în aceleaşi unităţi ca şi valorile caracteristicii. Exemplu.

Pentru calculul dispersiei seriei statistice de o variabilă dată de tabelul:

valoare 1 2 3 4 5 6 7 8 9 10 efectiv 0 0 1 3 4 5 7 9 5 2

vom calcula valoarea medie:

9,636210599877565534130201

=×+×+×+×+×+×+×+×+×+×

=x

şi vom aranja datele într-un tabel de forma:

Page 36: 1-statistica

Constantin Pătrăşcoiu

36

x i n i f i x i - x__

(x i - x_

)2

(x i - x_

)2

f i

-17936

-14336

-10736

-7136

-3536

36

3736

7336

10936

14536

1

1

2

3

4

5

6

7

8

9

10

320411296

20449129611449

1296

50411296

12251296

1 1296

13691296

53291296

118811296

210251296

0

0

1144946656

1512346656

4900 46656

5 46656

9583 46656

4796146656

5940546656

4205046656

0

0

0

0

1 36

3 36

4 36

5 36

7 36

9 36

5 36

2 36

1

3

4

5

7

9

5

2

Adunînd rezultatele ultimei coloane obţinem: σ2 = 4,08 şi deci abaterea medie pătratică va fi :σ =2,02. Propoziţie. Pentru orice serie statistică cu caracteristică numerică

avem: ∑=

−=m

i

ii xxnN 1

22 )(1

σ

Demonstraţie:

=

=

+

=

=

=

=+−

=

=

=

=

∑∑∑

∑∑ −

x

m

i

n iNx ix

m

i

n iNx i

m

i

n iN

xx ix i

m

i

n iN

m

i

n iNxxx i

2

1

1

1

122

1

1

)22(

1

1(

1

12 22)σ

Page 37: 1-statistica

Constantin Pătrăşcoiu

37

xxi

m

i

niNxxxi

m

i

niN

m

i

nixN

xi

m

i

niNxxi

m

i

niN

22

1

12222

1

1

1

21

1

122

1

1

=

=+−

=

=

=

=

+

=

=

=

∑∑

∑∑∑

Teoremă (Cristiaan Huyghens). Dispersia seriei statistice de o variabilă dată de tabelul:

valoare x1 x2 … xm

efectiv n1 n2 … nm

este egală cu 22 xx − unde am notat cu 2x valoarea medie a seriei

frecvenţelor asociată seriei dată de tabelul:

valoare x12 x2

2 … xm

2

efectiv n1 n2 … nm

Demonstraţie: Din propoziţia precedentă

xxxxi

m

i

fixxi

m

iN

nixxi

m

i

niN

2222

1

22

1

22

1

12 −=−

=

=−

=

=−

=

= ∑∑∑σ

Lăsăm ca exerciţii demonstrarea următoarelor teoreme: Teoremă. Dispersia seriei statistice de o variabilă dată de tabelul:

valoare x1 -a x2 -a … xm-a

efectiv n1 n2 … nm

nu depinde de numărul real a. Teoremă. Dispersia seriei statistice de o variabilă dată de tabelul:

Page 38: 1-statistica

Constantin Pătrăşcoiu

38

valoare

efectiv

( x1 - α ) 1β

( x2 - α) . . . . . . . . . . 1β

( xm - α)

n1 n2 . . . . . . . . . . nm

este egală cu 0,,,21≠∈∀ ββασ

βR unde σ

2 este dispersia seriei

statistice dată de tabelul: valoare x1 x2 … xm

efectiv n1 n2 … nm

Consecintă. Abaterea medie patratică a seriei din teorema precedentă

este 1

βσ

Coeficientul de variaţie al unei serii statistice având abaterea medie pătratică σ (dispersia 2σ ) şi valoarea medie x este un indice de

dispersie relativ notat:

x

CVσ

= , sau exprimat în procente x

CVσ100

% = .

Evident, cu cât CV este mai mic cu atât valorile seriei sunt mai grupate(mai puţin împrăştiate). Coeficientul de variaţie are avantajul că este independent de unităţile de măsură, ceea ce permite comparaţii între diverse serii statistice. Exemplu. Pentru seria notelor oţinute de o grupă de studenţi dată de

Notă 1 2 3 4 5 6 7 8 9 10 Nr. note 0 0 1 3 4 5 7 9 5 2

am calculat abaterea medie pătratică σ =2,02 şi valoarea medie 9,6=x . Atunci coeficientul de variaţie al acestei serii este

275,299,6

02,2100100% =

×==

xCV

σ%

Page 39: 1-statistica

Constantin Pătrăşcoiu

39

5.7. Coeficienţi de asimetrie O serie statistică se numeşte simetrică dacă: modulul, mediana şi valoarea medie coincid.

Fig. serie statistică simetrică. O serie statistică se numeşte alungită la dreapta sau pozitiv dacă : modulul < mediana < valoarea medie.

Fig serie statistică alungită la dreapta

O serie statistică se numeşte alungită la stânga sau negativ dacă : valoarea medie< mediana <modulul.

Page 40: 1-statistica

Constantin Pătrăşcoiu

40

Fig serie statistică alungită la stânga

Există mai mulţi indicatori care permit stabilirea asimetriei unei serii statistice. Cel mai cunoscut este coeficientul de asimetrie al lui

Pearson ( PCA ),dat de formula: σ

mod−=

xCAP , unde x este

valoarea medie, mod este modulul sau dominanta seriei şi σ este abaterea medie. Semnul său ne indică semnul coborârii. Dacă cunoaştem quartile ( 321 ,, QQQ ) se poate utiliza coeficientul de

asimetrie inter-quartile: 13

1223 )()(

QQ

QQQQCIQ

−−−= . Interpretarea

sa este dată de distanţele intrer-quartile a şi b, conform figurii:

Fig.

Page 41: 1-statistica

Constantin Pătrăşcoiu

41

<<

==

>>

=+

−=

abpentru

abpentru

abpentru

ba

abCIQ

0

0

0

Distribuţii teoretice. Să ne imaginăm că dispunem de o populaţie infinită şi putem diminua diametrele claselor frecvenţelor relative până la valori oricât de mici. Atunci putem face ipoteza că histograma frecvenţelor tinde către o distribuţie teoretică determinată de o curbă, grafic al unei funcţii )(xf . In figurile următoare am reprezentat grafic această situaţie.

Page 42: 1-statistica

Constantin Pătrăşcoiu

42

Fig. Dacă avem o distribuţie teoretică, aria cuprinsă între două valori a şi b, reprezintă proporţia din populaţie având un scor cuprins între a şi b (figura următoare).

Dacă )(xf reprezintă densitatea de frecvenţă teoretică, frecvenţa

clasei [a,b] este dată de ∫b

a

dxxf )(

Vom vedea că o condiţie necesară ca o curbă să fie o densitate statistică este ca aria dintre curbă şi axa ox să fie 1, adică

1)( =∫+∞

∞−

dxxf

Vom studia în capitolele următoare mai multe densităţi teoretice. PROBLEME

1. La un test elevii unei clase au obţinut notele: 8 , 6 , 9 , 8 , 7 , 5 , 3 , 4 , 10 , 2 , 9 , 6 , 6 , 9 , 7 , 7 , 6 , 7 , 5, 9 , 8 , 7 , 6 , 4 , 3 , 7 , 9 , 10 , 9 8 , 7 , 8 . Se cere:

a. Modulul şi mediana seriei; b. Valoarea medie x a seriei;

Page 43: 1-statistica

Constantin Pătrăşcoiu

43

c. Abaterea medie pătratică a seriei; d. Ce procentaj de note corespunde intervalului x 2 , x 2− +σ σ ?

e. Ce procentaj de note corespunde intervalului x 3 , x 3− +σ σ ?

Observaţie. În foarte multe cazuri ,în tehnică seriile statistice au o distribuţie normală ( Laplace-Gaus) după care:

68,27 00 din efectiv corespunde intervalului x x− +σ σ, ;

95,45 00 din efectiv corespunde intervalului x x− +2 2σ σ, ;

99,73 00 din efectiv corespunde intervalului x x− +3 3σ σ, ,

s fiind abaterea medie pătratică a seriei respective.

2. Înăltimea medie a 32 de elevi ai unei clase este de 173 cm. În această clasă vin încă trei elevi de înălţimi:170 , 177 si 165. Care este înălţimea medie a celor 35 de elevi ?

3.La un concurs de matematică un lot de 100 de concurenţi au obţinut la cele patru probleme notele date în tabelul următor:

Problema 1

Problema 2

Problema 3

Problema 4

5 6 7 8 9 10

1 4 20 30 40 5

32 41 12 6 3 6

2 3 12 30 28 25

6 15 9 12 40 18

Nota obþinutã

-Să se reprezinte grafic cele patru serii statistice obţinute; -Să se calculeze valoarrea medie a celor patru serii şi să se compare rezultatele obtinute;

-Să se calculeze dispersiile şi să se constate că, deşi două serii au valori medii apropiate, valorile lor sunt "împrăştiate" de o manieră diferită.Cum sunt dispersiile acestora ?

Page 44: 1-statistica

Constantin Pătrăşcoiu

44

4.Ce se poate spune despre o serie statistică de abatere medie patratică nulă ?

5.Măsurile în milimetri pentru diametrele unui eşantion de 228 de bile fabricate de o maşină au fost grupate, rezultatele fiind date de tabelul următor :

clasa

efectiv

[3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11) [11,12) [12,13)

2 3 8 25 37 62 66 21 6 4

a) Să se determine valoarea medie x si abaterea medie pătratică. b) Cât la sută din bile au diametrul situat în intervalul

[ ]σσ 2,2 +− xx c) Să se construiască histograma frecvenţelor cumulate.

6. EŞANTIONARE

Sunt situaţii în care studiul caracteristicii indivizilor poate conduce la distrugerea acestora. De exemplu în studiul de laborator a duratei de funcţionare a bateriilor sau a becurilor electrice se produce consumarea (distrugerea) acestora. Dacă populaţia statistică are un număr foarte mare de indivizi sau dacă studiul caracteristicii indivizilor produce distrugerea lor, se înlocuieşte populaţia statistică cu o submulţime a sa. O submulţime a populaţiei statistice folosită în studiul statistic al unui fenomen se numeşte eşantion.

Procedeul statistic prin care prelevăm o parte din populaţia intrată în studiu, se numeşte sondaj statistic sau selecţie. Rezultatul acestei operaţiuni este deci eşantionul.

Page 45: 1-statistica

Constantin Pătrăşcoiu

45

Datorită unor costuri ridicate necesare studiului fiecărui individ al unei populaţii numeroase sau în situaţia când un astfel de studio nu este posibil, suntem obligaţi să alegem un eşantion reprezentativ de aşa manieră, încât rezultatele obţinute să poată fi extinse asupra întregii populaţii. Capacitatea unui eşantion de a reflecta cât mai fidel structurile şi caracteristicile populaţiei din care a fost extras, se numeşte reprezentativitate. Procesul prin care rezultatele obţinute din studiul eşantionului se extind asupra întregii populaţii se numeşte inferenţă statistică. Gradul de reprezentativitate al unui eşantion este măsurat de două mărimi:

eroarea maximă; intervalul de încredere. Eroarea maximă, notată cu d, exprimă diferenţa maximă acceptabilă între o valoare ve , dată de eşantion şi valoarea teoretică v (dată de populaţia totală). Deci )max( vvd e −=

Intervalul de încredere este intervalul ),( dvdv +− Dacă pentru o anumită caracteristică, valoarea teoretică v segăseşte în interiorul intervalului ),( dvdv +− , atunci, pentru această caracteristică a populaţiei, eroarea maximă admisă nu este atinsă, iar eşantionul este valid din acest punct de vedere. Reprezentativitatea este o calitate esentială pe care eşantionul trebuie să o aibă. Ea constă în capacitatea eşantionului de a reproduce cât mai fidel structurile si caracteristicile populatiei din care este extras. Reprezentativitatea este o noţiune relativă, în sensul că un eşantion este mai reprezentativ sau mai puţin reprezentativ decât altul în funcţie de eroarea maximă admisă. Dacă pentru o aceeaşi

Page 46: 1-statistica

Constantin Pătrăşcoiu

46

caracteristică, eroarea d este mai mică intr-un eşantion, atunci acest eşantion est mai reprezentativ. Reprezentativitatea creşte odată cu creşterea volumului eşantionului. Se constată totuşi că peste o anumită limită, cresterea în volum a esantionului nu mai este justificată de ameliorarea reprezentativităţii. Mărimea populaţiei nu intervine direct în mărimea şi reprezentativitatea eşantionului. Factori care determină sau influenţează marimea eşantionului:

• timpul, banii şi personalul de care se dispune; • omogenitatea populatiei, adica gradul in care indivizii sunt

asemanatori cu referire la caracteristicile comunitatii studiate; • mărimea eşantionului; • procedura de eşantionare folosită.

Pentru caracterizarea nivelului de omogenitate al populaţiei se utilizează abaterea standard, care măsoară nivelul de dispersie al indivizilor în jurul mediei. După modul cum se realizează eşantioanele sunt de două feluri:

• aleatoate (sau probabilistice) cu posibilitatea aplicării calculului probabilităţilor în evaluarea rezultatului.

• nealeatoare (neprobabilistice) Eşantionarea este aleatoare atunci când cunoaştem probabilitatea(nenulă) ca fiecare individ din populaţie să facă parte din eşantion, alegerea indivizilor în eşantion făvându-se în mod aleator. Cel mai frecvent caz este acela în care toţi indivizi au şanse egale de a face parte dintr-un eşantion. Dacă alegerea în eşantion a indivizilor unei populaţii se face pe baza unor criterii şi nu în mod aleator, eşantionarea este nealeatore. Eşantioanele nealeatoare pot fi dirijate şi mixte. Reprezentativitatea eşantionului se poate calcula doar în cazul eşantioanelor probabilistice. Chiar dacă procedura folosită nu e strict

Page 47: 1-statistica

Constantin Pătrăşcoiu

47

aleatoare, introducerea unor elemente de selectie are efecte benefice, pentru că înlatură în bună parte distorsiunile. In concluzie, un esantion este condiderat bun dacă: - ofera posibilitati de determinare a numarului de subiecti necesar; - specifica probabilitatea ca fiecare individ din populatie să poată fi inclus în esantion; - dă posibilitatea estimării erorii de esantionare; - permite determinarea gradului de incredere pe care-o putem avea în estimările populatiei eşantionului.

6.1. Moduri de eşantionare

Esantionarea este metoda prin care putem deduce caracteristicile unei populatii intregi, interogand doar cativa indivizi din aceasta.

1.Eşantionarea simplu aleatoare are la bază principiul loteriei sau utilizarea de tabelele cu numere aleatoare. Este procedura cea mai simplă deoarece nu presupune operaţii prealabile de grupare a indivizilor sau de repetare a selectiei. Indivizii componenti ai eşantionului sunt aleşi cu aceeaşi probabilitate. Există două proceduri de esantionare simplă aleatoare: a). Procedura loteriei sau a "tragerii la sorţi" (pentru populaţii cu număr relativ mic de indivizi), constând în extragerea dintr-o urna a unor bile identice reprezentand elementele populatiei; se extrag bile până se obtine eşantionul de mărimea proiectată. Acest procedeu are doua variante: - cu reintoarcerea bilelor (sondaj repetat); - fără reintoarcerea bilelor (sondaj nerepetat). Dacă populaţia are un număr mare de indivizi cele două variante conduc aproape la acelaşi rezultat. b). Procedeul tabelului cu numere aleatoare. Acest tabel se alcatuieste cu ajutorul unui program de generat numere aleatoare. . Procedeul este o varianta de selectie probabilistică.

Page 48: 1-statistica

Constantin Pătrăşcoiu

48

Populaţia Numere generate aleator Eşantion obţinut 3, 5, 7, 8, 10, 15, 16

Fig. 20. Eşantionarea prin numere aleatoare.

2.Eşantionarea prin stratificare se efectuează în populaţii neomogene, alcătuite din subpopulaţii omogene sau straturi. Criteriile de determinare a structurilor sunt:

• calitative; • cantitative.

După delimitarea straturilor: kSSS ,...,, 21 de volume

respectiv kNNN ,...,, 21 se extrag în mod simplu aleator k –

subeşantioane de volum: knnn ,...,, 21 . Aceste volume se extrag

fiecare din stratul corespunzător, şi sunt proporţionale cu mărimea

stratului respective.k

k

n

N

n

N

n

N=== ....

2

2

1

1

Se poate demonstra că dintre două eşantioane de volum egal, cel realizat prin stratificare are o reprezentativitate mai mare decât cel obţinut printr-o tehnică simplă aleatoare. Populaţia Se extrag aleator din stratul I, Eşantion (împărţită în straturi) 4 indivizi din II, 3 indivizi….. obţinut

Fig. 21. Eşantionarea prin stratificare

Page 49: 1-statistica

Constantin Pătrăşcoiu

49

3. Eşantionarea multistadială (cluster sau grupală) presupune o grupare a populaţiei după anumite criterii ( de ex. arii geografice, culturale, etc.), în funcţie de motivul eşantionării. În cadrul acestor arii, de exemplu dacă este vorba de sondaje de opinie, se selectează un număr de localităţi, în cadrul acestora se selectează un număr de străzi, etc.nSe poate arăta că un eşantion multistadial este mai puţin reprezentativ, la volume egale, decât unul simplu aleator, dar comportă un cost mai scăzut. Populaţia Selecţie aleatoare a grupurilor Eşantion obţinut (în grupuri) şi apoi a indivizilor

Fig. 22. Eşantionarea multistadială (cluster sau grupală).

4. Eşantionarea sistematică constă în întocmirea unei liste a indivizilor (parţială sau totală) din care eşantionul este extras prin pas de numărare cu start aleator, fiecare individ având aceeaşi şansă de a fi luat ca origine a startului. Populaţia Selecţie prin pas de numărare Eşantion obţinut (listă) cu punct de start aleator I

Fig. 23. Eşantionarea sistematică

Page 50: 1-statistica

Constantin Pătrăşcoiu

50

4. Eşantionarea multifazică constă în alegerea unui eşantion mare, la nivelul căruia se aplică un instrument de cercetare mai simplu; acest eşantion se supune unor operaţii succesive de eşantionare obţinându-se straturi din ce în ce mai mici, cărora li se aplică metode mai elaborate. 5. Eşantionarea pe cote (nealeatoare) presupune gruparea populaţiei după câteva caracteristici şi apoi se determină mărimea subeşantioanelor. 6. Eşantioane fixe (panel). Acestea, odată fixate, suntn supuse unor investigaţii repetate cu acelaşi chestionar. Se urmăreşte schimbările care se petrec în cadrul populaţiei. Prezintă dezavantajul une uzurii morale.

7. SONDAJE

Pentru realizarea unei cercetări statistice pe bază de sondaj se pune problema alegerii unei metode de sondaj convenabilă. Metode le de sondaj sunt strâns legate de problemele specifice legate de eşantionare, estimare, reprezentativitate şi precizie. Gruparea metodelor de sondaj se realizează în funcţie de principiul de extragere a eşantionului. Din punct de vedere practic însă, alegerea uneia dintre metode ridică dificultăţi şi solicită utilizarea unui ansamblu de criterii pentru a decide ce metodă de sondaj se va utiliza într-un caz concret anume. Populaţiile statistice sunt populaţii reale, adică sunt finite şi permit calculul volumului acestora şi sunt alcătuite din unităţi individuale identificabile. În majoritatea cercetărilor pe bază de sondaj există posibilitatea stabilirii naturii, a caracteristicilor intrinseci, a spaţiului şi a timpului de manifestare a fenomenului real studiat, deci a tuturor caracteristicilor de definire a populaţiei statistice.

Page 51: 1-statistica

Constantin Pătrăşcoiu

51

Există însă şi situaţii când evaluare populaţiei ridică probleme de tipul: -evaluării volumului; -delimitării unităţilor individuale; -stabilirii caracteristicilor de definire a populaţiei din punct de vedere calitativ, spaţial şi temporar. În realizarea unui sondaj, după definirea populaţiei, o problemă esenţială este definirea eşantionului. Această operaţie vizează în mod deosebit culegerea datelor, adică posibilităţile practice de a realiza observarea unităţilor statistice individuale. Metoda de sondaj se alege în funcţie de modul în care pot fi identificate unităţile individuale ca surse de date statistice. Aceste unităţi pot fi simple sau complexe şi pot fi identificate prin individualizare sau prin apartenenţa la un grup (cluster). În general, pentru studiul populaţiei nu există baze de sondaj cu unităţi individuale şi deci, obţinerea eşantionului presupune, în prealabil, extragerea unor unităţi complexe şi apoi identificarea unităţilor de observare, utilizând un plan de sondaj mai complex. Stabilirea volumul eşantionului reprezintă o altă problemă în realizarea unui sondaj. Se întâlnesc două situaţii: când volumul eşantionului este cunoscut sau fixat a priori şi situaţia când trebuie calculat sau estimat. Volumul eşantionului este fixat a priori din raţiuni metodologice, din restricţii economice sau este cunoscut din studii anterioare similare. În practică, în cazul sondajelor empirice, nu există nici o posibilitate de calcul a volumului eşantionului. Ca urmare, acesta este fixat a priori. De exemplu, în cazul unei anchete de opinie, dacă se utilizează sondajul pe cote, volumul eşantionului este aproximat la 1000 persoane. Volumul eşantionului poate fi fixat şi prin limitele impuse de buget. Dacă prin bugetul anchetei s-a stabilit un volum total al cheltuielilor C şi un cost unitar c pentru realizarea anchetei la nivelul unei unităţi

Page 52: 1-statistica

Constantin Pătrăşcoiu

52

individuale, volumul eşantionului se poate calcula prin

relaţia:c

Cn = . Acest volum al eşantionului, odată stabilit,

restricţionează posibilităţile de alegere a unei metode de sondaj. Calculul volumului eşantionului este posibil în cazul sondajelor aleatoare sau mixte. Dacă nu există constrângeri de cost, volumul eşantionului se determină în funcţie de gradul de precizie a rezultatelor. De exemplu, pentru o variabilă de interes, în cazul în care se doreşte să se estimeze o proporţie sau un procent, se poate calcula volumul eşantionului care estimează parametrul cu o eroare de ± 3%, pentru un nivel de încredere de 95% şi în ipoteza de maximă eterogenitate a populaţiei. În cazul unui sondaj aleator simplu, este necesar un eşantion de 1067 persoane pentru a asigura condiţiile de estimare precizate. Deşi pare de prisos, reluăm menţiunea că cei 1067 indivizi nu se aleg “la întâmplare”, ci în condiţiile riguroase ale extragerii aleatoare, utilizând baza de sondaj şi un algoritm de extragere construit cu ajutorul numerelor aleatoare. În practică, există tendinţa de a realiza sondajele în condiţii de cost fixate a priori. Odată fixat costul sau bugetul anchetei, se poate analiza ce tip de metodă de sondaj se poate aplica în respectivele condiţii economice. Costul diferă de la un tip de sondaj la altul. În cazul sondajului aleator, costul este ridicat, deoarece implică un efort financiar în plus pentru: baza de sondaj, informaţia suplimentară, culegerea şi prelucrarea datelor. Dacă se realizează un sondaj pe cote, de exemplu, costurile se pot reduce cu 20-25% sau chiar pot fi mai mici cu 50% faţă de cazul sondajului aleator.

Page 53: 1-statistica

Constantin Pătrăşcoiu

53

Într-un sondaj, costul şi precizia sunt într-o relaţie de interdependenţă directă: o precizie mai mare a rezultatelor presupune un cost mai ridicat. De regulă, în practică, trebuie rezolvată întotdeauna o dilemă: costul sau precizia? Alegerea unei metode de sondaj presupune rezolvarea acestei dileme. Uneori se stabileşte un grad de precizie şi o limită de cost, în funcţie de care se determină un volum al eşantionului. Alteori se stabileşte volumul eşantionului, un cost şi apoi se determină nivelul de precizie care poate fi atins. J. Neyman propune metoda alocării optimale într-un sondaj stratificat Această metodă presupune obţinerea unui eşantion care minimizează erorile în condiţii de cost date sau pentru un volum al eşantionului fixat. Se obţin relaţiile:

.

1

const

N

n

N

nN

h

hhhh

h ==

∑=

σσ

unde nh este eşantionul extras din stratul h, Nh este volumul stratului h, care are o abatere standard σ h , iar n este volumul eşantionului, iar

∑=

=N

h

h NN1

este volumul populaţiei totale.

În mod analog, dacă se consideră costul anchetei fixat dinainte, se poate realiza o alocare în funcţie de costul unitar de sondaj la nivelul fiecărui strat (ch):

.

1

const

cN

C

c

N

nN

h

hhh

h

hh

h ==

∑=

σσ

, unde ∑=

=N

h

hh Cnc1

reprezintă costul total al anchetei şi este fixat. Din relaţiile de mai sus, rezultă că din fiecare strat se va extrage un sub-eşantion cu atât mai mare cu cât: volumul stratului este mai mare, dispersia stratului este mai mare, costul unitar de anchetă din fiecare strat este mai mic. Limita acestor alocări optimale este determinată de cunoaşterea dispersiilor din fiecare strat, precum şi a costurilor unitare din fiecare strat. Soluţia la dilema cost-precizie

Page 54: 1-statistica

Constantin Pătrăşcoiu

54

conduce deseori la alegerea unei metode de sondaj empirice, care presupune costuri mai reduse şi un grad de precizie considerat a fi satisfăcător. . Unul din cele mai utilizate sondaje este sondajul de opinie. Metoda sondajului de opinie prezintă şi o serie de dezavantaje, dintre care cel mai important este acela că sondajele, de cele mai multe ori, nu surprind schimbările care se petrec în evoluţia unui fenomen social. Sondajele reflectă, de regulă, o situaţie de moment, ele fiind de fapt o radiografiere a fenomenului studiat la un moment dat fără să constate eventualele schimbări.. In cercetările sociologice predomină sondaje: pe cote, aleatoare şi mixte. Sondajul mixt face un compromis, efectuându-se o cotare pe câteva caracteristici iar în cadrul straturilor alegerea se efectuează aleator.. În cazul sondajelor de opinii, de cele mai multe ori se cere completarea unui chestionar .

8. SERII STATISTICE DE DOUĂ VARIABILE

8.1. Introducere

Fiind dată o populaţie formând obiectul unui studiu statistic, în funcţie de două sau mai multe caracteristici se constată că între acestea există uneori anumite legături. Exemple. • Luând populaţia statistică E, mulţimea noilor născuţi dintr-o maternitate şi caracteristicile :greutatea respectiv talia (lungimea) acestora se constată că între aceste caracteristici există o legătură care se doreşte a fi studiată. • Considerând populaţia statistică E, mulţimea autoturismelor prezentate la un târg internaţional şi caracteristicile:preţ,consum mediu de carburant, capacitate cilindrică etc. se constată anumite legături între aceste caracteristici care interesează cumpărătorii.

Page 55: 1-statistica

Constantin Pătrăşcoiu

55

Studiul legăturilor care există între mai multe caracteristici definite pe aceeaşi populaţie a condus la introducerea noţiunii de serie statistică de două sau mai multe variabile. In cele ce urmează ne vom ocupa numai de serii statistice de două variabile.

8.2. Serii statistice de două variabile. Definiţie.Exemple. Fie E o populaţie statistică. Reamintim că o caracteristică x poate fi considerată ca o funcţie definită pe mulţimea E, cu valori într-o mulţime dată V. x:E→ V

i∈E→x(i) = xi , ∀ i∈E (am notat xi valoarea caracteristicii x pentru individul i) Populaţia statistică este deobicei finită , ceea ce ne permite să renotăm elementele sale cu numere naturale, deci, fără a restrânge generalitatea, să considerăm populaţia statistică E={1,2,3,....,n}; n număr natural nenul. Definiţie. Fie E o populaţie statistică şi două mulţimi nevide U,V. Se numeşte serie statistică de două variabile o funcţie s definită pe E cu valori în produsul cartezian al mulţimilor U şi V. Deci s:E→U×V

i∈E → s(i) = (xi, yi)∈U×V , ∀ i∈E

Dacă U şi V sunt submulţimi ale mulţimii numerelor reale seria se numeşte numerică .

Vom considera în continuare numai serii statistice de două variabile, numerice. Observaţie. O serie statistică de două variabile este cunoscută dacă se cunosc valorile sale (perechile (xi, yi), i∈E).

Page 56: 1-statistica

Constantin Pătrăşcoiu

56

Propoziţie. Orice serie statistică s, de două variabile pe populaţia E, defineşte două caracteristici x, y pe E (deci două serii statistice de o variabilă) şi reciproc. Demonstraţie: Evident, dacă s:E→U×V i∈E → s(i)=(xi,yi)∈U×V, ∀ i∈E, atunci caracteristicile respective vor fi: x:E → U y:E → V

i→x(i) = xi i→y(i) = yi Analog, reciproca propoziţiei. Observaţie. Dacă E={1,2,3,...,n}, o serie statistică de două variabile pe E se poate da printr-un tabel de forma:

i 1 2 ............. n

xi x1 x2 ............. xn

yi y1 y2 .............. yn

Evident, putem să omitem prima linie a acestui tabel . Exemple. • 2.1.Măsurând viteza şi consumul de benzină la zece autoturisme

DACIA rulând cu viteze diferite se obţine seria statistică de două variabile dată de tabelul următor:

i 1 2 3 4 5 6 7 8 9 10

xi 10 20 30 40 50 60 70 80 90 100

yi 17 12 9 7,2 6,8 6,7 7 8 9 11

unde xi reprezintă vitezele în km/h, yi consumul de benzină în l/100km • 2.2. La un test de inteligenţă şi imaginaţie şase persoane au

obţinut punctajele date de tabelul:

Page 57: 1-statistica

Constantin Pătrăşcoiu

57

i 1 2 3 4 5 6 xi 25 40 10 20 35 30 yi 30 50 20 25 40 35

unde xi , yi este punctajul obţinut de persoana i la inteligenţă respectiv imaginaţie. Se obţine deci o serie statistică de două variabile. • 2.3.Studiind numărul de băieţi şi fete din 12 clase se obţine seria

statistică de două variabile dată de tabelul următor.

clasa 1 2 3 4 5 6 7 8 9 10 11 12 număr

băieţi 10 5 15 20 25 1 14 5 6 25 15 7

număr fete 15 25 15 4 3 29 14 26 20 5 15 20

8.3. Nor de puncte. Punct mediu

Definiţie. Fiind dată o serie statistică de două variabile,ale cărei valori sunt (xi, yi) i∈E; dacă xi , yi sunt reale mulţimea punctelor din plan de coordonate (xi,yi) i∈E se numeşte norul de puncte

corespunzător seriei statistice date. Definiţie. Fiind dată o serie statistică de două variabile,ale cărei valori sunt (xi,yi) , i∈E; dacă xi , yi sunt reale şi mulţimea E are n elemente punctul G(xg,yg) se numeşte punct mediu al norului corespunzător seriei statistice date, unde:

xn

x yn

yg i

i

n

g i

i

n

= == =

∑ ∑1 1

1 1

; .

Exemple. 3.1. Seriei dată de tabelul :

i 1 2 3 4 5 6 7 8 9 10

xi 10 20 30 40 50 60 70 80 90 100

yi 17 12 9 7,2 6,8 6,7 7 8 9 11

Page 58: 1-statistica

Constantin Pătrăşcoiu

58

are punctul mediu G(55;11,27) şi norul de puncte corespunzător în figura următoare:

Fig. 24. Norul de puncte al seriei 3.1 .

3.2. Pentru seria statistică dată de tabelul:

i 1 2 3 4 5 6 xi 25 40 10 20 35 30 yi 30 50 20 25 40 35

punctul său mediu este G(26,6;33,3) şi norul de puncte corespunzător:

Fig. 25. Norul de puncte al seriei 3.2

Page 59: 1-statistica

Constantin Pătrăşcoiu

59

3.3. Pentru seria statistică dată de tabelul:

clasa 1 2 3 4 5 6 7 8 9 10 11 12 număr băieţi 10 5 15 20 25 1 14 5 6 25 15 7 număr fete 15 25 15 4 3 29 14 26 20 5 15 20

punctul mediu este G(15;15,8) şi norul său :

Fig. 24. Norul de puncte al seriei 3.3

8.4. Problema ajustării

Find dată o serie statistică de două variabile şi norul său de puncte notat N (N={M(xi, yi) / i∈E} ), se pune problema găsirii unei funcţii y = f(x) al cărei grafic să “treacă cât mai aproape posibil”de punctele norului său (“să aproximeze cât mai bine” punctele norului său). Pentru norul din exemplul 3.2. se observă că se poate trasa o dreaptă “aproape” de punctele sale şi deci funcţia y = f(x) este liniară. Spunem că avem o ajustare liniară sau afină ;graficul său se numeşte dreapta de ajustare sau dreapta de regresie.

Page 60: 1-statistica

Constantin Pătrăşcoiu

60

Pentru norul din exemplul 3.1. “aproximarea punctelor sale “cu o dreaptă nu mai convine ;”aproximarea” se poate face mai degrabă cu o parabolă. Pentru norul din exemplul 3.3. problema ajustării este mai dificilă.

8.5. Ajustare liniară

În cele ce urmează ne vom ocupa de aproximarea norului de puncte asociat unei serii statistice de două variabile printr-o dreaptă . 7.5.1.Metoda grafică Această metodă constă în trasarea cu ajutorul unei rigle (de prefe-rinţă transparentă ) a unei drepte cît mai aproape de punctele norului. Metoda grafică este rapidă şi relativ precisă dacă norul nu este foarte dispersat.Are dezavantajul că depinde de operator, nu furnizează ecuaţia dreptei şi nu este posibilă pentru un nor foarte dispersat. 7.5.2. Metoda lui Mayer Fie Mi(xi, yi) , i =1,2,...,n ; punctele norului unei serii statistice de două variabile.Reamintim că punctul mediu al norului este

G

∑∑

==

n

i

i

n

i

i yn

xn 11

1,

1

Este normal să trasăm dreapta de ajustare prin punctul G. Pentru trasarea dreptei de ajustare mai avem nevoie de încă un punct. Metoda lul Meyer constă în împărţirea norului N în două submulţim de puncte disjuncte N1 , N2 ;de efective apropiate ; având punctele medii G1 şi G2.

Page 61: 1-statistica

Constantin Pătrăşcoiu

61

Dreapta de ajustare va fi dreapta determinată de punctele G1 şi G2. Această metodă are avantajul că nu necesită multe calcule şi dă posi-bilitatea scrierii ecuaţiei dreptei de ajustare(cunoscând două din puncte sale). Are dezavantajul că depinde de împărţirea norului în cele două submulţimi şi că trasarea dreptei de ajustare este dificilă dacă G1,G2 sunt foarte apropiate. 7.5.3. Metoda celor mai mici pătrate. Definiţie. Fie M(xi, yi) i = 1,2,...,n norul de puncte asociat unei serii statistice de două variabile.Se numeşte dreaptă de ajustare (de

regresie) a lui y în raport cu x prin metoda celor mai mici pătrate ; dreapta de ecuaţie: y = ax+b, pentru care expresia:

∆( , ) [ ( )]a b y ax bi

i

n

i= − +=

∑1

2 este minimă.

Propoziţie. Dreapta de ajustare a lui y în raport cu x din definiţia pre-cedentă are coeficienţii:

a = ( )( )

( )

x x y y

x x

i g i g

i

n

i g

i

n

− −

=

=

1

2

1

,

b= yg - axg unde G(xg ,yg) este punctul mediu al norului seriei date. Demonstraţie:

Page 62: 1-statistica

Constantin Pătrăşcoiu

62

∆ ( , ) [ ( )] [( ) ]

[( ) ( ) ]

( ) ( )

( ) ( )

a b y ax b y ax b

y ax b y ax b

y ax b y ax nb

nb b y ax y ax

i

i

n

i i

i

n

i

i

i

n

i i i

i

i

n

i i

i

n

i

i

i

n

i i

i

n

i

= − + = − − =

= − − − + =

= − − − + =

= − − + −

= =

=

= =

= =

∑ ∑

∑ ∑

∑ ∑

1

2

1

2

1

2 2 2

1

2

1

2

2

1 1

2

2

2

2

Ultima egalitate o putem privi ca un trinom de gradul doi în b Acest trinom este minim dacă:

bn

y axn

y an

x y axi

i

n

i i

i

n

i

i

n

g g= − = − = −= = =

∑ ∑ ∑1 1 1

1 1 1

( )

unde xg,yg sunt coordonatele punctului mediu G. Înlocuind pe b în ∆(a,b) obţinem:

∆( , ) [ ( )] [ ]

[( ) ( )]

[( ) ( )( ) ( ) ]

( ) ( )( ) ( )

a b y ax b y ax y ax

y y a x x

y y a y y x x a x x

y y a y y x x a x x

i

i

n

i i

i

n

i g g

i

i

n

g i g

i

i

n

g i g i g i g

i

i

n

g i

i

n

g i g i g

i

n

= − + = − − + =

= − − − =

= − − − − + − =

= − − − − + −

= =

=

=

= = =

∑ ∑

∑ ∑ ∑

1

2

1

2

1

2

1

2 2 2

1

2

1

2 2

1

2

2

ultima expresie din egalităţile precedente fiind un trinom de gradul doi în a este minim dacă:

a = ( )( )

( )

x x y y

x x

i g i g

i

n

i g

i

n

− −

=

=

1

2

1

ceea ce trebuia demonstrat.

Page 63: 1-statistica

Constantin Pătrăşcoiu

63

Exerciţiu. Să se demonstreze că dacă y = ax+b este dreapta de ajustare a lui y în raport cu x prin metoda celor mai mici pătrate atunci:

2

11

2

1 11

1)(

1

=

∑∑

∑ ∑∑

==

= ==

n

i

i

n

i

i

n

i

n

i

i

n

i

iii

xn

x

yxn

yx

a (formulă mai avantajoasă în calcule)

Observaţie. Dreapta de ajustare a lui y în raport cu x prin metoda celor mai mici pătrate trece prin punctul mediu G.

Observaţie. Schimbând rolurile lui x şi y se poate vorbi de dreapta de ajustare a lui x în raport cu y prin metoda celor mai mici pătrate. Metoda celor mai mici pătrate are avantajul că nu depinde de operator şi se adaptează mai bine unui nor dispersat. Are dezavantajul că x şi y nu joacă roluri simetrice. Exerciţiu. Dacă x = ay+b este dreapta de ajustare a lui x în raport cu y prin metoda celor mai mici pătrate ,să se demonstreze că:

a =

( )( )

( )

x x y y

y y

i g i g

i

n

i g

i

n

− −

=

=

1

2

1

şi

b = xg-a yg . Exerciţiu. Să se găsească dreapta de ajustare prin cele trei metode prezentate mai sus pentru seriile statistice date în exemplele 3.2 şi 3.3.

Page 64: 1-statistica

Constantin Pătrăşcoiu

64

8.6. Alte metode de ajustare

• Metoda mediilor eşalonate. În cazul seriilor statistice de două variabile în care nu se caută o dreaptă de ajustare ci se doreşte ameliorarea aspectului norului, în vederea aproximării sale cu o curbă , se împarte norul în mai multe submulţimi (subnori) care se înlocuiesc cu punctele lor medii . Ajustarea norului punctelor medii este mult mai uşoară decît ajustarea norului iniţial. • Metoda mediilor mobile. Ca şi metoda precedentă această metodă are deasemenea rolul de a ameliora aspectul norului de puncte asociat unei serii statistice de două variabile. Acest lucru se realizează înlocuind punctele norolui Mi(xi, yi) i=1,2,...n cu punctele:

Ni

++++ +−+−

3,

31111 iiiiii yyyxxx

, i=2,3,...,(n-1) ,

obţinându-se un nor mai puţin dispersat. Această metodă este folosită de obicei la seriile cronologice pentru a corija variaţiile sezoniere. Exerciţiu 6.1. Să se facă o ajustare , folosind cele două metode de mai sus pentru norul seriei statistice reprezentând hectarele însămânţate şi producţiile obţinute în tone, la o anumită cultură ,de o fermă în ultimii 11 ani ;dată de următorul tabel:

xi 96 95 96 102 101 103 108 112 113 114 116 yi 95 52 81 110 62 79 88 95 69 107 115

Page 65: 1-statistica

Constantin Pătrăşcoiu

65

8.7. Coeficient de corelaţie

Definiţie. Fie o serie statistică de două variabile având valorile (xi, yi) i=1,2,...,n; x şi y fiind caracteristicile sale. Se numeşte covarianţa lui x şi y numărul:

cov(x, y)= 1

1nx x y yi g i g

i

n

( )( )− −=

∑ ;

unde xg , yg sunt coordonatele punctului mediu G, al serie date. Exerciţiu. Să se demonstreze egalitatea:

cov( , )x yn

x y x yi i

i

n

g g= −=

∑1

1

Definiţie. Se numeşte coeficient de corelaţie al unei serii statistice de două variabile având valorile (xi, yi), i = 1,2,...,n şi caracteristicile x, y numărul:

)()(

),cov(

yx

yxr

σσ= unde

=

=

−=

−=

n

i

gi

n

i

gi

yyn

y

xxn

x

1

2

1

2

)(1

)(

)(1

)(

σ

σ

Exerciţiu. Să se demonstreze că dacă r este coeficientul de corelaţie al unei serii statistice de două variabile având valorile xi , yi ; i=1,2,...,n şi punctul mediu G(xg,yg) atunci:

i). r2 = ( )

∑ ∑

= =

=

−−

−−

n

i

n

i

gigi

n

i

gigi

yyxx

yyxx

1 1

22

1

2

)()(

))((

Page 66: 1-statistica

Constantin Pătrăşcoiu

66

ii). r ≤ 1

iii). aa = r

2 unde a,a sunt coeficienţii introduşi la dreptele de ajustare prin metoda celor mai mici pătrate.

Coeficientul de corelaţie măsoară “gradul de dependenţă” al cara-

cteristicilor ce definesc seria statistică respectivă (vezi “Teoria probabilită-ţilor”capitolul “variabile aleatoare”). Exerciţiu. Să se calculeze coeficientul de corelaţie şi să se interpreteze rezultatul obţinut pentru seria statistică dată în exerciţiu 6.1.din paragraful precedent. Exerciţii

1.Pentru a măsura caracteristicile unei diode se realizează circuitul următor:

Măsurătorile furnizate de voltmetru şi ampermetru sunt trecute în tabelul următor:

i. Să se reprezinte grafic norul de puncte corespunzător. ii.Să se aproximeze norul de puncte cu o curbă.

AA

V

i (mA) 0 0,3 0,6 1,6 6 11 22 32 55 75 95

u (V) 0 0,4 0,5 0,6 0,65 0,8 0,74 0,76 0,78 0,76 0,85

Page 67: 1-statistica

Constantin Pătrăşcoiu

67

2.Pentru a studia caracteristi-cile unei baterii electrice se realizează montajul următor:

Cu ajutorul voltmetrului şi al ampermetrului se efectuează măsurătorile consemnate în următorul tabel:

I (amperi) 0 0,3 0,5 0,6 0,8 0,9 1 1,2

U (volţi) 4,5 4,3 4,16 4,03 3,60 3,20 3 2,8

I. Reprezentaţi grafic norul de puncte asociat acestei serii

statistice. II. Găsiţi o dreaptă de ajustare căreia determinaţii ecuaţia.

III. Găsiţi intersecţiile dreptei de ajustare cu axele de coordonate şi interpretaţi coordonatele punctelor de intersecţie găsite. 3.Un strung automat produce piuliţe.Se măsoară diametrul acestora din sută în sută obţinându-se rezultatele date de următorul tabel:

nr.piuliţei 100 200 300 400 500 600 700 800 900 1000 diametrul

(în m×10-5.) 1235 1237 1238 1240 1241 1244 1245 1246 1248 1251

a). Desenaţi norul de puncte corespunzător seriei statistice de mai sus şi trasaţi o dreaptă de ajustare scriindu-i şi ecuaţia sa. b).Creşterea diametrelor piuliţelor se datorează uzurii strungului. c). O uzură de e milimetrii a cuţitului strungului produce o creştere în diametru de 2e mm. După cîte piese uzura cuţitului va fi de 7,6×10-5 mm.

Page 68: 1-statistica

Constantin Pătrăşcoiu

68

4.Presiunile atmosferice yi (în cm. coloană de mercur) la altitudinile xi (în Km.) , măsurate pe verticala unei localităţi sunt date de tabelul:

xi 0 1 2 4 6 10 yi 76 67 59 46 35 20

a).Să se reprezinte grafic norul de puncte corespunzător seriei date. b).Să se scrie ecuaţia unei drepte de ajustare printr-o metodă la alegere c).La ce altitudine presiunea atmosferică va fi de 40 cm.coloană de mercur? 5.Tabelul de mai jos dă preţul de vînzare (în $) al unui produs şi numărul de produse vândute înte anii:1990 şi1993.

1990 1991 1992 1993 Preţ de vânzare 20 14 18 25 Număr de produse vândute

198 240 222 160

a).Construiţi norul de puncte corespunzător seriei statistice date. b).Determinaţi şi reprezentaţi punctul mediu G. c).Determinaţi dreapta de ajustare prin metoda următoare: • Ordonaţi valorile primei caracteristici în ordine crescătoare. • Calculaţi coordonatele punctului mediu G1 al primelor două puncte ale norului şi coordonatele punctului mediu G2 al celorlalte puncte ale norului. • Scrieţi ecuaţia dreptei de ajustare G1G2 şi trasaţi această dreaptă.