1-statistica
DESCRIPTION
1-statisticaTRANSCRIPT
Constantin Pătrăşcoiu
1
STATISTICĂ
INTRODUCERE
Statistica (de la cuvintul latin status) a fost la origine, mulţimea datelor numerice rezultatele din recensământul populaţiei, care permiteau descrierea statului.
Aşa se explică vocabularul utilizat azi de statistică, cu toate că, ea a devenit indispensabilă unor domenii ca: economie, biologie, sociologie, agronomie, medicină, meteorologie, etc.
Studiul statistic al unui fenomen, constă mai întâi în culegerea datelor corespunzatoare care apoi sunt grupate, analizate şi interpretate.
Se cunosc mai multe modalităţi de culegere a datelor în funcţie de repetarea sau întinderea lor.
Există culegeri sistematice (registrul stării civile), culegeri periodice (recensăminte, inventare, bilanţuri anuale) sau culegeri ocazionale (pierderi datorită unor accidente, previziuni preelectorale). O culegere este exhaustivă dacă cuprinde toţi indivizii unei populaţii şi parţială in caz contrar.
Culegerea şi interpretarea datelor formează obiectul statisticii
descriptive, gruparea, analizarea şi interpretarea lor formeza obiectul statisticii matematice.
Mulţimea metodelor care permit culegerea, gruparea,
analiza şi interpretarea datelor corespunzătoare unui fenomen în
vederea formării unor previziuni sau luării unor decizii în
cunostintă de cauză, se numeşte statistică.
Constantin Pătrăşcoiu
2
Statistică descriptivă - Statistică inferenţială
Constantin Pătrăşcoiu
3
1. POPULAŢIE. VARIABILĂ STATISTICĂ (CRACTERISTICĂ).
Intrucât statistica descriptivă implică colectarea şi interpretarea datelor, inainte de a întreprinde analize sofisticate, va trebui să înţelegem cum putem prezenta şi sumariza o cantitate mare de informatie.
De exemplu, atunci când cumpărăm un automobil nou ar fi util să ştim ce costuri implică utilizarea acestuia în primii trei ani. Evident, nu vom putea face o previziune exactă, dar, colectând date de la persoane care au cumpărat automobile de aceeaşi şi capacitate marcă ne putem face o idee asupra distribuţiei costurilor in populaţia
automobilelor având marca şi caracteristicile care ne interesează. Vom putea astfel estima cu aproximaţie costul utilizării automobilului respectiv. În studiul statistic al unui fenomen se consideră o mulţime de obiecte E şi se asociază fiecărui element al mulţimii E valoarea (valorile) corespunzătoare fenomenului studiat. DEFINIŢIE 1.1. Mulţimea E a obiectelor care intervin în studiul statistic al unui fenomen se numeşte populaţie statistică. Elementele sale se numesc unităţi statistice sau indivizi.
DEFINIŢIE 1.2. Proprietatea elementelor mulţimii E avută în vedere în studiul statistic al fenomenului considerat se numeşte caracteristică sau variabila statistică. REMARCĂ 1.1. O variabilă statistică (caracteristică) poate fi
interpretată ca o funcţie care asociază oricărui individ din E o
valoare corespunzatoare. OBSERVAŢIE 1.1. În studiul statistic al unui fenomen pot interveni una sau mai multe caracteristici.
Constantin Pătrăşcoiu
4
DEFINIŢIE 1.3. O variabilă statistică (caracteristică) se numeşte cantitativă sau numerică dacă valorile sale sunt măsurabile (se exprimă prin numere reale) şi calitativă sau nenumerică în caz contrar. DEFINIŢIE 1.4. O variabilă statistică (cracteristică) numerică se numeşte discretă dacă valorile sale sunt izolate şi continuă în caz contrar. OBSERVAŢIE 1.2. În cazul unei variabile continue valorile sale pot fi orice număr dintr-un interval. EXEMPLE 1.1.
1. În studiul costurilor pe care le implică automobil nou în primii trei ani, populatia statistică este mulţimea automobilelor având marca şi caracteristicile care ne interesează variabila statistică (cracteristica) este numerică discretă şi reprezintă costul întreţinerii acestora.
2. În studiul rezultatelor obţinute la campionatul diviziei
naţionale de fotbal, populatia statistică este mulţimea echipelor din campionat. Indivizii sunt echipele respective; caracteristica: numărul punctelor obţinute de fiecare echipă. Această cracteristică este numerică discretă.
3. În studiul înălţimii locuitorilor unui oraş populaţia statistică
este mulţimea locuitorilor oraşului,indivizii sunt locuitorii, caracteristica: înălţimea locuitorilor. Variabila statistică (cracteristica) din acest exemplu este numerică continuă.
4. În studiul naţionalităţilor turiştilor cazaţi la hotelul
Intercontinen-tal,populaţia statistică este mulţimea turiştilor,indivizii sunt turiştii respectivi, caracteristica: naţionalitatea turiştilor.Variabila statistică (cracteristica)din acest exemplu este calitativă.
Constantin Pătrăşcoiu
5
2. SERII STATISTICE. GRUPAREA DATELOR
DEFINIŢIE 1.5. Se numeşte serie statistică de o variabilă mulţimea valorilor luate pe o populaţie de o variabilă statistică (caracteristică) dată. EXEMPLE 1.2.
a) Notele la examenul de statistică pentru o grupă de studenti au fost:7,5,9,8,7,6,4,10,8,3,5,4,10,9,8,9,7,9,8,7,6,6,5,6,4,5,7,8,8,9,7,8,6,7,8,8.
In acest caz variabila statistică sau caracteristica (numerică discretă) este nota la examen, populaţia fiind mulţimea studenţilor din grupa respectivă.
b) În urma măsurării lungimi unui teren de către douăzeci şi una de persoane au fost obţinute următoarele rezultate (în metri): 523,4; 521,3; 526,2; 526,6 ; 524,3; 524,7; 525,8; 525,9; 525,2; 525,7; 525,4; 525,3; 525,7; 527,1; 526,3; 524,5; 521,6; 524,8; 525,3; 525,9; 525,4.
In acest caz variabila statistică sau caracteristica este lungimea terenului, populaţia fiind mulţimea formată din persoanele care efectuiază masurătoarea respectivă. Această caracteristică este numerică continuă întrucât poate lua orice In acest caz variabila statistică sau caracteristica valoare dintr-un interval.
c) Înregistrând culorile unui lot de zece autoturisme s-a obţinut: roşu, alb, negru, negru, roşu, verde, alb, verde, negru, roşu.
In acest caz variabila statistică sau caracteristica (calitativă) este culoarea, populaţia fiind mulţimea celor zece autoturisme. OBSERVAŢIE 1.3. O mulţime de date de multe ori aşa cum se prezintă este greu de interpretat. Există o mulţime de informaţii conţinute de datele respective care nu pot fi usor observate. Este necesar deci să găsim posibilităţi de a rearanja datele de care dispunem pentru a putea extrage mai uşor informatii utile.
Constantin Pătrăşcoiu
6
Datele obţinute în legatură cu caracteristica studiată pe o populaţie trebuie organizate şi prezentate sub o forma clară şi exploatabilă. • Populaţia se împarte în submulţimi, fiecare submulţime corespunzând unei valori(dacă caracteristica este discretă) sau unei clase(în cazul caracteristicilor continue). Numărul de indivizi care corespund valorii sau clasei respective se numeşte efectivul
corespunzător valorii respectiv efectivul clasei
• Se construeşte un tabel conţinând valorile sau clasele variabilei statistice şi efectivele corespunzătoare valorilor respectiv claselor respective. Operaţiile de mai sus poartă numele de gruparea datelor. Uneori, în cazul variabilelor statistice (caracteristicilor) discrete care au un număr mare de valori, se împarte mulţimea valorilor posibile în clase (intervale), dacă este posibil de aceeaşi lungime, obţinându-se o situaţie caracteristică unei variabile statistice continue. De asemenea se pot înlocui clasele unei variabile aleatoare numerice continue cu valoarea lor centrală(media aritmetică a capetelor intervalelor) ajungând în situaţia unei variabile statistice numerice discrete. Grupând datele, o serie statistică de o variabilă cu caracteristică discretă se defineşte adesea printr-un tabel de forma:
m
m
nnn
xxx
efectiv
valoare
...
...
21
21
, sau
mm n
n
n
x
x
x
efectivvaloare
......2
1
2
1
unde ni (i=1,2,3,…,m) sunt efectivele (numărul de indivizi) corespunzătoare valorilor xi. O serie statistică de o variabilă cu caracteristică continuă se defineşte printr-un tabel de forma:
Constantin Pătrăşcoiu
7
m
mm
nnn
bababa
efectiv
clasa
...
),[...).[),[
21
2211
, sau
mmmn
n
n
efectiv
ba
ba
ba
clasa
...
),[
...
),[
),[
2
1
22
11
unde ni (i=1,2,3,…,m) sunt efectivele (numărul de indivizi) corespunzătoare claselor [ai, bi). Observaţie. Uneori clasele [ai, bi) se înlocuiesc cu valorole lor
centrale 2
ii ba +, obţinând serii statistice cu caracteristică discretă.
Exemple. a) Notele la o testare la matematică pentru un grup de elevi au fost: 7,5,9,8,7,6,4,10,8,3,5,4,10,9,8,9,7,9,8,7,6,6,5,6,4,5,7,8,8,9,7,8,6,7,8,8 Avem o serie statistică cu caracteristică discretă. Populaţia statistică este mulţimea elevilor grupului respectiv (indivizii ,sunt elevii grupului). Caracteristica este nota obţinută. Interpretarea rezultatelor astfel prezentate este dificilă, de aceea le vom grupa. Seria statistică respectivă va fi dată de tabelul:
nota
efectiv
1 2 3 4 5 6 7 8 9 10
0 0 1 3 4 5 7 9 5 2 b) În urma măsurării aceleiaşi lungimi de către douăzeci şi una de persoane au fost obţinute următoarele rezultate (în metri): 523,4; 521,3; 526,2; 526,6 ; 524,3; 524,7; 525,8; 525,9; 525,2; 525,7; 525,4; 525,3; 525,7; 527,1; 526,3; 524,5; 521,6; 524,8; 525,3; 525,9; 525,4.
Constantin Pătrăşcoiu
8
Avem o serie statistică cu caracteristică continuă. Populaţia este mulţimea persoanelor participante la măsurătoare (indivizii sunt persoanele respective), caracteristica: distanţa măsurată,este continuă, putând lua teoretic orice valoare dintr-un interval. Grupând datele seria statistică va fi dată de tabelul:
clasa
efectiv
[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)
2 0 1 4 10 3 1
c) Înregistrând culorile unui lot de zece autoturisme s-a obţinut: roşu, alb, negru, negru, roşu, verde, alb, verde, negru, roşu. Se obţine o serie statistică cu caracteristică calitativă. Populaţia statistică este multimea autoturismelor ( indivizii sunt autoturisme ), caracteristica: culoarea autoturismelor. Grupând datele, seria statistică va fi dată de tabelul:
culoarea efectiv
roşu
alb
negru
verde
3 2 3 2
3. EFECTIV CUMULAT. FRECVENŢĂ. FRECVENŢĂ
CUMULATĂ.
Fie o serie statistică de o variabilă dată de tabelul:
unde αi (i = 1, 2, …, m) reprezintă valorile caracteristicii dacă aceasta este discretă şi clasele respective dacă caracteristica este continuă; ni fiind efectivele corespunzătoare (αi = xi sau αi = [ai,bi)). Evident, numărul mnnnN +++= ...21 reprezintă efectivul total al
populaţiei.
valoarea (clasa) α1 α2 … αm
efectiv n1 n2 … nm
Constantin Pătrăşcoiu
9
Definiţie. Se numeşte efectiv cumulat până la valoarea (clasa) αi a caracteristicii (i = 1, 2, . . . , m) numărul ii nnnN +++= ...21 Observaţie. Evident, 11 nN = , NNm =
Definiţie. Se numeşte frecvenţă a valorii (clasei) αi numărul:
fi = in
N (i = 1, 2, . . . , m).
Observaţie. 0 ≤ fi ≤ 1; (i = 1, 2, . . . , m) şi 1...21 =+++ mfff
Definiţie. Se numeşte frecvenţă cumulată (crescător) până la valoarea (clasa) αi a caracteristicii, numărul ii fffF +++= ...21 .
Observaţie. 11 fF = şi 1=mF
Observaţie. Numărul ni se mai numeşte şi frecvenţă absolută a valorii (clasei) αi ; numărul fi se mai numeşte frecvenţă relativă corespunzătoare valorii (clasei) αi; numărul Fi se mai numeşte frecvenţă relativă cumulată (crescător) până la valoarea (clasa) αi. __________________________ Unei serii statistice de o variabilă dată de tabelul:
valoarea (clasa) α1 α2 … αm
efectiv n1 n2 … nm
i se asociază alte trei serii care pot uşura analiza şi interpretarea rezultatelor: • Seria efectivelor cumulate (crescător) dată de tabelul:
valoarea (clasa) α1 α2 … αm
efectiv cumulat. N1 N2 … Nm
Constantin Pătrăşcoiu
10
• Seria frecvenţelor dată de tabelul:
valoarea (clasa) α1 α2 … αm
frecvenţa f1 f2 … fm
• Seria frecventelor cumulate (crescător) dată de tabelul:
valoarea (clasa) α1 α2 … αm
frecvenţa cumulată F1 F2 … Fm
Exemple: a) Pentru seria statistică conţinând notele la o testare la matematică
pentru un grup de elevi, dată de tabelul:
valoare (nota) 1 2 3 4 5 6 7 8 9 10 efectiv 0 0 1 3 4 5 7 9 5 2
• Seria efectivelor cumulate(crescător): valoare (nota) 1 2 3 4 5 6 7 8 9 10 efectiv cumulat 0 0 1 4 8 13 20 29 34 36
• Seria frecvenţelor: valoare (nota) 1 2 3 4 5 6 7 8 9 10 frcevenţă
0 0 36
1 36
3 36
4
36
5
36
7
36
9
36
5
36
2
• Seria frecvenţelor cumulate(crescător): valoare (nota) 1 2 3 4 5 6 7 8 9 10 Frcevenţă cumulată
0 0 36
1 36
4 36
8
36
13
36
20
36
29
36
34 1
Constantin Pătrăşcoiu
11
Seriile statistice de mai sus pot fi incluse într-un singur tabel, frecvenţele putând fi scrise în procente (obţinute înmulţind frecvenţele relative respective cu 100):
Valoare
(nota) Efectiv
(nr. elevi) Efectiv
cumulat
Frecvenţă (%)
Frcvenţă cumulată
(%) 1 0 0 0 0 2 0 0 0 0 3 1 1 2,7778 2,7778 4 3 4 8,3333 11,1111 5 4 8 11,1111 22,2222 6 5 13 13,8889 36,1111 7 7 20 19,4444 55,5556 8 9 29 25 80,5556 9 5 34 13,88889 94,4444 10 2 36 5,5556 100
Privind tabelul precedent putem spune imediat că 19,4444 % din elevi au obţinut nota 7 şi 11,1111% din elevi nu au obţinut note de trecere; 55,5556% au obţinut note mai mici ca 8, etc. Pentru seria statistica dată de tabelul:
clasa
efectiv
[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)
2 0 1 4 10 3 1
• Seria efectivelor cumulate:
clasa
efectivcumulat
[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)
2 2 3 7 17 20 21
• Seria frecvenţelor:
clasa
frecventa
[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)
2 0 1 4 10 3 1 21 21 21 21 21 21
Constantin Pătrăşcoiu
12
• Seria frecvenţelor cumulate:
clasa
frecventacumulata
[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)
2 2 3 7 17 20 2121 21 21 21 21 21 21
In tabelul următor avem seria statistică priviind durata a 670 de călătorii cu trenul (în ore) pe ruta Bucureşti – Predeal, seria frecvenţelor şi seria frecvenţelor cumulate.
Durată călătorie (h)
Număr
călători
Frecvenţă %
Frecvenţă cumulată %
[1,9 ; 1,95) 19 2,8 2,8 [1,95 ; 2) 19 2,9 5,7 [2 ; 2,05) 39 5,8 11,5 [2,05 ; 2,1) 48 7,2 18,7 [2,1 ; 2,15) 87 12,9 31,6 [2,15 ; 2,2) 94 14,1 15,7 [2,2 ; 2,25) 104 15,5 61,2 [2,25 ; 2,3) 92 13,7 74,9 [2.3 ; 2,35) 57 8,5 83,4 [2,35 ; 2,4) 44 6,6 90 [2,4 ; 2,45) 28 4,2 94,2 [2,45 ; 2,5) 26 3,9 98,1 [2,5 ; 2,55) 13 1,9 100
In acest caz, clasele sunt intervalele orare de lungime 0,05 ore, efectivele sau frecvenţele absolute sunt reprezentate de numărul de călători corespunzătoare, frecvenţele (relative) în procente se calculează împărţind efectivul absolut(nr. de zboruri) la 760 şi rezultatul se înmulţeşte cu 100. Din seria frecvenţelor cumulate putem constata de exemplu că 61,2% din călătorii au durat mai puţin de 2,25 ore (duă ore şi 15 minute).
Constantin Pătrăşcoiu
13
4. REPREZENTAREA GRAFICA A SERIILOR
STATISTICE
Lectura şi interpretarea tabelelor asociate seriilor statistice nu este întotdeauna uşoară.
Un tabel de numere chiar dacă este sugestiv nu stimulează imaginaţia.
De aceea sunt utilizate diverse reprezentări grafice pentru vizualizarea tabelelor respective,în scopul formării unei imagini intuitive şi imediate a fenomenului studiat.
4.1. Reprezentarea seriilor statistice cu caracteristici
discrete.
Intr-un sistem ortogonal de coordonate se iau pe axa absciselor valorile caracteristicii şi se ridică în punctele respectivelor valori,segmente de lungimi proporţionale cu efectivele claselor corespunzătoare. O astfel de reprezentare se numeşte diagramă în
batoane. Se numeşte poligon statistic, poligonul având vârfurile extremitătilor segmentelor din diagrama în batoane. Exemplu: Pentru seria statistică conţinând notele la o testare la matematică pentru un grup de elevi, dată de tabelul:
valoare (nota) 1 2 3 4 5 6 7 8 9 10 (1)
efectiv 0 0 1 3 4 5 7 9 5 2 * Diagrama în batoane:
Fig. 1. Diagrama în batoane a seriei statistice (1).
Constantin Pătrăşcoiu
14
* Poligonul statistic:
Fig. 2. Poligonul statistic a seriei statistice (1).
Pentru un aspect mai spectaculos se pot construi diagrame în batoane (3D). De exemplu pentru seria precedentă avem reprezentarea:
0
1
2
3
4
5
6
7
8
9
1 2 3 4 5 6 7 8 9 10
Fig. 3. Diagrama în batoane (3D) a seriei statistice (1).
Constantin Pătrăşcoiu
15
4.2. Reprezentarea seriilor statistice cu caracteristică continuă
Dacă clasele au aceeaşi amplitudine,se trec pe axa absciselor
clasele respective şi se construiesc dreptunghiuri cu bazele ,clasele seriei şi inălţimile proportionale cu efectivele lor.Reprezentarea grafică obţinută se numeşte HISTOGRAMĂ.
Poligonul statistic va fi dat de mijloacele laturilor paralele cu
axa absciselor. Exemplu: Pentru seria statistică dată de tabelul:
Histograma seriei:
1
2
3
4
10
521 522 523 524 525 526 527 528
Fig. 4. Histograma seriei statistice (2).
Constantin Pătrăşcoiu
16
Poligonul statistic:
Fig. 5. Poligonul statistic a seriei statistice (2).
Dacă clasele nu au aceeaşi amplitudine pe axa absciselor se consideră clasele respective şi se construiesc dreptunghiuri având bazele,clasele date şi ariile proporţionale cu efectivele corespunzatoare. Exemple 1. Pentru seria statistică dată de tabelul:
• Histograma seriei:
1 2 4 5 8 10
1
2
3
Fig. 6. Histograma seriei statistice (3).
Constantin Pătrăşcoiu
17
• Poligonul statistic:
1 2 3 4 5 6 7 8 9 10
123
Fig. 7. Poligonul statistic a seriei statistice (3).
2. Greutatea ( în kg ) a 15 persoane este dată de tabelul
Greutatea (kg) [0,50) [50,60) [60,70) [70,90) (4) Nr. persoane 5 2 4 4
Histograma şi poligonul statistic al seriei va fi:
Fig. 8. Histograma şi poligonul statistic pentru seria statistică (4).
Constantin Pătrăşcoiu
18
4.3. Alte reprezentări ale seriilor statistice
Reprezentarea în sectoare circulare se foloseşte pentru formarea unei viziuni globale a mărimii relative a diferitelor clase şi pentru reprezentarea seriilor cu caracteristică calitativă. Se atribuie fiecărei clase câte un sector circular având unghiul la centru direct proportional cu efectivul clasei (frecvenţa ei).
Fie seria:
valoarea (clasa) α1 α2 … αm
efectiv n1 n2 … nm
Dacă mnnnN +++= ...21 este efectivul total al populaţiei atunci
Toată populaţia: N indivizi 0360↔
Atunci: 1 individ N
0360↔
Pentru valoarea(clasa) αi: ni indivizi inN
⋅↔0360
Vom atribui deci valorii(clasei) αi un sector circular de inN
⋅0360
Fig. 9. Calculul unghiului la centru pentru valoarea (clasa) αi.
Constantin Pătrăşcoiu
19
Exemplu. Fie seria statistică conţinând naţionalităţile turiştilor dintr-un hotel dată de tabelul:
Naţionalitate romani rusi englezi greci spanioli (5) efectiv 4 8 12 6 4
. Calculând unghiul la centru corespunzător fiecărei clase obţinem reprezentarea grafică în sectoare circulare(2D):
romani
rusi
englezi
greci
spanioli
Fig. 10. Reprezentarea grafică în sectoare circulare(2D) a seriei (5) sau reprezentarea grafică în sectoare circulare (3D):
romani
rusi
englezi
galben
violet
Fig. 11. Reprezentarea grafică în sectoare circulare(3D) a seriei (5)
Constantin Pătrăşcoiu
20
Exemplu. Un magazin dispune de şase produse notate A,B,C,D,E,F. Rezultatul vânzărilor este reprezentat de seria statistică dată in tabelul următor:
Produsul Unităţi vândute Frecvenţa A 480 0,12 B 1200 0,3 C 1040 0,26 (6) D 640 0,16 E 160 0,04 F 480 0,12
Reprezentarea grafică a seriei în sectoare circulare este:
Fig. 12. Reprezentarea grafică în sectoare circulare(2D) a seriei (6)
Fig. 13. Reprezentarea grafică în batoane a seriei frecvenţelor (6)
Constantin Pătrăşcoiu
21
Dacă caracteristica studiată prezintă o anumită periodicitate este indicat să se pună în evidenţă acest lucru printr-un grafic "polarizat", metodă curentă în cazul seriilor cronologice ( serii care evidenţiază evoluţia în timp a unor fenomene ). Exemplu: Studiind numărul naşterilor în perioada 1991-1993 intr-o localitate s-a obţinut pentru cele 24 de luni seria statistică:
luna
efectivulnasterilor
I F M A M Iun Iul A S O N D I F M A M Iun Iul A S O N D
3 2 5 4 0 2 1 4 1 0 3 5 4 3 8 5 5 3 3 2 3 4 3 2
Acesteia ii vom asocia reprezentarea "polarizată":
Fig. 14. Reprezentarea seriei reprezentând numărul naşterilor
Observaţie: Se pot folosi reprezentări grafice şi pentru seriile asociate seriei date ( seria efectivelor cumulate, seria frecvenţelor, seria frecvenţelor cumulate). Frecvent diagramele în batoane (sau histogramele) seriilor statistice având aceleaşi caracteristici şi aceleaşi valori (sau aceleaşi clase ) se “alipesc” după baza comună formând o “piramidă” care permite comparaţii utile: Exemplu: Într-o mică localitate în urma unui studiu în legătură cu vârsta persoanelor s-au obţinut rezultatele date de tabelul următor.
Constantin Pătrăşcoiu
22
Sexul
Vârsta Masculin Femenin
[0,10) 87 83 [10,20) 90 85 [20,30) 81 83 (7) [30,40) 70 75 [40,50) 53 60 [50,60) 45 55 [60,70) 20 32 [70,80) 8 15
Fig. 15. Reprezentarea grafică a celor două serii statistice (6) Din histogramele celor două serii statistice se pot trage anumite concluzii: • Numărul persoanelor de sex masculin este mai mare ca numărul
pesoanelor de sex feminin la vârste mai mici • Pe măsura înaintării în vârstă raportul se schimbă în favoarea persoanelor de sex feminin. • O concluzie posibilă ar fi că mortalitatea la persoanele de sex masculin este mai ridicată decât la cele de sex feminin. (Desigur o asemenea concluzie nu poate fi validată doar pe seama unei mici localităţi).
Constantin Pătrăşcoiu
23
Fie o seria statistică cu caracteristică continuă
m
mm
nnn
bababa
efectiv
clasa
...
),[...).[),[
21
2211
şi ),[ kk ba o clasă a sa.
Dacă kf este frecvenţa relativă a clasei ),[ kk ba ; ka este marginea
inferioară şi kb este marginea superioară a clasei ),[ kk ba ,
mk ,...,2,1= ; atunci: kkk ab −=δ se numeşte diametrul clasei ),[ kk ba ;
2
kk
k
bax
+= se numeşte centrul (valoarea centrală) a
clasei ),[ kk ba ;
k
k
k
fd
δ= se numeşte densitatea de fecvenţă a
clasei ),[ kk ba .
Histograma seriei fecvenţelor asociate seriei date se poate obţine construind dreptunghiuri cu baza kδ şi înălţimea kd .
. Fig. 16. Histograma frecvenţelor unei serii cu caracteristică continuă
Constantin Pătrăşcoiu
24
5. ELEMENTE DE CARACTERIZARE A SERIILOR
STATISTICE DE O VARIABILĂ.
Diferitele reprezentări grafice ale seriilor statistice de o variabilă ,deşi sugestive nu pot fi utilizate cu uşurinţă în calcule ulterioare sau în compara-rea seriilor statistice, rol ce revine mărimilor ce vor fi introduse în continu-are şi care vor permite caracterizarea acestora.
5.1. Modulul sau dominanta unei serii statistice
Definiţie :Fiind dată o serie statistică de o variabilă, se numeşte modulul sau dominanta sa,valoarea (sau clasa) caracteristicii care corespunde celui mai mare efectiv. Observaţie. O serie statistică de o variabilă poate să aibă mai multe module sau dominante.Această mărime prezintă interes dacă seria respectivă are dominantă unică. În cazul cînd aceasta este o clasă, această clasă se înlocuieşte uneori cu valoarea sa centrală. Exemple. Fie seriile statistice date de tabelele:
valoare
efectiv
1 2 3 4 5 6 7 8 9 10
0 0 1 3 4 5 7 9 5 2
clasa
efectiv
[521,522)[522,523)[523,524)[524,525)[525,526)[526,527)[527,528)
2 0 1 4 10 3 1
Prima are dominanta 8, cea de-a doua are dominanta [525,526) (sau valoarea sa centrală 525,5) Seria statistică dată de tabelul:
valoare
efectiv
1 2 3 4 5 6 7 8 9 10
0 2 7 4 1 7 1 3 5 7
are mai multe dominante şi anume 3, 6 şi 10.
Constantin Pătrăşcoiu
25
5.2. Mediana unei serii statistice de o variabilă.
Definiţie. Mediana unei serii statistice de o variabilă este o valoare m care împarte seria respectivă în două grupe de acelaşi efectiv: -valorile mai mici sau egale ca mediana m; -valorile mai mari sau egale ca mediana m. Dacă seria statistică este numerică discretă având n valori nxxx ,....,, 21
(nu toate distincte), ordonate crescător, atunci mediana sa va fi dată de formula:
+=
+
+
parnpentruxx
imparnpentrux
mediana
nn
n
,2
1
2
1
,
122
2
1
Dacă caracteristica este continuă clasa mediană este prima clasă din seria efectivelor cumulate, care conţine cel puţin jumătate din numărul indivizilor. Mediana unei astfel de serii se poate găsi prin interpolare. Observaţie. Dacă seria statistică are un număr impar de valori atunci există o singură mediană. Dacă seria statistică are un număr par de valori atunci există două mediane care de obicei (dacă sunt diferite) se înlocuesc cu media lor aritmetică. Exemplu. Fie seria statistică:
7,8,9,9,10,10,11,12,13,14,14,15,17; constituită din vârsta în ani ai unui grup de 13 băieţi ai unei şcoli şi seria statistică: 7,7,9,9,10,11,12,13,13,13,14,14,15,15; constituită din vârsta în ani ai unui grup de 14 fete ale aceleiaşi scoli.
Constantin Pătrăşcoiu
26
Seria statistică a vârstei băieţilor are o singură mediană 11, iar a fetelor două mediane 12 şi 13 care se înlocuesc cu media lor aritmetică 12,5. Exemplu. Fie seria statistică reprezentând notele unei grupe de 22 de studenţi la un examen:
nota 3 4 5 6 7 8 9 10 efectiv 2 1 3 4 3 2 5 2
Seria de mai sus înainte de gruparea datelor a fost:
Deci mediana acestei serii este 7. Observaţie. In cazul în care aeria are multe valori se poate folosi si seria efectivelor cumulate care ne poate conduce la determinarea medianei
Constantin Pătrăşcoiu
27
Observaţie: Mediana unei serii cu caracteristică continuă se consideră numărul obţinut cu ajutorul unei interpolări liniare ca în exemplul următor: Fie seria statistică de o variabilă cu caracteristică continuă dată de tabelul:
clasa
efectiv
[20,23) [23,26) [26,29) [29,32) [32,35) [35,38)
30 74 26 20 56 14
Seria efectivelor cumulate va fi:
Jumătate din efectiv fiind 110 clasa mediană va fi [26,29)
Presupunând că avem o creştere direct proporţională a efectivelor în raport cu valorile caracteristicii obţinem:
La creşterea efectivului cu 130-104 corespunde creşterea valorilor caracteristicii cu 29-26. Atunci la o creştere cu 110-104 a efectivelor corespunde o creştere cu
(110 104 )(29 26 )
130 104
− −
−= ≈
18
260 61. a valorilor caracteristicii.
Deci mediana m = 26+0.61=26.61 Observaţie. Procedeul de mai sus se numeşte interpolare liniară. Geometric avem urmatoarea situaţie:
104
110
130
26 29
A
M
B
µ Fig. 17. Interpretarea geometrică a interpolării liniare.
Constantin Pătrăşcoiu
28
Dreapta AB are ecuaţia y x−
−=
−
−
104
130 104
26
29 26
Punctul M de coordonate (m,110) aparţine dreptei AB pentru y =110
61.2626104130
)2629)(104110(
2629
26
104130
104110=+
−
−−=⇒
−
−=
−
−⇒ µ
µ
Observaţie. Efectuând un calcul similar cu cel precedent pentru cazul general găsim: Mediana
k
k
kkkn
CN
xxx
−++= +
2)( 1µ ,
unde N este efectivul total, ),[ 1+kk xx este calasa mediană, kC
efectivul cumulat inferior lui kx ; kn este efectivul clasei mediane.
5.3.Valoarea medie a unei serii statistice de o variabilă Fie o serie statistică de o variabilă cu caracteristică numerică
discretă dată de tabelul:
valoare x1 x2 … xm (8) efectiv n1 n2 … nm
Definiţie. Valoarea medie a seriei de mai sus este numărul:
m
mm
nnn
nxnxnxx
+++
+++=
...
...
21
2211 (9)
Propoziţie. Valoarea medie a seriei (8) poate fi dată de formula:
i
m
i
i fxx ∑=
=1
(10)
unde fi sunt frecvenţele relative ale valorilor xi (i=1,2,3,4,…,m). Demonstraţie: Fie mnnnN +++= ...21 efectivul total al populaţiei
şi fi = in
N , (i = 1, 2, . . . , m) frecvenţele relative.
Constantin Pătrăşcoiu
29
Atunci : i
m
i
i
im
i
i
m
i
ii
fxN
nx
N
nx
x ∑∑∑
==
= ===11
1 .
Observaţie. Putem spune că valoarea medie este suma tuturor valorilor seriei (înainte de gruparea lor) împărţită la efectivul total întrucât:
N
xxxxxxxxxx
orinde
mmm
orindeorinde m
)....(...)....()....(21
222111 ++++++++++++=
Observaţie. Pentru calcularea valorii medii în cazul seriilor cu caracteristică continuă dacă se poate reveni la datele iniţiale obţinându-se o caracteristică discretă se poate aplica procedeul precedent. Acest lucru nu este totdeauna posibil şi nici usor. În practică se găseşte o valoare apropiată de valoarea medie înlocuind clasele cu valorile lor centrale(media aritmetică a capetelor intervalelor respective ) obţinându-se o serie statistică cu caracteristică discretă căreia îi putem calcula cu formula (8) sau (9) valoarea medie.
Exemple. 1. Pentru seria statistică de o variabilă dată de tabelul:
valoare
efectiv
1 2 3 4 5 6 7 8 9 10
0 0 1 3 4 5 7 9 5 2
valoarea medie este 6,936
251==x .
2. Pentru seria statistică de o variabilă dată de tabelul:
clasa
efectiv
[20,23) [23,26) [26,29) [29,32) [32,35) [35,38)
30 74 26 20 56 14
Constantin Pătrăşcoiu
30
Valorile centrale sunt: 21,5 ; 24,5 ; 27,5 ; 30,5 ; 33,5 ;36,5 . ătunci valoarea medie este:
220
1436.55633.52030.52627,57424,53021,5 ×+×+×+×+×+×≈x =51,45
3. Să se calculeze vârsta medie a pacienţilor dintr-o staţiune balneară dacă situaţia acestora eset dată de tabelul: Vârsta [55,60) [60,65) [65,70) [70,75) [75,80) [80,85) Efectiv 130 200 320 240 270 160 Cum valorile centrale ale claselor sunt respectiv: 57,5; 62,5; 67,5; 72,5; 77,5; 82,5, vârsta medie este cu aproximaţie de o zecime:
5,70160270240320200130
5,821605,772705,722405,673205,622005,57130=
+++++
×+×+×+×+×+×
Observaţii.
Modulul(sau dominanta) unei serii statistice de o variabilă se calculează uşor dar are inconvenientul că depinde de gruparea datelor.
Mediana unei serii statistice se calculează relativ uşor, dar are
inconvenientul că nu depinde strict de situarea indivizilor în clase (de exemplu, în stinga sa ,dacă mutăm indivizi dintr-o clasă în alta mediana nu-şi schimbă valoarea. Ea este puţin sensibilă la variaţiile de amplitudine ale valorilor(claselor) caracteristicii.
Valoarea medie se calculează uşor şi răspunde principiului
celor mai mici pătrate dar este puternic influenţată de valori extreme şi nu reprezintă bine o populaţie eterogenă (polimodală).
Modulul Mediana şi Valoarea medie se mai numesc indicatori de
poziţie.
Constantin Pătrăşcoiu
31
Fig. 18. Indicatori de poziţie: Modulul Mediana şi Valoarea medie.
5.4. Compararea indicatorilor de poziţie.
AVANTAJE INCONVENIENTE
Modulul
- Nu este influenţat de valorile extreme ale variabilei statistice (caracteristicii). - Calculabilă pentru caracteristici ciclice(sezon, etc.) unde valoarea medie are semnificaţie redusă. - Este un bun indicator al unei populaţii eterogene (neomogene)
- Se pretează slab la calcule statistice. - Este prea sensibil la variaţiile de amplitudine ale valorilor(claselor) caracteristicii. - Determinarea sa nu ţine cont decât de indivizi pentru care valorile caracteristicii sunt apropiate de modulul seriei.
Mediana - Nu este influenţat de valorile extreme ale variabilei statistice (caracteristicii). - este puţin sensibilă la variaţiile de amplitudine ale valorilor (claselor) caracteristicii. - Calculabilă pentru caracteristici ciclice (sezon, etc.) unde valoarea medie are semnificaţie redusă.
- Se pretează slab la calcule statistice. - Presupune echi-repartiţii de date. - Nu reprezintă decât valoarea care împarte populaţia în două părţi egale
Valoarea
medie
- Se calculează uşor. - Răspunde principiului celor mai mici pătrate.
- Este puternic influenţată de valori extreme. - Nu reprezintă bine o populaţie eterogenă (polimodală).
Constantin Pătrăşcoiu
32
Observaţie. Modulul, mediana şi valoarea medie nu sunt suficiente pentru caracterizarea seriilor statistice după cum rezultă din urmatorul exemplu. Exemplu. Fie seriile statistice de o variabilă date de următorul tabel :
Reprezentarea lor grafică este:
1
2
3
4
1
2
3
4
5 6 7 8 9 10 11 12 13 14 15 16 17
seria 1
seria 2
Fig. 19. Reprezentarea grafică a seriilor (11). Cele două serii au:
acelaşi modul 10; aceeaşi mediană 10; aceeaşi valoare medie 10,2.
Totuşi cele două serii sunt diferite. Valorile primei serii sunt mai dispersate decît valorile celei de-a doua serii.
Constantin Pătrăşcoiu
33
5.5. Quantile
Definiţie. Se numeşte quantilă de ordin p ( ]1,0[∈p ) cantitatea
{ }pxFxq p ≥= )(inf unde F este curba frecvenţelor cumulate
crescător (sau funcţia de repartiţie empirică).
Pentru 2
1=p se obţine mediana.
Dacă F şi p sunt date în procente qantilele se numesc percentile.
Deci, percentila p este acea valoare sub care se află p% din cazuri şi deasupra căreia se află (100-p)% din cazuri. De exemplu, mediana este percentila 50%. Cele mai cunoscute quantile sunt quartilele, quintilele şi decilele. Quartilele sunt acele valori ale seriei de date care o împart în patru părţi egale.
Quintilele sunt sunt acele valori ale seriei de date care o împart în cinci părţi egale. Decilele sunt acele valori ale seriei de date care o împart în 10. Sub prima quartilă Q1 se află 25% din valori , iar deasupra ei 75%. Sub a doua quartilă Q2 se afla 50% din valori, de unde reiese ca această quartilă este chiar mediana. Sub a treia quartilă Q3 se află 75% din valori, iar deasupra ei se află 25% din valori. Deci există numai 3 quartile (Q1, Q2 şi Q3), deoarece pentru a împărţi o serie de date în m părţi egale sunt suficiente m-1 valori.
Constantin Pătrăşcoiu
34
Exemplu. Timpul pentru micul dejun a 16 persoane a fost: 16 12 1 9 17 19 13 10 4 8 7 8 14 12 14 9 Determinaţi mediana, valoarea medie, prima şi a treia quartilă. Rearanjăm valorile seriei în ordine crescătoare: 1 4 7 8 8 9 9 10 12 12 13 14 14 16 17 19
• Mediana acestei serii este 112
1210=
+(jumătate din persoane
consacră cel mult 11 minute micului dejun). • Valoarea medie este 10,8125, deci în medie timpul alocat
micului dejun este 10,8125 minute. • 25% din 16 este 4 şi deci prima quartilă este a patra valoare a
seriei, deci Q1 = 8 • 75% din 16 este 12 şi deci a treia quartilă este a doisprezecea
valoare a seriei, deci Q3 = 14
5.6. Dispersia. Abaterea medie pătratică. Coeficient de variaţie
Definiţie. Fiind dată seria statistică de o variabilă cu caracteristică numerică discretă:
valoare x1 x2 … xm
efectiv n1 n2 … nm
se numeşte dispersie numărul :
N
nxxnxxnxx mm ⋅−++⋅−+⋅−=
22
221
212 )(...)()(
σ
.
Constantin Pătrăşcoiu
35
În cazul seriilor statistice de o variabilă cu caracteristică continuă, dispersia este dată de formula precedentă, în care, numerele xi sunt valorile centrale ale claselor. Propoziţie: Dispersia seriei statistice din definiţie se poate calcula cu
formula: i
m
i
i fxx2
1
2 )( −= ∑=
σ
Demonstraţie:
∑∑∑
==
= ⋅−=⋅−=
⋅−
=m
i
ii
m
i
i
i
m
i
ii
fxxN
nxx
N
nxx
1
2
1
21
2
2 )()()(
σ
Definiţie: Se numeşte abatere medie pătratică numărul: 2σσ =
Definitie: Se numeşte abatere medie numărul: xxnN
A i
m
i
i −= ∑=1
1
Remarcă. Dispersia, abaterea medie şi abaterea medie patratică caracterizează imprăştierea valorilor caracteristicii în jurul valorii medii. Cu cât acestea sunt mai mici cu atât valorile caracteristicii sunt mai aproape de valoarea medie.Abaterea medie pătratică are avantajul că se exprimă în aceleaşi unităţi ca şi valorile caracteristicii. Exemplu.
Pentru calculul dispersiei seriei statistice de o variabilă dată de tabelul:
valoare 1 2 3 4 5 6 7 8 9 10 efectiv 0 0 1 3 4 5 7 9 5 2
vom calcula valoarea medie:
9,636210599877565534130201
=×+×+×+×+×+×+×+×+×+×
=x
şi vom aranja datele într-un tabel de forma:
Constantin Pătrăşcoiu
36
x i n i f i x i - x__
(x i - x_
)2
(x i - x_
)2
f i
-17936
-14336
-10736
-7136
-3536
36
3736
7336
10936
14536
1
1
2
3
4
5
6
7
8
9
10
320411296
20449129611449
1296
50411296
12251296
1 1296
13691296
53291296
118811296
210251296
0
0
1144946656
1512346656
4900 46656
5 46656
9583 46656
4796146656
5940546656
4205046656
0
0
0
0
1 36
3 36
4 36
5 36
7 36
9 36
5 36
2 36
1
3
4
5
7
9
5
2
Adunînd rezultatele ultimei coloane obţinem: σ2 = 4,08 şi deci abaterea medie pătratică va fi :σ =2,02. Propoziţie. Pentru orice serie statistică cu caracteristică numerică
avem: ∑=
−=m
i
ii xxnN 1
22 )(1
σ
Demonstraţie:
=
=
+
=
−
=
=
=+−
=
=
=
=
∑∑∑
∑∑ −
x
m
i
n iNx ix
m
i
n iNx i
m
i
n iN
xx ix i
m
i
n iN
m
i
n iNxxx i
2
1
1
1
122
1
1
)22(
1
1(
1
12 22)σ
Constantin Pătrăşcoiu
37
xxi
m
i
niNxxxi
m
i
niN
m
i
nixN
xi
m
i
niNxxi
m
i
niN
22
1
12222
1
1
1
21
1
122
1
1
−
=
=+−
=
=
=
=
+
=
−
=
=
∑∑
∑∑∑
Teoremă (Cristiaan Huyghens). Dispersia seriei statistice de o variabilă dată de tabelul:
valoare x1 x2 … xm
efectiv n1 n2 … nm
este egală cu 22 xx − unde am notat cu 2x valoarea medie a seriei
frecvenţelor asociată seriei dată de tabelul:
valoare x12 x2
2 … xm
2
efectiv n1 n2 … nm
Demonstraţie: Din propoziţia precedentă
xxxxi
m
i
fixxi
m
iN
nixxi
m
i
niN
2222
1
22
1
22
1
12 −=−
=
=−
=
=−
=
= ∑∑∑σ
Lăsăm ca exerciţii demonstrarea următoarelor teoreme: Teoremă. Dispersia seriei statistice de o variabilă dată de tabelul:
valoare x1 -a x2 -a … xm-a
efectiv n1 n2 … nm
nu depinde de numărul real a. Teoremă. Dispersia seriei statistice de o variabilă dată de tabelul:
Constantin Pătrăşcoiu
38
valoare
efectiv
1β
( x1 - α ) 1β
( x2 - α) . . . . . . . . . . 1β
( xm - α)
n1 n2 . . . . . . . . . . nm
este egală cu 0,,,21≠∈∀ ββασ
βR unde σ
2 este dispersia seriei
statistice dată de tabelul: valoare x1 x2 … xm
efectiv n1 n2 … nm
Consecintă. Abaterea medie patratică a seriei din teorema precedentă
este 1
βσ
Coeficientul de variaţie al unei serii statistice având abaterea medie pătratică σ (dispersia 2σ ) şi valoarea medie x este un indice de
dispersie relativ notat:
x
CVσ
= , sau exprimat în procente x
CVσ100
% = .
Evident, cu cât CV este mai mic cu atât valorile seriei sunt mai grupate(mai puţin împrăştiate). Coeficientul de variaţie are avantajul că este independent de unităţile de măsură, ceea ce permite comparaţii între diverse serii statistice. Exemplu. Pentru seria notelor oţinute de o grupă de studenţi dată de
Notă 1 2 3 4 5 6 7 8 9 10 Nr. note 0 0 1 3 4 5 7 9 5 2
am calculat abaterea medie pătratică σ =2,02 şi valoarea medie 9,6=x . Atunci coeficientul de variaţie al acestei serii este
275,299,6
02,2100100% =
×==
xCV
σ%
Constantin Pătrăşcoiu
39
5.7. Coeficienţi de asimetrie O serie statistică se numeşte simetrică dacă: modulul, mediana şi valoarea medie coincid.
Fig. serie statistică simetrică. O serie statistică se numeşte alungită la dreapta sau pozitiv dacă : modulul < mediana < valoarea medie.
Fig serie statistică alungită la dreapta
O serie statistică se numeşte alungită la stânga sau negativ dacă : valoarea medie< mediana <modulul.
Constantin Pătrăşcoiu
40
Fig serie statistică alungită la stânga
Există mai mulţi indicatori care permit stabilirea asimetriei unei serii statistice. Cel mai cunoscut este coeficientul de asimetrie al lui
Pearson ( PCA ),dat de formula: σ
mod−=
xCAP , unde x este
valoarea medie, mod este modulul sau dominanta seriei şi σ este abaterea medie. Semnul său ne indică semnul coborârii. Dacă cunoaştem quartile ( 321 ,, QQQ ) se poate utiliza coeficientul de
asimetrie inter-quartile: 13
1223 )()(
QQQQCIQ
−
−−−= . Interpretarea
sa este dată de distanţele intrer-quartile a şi b, conform figurii:
Fig.
Constantin Pătrăşcoiu
41
<<
==
>>
=+
−=
abpentru
abpentru
abpentru
ba
abCIQ
0
0
0
Distribuţii teoretice. Să ne imaginăm că dispunem de o populaţie infinită şi putem diminua diametrele claselor frecvenţelor relative până la valori oricât de mici. Atunci putem face ipoteza că histograma frecvenţelor tinde către o distribuţie teoretică determinată de o curbă, grafic al unei funcţii )(xf . In figurile următoare am reprezentat grafic această situaţie.
Constantin Pătrăşcoiu
42
Fig. Dacă avem o distribuţie teoretică, aria cuprinsă între două valori a şi b, reprezintă proporţia din populaţie având un scor cuprins între a şi b (figura următoare).
Dacă )(xf reprezintă densitatea de frecvenţă teoretică, frecvenţa
clasei [a,b] este dată de ∫b
a
dxxf )(
Vom vedea că o condiţie necesară ca o curbă să fie o densitate statistică este ca aria dintre curbă şi axa ox să fie 1, adică
1)( =∫+∞
∞−
dxxf
Vom studia în capitolele următoare mai multe densităţi teoretice. PROBLEME
1. La un test elevii unei clase au obţinut notele: 8 , 6 , 9 , 8 , 7 , 5 , 3 , 4 , 10 , 2 , 9 , 6 , 6 , 9 , 7 , 7 , 6 , 7 , 5, 9 , 8 , 7 , 6 , 4 , 3 , 7 , 9 , 10 , 9 8 , 7 , 8 . Se cere:
a. Modulul şi mediana seriei; b. Valoarea medie x a seriei;
Constantin Pătrăşcoiu
43
c. Abaterea medie pătratică a seriei; d. Ce procentaj de note corespunde intervalului x 2 , x 2− +σ σ ?
e. Ce procentaj de note corespunde intervalului x 3 , x 3− +σ σ ?
Observaţie. În foarte multe cazuri ,în tehnică seriile statistice au o distribuţie normală ( Laplace-Gaus) după care:
68,27 00 din efectiv corespunde intervalului x x− +σ σ, ;
95,45 00 din efectiv corespunde intervalului x x− +2 2σ σ, ;
99,73 00 din efectiv corespunde intervalului x x− +3 3σ σ, ,
s fiind abaterea medie pătratică a seriei respective.
2. Înăltimea medie a 32 de elevi ai unei clase este de 173 cm. În această clasă vin încă trei elevi de înălţimi:170 , 177 si 165. Care este înălţimea medie a celor 35 de elevi ?
3.La un concurs de matematică un lot de 100 de concurenţi au obţinut la cele patru probleme notele date în tabelul următor:
Problema 1
Problema 2
Problema 3
Problema 4
5 6 7 8 9 10
1 4 20 30 40 5
32 41 12 6 3 6
2 3 12 30 28 25
6 15 9 12 40 18
Nota obþinutã
-Să se reprezinte grafic cele patru serii statistice obţinute; -Să se calculeze valoarrea medie a celor patru serii şi să se compare rezultatele obtinute;
-Să se calculeze dispersiile şi să se constate că, deşi două serii au valori medii apropiate, valorile lor sunt "împrăştiate" de o manieră diferită.Cum sunt dispersiile acestora ?
Constantin Pătrăşcoiu
44
4.Ce se poate spune despre o serie statistică de abatere medie patratică nulă ?
5.Măsurile în milimetri pentru diametrele unui eşantion de 228 de bile fabricate de o maşină au fost grupate, rezultatele fiind date de tabelul următor :
clasa
efectiv
[3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11) [11,12) [12,13)
2 3 8 25 37 62 66 21 6 4
a) Să se determine valoarea medie x si abaterea medie pătratică. b) Cât la sută din bile au diametrul situat în intervalul
[ ]σσ 2,2 +− xx c) Să se construiască histograma frecvenţelor cumulate.
6. EŞANTIONARE
Sunt situaţii în care studiul caracteristicii indivizilor poate conduce la distrugerea acestora. De exemplu în studiul de laborator a duratei de funcţionare a bateriilor sau a becurilor electrice se produce consumarea (distrugerea) acestora. Dacă populaţia statistică are un număr foarte mare de indivizi sau dacă studiul caracteristicii indivizilor produce distrugerea lor, se înlocuieşte populaţia statistică cu o submulţime a sa. O submulţime a populaţiei statistice folosită în studiul statistic al unui fenomen se numeşte eşantion.
Procedeul statistic prin care prelevăm o parte din populaţia intrată în studiu, se numeşte sondaj statistic sau selecţie. Rezultatul acestei operaţiuni este deci eşantionul.
Constantin Pătrăşcoiu
45
Datorită unor costuri ridicate necesare studiului fiecărui individ al unei populaţii numeroase sau în situaţia când un astfel de studio nu este posibil, suntem obligaţi să alegem un eşantion reprezentativ de aşa manieră, încât rezultatele obţinute să poată fi extinse asupra întregii populaţii. Capacitatea unui eşantion de a reflecta cât mai fidel structurile şi caracteristicile populaţiei din care a fost extras, se numeşte reprezentativitate. Procesul prin care rezultatele obţinute din studiul eşantionului se extind asupra întregii populaţii se numeşte inferenţă statistică. Gradul de reprezentativitate al unui eşantion este măsurat de două mărimi:
eroarea maximă; intervalul de încredere. Eroarea maximă, notată cu d, exprimă diferenţa maximă acceptabilă între o valoare ve , dată de eşantion şi valoarea teoretică v (dată de populaţia totală). Deci )max( vvd e −=
Intervalul de încredere este intervalul ),( dvdv +− Dacă pentru o anumită caracteristică, valoarea teoretică v segăseşte în interiorul intervalului ),( dvdv +− , atunci, pentru această caracteristică a populaţiei, eroarea maximă admisă nu este atinsă, iar eşantionul este valid din acest punct de vedere. Reprezentativitatea este o calitate esentială pe care eşantionul trebuie să o aibă. Ea constă în capacitatea eşantionului de a reproduce cât mai fidel structurile si caracteristicile populatiei din care este extras. Reprezentativitatea este o noţiune relativă, în sensul că un eşantion este mai reprezentativ sau mai puţin reprezentativ decât altul în funcţie de eroarea maximă admisă. Dacă pentru o aceeaşi
Constantin Pătrăşcoiu
46
caracteristică, eroarea d este mai mică intr-un eşantion, atunci acest eşantion est mai reprezentativ. Reprezentativitatea creşte odată cu creşterea volumului eşantionului. Se constată totuşi că peste o anumită limită, cresterea în volum a esantionului nu mai este justificată de ameliorarea reprezentativităţii. Mărimea populaţiei nu intervine direct în mărimea şi reprezentativitatea eşantionului. Factori care determină sau influenţează marimea eşantionului:
• timpul, banii şi personalul de care se dispune; • omogenitatea populatiei, adica gradul in care indivizii sunt
asemanatori cu referire la caracteristicile comunitatii studiate; • mărimea eşantionului; • procedura de eşantionare folosită.
Pentru caracterizarea nivelului de omogenitate al populaţiei se utilizează abaterea standard, care măsoară nivelul de dispersie al indivizilor în jurul mediei. După modul cum se realizează eşantioanele sunt de două feluri:
• aleatoate (sau probabilistice) cu posibilitatea aplicării calculului probabilităţilor în evaluarea rezultatului.
• nealeatoare (neprobabilistice) Eşantionarea este aleatoare atunci când cunoaştem probabilitatea(nenulă) ca fiecare individ din populaţie să facă parte din eşantion, alegerea indivizilor în eşantion făvându-se în mod aleator. Cel mai frecvent caz este acela în care toţi indivizi au şanse egale de a face parte dintr-un eşantion. Dacă alegerea în eşantion a indivizilor unei populaţii se face pe baza unor criterii şi nu în mod aleator, eşantionarea este nealeatore. Eşantioanele nealeatoare pot fi dirijate şi mixte. Reprezentativitatea eşantionului se poate calcula doar în cazul eşantioanelor probabilistice. Chiar dacă procedura folosită nu e strict
Constantin Pătrăşcoiu
47
aleatoare, introducerea unor elemente de selectie are efecte benefice, pentru că înlatură în bună parte distorsiunile. In concluzie, un esantion este condiderat bun dacă: - ofera posibilitati de determinare a numarului de subiecti necesar; - specifica probabilitatea ca fiecare individ din populatie să poată fi inclus în esantion; - dă posibilitatea estimării erorii de esantionare; - permite determinarea gradului de incredere pe care-o putem avea în estimările populatiei eşantionului.
6.1. Moduri de eşantionare
Esantionarea este metoda prin care putem deduce caracteristicile unei populatii intregi, interogand doar cativa indivizi din aceasta.
1.Eşantionarea simplu aleatoare are la bază principiul loteriei sau utilizarea de tabelele cu numere aleatoare. Este procedura cea mai simplă deoarece nu presupune operaţii prealabile de grupare a indivizilor sau de repetare a selectiei. Indivizii componenti ai eşantionului sunt aleşi cu aceeaşi probabilitate. Există două proceduri de esantionare simplă aleatoare: a). Procedura loteriei sau a "tragerii la sorţi" (pentru populaţii cu număr relativ mic de indivizi), constând în extragerea dintr-o urna a unor bile identice reprezentand elementele populatiei; se extrag bile până se obtine eşantionul de mărimea proiectată. Acest procedeu are doua variante: - cu reintoarcerea bilelor (sondaj repetat); - fără reintoarcerea bilelor (sondaj nerepetat). Dacă populaţia are un număr mare de indivizi cele două variante conduc aproape la acelaşi rezultat. b). Procedeul tabelului cu numere aleatoare. Acest tabel se alcatuieste cu ajutorul unui program de generat numere aleatoare. . Procedeul este o varianta de selectie probabilistică.
Constantin Pătrăşcoiu
48
Populaţia Numere generate aleator Eşantion obţinut 3, 5, 7, 8, 10, 15, 16
Fig. 20. Eşantionarea prin numere aleatoare.
2.Eşantionarea prin stratificare se efectuează în populaţii neomogene, alcătuite din subpopulaţii omogene sau straturi. Criteriile de determinare a structurilor sunt:
• calitative; • cantitative.
După delimitarea straturilor: kSSS ,...,, 21 de volume
respectiv kNNN ,...,, 21 se extrag în mod simplu aleator k –
subeşantioane de volum: knnn ,...,, 21 . Aceste volume se extrag
fiecare din stratul corespunzător, şi sunt proporţionale cu mărimea
stratului respective.k
k
n
N
n
N
n
N=== ....
2
2
1
1
Se poate demonstra că dintre două eşantioane de volum egal, cel realizat prin stratificare are o reprezentativitate mai mare decât cel obţinut printr-o tehnică simplă aleatoare. Populaţia Se extrag aleator din stratul I, Eşantion (împărţită în straturi) 4 indivizi din II, 3 indivizi….. obţinut
Fig. 21. Eşantionarea prin stratificare
Constantin Pătrăşcoiu
49
3. Eşantionarea multistadială (cluster sau grupală) presupune o grupare a populaţiei după anumite criterii ( de ex. arii geografice, culturale, etc.), în funcţie de motivul eşantionării. În cadrul acestor arii, de exemplu dacă este vorba de sondaje de opinie, se selectează un număr de localităţi, în cadrul acestora se selectează un număr de străzi, etc.nSe poate arăta că un eşantion multistadial este mai puţin reprezentativ, la volume egale, decât unul simplu aleator, dar comportă un cost mai scăzut. Populaţia Selecţie aleatoare a grupurilor Eşantion obţinut (în grupuri) şi apoi a indivizilor
Fig. 22. Eşantionarea multistadială (cluster sau grupală).
4. Eşantionarea sistematică constă în întocmirea unei liste a indivizilor (parţială sau totală) din care eşantionul este extras prin pas de numărare cu start aleator, fiecare individ având aceeaşi şansă de a fi luat ca origine a startului. Populaţia Selecţie prin pas de numărare Eşantion obţinut (listă) cu punct de start aleator I
Fig. 23. Eşantionarea sistematică
Constantin Pătrăşcoiu
50
4. Eşantionarea multifazică constă în alegerea unui eşantion mare, la nivelul căruia se aplică un instrument de cercetare mai simplu; acest eşantion se supune unor operaţii succesive de eşantionare obţinându-se straturi din ce în ce mai mici, cărora li se aplică metode mai elaborate. 5. Eşantionarea pe cote (nealeatoare) presupune gruparea populaţiei după câteva caracteristici şi apoi se determină mărimea subeşantioanelor. 6. Eşantioane fixe (panel). Acestea, odată fixate, suntn supuse unor investigaţii repetate cu acelaşi chestionar. Se urmăreşte schimbările care se petrec în cadrul populaţiei. Prezintă dezavantajul une uzurii morale.
7. SONDAJE
Pentru realizarea unei cercetări statistice pe bază de sondaj se pune problema alegerii unei metode de sondaj convenabilă. Metode le de sondaj sunt strâns legate de problemele specifice legate de eşantionare, estimare, reprezentativitate şi precizie. Gruparea metodelor de sondaj se realizează în funcţie de principiul de extragere a eşantionului. Din punct de vedere practic însă, alegerea uneia dintre metode ridică dificultăţi şi solicită utilizarea unui ansamblu de criterii pentru a decide ce metodă de sondaj se va utiliza într-un caz concret anume. Populaţiile statistice sunt populaţii reale, adică sunt finite şi permit calculul volumului acestora şi sunt alcătuite din unităţi individuale identificabile. În majoritatea cercetărilor pe bază de sondaj există posibilitatea stabilirii naturii, a caracteristicilor intrinseci, a spaţiului şi a timpului de manifestare a fenomenului real studiat, deci a tuturor caracteristicilor de definire a populaţiei statistice.
Constantin Pătrăşcoiu
51
Există însă şi situaţii când evaluare populaţiei ridică probleme de tipul: -evaluării volumului; -delimitării unităţilor individuale; -stabilirii caracteristicilor de definire a populaţiei din punct de vedere calitativ, spaţial şi temporar. În realizarea unui sondaj, după definirea populaţiei, o problemă esenţială este definirea eşantionului. Această operaţie vizează în mod deosebit culegerea datelor, adică posibilităţile practice de a realiza observarea unităţilor statistice individuale. Metoda de sondaj se alege în funcţie de modul în care pot fi identificate unităţile individuale ca surse de date statistice. Aceste unităţi pot fi simple sau complexe şi pot fi identificate prin individualizare sau prin apartenenţa la un grup (cluster). În general, pentru studiul populaţiei nu există baze de sondaj cu unităţi individuale şi deci, obţinerea eşantionului presupune, în prealabil, extragerea unor unităţi complexe şi apoi identificarea unităţilor de observare, utilizând un plan de sondaj mai complex. Stabilirea volumul eşantionului reprezintă o altă problemă în realizarea unui sondaj. Se întâlnesc două situaţii: când volumul eşantionului este cunoscut sau fixat a priori şi situaţia când trebuie calculat sau estimat. Volumul eşantionului este fixat a priori din raţiuni metodologice, din restricţii economice sau este cunoscut din studii anterioare similare. În practică, în cazul sondajelor empirice, nu există nici o posibilitate de calcul a volumului eşantionului. Ca urmare, acesta este fixat a priori. De exemplu, în cazul unei anchete de opinie, dacă se utilizează sondajul pe cote, volumul eşantionului este aproximat la 1000 persoane. Volumul eşantionului poate fi fixat şi prin limitele impuse de buget. Dacă prin bugetul anchetei s-a stabilit un volum total al cheltuielilor C şi un cost unitar c pentru realizarea anchetei la nivelul unei unităţi
Constantin Pătrăşcoiu
52
individuale, volumul eşantionului se poate calcula prin
relaţia:c
Cn = . Acest volum al eşantionului, odată stabilit,
restricţionează posibilităţile de alegere a unei metode de sondaj. Calculul volumului eşantionului este posibil în cazul sondajelor aleatoare sau mixte. Dacă nu există constrângeri de cost, volumul eşantionului se determină în funcţie de gradul de precizie a rezultatelor. De exemplu, pentru o variabilă de interes, în cazul în care se doreşte să se estimeze o proporţie sau un procent, se poate calcula volumul eşantionului care estimează parametrul cu o eroare de ± 3%, pentru un nivel de încredere de 95% şi în ipoteza de maximă eterogenitate a populaţiei. În cazul unui sondaj aleator simplu, este necesar un eşantion de 1067 persoane pentru a asigura condiţiile de estimare precizate. Deşi pare de prisos, reluăm menţiunea că cei 1067 indivizi nu se aleg “la întâmplare”, ci în condiţiile riguroase ale extragerii aleatoare, utilizând baza de sondaj şi un algoritm de extragere construit cu ajutorul numerelor aleatoare. În practică, există tendinţa de a realiza sondajele în condiţii de cost fixate a priori. Odată fixat costul sau bugetul anchetei, se poate analiza ce tip de metodă de sondaj se poate aplica în respectivele condiţii economice. Costul diferă de la un tip de sondaj la altul. În cazul sondajului aleator, costul este ridicat, deoarece implică un efort financiar în plus pentru: baza de sondaj, informaţia suplimentară, culegerea şi prelucrarea datelor. Dacă se realizează un sondaj pe cote, de exemplu, costurile se pot reduce cu 20-25% sau chiar pot fi mai mici cu 50% faţă de cazul sondajului aleator.
Constantin Pătrăşcoiu
53
Într-un sondaj, costul şi precizia sunt într-o relaţie de interdependenţă directă: o precizie mai mare a rezultatelor presupune un cost mai ridicat. De regulă, în practică, trebuie rezolvată întotdeauna o dilemă: costul sau precizia? Alegerea unei metode de sondaj presupune rezolvarea acestei dileme. Uneori se stabileşte un grad de precizie şi o limită de cost, în funcţie de care se determină un volum al eşantionului. Alteori se stabileşte volumul eşantionului, un cost şi apoi se determină nivelul de precizie care poate fi atins. J. Neyman propune metoda alocării optimale într-un sondaj stratificat Această metodă presupune obţinerea unui eşantion care minimizează erorile în condiţii de cost date sau pentru un volum al eşantionului fixat. Se obţin relaţiile:
.
1
const
N
n
N
nN
h
hhhh
h ==
∑=
σσ
unde nh este eşantionul extras din stratul h, Nh este volumul stratului h, care are o abatere standard σ h , iar n este volumul eşantionului, iar
∑=
=N
h
h NN1
este volumul populaţiei totale.
În mod analog, dacă se consideră costul anchetei fixat dinainte, se poate realiza o alocare în funcţie de costul unitar de sondaj la nivelul fiecărui strat (ch):
.
1
const
cN
C
c
N
nN
h
hhh
h
hh
h ==
∑=
σσ
, unde ∑=
=N
h
hh Cnc1
reprezintă costul total al anchetei şi este fixat. Din relaţiile de mai sus, rezultă că din fiecare strat se va extrage un sub-eşantion cu atât mai mare cu cât: volumul stratului este mai mare, dispersia stratului este mai mare, costul unitar de anchetă din fiecare strat este mai mic. Limita acestor alocări optimale este determinată de cunoaşterea dispersiilor din fiecare strat, precum şi a costurilor unitare din fiecare strat. Soluţia la dilema cost-precizie
Constantin Pătrăşcoiu
54
conduce deseori la alegerea unei metode de sondaj empirice, care presupune costuri mai reduse şi un grad de precizie considerat a fi satisfăcător. . Unul din cele mai utilizate sondaje este sondajul de opinie. Metoda sondajului de opinie prezintă şi o serie de dezavantaje, dintre care cel mai important este acela că sondajele, de cele mai multe ori, nu surprind schimbările care se petrec în evoluţia unui fenomen social. Sondajele reflectă, de regulă, o situaţie de moment, ele fiind de fapt o radiografiere a fenomenului studiat la un moment dat fără să constate eventualele schimbări.. In cercetările sociologice predomină sondaje: pe cote, aleatoare şi mixte. Sondajul mixt face un compromis, efectuându-se o cotare pe câteva caracteristici iar în cadrul straturilor alegerea se efectuează aleator.. În cazul sondajelor de opinii, de cele mai multe ori se cere completarea unui chestionar .
8. SERII STATISTICE DE DOUĂ VARIABILE
8.1. Introducere
Fiind dată o populaţie formând obiectul unui studiu statistic, în funcţie de două sau mai multe caracteristici se constată că între acestea există uneori anumite legături. Exemple. • Luând populaţia statistică E, mulţimea noilor născuţi dintr-o maternitate şi caracteristicile :greutatea respectiv talia (lungimea) acestora se constată că între aceste caracteristici există o legătură care se doreşte a fi studiată. • Considerând populaţia statistică E, mulţimea autoturismelor prezentate la un târg internaţional şi caracteristicile:preţ,consum mediu de carburant, capacitate cilindrică etc. se constată anumite legături între aceste caracteristici care interesează cumpărătorii.
Constantin Pătrăşcoiu
55
Studiul legăturilor care există între mai multe caracteristici definite pe aceeaşi populaţie a condus la introducerea noţiunii de serie statistică de două sau mai multe variabile. In cele ce urmează ne vom ocupa numai de serii statistice de două variabile.
8.2. Serii statistice de două variabile. Definiţie.Exemple. Fie E o populaţie statistică. Reamintim că o caracteristică x poate fi considerată ca o funcţie definită pe mulţimea E, cu valori într-o mulţime dată V. x:E→ V
i∈E→x(i) = xi , ∀ i∈E (am notat xi valoarea caracteristicii x pentru individul i) Populaţia statistică este deobicei finită , ceea ce ne permite să renotăm elementele sale cu numere naturale, deci, fără a restrânge generalitatea, să considerăm populaţia statistică E={1,2,3,....,n}; n număr natural nenul. Definiţie. Fie E o populaţie statistică şi două mulţimi nevide U,V. Se numeşte serie statistică de două variabile o funcţie s definită pe E cu valori în produsul cartezian al mulţimilor U şi V. Deci s:E→U×V
i∈E → s(i) = (xi, yi)∈U×V , ∀ i∈E
Dacă U şi V sunt submulţimi ale mulţimii numerelor reale seria se numeşte numerică .
Vom considera în continuare numai serii statistice de două variabile, numerice. Observaţie. O serie statistică de două variabile este cunoscută dacă se cunosc valorile sale (perechile (xi, yi), i∈E).
Constantin Pătrăşcoiu
56
Propoziţie. Orice serie statistică s, de două variabile pe populaţia E, defineşte două caracteristici x, y pe E (deci două serii statistice de o variabilă) şi reciproc. Demonstraţie: Evident, dacă s:E→U×V i∈E → s(i)=(xi,yi)∈U×V, ∀ i∈E, atunci caracteristicile respective vor fi: x:E → U y:E → V
i→x(i) = xi i→y(i) = yi Analog, reciproca propoziţiei. Observaţie. Dacă E={1,2,3,...,n}, o serie statistică de două variabile pe E se poate da printr-un tabel de forma:
i 1 2 ............. n
xi x1 x2 ............. xn
yi y1 y2 .............. yn
Evident, putem să omitem prima linie a acestui tabel . Exemple. • 2.1.Măsurând viteza şi consumul de benzină la zece autoturisme
DACIA rulând cu viteze diferite se obţine seria statistică de două variabile dată de tabelul următor:
i 1 2 3 4 5 6 7 8 9 10
xi 10 20 30 40 50 60 70 80 90 100
yi 17 12 9 7,2 6,8 6,7 7 8 9 11
unde xi reprezintă vitezele în km/h, yi consumul de benzină în l/100km • 2.2. La un test de inteligenţă şi imaginaţie şase persoane au
obţinut punctajele date de tabelul:
Constantin Pătrăşcoiu
57
i 1 2 3 4 5 6 xi 25 40 10 20 35 30 yi 30 50 20 25 40 35
unde xi , yi este punctajul obţinut de persoana i la inteligenţă respectiv imaginaţie. Se obţine deci o serie statistică de două variabile. • 2.3.Studiind numărul de băieţi şi fete din 12 clase se obţine seria
statistică de două variabile dată de tabelul următor.
clasa 1 2 3 4 5 6 7 8 9 10 11 12 număr
băieţi 10 5 15 20 25 1 14 5 6 25 15 7
număr fete 15 25 15 4 3 29 14 26 20 5 15 20
8.3. Nor de puncte. Punct mediu
Definiţie. Fiind dată o serie statistică de două variabile,ale cărei valori sunt (xi, yi) i∈E; dacă xi , yi sunt reale mulţimea punctelor din plan de coordonate (xi,yi) i∈E se numeşte norul de puncte
corespunzător seriei statistice date. Definiţie. Fiind dată o serie statistică de două variabile,ale cărei valori sunt (xi,yi) , i∈E; dacă xi , yi sunt reale şi mulţimea E are n elemente punctul G(xg,yg) se numeşte punct mediu al norului corespunzător seriei statistice date, unde:
xn
x yn
yg i
i
n
g i
i
n
= == =
∑ ∑1 1
1 1
; .
Exemple. 3.1. Seriei dată de tabelul :
i 1 2 3 4 5 6 7 8 9 10
xi 10 20 30 40 50 60 70 80 90 100
yi 17 12 9 7,2 6,8 6,7 7 8 9 11
Constantin Pătrăşcoiu
58
are punctul mediu G(55;11,27) şi norul de puncte corespunzător în figura următoare:
Fig. 24. Norul de puncte al seriei 3.1 .
3.2. Pentru seria statistică dată de tabelul:
i 1 2 3 4 5 6 xi 25 40 10 20 35 30 yi 30 50 20 25 40 35
punctul său mediu este G(26,6;33,3) şi norul de puncte corespunzător:
Fig. 25. Norul de puncte al seriei 3.2
Constantin Pătrăşcoiu
59
3.3. Pentru seria statistică dată de tabelul:
clasa 1 2 3 4 5 6 7 8 9 10 11 12 număr băieţi 10 5 15 20 25 1 14 5 6 25 15 7 număr fete 15 25 15 4 3 29 14 26 20 5 15 20
punctul mediu este G(15;15,8) şi norul său :
Fig. 24. Norul de puncte al seriei 3.3
8.4. Problema ajustării
Find dată o serie statistică de două variabile şi norul său de puncte notat N (N={M(xi, yi) / i∈E} ), se pune problema găsirii unei funcţii y = f(x) al cărei grafic să “treacă cât mai aproape posibil”de punctele norului său (“să aproximeze cât mai bine” punctele norului său). Pentru norul din exemplul 3.2. se observă că se poate trasa o dreaptă “aproape” de punctele sale şi deci funcţia y = f(x) este liniară. Spunem că avem o ajustare liniară sau afină ;graficul său se numeşte dreapta de ajustare sau dreapta de regresie.
Constantin Pătrăşcoiu
60
Pentru norul din exemplul 3.1. “aproximarea punctelor sale “cu o dreaptă nu mai convine ;”aproximarea” se poate face mai degrabă cu o parabolă. Pentru norul din exemplul 3.3. problema ajustării este mai dificilă.
8.5. Ajustare liniară
În cele ce urmează ne vom ocupa de aproximarea norului de puncte asociat unei serii statistice de două variabile printr-o dreaptă . 7.5.1.Metoda grafică Această metodă constă în trasarea cu ajutorul unei rigle (de prefe-rinţă transparentă ) a unei drepte cît mai aproape de punctele norului. Metoda grafică este rapidă şi relativ precisă dacă norul nu este foarte dispersat.Are dezavantajul că depinde de operator, nu furnizează ecuaţia dreptei şi nu este posibilă pentru un nor foarte dispersat. 7.5.2. Metoda lui Mayer Fie Mi(xi, yi) , i =1,2,...,n ; punctele norului unei serii statistice de două variabile.Reamintim că punctul mediu al norului este
G
∑∑
==
n
i
i
n
i
i yn
xn 11
1,
1
Este normal să trasăm dreapta de ajustare prin punctul G. Pentru trasarea dreptei de ajustare mai avem nevoie de încă un punct. Metoda lul Meyer constă în împărţirea norului N în două submulţim de puncte disjuncte N1 , N2 ;de efective apropiate ; având punctele medii G1 şi G2.
Constantin Pătrăşcoiu
61
Dreapta de ajustare va fi dreapta determinată de punctele G1 şi G2. Această metodă are avantajul că nu necesită multe calcule şi dă posi-bilitatea scrierii ecuaţiei dreptei de ajustare(cunoscând două din puncte sale). Are dezavantajul că depinde de împărţirea norului în cele două submulţimi şi că trasarea dreptei de ajustare este dificilă dacă G1,G2 sunt foarte apropiate. 7.5.3. Metoda celor mai mici pătrate. Definiţie. Fie M(xi, yi) i = 1,2,...,n norul de puncte asociat unei serii statistice de două variabile.Se numeşte dreaptă de ajustare (de
regresie) a lui y în raport cu x prin metoda celor mai mici pătrate ; dreapta de ecuaţie: y = ax+b, pentru care expresia:
∆( , ) [ ( )]a b y ax bi
i
n
i= − +=
∑1
2 este minimă.
Propoziţie. Dreapta de ajustare a lui y în raport cu x din definiţia pre-cedentă are coeficienţii:
a = ( )( )
( )
x x y y
x x
i g i g
i
n
i g
i
n
− −
−
=
=
∑
∑
1
2
1
,
b= yg - axg unde G(xg ,yg) este punctul mediu al norului seriei date. Demonstraţie:
Constantin Pătrăşcoiu
62
∆ ( , ) [ ( )] [( ) ]
[( ) ( ) ]
( ) ( )
( ) ( )
a b y ax b y ax b
y ax b y ax b
y ax b y ax nb
nb b y ax y ax
i
i
n
i i
i
n
i
i
i
n
i i i
i
i
n
i i
i
n
i
i
i
n
i i
i
n
i
= − + = − − =
= − − − + =
= − − − + =
= − − + −
= =
=
= =
= =
∑ ∑
∑
∑ ∑
∑ ∑
1
2
1
2
1
2 2 2
1
2
1
2
2
1 1
2
2
2
2
Ultima egalitate o putem privi ca un trinom de gradul doi în b Acest trinom este minim dacă:
bn
y axn
y an
x y axi
i
n
i i
i
n
i
i
n
g g= − = − = −= = =
∑ ∑ ∑1 1 1
1 1 1
( )
unde xg,yg sunt coordonatele punctului mediu G. Înlocuind pe b în ∆(a,b) obţinem:
∆( , ) [ ( )] [ ]
[( ) ( )]
[( ) ( )( ) ( ) ]
( ) ( )( ) ( )
a b y ax b y ax y ax
y y a x x
y y a y y x x a x x
y y a y y x x a x x
i
i
n
i i
i
n
i g g
i
i
n
g i g
i
i
n
g i g i g i g
i
i
n
g i
i
n
g i g i g
i
n
= − + = − − + =
= − − − =
= − − − − + − =
= − − − − + −
= =
=
=
= = =
∑ ∑
∑
∑
∑ ∑ ∑
1
2
1
2
1
2
1
2 2 2
1
2
1
2 2
1
2
2
ultima expresie din egalităţile precedente fiind un trinom de gradul doi în a este minim dacă:
a = ( )( )
( )
x x y y
x x
i g i g
i
n
i g
i
n
− −
−
=
=
∑
∑
1
2
1
ceea ce trebuia demonstrat.
Constantin Pătrăşcoiu
63
Exerciţiu. Să se demonstreze că dacă y = ax+b este dreapta de ajustare a lui y în raport cu x prin metoda celor mai mici pătrate atunci:
2
11
2
1 11
1)(
1
−
−
=
∑∑
∑ ∑∑
==
= ==
n
i
i
n
i
i
n
i
n
i
i
n
i
iii
xn
x
yxn
yx
a (formulă mai avantajoasă în calcule)
Observaţie. Dreapta de ajustare a lui y în raport cu x prin metoda celor mai mici pătrate trece prin punctul mediu G.
Observaţie. Schimbând rolurile lui x şi y se poate vorbi de dreapta de ajustare a lui x în raport cu y prin metoda celor mai mici pătrate. Metoda celor mai mici pătrate are avantajul că nu depinde de operator şi se adaptează mai bine unui nor dispersat. Are dezavantajul că x şi y nu joacă roluri simetrice. Exerciţiu. Dacă x = ay+b este dreapta de ajustare a lui x în raport cu y prin metoda celor mai mici pătrate ,să se demonstreze că:
a =
( )( )
( )
x x y y
y y
i g i g
i
n
i g
i
n
− −
−
=
=
∑
∑
1
2
1
şi
b = xg-a yg . Exerciţiu. Să se găsească dreapta de ajustare prin cele trei metode prezentate mai sus pentru seriile statistice date în exemplele 3.2 şi 3.3.
Constantin Pătrăşcoiu
64
8.6. Alte metode de ajustare
• Metoda mediilor eşalonate. În cazul seriilor statistice de două variabile în care nu se caută o dreaptă de ajustare ci se doreşte ameliorarea aspectului norului, în vederea aproximării sale cu o curbă , se împarte norul în mai multe submulţimi (subnori) care se înlocuiesc cu punctele lor medii . Ajustarea norului punctelor medii este mult mai uşoară decît ajustarea norului iniţial. • Metoda mediilor mobile. Ca şi metoda precedentă această metodă are deasemenea rolul de a ameliora aspectul norului de puncte asociat unei serii statistice de două variabile. Acest lucru se realizează înlocuind punctele norolui Mi(xi, yi) i=1,2,...n cu punctele:
Ni
++++ +−+−
3,
31111 iiiiii yyyxxx
, i=2,3,...,(n-1) ,
obţinându-se un nor mai puţin dispersat. Această metodă este folosită de obicei la seriile cronologice pentru a corija variaţiile sezoniere. Exerciţiu 6.1. Să se facă o ajustare , folosind cele două metode de mai sus pentru norul seriei statistice reprezentând hectarele însămânţate şi producţiile obţinute în tone, la o anumită cultură ,de o fermă în ultimii 11 ani ;dată de următorul tabel:
xi 96 95 96 102 101 103 108 112 113 114 116 yi 95 52 81 110 62 79 88 95 69 107 115
Constantin Pătrăşcoiu
65
8.7. Coeficient de corelaţie
Definiţie. Fie o serie statistică de două variabile având valorile (xi, yi) i=1,2,...,n; x şi y fiind caracteristicile sale. Se numeşte covarianţa lui x şi y numărul:
cov(x, y)= 1
1nx x y yi g i g
i
n
( )( )− −=
∑ ;
unde xg , yg sunt coordonatele punctului mediu G, al serie date. Exerciţiu. Să se demonstreze egalitatea:
cov( , )x yn
x y x yi i
i
n
g g= −=
∑1
1
Definiţie. Se numeşte coeficient de corelaţie al unei serii statistice de două variabile având valorile (xi, yi), i = 1,2,...,n şi caracteristicile x, y numărul:
)()(
),cov(
yx
yxr
σσ= unde
∑
∑
=
=
−=
−=
n
i
gi
n
i
gi
yyn
y
xxn
x
1
2
1
2
)(1
)(
)(1
)(
σ
σ
Exerciţiu. Să se demonstreze că dacă r este coeficientul de corelaţie al unei serii statistice de două variabile având valorile xi , yi ; i=1,2,...,n şi punctul mediu G(xg,yg) atunci:
i). r2 = ( )
∑ ∑
∑
= =
=
−−
−−
n
i
n
i
gigi
n
i
gigi
yyxx
yyxx
1 1
22
1
2
)()(
))((
Constantin Pătrăşcoiu
66
ii). r ≤ 1
iii). aa = r
2 unde a,a sunt coeficienţii introduşi la dreptele de ajustare prin metoda celor mai mici pătrate.
Coeficientul de corelaţie măsoară “gradul de dependenţă” al cara-
cteristicilor ce definesc seria statistică respectivă (vezi “Teoria probabilită-ţilor”capitolul “variabile aleatoare”). Exerciţiu. Să se calculeze coeficientul de corelaţie şi să se interpreteze rezultatul obţinut pentru seria statistică dată în exerciţiu 6.1.din paragraful precedent. Exerciţii
1.Pentru a măsura caracteristicile unei diode se realizează circuitul următor:
Măsurătorile furnizate de voltmetru şi ampermetru sunt trecute în tabelul următor:
i. Să se reprezinte grafic norul de puncte corespunzător. ii.Să se aproximeze norul de puncte cu o curbă.
AA
V
i (mA) 0 0,3 0,6 1,6 6 11 22 32 55 75 95
u (V) 0 0,4 0,5 0,6 0,65 0,8 0,74 0,76 0,78 0,76 0,85
Constantin Pătrăşcoiu
67
2.Pentru a studia caracteristi-cile unei baterii electrice se realizează montajul următor:
Cu ajutorul voltmetrului şi al ampermetrului se efectuează măsurătorile consemnate în următorul tabel:
I (amperi) 0 0,3 0,5 0,6 0,8 0,9 1 1,2
U (volţi) 4,5 4,3 4,16 4,03 3,60 3,20 3 2,8
I. Reprezentaţi grafic norul de puncte asociat acestei serii
statistice. II. Găsiţi o dreaptă de ajustare căreia determinaţii ecuaţia.
III. Găsiţi intersecţiile dreptei de ajustare cu axele de coordonate şi interpretaţi coordonatele punctelor de intersecţie găsite. 3.Un strung automat produce piuliţe.Se măsoară diametrul acestora din sută în sută obţinându-se rezultatele date de următorul tabel:
nr.piuliţei 100 200 300 400 500 600 700 800 900 1000 diametrul
(în m×10-5.) 1235 1237 1238 1240 1241 1244 1245 1246 1248 1251
a). Desenaţi norul de puncte corespunzător seriei statistice de mai sus şi trasaţi o dreaptă de ajustare scriindu-i şi ecuaţia sa. b).Creşterea diametrelor piuliţelor se datorează uzurii strungului. c). O uzură de e milimetrii a cuţitului strungului produce o creştere în diametru de 2e mm. După cîte piese uzura cuţitului va fi de 7,6×10-5 mm.
Constantin Pătrăşcoiu
68
4.Presiunile atmosferice yi (în cm. coloană de mercur) la altitudinile xi (în Km.) , măsurate pe verticala unei localităţi sunt date de tabelul:
xi 0 1 2 4 6 10 yi 76 67 59 46 35 20
a).Să se reprezinte grafic norul de puncte corespunzător seriei date. b).Să se scrie ecuaţia unei drepte de ajustare printr-o metodă la alegere c).La ce altitudine presiunea atmosferică va fi de 40 cm.coloană de mercur? 5.Tabelul de mai jos dă preţul de vînzare (în $) al unui produs şi numărul de produse vândute înte anii:1990 şi1993.
1990 1991 1992 1993 Preţ de vânzare 20 14 18 25 Număr de produse vândute
198 240 222 160
a).Construiţi norul de puncte corespunzător seriei statistice date. b).Determinaţi şi reprezentaţi punctul mediu G. c).Determinaţi dreapta de ajustare prin metoda următoare: • Ordonaţi valorile primei caracteristici în ordine crescătoare. • Calculaţi coordonatele punctului mediu G1 al primelor două puncte ale norului şi coordonatele punctului mediu G2 al celorlalte puncte ale norului. • Scrieţi ecuaţia dreptei de ajustare G1G2 şi trasaţi această dreaptă.