introducere in statisticile inferentiale

55
5 Introducere în statisticile inferenţiale Cercetătorii folosesc statistici inferenţiale pentru a trage concluzii despre caracteristicile unei populaţii pe baza caracteristicilor corespunzătoare ale unui eşantion din acea populaţie.

Upload: moondoor

Post on 11-Jan-2016

218 views

Category:

Documents


0 download

DESCRIPTION

Introducere in statisticile inferentiale

TRANSCRIPT

Page 1: Introducere in statisticile inferentiale

5 Introducere în statisticile inferenţiale

Cercetătorii folosesc statistici inferenţiale pentru a trage concluzii despre caracteristicile unei populaţii pe baza caracteristicilor corespunzătoare ale unui eşantion din acea populaţie.

Page 2: Introducere in statisticile inferentiale

Strategia inferenţială şi distribuţia de eşantionare

� În statisticile inferenţiale, mărimile statistice pentru populaţii se numesc parametri, iar mărimile statistice pentru eşantioane se numesc pur şi simplu statistici.

� Vom folosi pentru parametri următoarele simboluri: P(proporţie), µ (media aritmetică), σ (abaterea standard).

� Strategia generală a statisticilor inferenţiale constă din calcularea unor statistici pentru un eşantion selectat aleatoriu dintr-o populaţie, pe baza cărora, prin intermediul noţiunii de distribuţie de eşantionare, se inferă asupra parametrilor corespunzători ai populaţiei respective.

� În cazul cel mai general, un eşantion este aleatoriu dacă fiecare caz din populaţia de referinţă are aceeaşi probabilitate de a fi selectat în eşantion cu a oricărui alt caz şi selectarea fiecărui caz este independentă de selectarea tuturor celorlalte cazuri.

2

Page 3: Introducere in statisticile inferentiale

Strategia inferenţială şi distribuţia de eşantionare

� Distribuţia unui eşantion este empirică (există în realitate) şi cunoscută. Distribuţia unei populaţii este, de asemenea, empirică, dar este necunoscută.

� Distribuţia de eşantionare este teoretică şi cunoscută, întrucât i se pot determina forma, tendinţa centrală şi dispersia.

� Luând media aritmetică drept o variabilă, definim distribuţia de eşantionare a mediilor aritmetice ca distribuţia mediilor aritmetice ale tuturor eşantioanelor aleatorii de dimensiune constantă, n, din populaţia de referinţă. Similar se definesc distribuţiile de eşantionare pentru alte mărimi statistice.

� Pentru media aritmetică şi abaterea standard a distribuţiei de eşantionare se folosesc, respectiv, simbolurile şi . Xµ Xσ

3

Page 4: Introducere in statisticile inferentiale

Strategia inferenţială şi distribuţia de eşantionare

� Teorema limitei centrale. Dacă se alcătuiesc toate eşantioanele posibile de dimensiune n dintr-o populaţie cu media aritmetică µ şi abaterea standard σ, atunci distribuţia de eşantionare a mediilor aritmetice ale acestor eşantioane are următoarele trei proprietăţi:

� Media sa aritmetică, , este egală cu µ;� Abaterea sa standard, , este egală cu ;� Cu cât n este mai mare, cu atât forma sa aproximează

mai bine normalitatea, indiferent de forma distribuţiei populaţiei.

XµXσ nσ

4

Page 5: Introducere in statisticile inferentiale

Strategia inferenţială şi distribuţia de eşantionare

� Teorema limitei centrale arată că, indiferent de forma distribuţiei unei variabile într-o populaţie (care poate fi asimetrică), distribuţia de eşantionare a mediilor aritmetice va fi aproximativ normală pentru eşantioane suficient de mari.

� Dacă distribuţia unei variabile este aproximativ normală, atunci distribuţia de eşantionare a mediilor aritmetice va fi aproximativ normală chiar şi pentru valori mai mici ale lui n.

� Dacă distribuţia unei variabile este riguros normală, atunci distribuţia de eşantionare a mediilor aritmetice va fi normală, indiferent de dimensiunea eşantionului.

5

Page 6: Introducere in statisticile inferentiale

6 Proceduri de estimare statistică

Page 7: Introducere in statisticile inferentiale

Introducere

� Statisticile inferenţiale se clasifică în două categorii principale: proceduri de estimare, în care se face o apreciere despre un parametru al populaţiei de referinţă pe baza statisticii corespunzătoare calculată pentru un eşantion (estimator) şi testarea ipotezelor, în care se verifică o ipoteză despre populaţie prin raportare la rezultatele obţinute pe un eşantion.

� Procedurile de estimare sunt de două tipuri: puncte estimate şi intervale estimate. Un punct estimat este o singură valoare calculată pentru un eşantion şi folosită pentru a estima parametrul corespunzător al populaţiei de referinţă.

� Un interval estimat este o amplitudine de valori în care este probabil să se afle un parametru al populaţiei de interes.

7

Page 8: Introducere in statisticile inferentiale

Caracteristici ale estimatorilor

� Un estimator trebuie să satisfacă două condiţii: să fie nedistorsionat şi relativ eficient.

� Un estimator este nedistorsionat, dacă media aritmetică a distribuţiei sale de eşantionare este egală cu media aritmetică a populaţiei de referinţă.

� Mediile aritmetice şi proporţiile eşantioanelor sunt estimatori nedistorsionaţi ai parametrilor corespunzători.

� Un estimator este cu atât mai eficient, cu cât distribuția de eșantionare este mai grupată în jurul mediei sale aritmetice sau, altfel spus, cu cât este mai mică abaterea standard a distribuției de eșantionare.

8

Page 9: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este cunoscută

� Fie o populaţie cu media aritmetică µ şi cu abaterea standard σ. Selectăm aleatoriu un eşantion de dimensiune n din această populaţie şi calculăm media aritmetică pentru eşantion, .

� Conform teoremei limitei centrale, distribuţia de eşantionare a mediilor aritmetice ale tuturor eşantioanelor posibile de dimensiune n din populaţia de referinţă este aproximativ normală, cu media aritmetică egală cu cea a populaţiei de referinţă şi cu abaterea standard egală cu .

� Pe baza caracteristicilor distribuţiei de eşantionare şi a tabelului distribuţiei normale standard putem formula enunţuri de probabilitate despre mediile aritmetice ale eşantioanelor.

X

9

Page 10: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este cunoscută

� De exemplu, din tabel aflăm că proporţia de cazuri (medii aritmetice ale eşantioanelor) cuprinse între un scor Z = −1,96 şi media aritmetică este de 0,475:

–1,96

0,475

10

Page 11: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este cunoscută

� Întrucât curba este simetrică, proporţia de cazuri cuprinse între un scor Z = +1,96 şi media aritmetică este tot de 0,475:

–1,96

0,475

11

0,475

+1,96

Page 12: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este cunoscută

� Astfel, proporţia de cazuri cuprinse între ±1,96 abateri standard faţă de medie este de 0,95 (0,475 + 0,475):

–1,96

0,475

12

0,475

+1,96

0,95

Page 13: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este cunoscută

� Proporţia de cazuri aflate sub −1,96 şi peste +1,96 abateri standard faţă de medie este de 0,05 (0,025 + 0,025):

–1,96

0,475

13

0,475

+1,96

0,95

0,025 0,025

Page 14: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este cunoscută

� Acelaşi lucru ca mai sus poate fi exprimat spunând că 95% din mediile aritmetice ale eşantioanelor se află în intervalul

� Structura acestui tip de enunţ de probabilitate poate fi folosită pentru a estima valoarea µ prin construirea unui interval centrat pe . Rezultatul este un interval de încredere estimat (IE) – o amplitudine de valori în care este probabil să se afle µ.

� Astfel, putem estima că există o probabilitate de 0,95 sau 95% ca µ să se afle în intervalul .

� Aceasta înseamnă că probabilitatea ca µ să nu se afle în acest interval este de 0,05 sau 5%.

)/(96,1 nσµ ±

X

)(96,1 nX σ±

14

Page 15: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este cunoscută

� Probabilitatea ca µ să nu se afle în IE (probabilitatea de eroare a estimării) se numeşte nivel de semnificaţie sau nivel alfa (α), iar probabilitatea ca IE să conţină µ se numeşte nivel de încredere.

� Nivelul de încredere este complementarul nivelului α, fiind egal cu 1 – α sau, în procente, cu (1 − α) × 100. De exemplu, dacă α = 0,05, atunci nivelul de încredere este de 95%.

� Întrucât probabilitatea de eroare este împărţită în mod egal în extremitatea inferioară şi cea superioară a distribuţiei de eşantionare, stabilindu-se astfel limita inferioară şi limita superioară de încredere, vom nota scorul Z corespunzător nivelului α ales cu Zα /2.

� Când σ este cunoscută, IE pentru µ este:

1. )(2 nZXIE σα±=

15

Page 16: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este cunoscută

Tabelul 1 Niveluri de încredere şi scoruri Zα/2

Nivelul de încredere(1 − α) × 100

α α/2 Zα /2

90% 0,10 0,050 ±1,65

95% 0,05 0,025 ±1,96

99% 0,01 0,005 ±2,58

16

Page 17: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este cunoscută

� Un eşantion aleatoriu de 200 de femei casnice petrec în medie 6 ore pe zi vizionând programe TV. Ştim că σ = 0,7. Care este media aritmetică zilnică a orelor de vizionare a programelor TV de către femeile casnice la un nivel de încredere de 90% (α = 0,10)?

Pe baza mediei aritmetice a eşantionului estimăm că femeile casnice petrec în medie între 5,92 (= 6 − 0,08) şi 6,08 (= 6 +0,08) ore pe zi vizionând programe TV: 5,92 ≤ µ ≤ 6,08. Această estimare are o şansă de 10% de a fi greşită.

=±=±= )2007,0(65,16)(2 nZXIE σα 08,06 ±

17

Page 18: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este necunoscută

� În cazul eşantioanelor cu n > 30, σ se poate estima prin s.

2.

� În cazul eşantioanelor cu n ≤ 30, se foloseşte distribuţia t−Student. Graficul distribuţiei t−Student (curba t) este simetric şi are formă de clopot cu ambele extremităţi extinse la infinit, iar forma sa exactă depinde de n. Prin urmare, distribuţia t este, de fapt, o familie de distribuţii. Exemplu de curbă t:

)1(2 −±= nsZXIE α

t = 0

18

Page 19: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este necunoscută

� Distribuţia t particulară cerută pentru rezolvarea unei anumite probleme depinde de un concept matematic numit grade de libertate (gl), care se referă la numărul de valori libere să varieze într-o distribuţie.

� De exemplu, dacă ştim că media aritmetică a două numere (n = 2) este 50, atunci, odată ce unul dintre numere este cunoscut, celălalt număr este fixat, i.e. gl = n − 1 = 2 − 1 = 1.

� În general, pentru media aritmetică a unui eşantion de dimensiune n, o distribuţie are n − 1 grade de libertate, ceea ce înseamnă că pentru valori specificate ale mediei aritmetice şi ale lui n, n − 1 scoruri sunt libere să varieze.

19

Page 20: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este necunoscută

� Tabelul valorilor critice ale distribuţiei t (Anexa C) specifică valorile pentru tα, i.e. valorile lui t pentru care aria aflată la dreapta sub curba t este egală cu α.

� Nivelurile α sunt dispuse pe primul rând al tabelului. Valorile tαsunt date pentru gl dispuse pe prima coloană din stânga, de la 1 la 30 şi pentru ∞ (tα cu gl ≥ 30 este aproximativ egală cu tpentru gl = ∞, i.e. cu Zα).

α

20

Page 21: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este necunoscută

� Valoarea tα/2 se localizează înmulţind cu 2 valoarea α de pe primul rând.

� De exemplu, dacă n = 30 şi α = 0,05, la intersecţia coloanei de sub tα = 0,025 (0,025 × 2 = 0,05) cu linia pentru gl = 30 − 1 =29 găsim valoarea tα/2 = 2,045.

� Formula pentru cazurile în care σ este necunoscută şi n ≤ 30:

3.

� Această formulă poate fi aplicată doar dacă variabila de interes este normal distribuită.

)/(2/ nstXIE α±=

21

Page 22: Introducere in statisticile inferentiale

Estimarea intervalelor pentru medii aritmetice când σ este necunoscută

� Media aritmetică a scorurilor la un test de cunoştinţe aplicat unui eşantion aleatoriu de 20 de adolescenţi cu dificultăţi de învăţare este de 24,45 cu s = 5,42. Care este intervalul estimat pentru media aritmetică a acestei populaţii, la un nivel de încredere de 99%?Având α = 0,01, la intersecţia coloanei tα = 0,005 cu linia pentru gl = 20 − 1 = 19 găsim valoarea tα/2 = 2,861.

Astfel, estimăm că media aritmetică a acestei populaţii este cuprinsă între 21,3 (= 24,5 − 3,46) şi 27,91 (= 24,5 + 3,46) şi există doar 1% şanse ca acest interval să nu conţină media aritmetică a populaţiei.

46,345,24)2042,5(861,245,24)(2 ±=±=±= nstXIE α

22

Page 23: Introducere in statisticile inferentiale

Estimarea proporţiilor

� Proporţiile pentru eşantioane, p, au distribuţii de eşantionare aproximativ normale, cu µp = P şi .

� Formula teoretică pentru construirea unui IE pentru proporţii:

4.

� Practic, se stabileşte P = 0,5, astfel că P(1 − P) = 0,25, aceasta fiind valoarea maximă pentru P(1 − P).

5.

nPPp /)1( −=σ

n

PPZpIE

)1(2

−±= α

nZpIE

25,02α±=

23

Page 24: Introducere in statisticile inferentiale

Estimarea proporţiilor

� Dintr-un eşantion aleatoriu de 200 de studenţi de la Universitatea X, 30 de studenţi sunt la a doua facultate. Care este intervalul estimat pentru proporţia de studenţi la a doua facultate în Universitatea X, la un nivel de încredere de 95%?Proporţia eşantionului pe care ne bazăm estimarea este p = 30/200 = 0,15.

Pe baza proporţiei de 0,15 a eşantionului, estimăm că proporţia căutată este cuprinsă între 0,08 şi 0,22 (între 8% şi 22% dintre studenţii Universităţii X sunt la a doua facultate).

07,015,0200

25,096,115,0

25,02 ±=±=±=

nZpIE α

24

Page 25: Introducere in statisticile inferentiale

7 Testarea ipotezelor despre o singură populaţie

Tehnicile de testare a ipotezelor prezentate în acest capitol sunt teste despre valoarea parametrilor unei populaţii şi cer îndeplinirea unor condiţii sau supoziţii despre populaţiile respective, cum este, în principal, normalitatea. Testele de acest fel se numesc teste parametrice.

Page 26: Introducere in statisticile inferentiale

Testul scorurilor Z pentru medii aritmetice când σ este cunoscută� Noţiunile fundamentale ale testelor statistice sunt ipoteză de

nul, ipoteză alternativă, statistică a testului şi regulă de decizie.� Un cercetător presupune că într-un anumit an, media aritmetică

a punctelor obţinute la examenul de rezidenţiat al medicilor este de 800. Pentru a testa această ipoteză, cercetătorul alcătuieşte un eşantion aleatoriu de 130 de medici care şi-au susţinut rezidenţiatul în acel an şi constată că la nivelul acestui eşantion media aritmetică a punctajului obţinut este de 755. Prin investigaţii extensive, cercetătorul ştie că σ ≈ 152.

� Problema care se pune este dacă diferenţa dintre media aritmetică a eşantionului şi valoarea presupusă pentru populaţie este sau nu statistic semnificativă. Dacă răspunsul este afirmativ, atunci ipoteza făcută poate fi respinsă. Dacă răspunsul este negativ, atunci diferenţa poate fi pusă pe seama întâmplării şi ipoteza nu poate fi respinsă.

26

Page 27: Introducere in statisticile inferentiale

Testul scorurilor Z pentru medii aritmetice când σ este cunoscută

� Ipoteza de nul, H0, enunţă că nu există nici o diferenţă semnificativă între valoarea efectivă a parametrului de interes şi valoarea presupusă a acelui parametru

� Pentru media aritmetică a unei populaţii:

H0: µ = µH

� În exemplul de mai sus,

H0: µ = 800

27

Page 28: Introducere in statisticile inferentiale

Testul scorurilor Z pentru medii aritmetice când σ este cunoscută� Ipoteza alternativă, Ha, enunţă că există o diferenţă

semnificativă între valoarea efectivă a parametrului de interes şi valoarea presupusă a acelui parametru

� Dacă sensul diferenţei nu poate fi prezis sau nu interesează, Haia forma:

Ha: µ ≠ µH (test bilateral)

� În caz contrar, Ha poate lua una dintre următoarele două forme:

Ha: µ > µH (test unilateral dreapta)Ha: µ < µH (test unilateral stânga)

� În exemplul de mai sus,

Ha: µ ≠ 80028

Page 29: Introducere in statisticile inferentiale

Testul scorurilor Z pentru medii aritmetice când σ este cunoscută

� Statistica testului este formula a cărei aplicare în testul respectiv permite obţinerea unei valori care formează baza de decizie asupra H0.

� Pentru media aritmetică a unei populaţii:

1.

� În exemplul de mai sus:

Vom spune că Z (obţinut) = –3,36

n

XZ H

σµ−

=

36,34,13

45

40,11152

45

130152

800755 −=−=−=−=−

=n

XZ H

σµ

29

Page 30: Introducere in statisticile inferentiale

Testul scorurilor Z pentru medii aritmetice când σ este cunoscută

� Regula de decizie se referă la o anumită amplitudine de valori pentru rezultatul statisticii testului, numită zonă critică sau zonă de respingere, care conduce la respingerea H0.

� În cazul testului scorurilor Z pentru medii aritmetice, zona critică se stabileşte cu ajutorul distribuţiei de eşantionare a mediilor aritmetice pentru un nivel α ales.

� În cazul unui test bilateral (Ha: µ ≠ µH), nivelul α ales se împarte în mod egal în cele două extremităţi ale distribuţiei de eşantionare, după cum ilustrează următoarea figură:

30

Page 31: Introducere in statisticile inferentiale

Testul scorurilor Z pentru medii aritmetice când σ este cunoscută

Zona critică pentru un test bilateral (Ha: µ ≠ µH)

Zona critică = aria de sub –Zα/2 + aria de peste +Zα/2. Dacă scorul Z corespunzător mediei aritmetice a unui eşantion cade în zona critică, se poate respinge H0. Scorurile –Zα/2 şi Zα/2 se numesc scoruri Z critice: –Zα/2 (critic), Zα/2 (critic).

αααα/2 αααα/2

−−−−Zαααα/2 +Zαααα/2

31

Page 32: Introducere in statisticile inferentiale

Testul scorurilor Z pentru medii aritmetice când σ este cunoscută� În exemplul de mai sus, dacă α = 0,05, Zα/2 (critic) = ±1,96, astfel că Z

(obţinut) se află în zona critică (–3,36 < –1,96):

Ca atare, H0 poate fi respinsă: diferenţa dintre media eşantionului şi media presupusă pentru populaţie este statistic semnificativă, i.e. este prea mare pentru a fi atribuită întâmplării, (la un nivel de încredere de 95%).

−−−−1,96 +1,96−−−−3,36

32

Page 33: Introducere in statisticile inferentiale

Testul scorurilor Z pentru medii aritmetice când σ este cunoscută� Într-un test unilateral, întreaga zonă critică dată de nivelul α

ales este plasată în extremitatea de interes a distribuţiei de eşantionare.

� Dacă α = 0,05, scădem 0,05 din 0,5 (proporţia de cazuri aflate de o parte şi de alta a mediei aritmetice a distribuţiei de eşantionare). Rezultatul scăderii este 0,4500. Scorul Zcorespunzător acestei proporţii este 1,65

� Prin urmare, Zα (critic) = +1,65, dacă este vorba despre extremitatea superioară (Ha: µ > µH) şi Zα (critic) = –1,65, dacă este vorba despre extremitatea inferioară (Ha: µ < µH).

� În exemplul de mai sus, se poate respinge H0, dacă Ha: µ < 800, toate celelalte date fiind aceleaşi?

33

Page 34: Introducere in statisticile inferentiale

Testul scorurilor Z pentru medii aritmetice când σ este cunoscută

� Reguli de decizie pentru testul scorurilor Z:

1. Într-un test bilateral, se respinge H0, dacă Z (obţinut) >>>>+Zαααα/2 (critic) sau dacă Z (obţinut) <<<< −−−−Zαααα/2 (critic).

2. Într-un test unilateral dreapta (Ha: µ > µH), se respinge H0, dacă Z (obţinut) >>>> +Zαααα (critic).

3. Într-un test unilateral stânga (Ha: µ < µH), se respinge H0, dacă Z (obţinut) <<<< −−−−Zαααα (critic).

34

Page 35: Introducere in statisticile inferentiale

Modelul în 4 paşi pentru testarea ipotezelor statistice

Pasul 1. Enunţarea ipotezelor

H0: µ = 800Ha: µ ≠ 800

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zonei critice

Distribuţia de eşantionare = Distribuţia Zα = 0,05 (test bilateral)

Zα/2 (critic) = ±1,96Pasul 3. Calcularea statisticii testului

Pasul 4. Luarea deciziei

Întrucât Z (obţinut) se află în zona critică (–3,36 < –1,96), H0 poate fi respinsă. Diferenţa dintre eşantionul de medici rezidenţi şi populaţia de referinţă este statistic semnificativă, i.e nu poate fi atribuită întâmplării (la un nivel de încredere de 95%).

36,34,13

45

40,11152

45

130152

800755 −=−=−=−=−

=n

XZ H

σµ

35

Page 36: Introducere in statisticile inferentiale

Erori în testarea ipotezelor

� Rezultatele posibile ale unui test al ipotezelor:

� În mod normal, în ştiinţele omului se doreşte minimizarea probabilităţii erorii de tipul I, socotită a fi mai gravă decât eroarea de tipul II. Pentru aceasta, se aleg valori mici pentru α.

Se respinge H0

H0 adevărată H0 falsă

Eroare de tipul I Decizie corectă

Nu se respinge H0

Decizie corectă Eroare de tipul II

36

Page 37: Introducere in statisticile inferentiale

Niveluri α şi scoruri Z critice

� În tabelul următor sunt prezentate câteva scoruri Z critice pentru nivelurile α mai des folosite:

� De regulă, α = 0,05 este considerat un indicator bun al unui rezultat semnificativ.

Niveluri αTest bilateral

Niveluri αTest unilateral

Scoruri Z critice

0,20 0,10 1,29

0,10 0,05 1,65

0,05 0,025 1,96

0,01 0,005 2,58

37

Page 38: Introducere in statisticile inferentiale

Testarea ipotezelor pentru medii aritmetice când σ este necunoscută

� În cazul n > 30, σ se estimează prin s şi se foloseşte formula:

2.

� În cazul n ≤ 30, distribuţia de eşantionare este distribuţia t-Student şi se foloseşte formula:

3.

� Vom spune că este vorba despre testul scorurilor t pentru medii aritmetice. Rezultatul aplicării formulei 3 se numeşte t (obţinut).

1−−

=ns

XZ Hµ

1−−

=ns

Xt Hµ

38

Page 39: Introducere in statisticile inferentiale

Testarea ipotezelor pentru medii aritmetice când σ este necunoscută

� Reguli de decizie pentru testul scorurilor t:

1. Într-un test bilateral, se respinge H0, dacă t (obţinut) >>>>+tαααα/2 (critic) sau dacă t (obţinut) <<<< −−−−tαααα/2 (critic).

2. Într-un test unilateral dreapta (Ha: µ > µH), se respinge H0, dacă t (obţinut) >>>> +tαααα (critic).

3. Într-un test unilateral stânga (Ha: µ < µH), se respinge H0, dacă t (obţinut) <<<< −−−−tαααα (critic).

39

Page 40: Introducere in statisticile inferentiale

Testarea ipotezelor pentru medii aritmetice când σ este necunoscută

� Un cercetător presupune că media aritmetică a coeficientului de inteligenţă al olimpicilor la matematică în ultimii 5 ani este de aproximativ 125. Pentru a testa această ipoteză, selectează un eşantion aleatoriu de 20 de olimpici la matematică din ultimii 5 ani şi constată că media aritmetică a coeficientului de inteligenţă la nivelul eşantionului este de 123 cu s = 8.

� Cercetătorul este interesat să determine dacă media aritmetică a coeficientului de inteligenţă al olimpicilor la matematică din ultimii 5 ani este mai mare de 125, la un nivel de încredere de 99%.

� Datele problemei sunt: µH = 125, n = 20, , s = 20.123=X

40

Page 41: Introducere in statisticile inferentiale

Testarea ipotezelor pentru medii aritmetice când σ este necunoscută

Pasul 1. Enunţarea ipotezelor

H0: µ = 125Ha: µ > 125

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zonei critice

Distribuţia de eşantionare = Distribuţia tα = 0,01 (test unilateral dreapta)

gl = 20 – 1 = 19tα (critic) = +2,539

Pasul 3. Calcularea statisticii testului

Pasul 4. Luarea deciziei

Întrucât t (obţinut) nu se află în zona critică (+1,09 < +2,539), H0 nu poate fi respinsă. Pe baza mediei aritmetice a eşantionului nu se poate conchide că media aritmetică a coeficientului de inteligenţă al olimpicilor la matematică din ultimii 5 ani este mai mare de 125 (la un nivel de încredere de 99%).

09,136,48

2

198

123125

1+==−=

−−

=ns

Xt Hµ

41

Page 42: Introducere in statisticile inferentiale

Testul scorurilor Z pentru proporţii

� Atunci când variabila de interes nu este de interval/raport se poate utiliza proporţia eşantionului (p) în locul mediei aritmetice.

� Formula de calcul a testului scorurilor Z pentru proporţii:

4.

� Pentru testarea ipotezei conform căreia aproximativ 10% din studenţii Universităţii X sunt căsătoriţi se selectează un eşantion aleatoriu de 200 de studenţi de la Universitatea X şi se constată că 24 de studenţi din eşantion sunt căsătoriţi. În baza acestui rezultat, se poate spune la un nivel de încredere de 95% că mai mult de 10% din studenţi sunt necăsătoriţi?

� Datele problemei: PH = 0,10, n = 200, p = 0,12.

npp

PpZ H

)1( −−

=

42

Page 43: Introducere in statisticile inferentiale

Testul scorurilor Z pentru proporţiiPasul 1. Enunţarea ipotezelor

H0: P = 0,10Ha: P > 0,10

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zonei critice

Distribuţia de eşantionare = Distribuţia Zα = 0,05 (test unilateral dreapta)

Zα (critic) = +1,65Pasul 3. Calcularea statisticii testului

Pasul 4. Luarea decizieiÎntrucât Z(obţinut) nu se află în zona critică (+1,06 < +1,65), H0 nu poate

fi respinsă. La un nivel de încredere de 95% nu se poate spune că mai mult de 10% dintre studenţi sunt necăsătoriţi.

06,10188,0

02,0

300)12,01(12,0

10,012,0

)1(+==

−−=

−−

=npp

PpZ H

43

Page 44: Introducere in statisticile inferentiale

8 Testarea ipotezelor despre diferenţele dintre două populaţii

Page 45: Introducere in statisticile inferentiale

Introducere

� În acest capitol sunt expuse procedee de testare a ipotezelor privind diferenţele dintre mediile aritmetice a două populaţii, µ1− µ2, şi dintre proporţiile a două populaţii, P1 − P2.

� Problema cercetării: diferenţa dintre două eşantioane sub aspectul variabilei de interes este suficient de mare pentru a putea conchide, cu o probabilitate de eroare cunoscută, că populaţiile reprezentate de eşantioane sunt diferite sub aspectul variabilei respective?

� Toate testele statistice prezentate în continuare sunt aplicabile sub supoziţia că eşantioanele selectate aleatoriu din cele două populaţii de referinţă sunt independente. Două eşantioane sunt independente dacă selectarea cazurilor pentru un eşantion nu influenţează selectarea cazurilor pentru celălalt eşantion.

45

Page 46: Introducere in statisticile inferentiale

Testul scorurilor Z pentru diferenţa dintre două medii aritmetice

� Acest test este aplicabil dacă sunt satisfăcute următoarele două condiţii (i) nivelul de măsură al variabilei de interes este de interval sau de raport şi (ii) cele două eşantioane sunt relativ mari, ceea ce înseamnă n1 > 30 şi n2 > 30.

� Distribuţia de eşantionare folosită este distribuţia de eşantionare a diferenţelor dintre mediile aritmetice. Atunci când eşantioanele sunt mari, această distribuţie este descrisă de distribuţia Z.

46

Page 47: Introducere in statisticile inferentiale

Testul scorurilor Z pentru diferenţa dintre două medii aritmetice

� Ipoteza de nul enunţă că nu există nici o diferenţă între mediile aritmetice ale celor două populaţii:

H0: µ1 = µ2

� Ipoteza alternativă:

Ha: µ1 ≠ µ2 (test bilateral)Ha: µ1 > µ2 (test unilateral dreapta)Ha: µ1 < µ2 (test unilateral stânga)

47

Page 48: Introducere in statisticile inferentiale

Testul scorurilor Z pentru diferenţa dintre două medii aritmetice

� Formula de calcul a testului Z pentru diferenţa dintre două medii aritmetice:

1.

� Pentru a verifica ipoteza că bărbaţii şi femeile diferă în privinţa capacităţii de rezolvare de probleme, un cercetător alcătuieşte două eşantioane aleatorii, unul de 324 bărbaţi şi unul de 317 femei, şi le administrează un test de rezolvare de probleme. Bărbaţii obţin o medie aritmetică de 62 cu s = 13, iar femeile obţin o medie aritmetică de 65 cu s = 14.

11 2

22

1

21

21

−+

−=

n

s

n

s

XXZ

48

Page 49: Introducere in statisticile inferentiale

Testul scorurilor Z pentru diferenţa dintre două medii aritmetice

Pasul 1. Enunţarea ipotezelorH0: µ1 = µ2Ha: µ1 ≠ µ2

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zonei critice

Distribuţia de eşantionare = Distribuţia Zα = 0,05 (test bilateral)

Zα/2 (critic) = ±1,96Pasul 3. Calcularea statisticii testului

Pasul 4. Luarea decizieiÎntrucât Z(obţinut) se află în zona critică (−2,63 < −1,96), H0 poate fi

respinsă. La un nivel de încredere de 95% se poate spune că bărbaţii şi femeile diferă în privinţa capacităţii de rezolvare de probleme.

63,214,1

3

316

14

323

13

6562

11

22

2

22

1

21

21 −=−=

+

−=

−+

−=

n

s

n

s

XXZ

49

Page 50: Introducere in statisticile inferentiale

Testul scorurilor t pentru diferenţa dintre două medii aritmetice

� Atunci când eşantioanele sunt mici (n1 ≤ 30 sau/şi n2 ≤ 30), se foloseşte distribuţia t-Student cu gl = n1 + n2 –1.

� Formula de calcul a testului t pentru diferenţa dintre două medii aritmetice:

2.

� Acest test poate fi folosit doar dacă cele două populaţii au abaterile standard egale (σ1 = σ2). Se consideră că această supoziţie este satisfăcută dacă s1 = s2.

21

21

21

222

211

21

2 nn

nn

nn

snsn

XXt

+⋅

−++

−=

50

Page 51: Introducere in statisticile inferentiale

Testul scorurilor t pentru diferenţa dintre două medii aritmetice

� Pentru a verifica ipoteza că metoda M1 de predare a matematicii conduce la rezultate mai bune decât metoda M2, un cercetător alcătuieşte două eşantioane aleatorii, unul de 12 elevi, repartizaţi într-o clasă în care matematica se predă după metoda M1, şi unul de 13 elevi, repartizaţi într-o clasă în care matematica se predă după metoda M2. După un an, ambele eşantioane primesc acelaşi test la matematică. Nota medie obţinută de elevii din primul eşantion este 8,80 cu s = 1,70 şi nota medie obţinută de elevii din cel de-al doilea eşantion este 8,20 cu s = 1,20.

51

Page 52: Introducere in statisticile inferentiale

Testul scorurilor t pentru diferenţa dintre două medii aritmetice

Pasul 1. Enunţarea ipotezelorH0: µ1 = µ2Ha: µ1 > µ2

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zonei criticeDistribuţia de eşantionare = Distribuţia t

α = 0,05 (test unilateral dreapta)gl = 12 + 13 − 2 = 23tα (critic) = +1,714

Pasul 3. Calcularea statisticii testului

Pasul 4. Luarea decizieiÎntrucât t(obţinut) nu se află în zona critică (+0,31 < +1,714), H0 nu poate

fi respinsă la un nivel de încredere de 95%. Diferenţa dintre cele două grupuri nu este statistic semnificativă.

31,0

15625

23)20,1(13)70,1(12

20,880,8

2

22

21

21

21

222

211

21 +=⋅+

−=+⋅

−++

−=

nn

nn

nn

snsn

XXt

52

Page 53: Introducere in statisticile inferentiale

Testul scorurilor Z pentru diferenţa dintre două proporţii

� Acest test este aplicabil dacă n1 > 30 şi n2 > 30.� Formula de calcul pentru acest test este:

3.

unde

4.

Cantitatea P*se numeşte estimarea combinată a proporţiilor.

21

21

21

)1(nn

nnPP

ppZ

+⋅−

−=

∗∗

21

2211

nn

pnpnP

++

=∗

53

Page 54: Introducere in statisticile inferentiale

Testul scorurilor Z pentru diferenţa dintre două proporţii

� Să presupunem că au fost alcătuite două eşantioane de studenţi, unul de 83 de studenţi de la Universitatea A şi celălalt de 103 studenţi de la Universitatea B, fiecare student fiind chestionat în legătură cu problema interzicerii avorturilor şi clasificat într-una dintre categoriile: De acord, Împotrivă, Nedecis. Proporţia studenţilor care s-au declarat de acord cu interzicerea avorturilor a fost de 0,34 în primul eşantion (A) şi de 0,25 în cel de-al doilea (B). Există o diferenţă semnificativă între studenţii celor două universităţi sub acest aspect?

54

Page 55: Introducere in statisticile inferentiale

Testul scorurilor Z pentru diferenţa dintre două proporţii

Pasul 1. Enunţarea ipotezelorH0: P1 = P2Ha: P1 ≠ P2

Pasul 2. Selectarea distribuţiei de eşantionare şi stabilirea zonei criticeDistribuţia de eşantionare = Distribuţia Z

α = 0,05 (test bilateral)Zα/2 (critic) = ±1,96

Pasul 3. Calcularea statisticii testului

Pasul 4. Luarea decizieiÎntrucât Z(obţinut) nu se află în zona critică (+1,29 < +1,96), H0 nu poate fi

respinsă. La un nivel de încredere de 95% se poate spune că studenţii de la cele două universităţi nu diferă semnificativ în privinţa acordului cu interzicerea avorturilor.

29,0186

97,53

186

75,2522,28

10383

)25,0(103)34,0(83

21

2211 ==+=++=

++

=∗

nn

pnpnP

29,107,0

09,0

10383

10383)29,01(29,0

25,034,0

)1(21

21

21 +==

⋅+⋅−

−=+

⋅−

−=

∗∗

nn

nnPP

ppZ

55