ipoteze statistice

15
TEORIA PROBABILITAŢILOR SI STATISTICA MATEMTICA-UNITATEA DE ÎNVATARE 6 Verificarea ipotezelor statistice Dr.Liana Manu Iosifescu Octombrie 2012 CUPRINS Erori posibile în testările ipotezelor statistice ………………………………………..53 Teorema Neyman-Pearson.Teste bazate pe teorema Neyman- Pearson…….………54 Metoda intervalelor de încredere pentru verificarea ipotezelor statistice...………..56 Exerciţii rezolvate………………………………………………………………………59 Exerciţii propuse………………………………………………………………………..62 Ipotezele pe care le vom face se referă la valorile parametrilor care intervin în legea de repartiţie. Pentru o repartiţie unidimensională, a cărei densitate de repartiţie depinde de k parametrii , , aceştia pot fi interpretaţi ca fiind coordonatele unui punct din spaţiul euclidian . Fie A o mulţime boreliană din . Presupunerea o vom nota şi o vom numi ipoteza nulă. Dacă A se reduce la un singur punct, vom spune că este simplă, iar dacă A conţine mai mult de un punct vom spune că ipoteza este compusă. Ipoteza o vom numi ipoteza alternativă . Verificarea ipotezei se face pe baza unei selecţii de volum n: , extrasă dintr-o populaţie caracterizată de v.a.X a cărei desitate de probabilitate este . Vom presupune că selecţia este repetată şi că reprezintă un punct din spaţiul euclidian . Dacă există o regiune a.î. pentru 53

Upload: tiffyyyyyyy

Post on 08-Aug-2015

93 views

Category:

Documents


12 download

DESCRIPTION

probabilitati

TRANSCRIPT

TEORIA PROBABILITAŢILOR SI STATISTICA MATEMTICA-UNITATEA DE ÎNVATARE 6

Verificarea ipotezelor statisticeDr.Liana Manu Iosifescu

Octombrie 2012

CUPRINS

Erori posibile în testările ipotezelor statistice ………………………………………..53Teorema Neyman-Pearson.Teste bazate pe teorema Neyman-Pearson…….………54Metoda intervalelor de încredere pentru verificarea ipotezelor statistice...………..56Exerciţii rezolvate………………………………………………………………………59Exerciţii propuse………………………………………………………………………..62

Ipotezele pe care le vom face se referă la valorile parametrilor care intervin în legea de repartiţie. Pentru o repartiţie unidimensională, a cărei densitate de repartiţie depinde de k parametrii , , aceştia pot fi interpretaţi ca fiind coordonatele

unui punct din spaţiul euclidian . Fie A o mulţime boreliană din .

Presupunerea o vom nota şi o vom numi ipoteza nulă. Dacă A se reduce la

un singur punct, vom spune că este simplă, iar dacă A conţine mai

mult de un punct vom spune că ipoteza este compusă. Ipoteza o vom numi ipoteza alternativă . Verificarea ipotezei se face pe baza unei selecţii de volum n: , extrasă dintr-o populaţie caracterizată de

v.a.X a cărei desitate de probabilitate este . Vom presupune că selecţia

este repetată şi că reprezintă un punct din spaţiul euclidian . Dacă există

o regiune a.î. pentru , apropiat de zero -

pe care îl vom numi nivel de semnificaţie-se respinge ipoteza când -

regiunea W se va numi regiune critică-şi se acceptă ipoteza când . Regiunea critică nu este unic determinată dacă se fixează nivelul de semnificaţie ; orice regiune critică furnizează o regulă pentru verificarea ipotezei , pe care o vom numi test.

Dacă efectuăm un număr mare de selecţii, pe baza legii numerelor mari, numai într-un număr mic de cazuri punctul se va afla în regiunea critică, în

majoritatea cazurilor . Nu este exclus ca punctul ,

iar ipoteza să fie adevărată, comiţând astfel o eroare numită eroare de genul întâi (eroarea de a respinge o ipoteză adevărată). Putem comite eroarea de a accepta o ipoteză falsă: fiind falsă, . Eroarea făcută în acest caz se numeşte eroarede genul al doilea. Probabilităţiile comiterii acestor tipuri de erori se numesc riscuri de

speţa întâi şi a doua .

53

Prin definiţie, se

numeşte puterea testului şi o vom nota cu .Fie X o v.a. caracterizată de densitatea de repartiţie sau de funcţia de frecvenţă mărginită. În cazul în care ipotezele şi sunt ipoteze simple, pe baza selecţiei

de volum n: , extrasă din populaţia caracterizată de X, existenţa celui mai puternic test este garantată de următoarea lemă cunoscută sub numele de teorema Neyman-Pearson: Pentru verificarea ipotezei cu alternativa , dintre

testele pentru care , cel determinat prin regiunea critică

cu ajutorul verosimilităţii eşantionului dat în ipoteza , l=0,1;

prininegalitatea ,

cu c rezultând din egalitatea există unul cu propritatea că

este maximă.

Metodologia de elaborare a testelor bazate pe metoda Neyman-Pearson constă în a acorda ipotezei nule o situaţie privilegiată fixând apriori nivelul testului (nivel de semnificaţie) - valoarea riscului de speţa întâi, apoi alegând dintre toate testele pe acela care minimizează valoarea riscului de speţa a doua. Practic, se defineşte regiunea critică a.î. dacă se acceptă , adică

prin: .

Exemplu: Verificarea ipotezei asupra mediei unei populaţii normale cu dispersie cunoscută conduce la determinarea mulţimii punctelor

a.î.

.

54

Într-adevăr, dacă , regiunea critică fiind complet

detrerminată de condiţia: .

.

Pentru calculul puterii acestui test:

test unilateral dreapta

Aplicaţie: Durata de funcţionare a unui tip de bec de 100 waţi poate fi considerată ca v. a.O selecţie de 25 astfel de becuri dă o durată medie de funcţionare de

1380 de ore. Să se verifice la pragul ipoteza faţă de Determinaţi:i). puterea testului pentru ;ii).volumul selecţiei a.î. . Rezolvare. Este cazul testului Z unilateral stânga , pentru care, explicitând calculele făcute în exemplul anterior (cazul testului Z unilateral dreapta) , avem succesiv:

deci regiunea

critică este W: . Cum , utilizând tabelul funcţiei de repartiţie

pentru N(0,1), din care , rezultă .

Astfel, marginea superioară a regiunii critice: ;

Se respinge ipoteza nulă, căci 1380< . Se putea calcula echivalent

Pentru puterea testului avem:

, deci

, iar pentru ca testul să aibă o putere dată,

55

din relaţia dedusă anterior, rezultă

, adică .

Metoda intervalelor de încredere pentru verificarea ipotezelor statisticeTeorema:Fie regiunea de acceptare la nivel a testului . Dacă pentru fiecare

observaţie , se notează cu , atunci este o familie de intervale de încredere pentru cu nivelul de încredere cel puţin . Mai mult, dacă

este testul uniform cel mai puternic test pentru problema , atunci

minimizează pentru din familia intervalelor de încredere cu probabilitate confidenţială cel puţin .Testul Z: verificarea ipotezei cu alternativa bilaterală , la nivelul de semnificaţie , fiind cunoscut-testul Z bilateral.

Dacă este adevărată, atunci regiunea critică fiind:

, iar puterea:

Testul Z unilateral dreapta: ,

Testul Z unilateral stânga: ,

Testul Z relativ la mediile a două populaţii normale cu dispersii cunoscute

Pe baza selecţiilor din populaţia şi din

populaţia se obţin: ,l=1,2.

Dacă este adevărată, atunci , pentru nivelul de semnificaţie

dat, verificarea ipotezei cu alternativa conduce la

56

-test Z bilateral

testul Z unilateral dreapta: , are regiunea critică:

testul Z unilateral stânga: are regiunea critică:

Testul T : verificarea ipotezei cu alternativa bilaterală , la nivelul de semnificaţie , fiind necunoscut-testul T bilateral.

Dacă este adevărată, atunci regiunea critică fiind:

Testul T unilateral dreapta: , are regiunea critică

;Testul T unilateral stânga: ,

are regiunea critică

Testul T pentru verificarea ipotezei referitoare la egalitatea mediilor a două populaţii normale cu dispersii egale, necunoscute: la nivelul de semnificaţie ,

Pe baza statisticii , regiunea critică a testului T

bilateral: ;

T unilateral dreapta:

T unilateral stânga:

57

Testul referitor la dispersia repartiţiei normale: testarea ipotezei cu nivel

de semnificaţie utilizează statistica , regiunea critică pentru alternativa

bilaterală este

unilaterală dreapta: fiind

unilaterală stânga: fiind

Verificarea ipotezei referitoare la egalitatea dispersiilor a două populaţii normale

testul F bilateral: ;cum statistica , pentru nivelul

de semnificaţie dat se pot determina cuantilele şi a.î.

, regiunea critică fiind W=

testul F unilateral dreapta: are regiunea critică

testul F unilateral stânga:

Pentru o valoare dată a raportului , puterea testului este dată de expresia:

Exerciţii rezolvate1. Determinaţi regiunea critică în cazul testului Z bilareral.Soluţie: Dacă , regiunea critică va consta în toate valorile lui pentru care

şi fiind pragul de semnificaţie dat. k se determină a.î.

58

. Regiunea critică este:

.

2. Fie . Pentru o selecţie de volum 25 extrasă din populaţia caracterizată de v.a.X, determinaţi regiunea de acceptare a celui mai puternic test de nivel şi puterea acestuia.

Soluţie:

. Conform lemei Neyman-Pearson,

regiunea de acceptare de nivel pentru este ,

unde . Dar

deci regiunea de acceptare va fi: , iar valoarea

riscului de speţa a doua

, deci puterea testului 3. Să se verifice ipotezele pentru o selecţie de volum n extrasă din

populaţia caracterizată de v.a. şi determinaţi funcţia de putere a testului cu

ajutorul nivelului său de semnificaţie.Soluţie: Începem cu observaţia că în cazul verificării unei ipoteze referitoare la dispersia unei legi normale pe baza unei selecţii de volum n, cu nivelul de semnificaţie , lema Neyman-Pearson conduce la determinarea mulţimii punctelor

a.î. , care, prin logaritmare

conduce la:

59

Ţinând cont că este adevarată, , ecuaţia care determină valoarea

Pentru verificarea alternativei bilaterale

Utilizând faptul că statistica , în cazul testului unilateral dreapta,

Regiunea de acceptare a celui mai puternic test de nivel a lui contra este

, unde . Cum

, deci, la nivelul de

semnificaţie

60

. Riscul de speţa a doua

este funcţia putere.

4. Să se determine cel mai puternic test de nivel al ipotezei nule contra alternativei consideră pentru o selecţie poissoniană.Soluţie: Conform lemei Neyman-Pearson, determinarea formei regiunii critice revine la:

, valoarea lui determinându-se cu ajutorul ecuaţiei:

,ecuaţie, care se transformă în unde:

, întrucât .

Regiunea critică este , regiunea de acceptare a celui mai

puternic test fiind cu

, de unde se află .

Exerciţii propuse1. Aflaţi riscurile asociate testului care pentru o selecţie de volum 100 asupra v.a.

decide acceptarea ipotezei dacă şi a alternativei ( dacă ). R.

2. Greutatea unor pachete marcată a fi de 900g este o v.a. normală cu . Greutatea medie observată a 10 pachete este de 898g. Să se calculeze probabilitatea acceptării ipotezei cu alternativa la pragul de semnificaţie 0,05.3. Masa (greutatea) medie a locuitorilor unui oraş poate fi considerată ca o v.a.

. O selecţie de 100 locuitori ai oraşului, cu domiciliul în zona parcurilor, este găsită ca având o masă medie de 80kg.a). Acest rezultat indică faptul că locuitorii având domiciliul în zona parcurilor au o masă mai mare decât a celorlalţi locuitori ?

61

b). Care este puterea testului pentru ?c). Pentru ce volum al selecţiei testul are puterea 0,8849?4. Două maşini sunt folosite pentru ambalarea unui produs în pachete de 1000g. Din experienţa trecută se ştie că cantitaţile ambalate pot fi considerate v.a. respectiv. În urma cântăririi a 100 pachete din producţia fiecărei maşini s-au obţinut:

. La un prag de semnificaţie să se verifice:a). ipoteza faţă de ipoteza alternativă ;b). ipoteza faţă de ipoteza alternativă .5. Fie v.a. şi o selecţie de volum 25 extrasă din X. Se consideră ipotezele simple: . Să se determine regiunea de acceptare a celui mai puternic test de nivel a lui contra .6. Două selecţii indeprndente de volume extrase din populaţii normale

independenteau dat .Verificaţi ipoteza

la pragul de semnificaţie faţă de ipoteza alternativă .

62