elemente de teoria estimatiei
TRANSCRIPT
Noţiuni generale
Orice cercetare statistică porneşte de la o colectivitate sau populaţie alcătuită din elemente sau indivizi care au o caracteristică generală şi care se diferenţiază prin anumite atribute.
Elementele colectivităţii (populaţiei) se numesc unităţi.În studiul colectivităţilor statistice, în majoritatea cazurilor suntem nevoiţi să
studiem numai părţi din întreaga colectivitate. Ori, în acest caz, se pune în mod natural întrebarea dacă concluziile ce le obţinem concordă cu rezultatul ce l-am obţine dacă studiem întreaga populaţie. Apare astfel problema de a studia modul în care valorile tipice (pe baza cărora tragem concluzii) ale colectivităţii parţiale investigate pot furniza informaţii asupra valorilor tipice ale întregii colectivităţi.
Vom presupune, în cele ce urmează, că urmărim o anumită caracteristică a colectivităţii generale şi că această caracteristică este descrisă de o variabilă aleatoare X definită pe un câmp de probabilitate {Q, K, P}, în care elementele mulţimii Q sunt tocmai elementele colectivităţii generale, K este un corp borelian de părţi ale lui Q, iar P este o probabilitate pe K.
După cum se ştie, dacă Q este finită, atunci K coincide cu mulţimea părţilor lui Q, iar P este o repartiţie discretă uniformă pe Q.
Faptul că suntem obligaţi să cercetăm numai o anumită parte din populaţie este impus de natura concretă a colectivităţii. Astfel, dacă numărul elementelor populaţiei este infinit, în mod necesar nu putem cerceta decât un număr finit şi deci obţinem o informaţie trunchiată.
Dar, în cazul când numărul elementelor populaţiei este finit, atunci când cercetarea calităţii elementelor conduce la distrugerea lor, evident că se impune alegerea unui număr finit pentru cercetare.
Dacă ţinem seama de faptul că orice investigare (cercetare) implică şi anumite cheltuieli, rezultă clar că suntem obligaţi să cercetăm numai o parte din populaţia totală.
Vom numi selecţie (eşantion) o colectivitate parţială de elemente alese la întâmplare. Numărul elementelor dintr-o selecţie îl vom numi volumul selecţiei.
Spunem că o selecţie este repetată, dacă elementul ales la întâmplare este reintrodus în colectivitatea generală înaintea efectuării următoarei alegeri.
Selecţia este nerepetată dacă, elementele alese nu se mai introduc în colectivitatea generală.
Să efectuăm deci o selecţie de volum n dintr-o colectivitate C şi să notăm cu xi, x2, ..., xn valorile de observaţie. Acestea se referă la valorile unei variabile aleatoare X care dă legitatea caracteristicii studiate.
Considerate aposteriori, valorile de selecţie x1, x2, ..., xn sunt valori bine determinate ale variabilei aleatoare X.
Privite apriori, valorile X1, X2, Xn pot fi considerate ca variabile aleatoare independente, identic repartizate cu variabila X, în cazul unei selecţii repetate.
Dacă selecţia este nerepetată, atunci variabilele X1, X2, Xn sunt dependente, dependenţa fiind de tipul lanţurilor cu legături complete.
Dacă volumul colectivităţii generale este suficient de mare iar volumul selecţiei este suficient de mic, deosebirea dintre o selecţie repetată şi una nerepetată este nesemnificativă şi, ca atare, în aplicaţiile practice o selecţie nerepetată se tratează după metodele selecţiei repetate.
Estimaţii Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în general
cunoscute. Valorile numerice obţinute se numesc estimaţii sau estimatori. Se obţin estimaţii punctuale în cazul în care se folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de încredere în cazul în care se determină un interval în care se află, cu o anumită probabilitate valoarea estimată.
Un estimator al parametrului se va nota cu . O estimaţie este nedeplasată
dacă , adică media estimaţiei este egală chiar cu valoarea teoretică a
parametrului estimat.
Conform proprietăţii 2.3.5.1, adică media de selecţie este un
estimator nedeplasat al mediei, iar conform proprietăţii 2.3.5.2., adică dispersia de selecţie este un estimator nedeplasat al dispersiei.
Problema estimării intervalelor se reduce la găsirea unui interval de încredere cu un coeficient de încredere astfel încât .Este de dorit ca să fie cât mai mare (de obicei este cuprins între 0,9 şi
0,99) iar intervalul să fie cât mai mic. În stabilirea intervalelor se utilizează caracteristicile numerice cuantile. Se numesc cuantile de ordin valoarea a variabilei aleatoare pentru care adică valoarea variabilei aleatoare care are la stânga ei aria sub curba densităţii de probabilitate. Evident:
Pentru a estima un interval se alege , se citesc din tabelele cuantilele, de
exemplu şi şi se precizează intervalul. În prealabil, în funcţie de mărimea
pentru care se caută intervalul se precizează cu care din repartiţiile cunoscute trebuie lucrat.
Estimarea intervalelor de încredere pentru medii
Cazul când se cunoaste dispersia.Se consideră o populaţie repartizată normal . Dacă se cunoaşte dispersia se
poate folosi faptul că este repartizată . Se notează cu cuantila de
ordinul pentru repartiţia . Evident
Aşadar intervalul este un interval de estimare cu coeficientul de
încredere . Din anumite puncte de vedere este recomandabil să se utilizeze acele
intervale care lasă atât la dreapta cât şi la stânga lor aceeaşi arie, egală cu .
1
Deoarece repartiţia este simetrică faţă de axa Oy avem relaţia
Din relaţiile
rezultă
Aşadar intervalul căutat este
Mărimea poartă numele de eroare şi serveşte la calculul numărului de
experienţe atunci când este impusă eroarea şi se alege un coeficient
Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este repartizată normal deoarece z este repartizată indiferent de repartiţia variabilelor
(teorema limită centrală).
Cazul când dispersia este necunoscutăDacă nu se cunoaste dispersia în estimarea intervalelor se utilizează dispersia de
selecţie care este un estimator nedeplasat al dispersiei deoarece Se consideră o selecţie dintr-o populaţie de tipul .
Conform celor arătate anterior mărimea este repartizată şi, ca
urmare
Deoarece repartitia Student este simetrică faţă de origine şi
înlocuindu-l pe T în relaţia anterioară, se obţine
şi
Ca urmare intervalul căutat este
2
În acest caz eroarea este
Dacă numărul de experienţe este , se poate folosi aproximaţia
Estimarea intervalului de încredere pentru diferenţa a două mediiSe consideră două selecţii din populaţii normal repartizate şi .
Cazul dispersiilor cunoscute.Considerăm o selecţie aleatoare din populaţia şi o selecţie
dintr-o populaţie .
Estimatorii nedeplasaţi ai mediilor şi sunt: si
Considerând variabila aleatoare 21 XX , ea este normal repartizată iar estimaţia şi
dispersia ei vor fi şi
unde am ţinut cont că şi sunt independente.
Mai departe, variabila aleatoare este
repartizată N(0,1).
Deoarece, şi rezulta
Aşadar, intervalul de estimaţie pentru diferenţa mediilor este
În acest caz, eroarea este .
Dispersii necunoscute dar presupuse egale În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale utilizăm
dispersia ponderată de selecţie
3
ca un estimator nedeplasat pentru .Avem într-adevăr,
În continuare vom arăta că mărimea este repartizată
Se observă că este raportul între o variabila aleatoare repartizată
N(0,1) şi deoarece
variabila este de tipul
Dar este repartizat iar este repartizat ,
deci T este repartizat şi
Deoarece repartiţia Student este simetrică rezultă că
Deci, cu
eroarea .
Estimarea intervalelor de încredere pentru dispersieConsiderăm o selecţie de volum n dintr-o populaţie normală . Conform
celor arătate anterior variabila aleatoare este repartizată şi ca
urmare
4
Deci, si .
Estimarea intervalului de încredere pentru raportul a două dispersiiSe consideră selecţia aleatoare dintr-o populaţie şi o selecţie
dintr-o populaţie .
Conform cu cele arătate anterior, raportul este repartizat şi
deci
Rezultă că , iar intervalul de estimaţie pentru raportul
dispersiilor este:
Verificarea ipotezelor statistice
Ipoteze statisticeIpotezele statistice sunt ipoteze asupra repartiţiei unor variabile aleatoare. Ele
se referă fie la parametrii repartiţiei, fie la legea propriu zisa de repartiţie.Teste statistice
Metodele de verificare a ipotezelor se bazează pe teste statistice care constau în examinarea selecţiilor obţinute pentru o variabilă aleatoare şi a unor funcţii de elementele selecţiilor.Notaţii conventionale
Ipoteza testată, presupusă adevarată, se numeşte ipoteza nulă şi se notează H0. Testarea necesită şi formularea unei ipoteze complementare, numită ipoteză alternativă şi notată HA. Dacă se acceptă H0, în mod normal se respinge HA şi invers.
Din acest motiv, ipotezele H0 si HA se aleg să fie complementare.Dacă testul priveşte valoarea unui parametru , de exemplu şi
se poate întâmpla ca toţi ceilalţi parametri ce caracterizează distribuţiile să fie cunoscuţi şi, după acceptarea uneia din cele două ipoteze, distribuţiile şi
devin complet definite. În acest caz, ipotezele sunt numite “simple”. Dacă însă ceilalţi parametric nu sunt cunoscuţi complet, ipotezele se numesc “ipoteze compuse”. De exemplu, dacă distribuţia este normală şi parametrul cautat este , iar dispersia este necunoscută, suntem în cazul unei ipoteze compuse.
5
Probabilitatea unei decizii gresiteLa verificarea ipotezelor se pot comite două feluri de erori:
1. Erorile de tipul 1 constau în respingerea ipotezei H0 atunci când aceasta este adevărată.
2. Erorile de tipul 2 constau în acceptarea ipotezei H0 atunci când aceasta este falsă.
Probabilitatile celor două tipuri de erori se notează de obicei cu α respectiv β:α = P (respinge H0 / H0 adevărată)β = P (acceptă H0 / H0 falsă) = P (respinge HA / HA adevărată)
Deci, α este riscul de a respinge în mod greşit H0 şi β este riscul de a respinge în mod greşit HA.
Probabilitatea de a respinge ipoteza H0 atunci când aceasta este falsă se numeşte puterea testului. Coeficientul α este numit şi nivel de semnificaţie. Desigur că este de dorit ca valorile α şi β să fie cât mai mici. Valoarea lui α se alege şi în funcţie de importanţa implicaţiilor acceptării sau respingerii ipotezelor testate. De exemplu, un coeficient de 0,05 este considerat ca bun pentru majoritatea problemelor din practică. Dacă însă este vorba de un medicament foarte activ cum ar fi digoxina, este de preferat a alege α între 0,01 si 0,05.
Pentru a verifica o ipoteză se folosesc datele de selecţie pentru calcularea unui test statistic. Domeniul de valori ale testului care corespunde respingerii ipotezei H0
cu probabilitatea α se numeşte regiune critică.Metodologia de verificare cuprinde în principiu următoarele etape:
1. se presupune, pe baza unor teste anterioare sau pe baza structurii fenomenului studiat, o repartiţie pentru populaţia statistică din care se face selectia;
2. se formulează ipoteza;3. se calculează valoarea testului ales şi se compară cu limitele de acceptare,
respectiv respingere;4. se acceptă sau se respinge, în funcţie de rezultat, ipoteza H0.
Ipoteze asupra mediei
Dispersia cunoscutăSe consideră o selecţia dintr-o populaţie normală . Considerăm variabila
aleatoare . Datorită linearităţii operatorului de mediere avem:
Pentru dispersia lui ţinem cont că şi că rezultatele xi
reprezintă variabile aleatoare independente .
În aceste condiţii se obţine
6
Ca urmare a teoremei limită centrală, variabila aleatoare este
repartizata .Avem în acest caz, dacă vom alege un risc , ipotezele şi criteriile de acceptare
sau respingere conform cu tabelul de mai jos:
Tabelul nr. 2:H0 HA Regiunea
critică
Dispersia necunoscutăÎn acest caz se înlocuieşte în formula anterioară cu estimaţia sa şi se ţine
cont că variabila aleatoare este repartizată Student cu n-1 grade de libertate.
Ipoteze asupra diferenţelor a două medii
Cazul când se cunosc dispersiileSe consideră două populaţii normale şi , o selecţie aleatoare din
din populaţia şi o selecţie aleatoare din
populaţia .Variabila aleatoare
este, dupa cum s-a aratat anterior,
repartizată N(0,1).
Cazul dispersiilor necunoscute, dar presupuse egaleÎn cazul în care nu cunoaştem dispersiile dar ştim că sunt egale utilizăm
dispersia ponderată de selecţie
7
ca un estimator nedeplasat pentru .
După cum s-a arătat anterior, mărimea este repartizată
Cazul observaţiilor perechiIn cazul când observaţiile formează în mod natural perechi, cum ar fi de exemplu
când se măsoară concentraţiile în n probe, fiecare din ele cu două metode diferite sau cazul când două medicamente se administrează unui aceluiaşi lot de voluntari, în două perioade diferite.
Considerăm în acest caz variabila aleatoare .În cazul în care selecţiile aparţin la aceiaşi populaţie, media lui d va fi zero:
.
Când se cunosc dispersiile avem şi variabila aleatoare este
repartizată .Când nu se cunosc dispersiile se folosesc dispersiile de selecţie şi se ţine cont că
variabila aleatoare după cum se poate arăta uşor, este repartizată Student cu n-1
grade de libertate.
Compararea proporţiilorDacă vom considera un experiment în care răspunsul este de tip da sau nu, de
exemplu vindecare sau nevindecare, supravieţuire sau moarte, etc., numărul de rezultate k de un anumit tip în n repetări ale experimentului este o variabilă aleatoare repartizată binomial.
Deoarece avem, după cum s-a calculat anterior şi , variabila
aleatoare standardizată se aproximează ca fiind normal
repartizată.Fie două populaţii de tip “urna Poisson cu bile albe şi bile negre”, cu parametrii
(probabilitatea bilei albe) şi respectiv . În două selecţii din cele două populaţii, de volum şi respectiv presupunem că s-a obţinut răspuns “pozitiv” de şi respectiv 2k ori.
Fie . În cazul ipotezei nule , variabila aleatoare va
fi distribuită cu media 0 şi dispersia
8
În aceste condiţii se aproximează că variabila aleatoare va fi
repartizată .
O estimare naturală a lui p este .
O îmbunătăţire a aproximării se poate obţine prin introducerea unor “corecţii de
continuitate” pentru şi :
Estimarea dispersieiConsiderăm o selecţie de volum n dintr-o populaţie normală . Conform
celor arătate anterior variabila aleatoare este repartizată .
Estimarea raportului a două dispersiiSe consideră selecţia aleatoare dintr-o populaţie şi o selecţie
aleatoare dintr-o populaţie .
Conform cu cele arătate anterior, raportul este repartizat .
Se calculează luându-se .
Dar este repartizat N(0,1) căci şi
Deci v este o sumă de n-1 pătrate de variabile de tip N(0,1).
9
Compararea mai multor dispersii.a) Testul Bartlett pentru verificarea omogenităţii dispersiilor Fie m estimări independente pentru dispersiile pe baza
unor selecţii de volume .Se pune problema verificării ipotezei privind egalitatea acestor dispersii
În acest caz Bartlet a arătat că variabila aleatoare
unde , şi s dispersia ponderată a întregului set de date, este repartizată .
b) Testul rapid Cochran pentru selecţii de acelaşi volumDaca selectiile considerate au acelasi volum , atunci se
calculeaza valoarea care se compară cu o valoare maximă admisă
pentru acceptarea ipotezei nule.In formula de mai sus avem:
si
Ipoteza se respinge daca unde se gaseste din tabelele Cochran la perechea grade de libertate si la probabilitatea .
c) Testul Hartley
Daca selectiile au acelasi volum se poate aplica pentru testul
iar ipoteza se respinge daca unde se gaseste din tabelele Hartley la probabilitatea .
Metoda verosimilităţii maxime
Considerăm caracteristica X supusă cercetării ca având funcţia de
probabilitate f(x; . Variabilele de selecţie sunt independente
10
şi identic repartizate, rezultă că vectorul aleator ( ) va avea funcţia de
probabilitate
şi care se numeşte funcţie
de verosimilitate.
Spunem că estimatorii sunt de verosimilitate maximă
pentru dacă realizează maximul funcţiei de verosimilitate.
Determinarea estimatorilor de verosimilitate maximă se va face rezolvând
sistemul , care de regulă se înlocuieşte cu numit sistem
de verosimilitate maximă.
1) Se arată că un estimator eficient este un estimator de verosimilitate
maximă.
2) Un estimator de verosimilitate maximă este estimator consistent, iar pentru
valori mari ale lui n este o variabilă aleatoare ce urmează legea normală N(
, unde este parametrul estimat.
Exemplu. Să se determine estimatorii de verosimilitate maximă pentru
valoarea medie şi abaterea standard dacă se consideră caracteristica X, care urmează
legea normală N(m, ).
Rezolvare:
M(X) = m şi , f(x; m, . Pentru a scrie sistemul de
verosimilitate maximă avem:
ln f(x; m, ) = - ln , de unde
, iar .
Se obţine:
.
11
sau: .
Exemplu. Se consideră caracteristica X ce urmează legea binomială, adică
are distribuţia teoretică:
X , unde P(m,k) = cu parametrul
p necunoscut. Folosind o selecţie de volum n, se cere:
a) estimatorul de verosimilitate maximă pentru p;
b) să se arate că estimatorul este un estimator absolut corect pentru
parametrul p;
c) să se arate că estimatorul este un estimator eficient pentru parametrul p.
Rezolvare:
a) Funcţia de probabilitate pentru caracteristica X este
f(x; p) = . Pentru a scrie ecuaţia de verosimilitate maximă
, avem că
ln f(x; p) = ln , de unde
. Aşadar ecuaţia verosimilităţii maxime este:
, adică , unde .
Ecuaţia verosimilităţii maxime se mai scrie , de unde se
obţine estimatorul de verosimilitate maximă pentru
parametrul p.
Pentru aceasta avem, în primul rând, că:
12
, iar apoi pentru dispersie se poate scrie succesiv:
.
Prin urmare, s-a obţinut M( ) = p şi , deci estimatorul este
estimator absolut corect pentru parametrul p.
c) Cantitatea de informaţie relativă la parametrul p se poate calcula după cum
urmează:
.
Pe de altă parte, am văzut că deci estimatorul este estimator
eficient pentru parametrul p.
13
Bibilografie:
1. Buiga, A., Dragoş C., Lazăr D., Parpucea I., Todea A. - Statistică I - Ed. Presa Universitară Clujeană, Cluj-Napoca, 2003;
2. Ivanov M. – Matematici Speciale, Curs – Universitatea „Constantin Brâncuşi” Tg. Jiu, 2006;
3. Cenuşă G., Şerban R., Raischi C., - Matematici pentru economişti – Bibiloteca Digitală A.S.E., 2008.
14