elemente de teoria estimatiei

Noţiuni generale

Orice cercetare statistică porneşte de la o colectivitate sau populaţie alcătuită din elemente sau indivizi care au o caracteristică generală şi care se diferenţiază prin anumite atribute.

Elementele colectivităţii (populaţiei) se numesc unităţi.În studiul colectivităţilor statistice, în majoritatea cazurilor suntem nevoiţi să

studiem numai părţi din întreaga colectivitate. Ori, în acest caz, se pune în mod natural întrebarea dacă concluziile ce le obţinem concordă cu rezultatul ce l-am obţine dacă studiem întreaga populaţie. Apare astfel problema de a studia modul în care valorile tipice (pe baza cărora tragem concluzii) ale colectivităţii parţiale investigate pot furniza informaţii asupra valorilor tipice ale întregii colectivităţi.

Vom presupune, în cele ce urmează, că urmărim o anumită caracteristică a colectivităţii generale şi că această caracteristică este descrisă de o variabilă aleatoare X definită pe un câmp de probabilitate {Q, K, P}, în care elementele mulţimii Q sunt tocmai elementele colectivităţii generale, K este un corp borelian de părţi ale lui Q, iar P este o probabilitate pe K.

După cum se ştie, dacă Q este finită, atunci K coincide cu mulţimea părţilor lui Q, iar P este o repartiţie discretă uniformă pe Q.

Faptul că suntem obligaţi să cercetăm numai o anumită parte din populaţie este impus de natura concretă a colectivităţii. Astfel, dacă numărul elementelor populaţiei este infinit, în mod necesar nu putem cerceta decât un număr finit şi deci obţinem o informaţie trunchiată.

Dar, în cazul când numărul elementelor populaţiei este finit, atunci când cercetarea calităţii elementelor conduce la distrugerea lor, evident că se impune alegerea unui număr finit pentru cercetare.

Dacă ţinem seama de faptul că orice investigare (cercetare) implică şi anumite cheltuieli, rezultă clar că suntem obligaţi să cercetăm numai o parte din populaţia totală.

Vom numi selecţie (eşantion) o colectivitate parţială de elemente alese la întâmplare. Numărul elementelor dintr-o selecţie îl vom numi volumul selecţiei.

Spunem că o selecţie este repetată, dacă elementul ales la întâmplare este reintrodus în colectivitatea generală înaintea efectuării următoarei alegeri.

Selecţia este nerepetată dacă, elementele alese nu se mai introduc în colectivitatea generală.

Să efectuăm deci o selecţie de volum n dintr-o colectivitate C şi să notăm cu xi, x2, ..., xn valorile de observaţie. Acestea se referă la valorile unei variabile aleatoare X care dă legitatea caracteristicii studiate.

Considerate aposteriori, valorile de selecţie x1, x2, ..., xn sunt valori bine determinate ale variabilei aleatoare X.

Privite apriori, valorile X1, X2, Xn pot fi considerate ca variabile aleatoare independente, identic repartizate cu variabila X, în cazul unei selecţii repetate.

Dacă selecţia este nerepetată, atunci variabilele X1, X2, Xn sunt dependente, dependenţa fiind de tipul lanţurilor cu legături complete.

Dacă volumul colectivităţii generale este suficient de mare iar volumul selecţiei este suficient de mic, deosebirea dintre o selecţie repetată şi una nerepetată este nesemnificativă şi, ca atare, în aplicaţiile practice o selecţie nerepetată se tratează după metodele selecţiei repetate.

Estimaţii Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în general

cunoscute. Valorile numerice obţinute se numesc estimaţii sau estimatori. Se obţin estimaţii punctuale în cazul în care se folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de încredere în cazul în care se determină un interval în care se află, cu o anumită probabilitate valoarea estimată.

Un estimator al parametrului se va nota cu . O estimaţie este nedeplasată

dacă , adică media estimaţiei este egală chiar cu valoarea teoretică a

parametrului estimat.

Conform proprietăţii 2.3.5.1, adică media de selecţie este un

estimator nedeplasat al mediei, iar conform proprietăţii 2.3.5.2., adică dispersia de selecţie este un estimator nedeplasat al dispersiei.

Problema estimării intervalelor se reduce la găsirea unui interval de încredere cu un coeficient de încredere astfel încât .Este de dorit ca să fie cât mai mare (de obicei este cuprins între 0,9 şi

0,99) iar intervalul să fie cât mai mic. În stabilirea intervalelor se utilizează caracteristicile numerice cuantile. Se numesc cuantile de ordin valoarea a variabilei aleatoare pentru care adică valoarea variabilei aleatoare care are la stânga ei aria sub curba densităţii de probabilitate. Evident:

Pentru a estima un interval se alege , se citesc din tabelele cuantilele, de

exemplu şi şi se precizează intervalul. În prealabil, în funcţie de mărimea

pentru care se caută intervalul se precizează cu care din repartiţiile cunoscute trebuie lucrat.

Estimarea intervalelor de încredere pentru medii

Cazul când se cunoaste dispersia.Se consideră o populaţie repartizată normal . Dacă se cunoaşte dispersia se

poate folosi faptul că este repartizată . Se notează cu cuantila de

ordinul pentru repartiţia . Evident

Aşadar intervalul este un interval de estimare cu coeficientul de

încredere . Din anumite puncte de vedere este recomandabil să se utilizeze acele

intervale care lasă atât la dreapta cât şi la stânga lor aceeaşi arie, egală cu .

1

Deoarece repartiţia este simetrică faţă de axa Oy avem relaţia

Din relaţiile

rezultă

Aşadar intervalul căutat este

Mărimea poartă numele de eroare şi serveşte la calculul numărului de

experienţe atunci când este impusă eroarea şi se alege un coeficient

Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este repartizată normal deoarece z este repartizată indiferent de repartiţia variabilelor

(teorema limită centrală).

Cazul când dispersia este necunoscutăDacă nu se cunoaste dispersia în estimarea intervalelor se utilizează dispersia de

selecţie care este un estimator nedeplasat al dispersiei deoarece Se consideră o selecţie dintr-o populaţie de tipul .

Conform celor arătate anterior mărimea este repartizată şi, ca

urmare

Deoarece repartitia Student este simetrică faţă de origine şi

înlocuindu-l pe T în relaţia anterioară, se obţine

şi

Ca urmare intervalul căutat este

2

În acest caz eroarea este

Dacă numărul de experienţe este , se poate folosi aproximaţia

Estimarea intervalului de încredere pentru diferenţa a două mediiSe consideră două selecţii din populaţii normal repartizate şi .

Cazul dispersiilor cunoscute.Considerăm o selecţie aleatoare din populaţia şi o selecţie

dintr-o populaţie .

Estimatorii nedeplasaţi ai mediilor şi sunt: si

Considerând variabila aleatoare 21 XX , ea este normal repartizată iar estimaţia şi

dispersia ei vor fi şi

unde am ţinut cont că şi sunt independente.

Mai departe, variabila aleatoare este

repartizată N(0,1).

Deoarece, şi rezulta

Aşadar, intervalul de estimaţie pentru diferenţa mediilor este

În acest caz, eroarea este .

Dispersii necunoscute dar presupuse egale În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale utilizăm

dispersia ponderată de selecţie

3

ca un estimator nedeplasat pentru .Avem într-adevăr,

În continuare vom arăta că mărimea este repartizată

Se observă că este raportul între o variabila aleatoare repartizată

N(0,1) şi deoarece

variabila este de tipul

Dar este repartizat iar este repartizat ,

deci T este repartizat şi

Deoarece repartiţia Student este simetrică rezultă că

Deci, cu

eroarea .

Estimarea intervalelor de încredere pentru dispersieConsiderăm o selecţie de volum n dintr-o populaţie normală . Conform

celor arătate anterior variabila aleatoare este repartizată şi ca

urmare

4

Deci, si .

Estimarea intervalului de încredere pentru raportul a două dispersiiSe consideră selecţia aleatoare dintr-o populaţie şi o selecţie

dintr-o populaţie .

Conform cu cele arătate anterior, raportul este repartizat şi

deci

Rezultă că , iar intervalul de estimaţie pentru raportul

dispersiilor este:

Verificarea ipotezelor statistice

Ipoteze statisticeIpotezele statistice sunt ipoteze asupra repartiţiei unor variabile aleatoare. Ele

se referă fie la parametrii repartiţiei, fie la legea propriu zisa de repartiţie.Teste statistice

Metodele de verificare a ipotezelor se bazează pe teste statistice care constau în examinarea selecţiilor obţinute pentru o variabilă aleatoare şi a unor funcţii de elementele selecţiilor.Notaţii conventionale

Ipoteza testată, presupusă adevarată, se numeşte ipoteza nulă şi se notează H0. Testarea necesită şi formularea unei ipoteze complementare, numită ipoteză alternativă şi notată HA. Dacă se acceptă H0, în mod normal se respinge HA şi invers.

Din acest motiv, ipotezele H0 si HA se aleg să fie complementare.Dacă testul priveşte valoarea unui parametru , de exemplu şi

se poate întâmpla ca toţi ceilalţi parametri ce caracterizează distribuţiile să fie cunoscuţi şi, după acceptarea uneia din cele două ipoteze, distribuţiile şi

devin complet definite. În acest caz, ipotezele sunt numite “simple”. Dacă însă ceilalţi parametric nu sunt cunoscuţi complet, ipotezele se numesc “ipoteze compuse”. De exemplu, dacă distribuţia este normală şi parametrul cautat este , iar dispersia este necunoscută, suntem în cazul unei ipoteze compuse.

5

Probabilitatea unei decizii gresiteLa verificarea ipotezelor se pot comite două feluri de erori:

1. Erorile de tipul 1 constau în respingerea ipotezei H0 atunci când aceasta este adevărată.

2. Erorile de tipul 2 constau în acceptarea ipotezei H0 atunci când aceasta este falsă.

Probabilitatile celor două tipuri de erori se notează de obicei cu α respectiv β:α = P (respinge H0 / H0 adevărată)β = P (acceptă H0 / H0 falsă) = P (respinge HA / HA adevărată)

Deci, α este riscul de a respinge în mod greşit H0 şi β este riscul de a respinge în mod greşit HA.

Probabilitatea de a respinge ipoteza H0 atunci când aceasta este falsă se numeşte puterea testului. Coeficientul α este numit şi nivel de semnificaţie. Desigur că este de dorit ca valorile α şi β să fie cât mai mici. Valoarea lui α se alege şi în funcţie de importanţa implicaţiilor acceptării sau respingerii ipotezelor testate. De exemplu, un coeficient de 0,05 este considerat ca bun pentru majoritatea problemelor din practică. Dacă însă este vorba de un medicament foarte activ cum ar fi digoxina, este de preferat a alege α între 0,01 si 0,05.

Pentru a verifica o ipoteză se folosesc datele de selecţie pentru calcularea unui test statistic. Domeniul de valori ale testului care corespunde respingerii ipotezei H0

cu probabilitatea α se numeşte regiune critică.Metodologia de verificare cuprinde în principiu următoarele etape:

1. se presupune, pe baza unor teste anterioare sau pe baza structurii fenomenului studiat, o repartiţie pentru populaţia statistică din care se face selectia;

2. se formulează ipoteza;3. se calculează valoarea testului ales şi se compară cu limitele de acceptare,

respectiv respingere;4. se acceptă sau se respinge, în funcţie de rezultat, ipoteza H0.

Ipoteze asupra mediei

Dispersia cunoscutăSe consideră o selecţia dintr-o populaţie normală . Considerăm variabila

aleatoare . Datorită linearităţii operatorului de mediere avem:

Pentru dispersia lui ţinem cont că şi că rezultatele xi

reprezintă variabile aleatoare independente .

În aceste condiţii se obţine

6

Ca urmare a teoremei limită centrală, variabila aleatoare este

repartizata .Avem în acest caz, dacă vom alege un risc , ipotezele şi criteriile de acceptare

sau respingere conform cu tabelul de mai jos:

Tabelul nr. 2:H0 HA Regiunea

critică

Dispersia necunoscutăÎn acest caz se înlocuieşte în formula anterioară cu estimaţia sa şi se ţine

cont că variabila aleatoare este repartizată Student cu n-1 grade de libertate.

Ipoteze asupra diferenţelor a două medii

Cazul când se cunosc dispersiileSe consideră două populaţii normale şi , o selecţie aleatoare din

din populaţia şi o selecţie aleatoare din

populaţia .Variabila aleatoare

este, dupa cum s-a aratat anterior,

repartizată N(0,1).

Cazul dispersiilor necunoscute, dar presupuse egaleÎn cazul în care nu cunoaştem dispersiile dar ştim că sunt egale utilizăm

dispersia ponderată de selecţie

7

ca un estimator nedeplasat pentru .

După cum s-a arătat anterior, mărimea este repartizată

Cazul observaţiilor perechiIn cazul când observaţiile formează în mod natural perechi, cum ar fi de exemplu

când se măsoară concentraţiile în n probe, fiecare din ele cu două metode diferite sau cazul când două medicamente se administrează unui aceluiaşi lot de voluntari, în două perioade diferite.

Considerăm în acest caz variabila aleatoare .În cazul în care selecţiile aparţin la aceiaşi populaţie, media lui d va fi zero:

.

Când se cunosc dispersiile avem şi variabila aleatoare este

repartizată .Când nu se cunosc dispersiile se folosesc dispersiile de selecţie şi se ţine cont că

variabila aleatoare după cum se poate arăta uşor, este repartizată Student cu n-1

grade de libertate.

Compararea proporţiilorDacă vom considera un experiment în care răspunsul este de tip da sau nu, de

exemplu vindecare sau nevindecare, supravieţuire sau moarte, etc., numărul de rezultate k de un anumit tip în n repetări ale experimentului este o variabilă aleatoare repartizată binomial.

Deoarece avem, după cum s-a calculat anterior şi , variabila

aleatoare standardizată se aproximează ca fiind normal

repartizată.Fie două populaţii de tip “urna Poisson cu bile albe şi bile negre”, cu parametrii

(probabilitatea bilei albe) şi respectiv . În două selecţii din cele două populaţii, de volum şi respectiv presupunem că s-a obţinut răspuns “pozitiv” de şi respectiv 2k ori.

Fie . În cazul ipotezei nule , variabila aleatoare va

fi distribuită cu media 0 şi dispersia

8

În aceste condiţii se aproximează că variabila aleatoare va fi

repartizată .

O estimare naturală a lui p este .

O îmbunătăţire a aproximării se poate obţine prin introducerea unor “corecţii de

continuitate” pentru şi :

Estimarea dispersieiConsiderăm o selecţie de volum n dintr-o populaţie normală . Conform

celor arătate anterior variabila aleatoare este repartizată .

Estimarea raportului a două dispersiiSe consideră selecţia aleatoare dintr-o populaţie şi o selecţie

aleatoare dintr-o populaţie .

Conform cu cele arătate anterior, raportul este repartizat .

Se calculează luându-se .

Dar este repartizat N(0,1) căci şi

Deci v este o sumă de n-1 pătrate de variabile de tip N(0,1).

9

Compararea mai multor dispersii.a) Testul Bartlett pentru verificarea omogenităţii dispersiilor Fie m estimări independente pentru dispersiile pe baza

unor selecţii de volume .Se pune problema verificării ipotezei privind egalitatea acestor dispersii

În acest caz Bartlet a arătat că variabila aleatoare

unde , şi s dispersia ponderată a întregului set de date, este repartizată .

b) Testul rapid Cochran pentru selecţii de acelaşi volumDaca selectiile considerate au acelasi volum , atunci se

calculeaza valoarea care se compară cu o valoare maximă admisă

pentru acceptarea ipotezei nule.In formula de mai sus avem:

si

Ipoteza se respinge daca unde se gaseste din tabelele Cochran la perechea grade de libertate si la probabilitatea .

c) Testul Hartley

Daca selectiile au acelasi volum se poate aplica pentru testul

iar ipoteza se respinge daca unde se gaseste din tabelele Hartley la probabilitatea .

Metoda verosimilităţii maxime

Considerăm caracteristica X supusă cercetării ca având funcţia de

probabilitate f(x; . Variabilele de selecţie sunt independente

10

şi identic repartizate, rezultă că vectorul aleator ( ) va avea funcţia de

probabilitate

şi care se numeşte funcţie

de verosimilitate.

Spunem că estimatorii sunt de verosimilitate maximă

pentru dacă realizează maximul funcţiei de verosimilitate.

Determinarea estimatorilor de verosimilitate maximă se va face rezolvând

sistemul , care de regulă se înlocuieşte cu numit sistem

de verosimilitate maximă.

1) Se arată că un estimator eficient este un estimator de verosimilitate

maximă.

2) Un estimator de verosimilitate maximă este estimator consistent, iar pentru

valori mari ale lui n este o variabilă aleatoare ce urmează legea normală N(

, unde este parametrul estimat.

Exemplu. Să se determine estimatorii de verosimilitate maximă pentru

valoarea medie şi abaterea standard dacă se consideră caracteristica X, care urmează

legea normală N(m, ).

Rezolvare:

M(X) = m şi , f(x; m, . Pentru a scrie sistemul de

verosimilitate maximă avem:

ln f(x; m, ) = - ln , de unde

, iar .

Se obţine:

.

11

sau: .

Exemplu. Se consideră caracteristica X ce urmează legea binomială, adică

are distribuţia teoretică:

X , unde P(m,k) = cu parametrul

p necunoscut. Folosind o selecţie de volum n, se cere:

a) estimatorul de verosimilitate maximă pentru p;

b) să se arate că estimatorul este un estimator absolut corect pentru

parametrul p;

c) să se arate că estimatorul este un estimator eficient pentru parametrul p.

Rezolvare:

a) Funcţia de probabilitate pentru caracteristica X este

f(x; p) = . Pentru a scrie ecuaţia de verosimilitate maximă

, avem că

ln f(x; p) = ln , de unde

. Aşadar ecuaţia verosimilităţii maxime este:

, adică , unde .

Ecuaţia verosimilităţii maxime se mai scrie , de unde se

obţine estimatorul de verosimilitate maximă pentru

parametrul p.

Pentru aceasta avem, în primul rând, că:

12

, iar apoi pentru dispersie se poate scrie succesiv:

.

Prin urmare, s-a obţinut M( ) = p şi , deci estimatorul este

estimator absolut corect pentru parametrul p.

c) Cantitatea de informaţie relativă la parametrul p se poate calcula după cum

urmează:

.

Pe de altă parte, am văzut că deci estimatorul este estimator

eficient pentru parametrul p.

13

Bibilografie:

1. Buiga, A., Dragoş C., Lazăr D., Parpucea I., Todea A. - Statistică I - Ed. Presa Universitară Clujeană, Cluj-Napoca, 2003;

2. Ivanov M. – Matematici Speciale, Curs – Universitatea „Constantin Brâncuşi” Tg. Jiu, 2006;

3. Cenuşă G., Şerban R., Raischi C., - Matematici pentru economişti – Bibiloteca Digitală A.S.E., 2008.

14

elemente de teoria estimatiei

Documents