elemente deteoria estima¸tieieduard/capitolul 3. teoria... · 2020. 11. 29. · punctuala˘ a...

21
Elemente de Teoria estima¸ tiei Conf. dr. habil. Eduard Roten¸ stein 1 Motiva¸ tie În studiul colectivit˘ tilor statistice, în majoritatea cazurilor suntem nevoi¸ ti s˘ a studiem numai p˘ ar¸ ti din întreaga colectivitate, pe care o vom nota cu ; elementele ei constituiente fiind numite indivizi, studierea integral˘ a a po- pula¸ tiei fiind ori imposibil de realizat, ori nerelevant˘ a. Ori, în acest caz, se pune în mod natural întrebarea dac˘ a concluziile pe care le ob¸ tinem concord˘ a cu rezultatul ce l-am ob¸ tine dac ˘ a studiem întreaga popula¸ tie. Apare ast- fel problema de a studia modul în care valorile tipice (pe baza c˘ arora tragem concluzii) ale colectivit˘ tii par¸ tiale investigate pot furniza informa¸ tii asupra valorilor tipice ale întregii colectivit˘ ti. În toate aplica¸ tiile statisticii matematice, în economie, în tehnic˘ si, în general, în ¸ stiin¸ tele experimentale este necesar s˘ a cunoa¸ stem legitatea dup˘ a care are loc evolu¸ tia fenomenului studiat, adic˘ a legea de reparti¸ tie a variabilei aleatoare prin intermediul areia este cuantificat˘ a caracteristica studiat˘ a a fenomenului. Adesea, dar nu întotdeauna, cuno¸ stin¸ tele teoretice sau experien¸ ta practic ˘ a în domeniul investigat ne dau dreptul s ˘ a admitem c ˘ a forma legii de reparti¸ tie este cunos- cut˘ a. Pentru a utiliza efectiv o astfel de lege de reparti¸ tie, va trebui cunoscut˘ a care dintre func¸ tiile de frecven¸ a (în cazul caracteristicilor de tip discret) sau func¸ tiile de reparti¸ tie (în cazul caracteristicilor de tip absolut continuu) din familia celor de o form ˘ a dat ˘ a este cea care trebuie efectiv utilizat˘ a. Cu alte cuvinte, trebuie precizat˘ a valoarea numeric˘ a a parametrului (sau valorile numerice ale parametrilor, în cazul unei legi de reparti¸ tie ce depinde de mai mul¸ ti parametri). Presupunem ca efectu˘ am o selec¸ tie repetat˘ a de volum n dintr-o popula¸ tie statistic ˘ si fie x = fx 1 ;x 2 ;:::;x n g sanationul de valori empirice (statistice) observate relativ la caracteristica X studiat˘ a. Legea de distributie (functia de probabilitate sau densitatea de repartitie) a caracteristicii X poate fi: 1. Complet specificat˘ a: X U (0; 1) ; X P (3) pentru sisteme de a¸ steptare cu parametru de sosire/servire cunoscut; X B (1; 1=2) pentru popula¸ tii cu caracteristic ˘ a binar ˘ a, cu valori posibile echiprobabile. În acest caz, problema analiz˘ arii parametrilor este încheiat˘ a, neexistând parametrii de estimat. Singurele chestiuni ce poate fi luat ˘ a în discu¸ tie pot fi preziceri viitoare ale valorilor observate. 2. Specificat˘ a, dar cu m˘ acar un parametru necunoscut: X P (), > 0 pentru indivizii unui sistem de a¸ steptare M=M=1 cu rata necunoscut˘ a, caz în care, dup˘ a modelarea sistemului cu ajutorul ecua¸ tiilor diferen¸ tiale ale ale lui Kolmogorov, se pune problema estim˘ arii punctuale a parametrului, determinarea unor intervale de încredere care s˘ a acopere, pentru un anumit prag de semnifica¸ tie parametrul estimat, verificarea ipotezelor statistice referitoare la valoarea medie teoretic˘ a a reparti¸ tiei, predic¸ tie pentru valori viitoare de observa¸ tie; X N (; 2 ) pentru indivizii unei popula¸ tii pentru care media ¸ si dispersia sunt parametrizate, caz în care trebuie s˘ a estim˘ am valorile ambilor parametri sau a unuia dintre ei, dup˘ a caz. Aceste situa¸ tii sunt, de fapt, cele mai frecvent intâlnite în analizele statistice, estimarea parametrilor fiind apoi urmat˘ a de problemele inferen¸ tiale prezentate în exemplul precedent. 3. Necunoscut˘ a, caz in care nu se poate formula problema estim˘ arii directe a parametrului. Trebuie, pentru început, o estimare a legii caractersiticii. Aceasta presupune utilizarea unor teste de concordan¸ a (goodness- of-fit tests), care const˘ a în realizarea unei coresponden¸ te între reparti¸ tia empiric˘ a a datelor observate ¸ si o reparti¸ tie teoretic˘ a cunoscut˘ a, sau care testeaz˘ a dac˘ a dou˘ a seturi de date observate provin dintr-o aceea¸ si reparti¸ tie. Dou˘ a dintre cele mai frecvent utilizate teste de concordan¸ a sunt: testul 2 de concordan¸ a al lui Pearson (pentru a testa concordan¸ ta între reparti¸ tia datelor obsevate ¸ si reparti¸ tia normal˘ a, Poisson sau Weibull) ¸ si testul Kolmogorov-Smirnov (pentru a testa a testa concordan¸ ta între reparti¸ tia datelor obsevate ¸ si o reparti¸ tie teoretic˘ a dat˘ a(one-sample test), sau pentru a testa dac˘ a dou˘ a seturi de date observate provin dintr-o aceea¸ si reparti¸ tie (two-sample test). Discut˘ am în cele ce urmeaz˘ a despre problema estim˘ arii punctuale a parametrilor, problem˘ a aferent˘ a ca- racteristicilor care se încadreaz˘ a la punctul 2 prezentat anterior. Prezent˘ am no¸ tiunea de estimator pentru para- metru, precum ¸ si principalele sale caracteristici asociate. De asemenea, vom descrie cele 4 metode de estimare punctual˘ a a parametrilor: metoda verosimilit˘ tii maxime, metoda momentelor, metoda minimului 2 ¸ si metoda celor mai mici p˘ atrate. Mai exist˘ a o metoda de estimare a parametrilor, dar aceasta nu este pentru estimare punctual˘ a ci const˘ a în determinarea unor intervale de încredere care presupune identificarea unui interval cu capete aleatoare care, pentru un anumit nivel de încredere, s˘ a acopere parametrul estimat. Metoda este strâns legat˘ a de testarea ipotezelor statistice, prin teste parametrice. Pentru situa¸ tie caracteristicilor neparametrizate exist˘ a clasa testelor neparametrice, care se refer˘ a în special la forma reparti¸ tiei. 1

Upload: others

Post on 10-Mar-2021

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

Elemente de Teoria estimatieiConf. dr. habil. Eduard Rotenstein

1 Motivatie

În studiul colectivitatilor statistice, în majoritatea cazurilor suntem nevoiti sa studiem numai parti din întreagacolectivitate, pe care o vom nota cu ; elementele ei constituiente fiind numite indivizi, studierea integrala a po-pulatiei fiind ori imposibil de realizat, ori nerelevanta. Ori, în acest caz, se pune în mod natural întrebarea dacaconcluziile pe care le obtinem concorda cu rezultatul ce l-am obtine daca studiem întreaga populatie. Apare ast-fel problema de a studia modul în care valorile tipice (pe baza carora tragem concluzii) ale colectivitatii partialeinvestigate pot furniza informatii asupra valorilor tipice ale întregii colectivitati. În toate aplicatiile statisticiimatematice, în economie, în tehnica si, în general, în stiintele experimentale este necesar sa cunoastem legitateadupa care are loc evolutia fenomenului studiat, adica legea de repartitie a variabilei aleatoare prin intermediulcareia este cuantificata caracteristica studiata a fenomenului. Adesea, dar nu întotdeauna, cunostintele teoreticesau experienta practica în domeniul investigat ne dau dreptul sa admitem ca forma legii de repartitie este cunos-cuta. Pentru a utiliza efectiv o astfel de lege de repartitie, va trebui cunoscuta care dintre functiile de frecventa (încazul caracteristicilor de tip discret) sau functiile de repartitie (în cazul caracteristicilor de tip absolut continuu)din familia celor de o forma data este cea care trebuie efectiv utilizata. Cu alte cuvinte, trebuie precizata valoareanumerica a parametrului (sau valorile numerice ale parametrilor, în cazul unei legi de repartitie ce depinde demai multi parametri).

Presupunem ca efectuam o selectie repetata de volum n dintr-o populatie statistica si fie x = fx1 ; x2 ; : : : ; xngesanationul de valori empirice (statistice) observate relativ la caracteristica X studiata. Legea de distributie(functia de probabilitate sau densitatea de repartitie) a caracteristicii X poate fi:

1. Complet specificata: X � U (0; 1) ; X � P (3) pentru sisteme de asteptare cu parametru de sosire/servirecunoscut;X � B (1; 1=2) pentru populatii cu caracteristica binara, cu valori posibile echiprobabile. În acestcaz, problema analizarii parametrilor este încheiata, neexistând parametrii de estimat. Singurele chestiunice poate fi luata în discutie pot fi preziceri viitoare ale valorilor observate.

2. Specificata, dar cu macar un parametru necunoscut: X � P (�), � > 0 pentru indivizii unui sistemde asteptare M=M=1 cu rata necunoscuta, caz în care, dupa modelarea sistemului cu ajutorul ecuatiilordiferentiale ale ale lui Kolmogorov, se pune problema estimarii punctuale a parametrului, determinarea unorintervale de încredere care sa acopere, pentru un anumit prag de semnificatie parametrul estimat, verificareaipotezelor statistice referitoare la valoarea medie teoretica a repartitiei, predictie pentru valori viitoare deobservatie;X � N (�; �2) pentru indivizii unei populatii pentru care media si dispersia sunt parametrizate,caz în care trebuie sa estimam valorile ambilor parametri sau a unuia dintre ei, dupa caz. Aceste situatiisunt, de fapt, cele mai frecvent intâlnite în analizele statistice, estimarea parametrilor fiind apoi urmata deproblemele inferentiale prezentate în exemplul precedent.

3. Necunoscuta, caz in care nu se poate formula problema estimarii directe a parametrului. Trebuie, pentruînceput, o estimare a legii caractersiticii. Aceasta presupune utilizarea unor teste de concordanta (goodness-of-fit tests), care consta în realizarea unei corespondente între repartitia empirica a datelor observate si orepartitie teoretica cunoscuta, sau care testeaza daca doua seturi de date observate provin dintr-o aceeasirepartitie. Doua dintre cele mai frecvent utilizate teste de concordanta sunt: testul �2 de concordanta allui Pearson (pentru a testa concordanta între repartitia datelor obsevate si repartitia normala, Poisson sauWeibull) si testul Kolmogorov-Smirnov (pentru a testa a testa concordanta între repartitia datelor obsevatesi o repartitie teoretica data (one-sample test), sau pentru a testa daca doua seturi de date observate provindintr-o aceeasi repartitie (two-sample test).

Discutam în cele ce urmeaza despre problema estimarii punctuale a parametrilor, problema aferenta ca-racteristicilor care se încadreaza la punctul 2 prezentat anterior. Prezentam notiunea de estimator pentru para-metru, precum si principalele sale caracteristici asociate. De asemenea, vom descrie cele 4 metode de estimarepunctuala a parametrilor: metoda verosimilitatii maxime, metoda momentelor, metoda minimului �2 si metoda celor maimici patrate. Mai exista o metoda de estimare a parametrilor, dar aceasta nu este pentru estimare punctuala ciconsta în determinarea unor intervale de încredere care presupune identificarea unui interval cu capete aleatoarecare, pentru un anumit nivel de încredere, sa acopere parametrul estimat. Metoda este strâns legata de testareaipotezelor statistice, prin teste parametrice. Pentru situatie caracteristicilor neparametrizate exista clasa testelorneparametrice, care se refera în special la forma repartitiei.

1

Page 2: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

2 Estimatori punctuali

2.1 Considerente generale

Ne propunem sa analizam caracteristica X a unei populatii statistice, caracteristica ce urmeaza repartitia datade functia de probabilitate (pentru repartitii discrete), sau densitatea de repartitie (pentru repartitii absolut con-tinue), f (x; �), unde � 2 � � Rp este un parametru, de tip vectorial, necunoscut. Obiectivul Teoriei estimatieiconsta în evaluarea acestor parametri, folosind variabilele aleatoare de selectie X1; X2; :::; Xn asociate unei se-lectii aleatoare de volum n în cadrul populatiei statistice. Valorile empirice observate, sau vectorul observatiei,vor fi reprezentate de esantionul x = fx1 ; x2 ; : : : ; xng 2 Rn: Presupunem ca X admite medie si dispersie teore-tice, notate cu � = E (X) si �2 = D2 (X) :

Se numeste functie de estimatie (punctuala) sau estimator al parametrului �; o functie de selectie (statistica) b� :(Rn;BRn ; �n)! (R;BR; �) ; b� = b�n = b� (X1; : : : ; Xn) ;cu ajutorul careia dorim sa îl aproximam pe �:Evaluarea estimatorului în esantionul observatiilor, b� (x1; : : : ; xn) ;reprezinta estimatia parametrului �. Mentionam conventia acceptata ca, prin abuz de notatie, sa notam atâtestimatorul cât si estimatia sa cu acelasi simbol, b�; si vom face diferenta prin precizarea variabilelor de caredepind sau din contextul folosirii lor.

Trebuie studiata calitatea acestui estimator. Mai precis, studiem modul în care aproximeaza, în medie, para-metrul estimat, precum si modul în care converge catre acesta. De asemenea, furnizam informatiile aduse deestimator, precum si criterii de identificare a estimatorului potrivit scopului urmarit.

O statistica b� este un estimator nedeplasat (en., unbiased estimator) pentru parametrul � daca

E(b�) = �; pentru orice valoare a lui �:

În caz contrar, spunem ca b� este un estimator deplasat pentru parametrul �, iar deplasarea sa se defineste prindiferenta

b(b�; �) = E(b�)� � = E(b� � �) = E (") ; unde " = " (x) = b� (x1; : : : ; xn)� �este eroarea estimatorului b� de la parametrul �, eroare atasata unui esantion x: Prin urmare, un estimator nede-plasat b� pentru un parametru necunoscut b� este o statistica care, în valoare medie, ia valoarea parametrului�.

O alta masura a incertitudinii cu care un estimator aproximeaza parametrul este împrastierea valorilor esti-matorului, numita eroarea standard (standard error), si care se defineste prin

�b� = �(b�) =sE��b� � E(b�)�2�: (1)

Eroare medie patratica a unui estimator b� pentru parametrul � (mean squared error), respectiv radacina erorii mediipatratice (root mean squared error) sunt cantitatile:

MSE(b�; �) = E�(b� � �)2� ; respectiv RMSE(b�; �) =qMSE(b�; �) =rE�(b� � �)2�:Fie acum b�1 si b�2 doi estimatori pentru �: Raportul

MSE(b�1; �)=MSE(b�2; �)se numeste eficienta relativa (relative efficiency) a estimatorului b�1; în raport cu b�2: Un estimator b�1 este mai eficientdecât b�2 daca:n

� :MSE(b�1; �) > MSE(b�2; �)o = ; sin� :MSE(b�1; �) < MSE(b�2; �)o 6= ;:

Un estimator nedeplasat b� pentru � se numeste estimator nedeplasat uniform de dispersie minima (uniformly minimumvariance unbiased estimator - UMV UE) daca, pentru orice alt estimator nedeplasat pentru �; notat cu b��; avem

D2(b�) � D2(b��); 8� 2 �:

2

Page 3: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

Estimatorul b� pentru � este un estimator consistent daca

b� (X1 ; : : : ; Xn) probabilitate�! �; pentru n �!1;

iar estimatia b� (x1 ; : : : ; xn) va fi deci o estimatie consistenta pentru �:Daca un anumit estimator da erori foarte mari, nu implica faptul ca estimatorul este deplasat. Pe de alta

parte, daca anumite erori pe care le da estimatorul sunt egale cu zero, nu înseamna ca estimatorul este neaparatnedeplasat. Proprietatea de nedeplasare este o masura a mediei teoretice a valorilor estimatorului. În mod ideal,ar fi de dorit ca estimatorul pentru un anumit parametru sa fie nedeplasat si de dispersie minima. Introducemastfel urmatoarele doua notiuni.

Definitia 1 (a) Estimatorul b� pentru parametrul � este un estimator absolut corect daca

E(b�) = �; 8� 2 � si limn!1

D2(b�) = 0;iar b� (x1 ; : : : ; xn) va fi estimatie absolut corecta pentru �:(b) Estimatorul b� pentru � este un estimator corect daca

limn!1

E(b�) = �; 8� 2 � si limn!1

D2(b�) = 0;iar b� (x1 ; : : : ; xn) va fi estimatie corecta pentru �:

Propozitia 2.1 Daca un estimator b� este absolut corect pentru parametrul �, atunci el este consistent.

Demonstratie. Afirmatia este o consecinta imediata a inegalitatii lui Chebyshev si a faptului ca limn!1D2(b�) = 0:

P�jb� � �j < "� � 1� D2(b�)

"2; 8" > 0 fixat =) b� probabilitate�! �; pentru n �!1:

2.2 Statistici de selectie: estimatori pentru caracteristicile teoretice corespunzatoare

1. Media de selectie. Numim medie de selectie repetata de volum n, statistica

�X(!(n)) =1

n

nXi=1

Xi(!(n)); !(n) 2 (n):

Pentru fiecare !(n) fixat, evaluarea mediei de selectie este media statistica (empirica) �x = (Pn

i=1xi) =n:

Propozitia 2.2 Media de selectie are urmatoarele proprietati:

(1) E( �X) = �; D2( �X) =�2

n; D( �X) =

�pn: (2) �X

a:s:�! �; pentru n! +1:

Demonstratie. Pentru primul punct avem:

E( �X) = E

1

n

nXi=1

Xi

!=1

n

nXi=1

E (Xi) = � si D2( �X) = D2

1

n

nXi=1

Xi

!=1

n2

nXi=1

D2 (Xi) =�2

n:

Pentru punctul (2), deoarece E (X) = �; D2 (X) = �2; iar variabilele aleatoare de selectie sunt independente întotalitate, atunci conform Legii tari a numerelor mari rezulta ca

�X =1

n

nXi=1

Xia:s:�! E (X1) = �; pentru n! +1:

Media de selectie este, prin urmare, un estimator nedeplasat, absolut corect pentru media teoretica a caracte-risticii studiate.

2. Momente initiale si momente centrate de selectie. Numim momentul initial de selectie de ordin r 2 N�statistica

�Xr(!(n)) =

1

n

nXi=1

Xri (!

(n)); !(n) 2 (n):

3

Page 4: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

Desigur, pentru r = 1; regasim media de selectie �X: Notam acum cu �p (X) = E(Xp) momentul teoretic deordinul p ale caracteristiciiX si determinam caracteristicile numerice ale acestui moment de selectie de ordin r :

E( �Xr) = E

1

n

nXi=1

Xri

!=1

nn � �r (X) = �r (X)

D2( �Xr) = �2( �Xr)� E( �Xr) = E

0@ 1n

nXi=1

Xri

!21A� E 1n

nXi=1

Xri

!!2

=1

n2

nXi=1

E�X2ri

�+1

n2

Xi<k

E (Xri )E (Xr

k)�1

n2

nXi=1

E2 (Xi)�1

n2

Xi<k

E (Xri )E (Xr

k)

=1

n2

nXi=1

��2 (X

ri )� E2 (Xr

i )�=1

n

��2r (X)� �2r (X)

�:

Aplicam acum inegalitatea lui Chebyshev si obtinem, pentru orice " > 0,

P��� �Xr � �r (X)�� < "� � 1� �2r (X)� �2r (X)

n"2;

de unde deducem ca, pentru orice " > 0;

limn!+1

P��� �Xr � �r (X)�� < "� = 1; adica �Xr

probabilitate�! �r (X) , pentru n! +1:

Aceasta înseamna ca aceste momente initiale de selectie sunt estimatori consistenti pentru momentele teore-tice de ordin similar. Chiar mai mult, sunt estimatori absolut corecti pentru momentele teoretice corespun-zatoare.

Numim momentul centrat de selectie de ordin r 2 N� statistica

��r(!(n)) =

1

n

nXi=1

�Xi(!

(n))� �X(!(n))�r; !(n) 2 (n):

Pentru r = 2 avem dispersie de selectie S2; pe care o vom prezenta la subpunctul urmator. La fel ca si în cazulmomentelor teoretice, putem exprima momentele centrate de selectie cu ajutorul momentelor initiale de selectie,si reciproc:

��r =1

n

nXi=1

rXj=0

(�1)j CjrXji�Xj =

rXj=0

(�1)j Cjr �Xj

1

n

nXi=1

Xr�ji

!:

Prin urmare,

��r =

rXj=0

(�1)j Cjr �Xj �Xr�j si �Xr = ��r + r �X ��r�1 +r (r � 1)

2�X ��r�2 + :::; r 2 N�:

Putem determina chiar repartitia asimptotica a estimatorului dat de mediei de selectie �X: Aceasta va arata capentru volume de selectie suficient de mari, estimatorul va estima media teoretica a unei populatii pentru carecaracteristica poate fi considerata ca apartinând unei populatii Gaussiene.

Propozitia 2.3 Data o selectie de volum n si variabilele de selectie X1; X2; :::; Xn atasate caracteristicii X; pentru careexista si sunt finite � = E (X) si 0 6= �2 = D2 (X) ; atunci

�X � ��=pn

rep:�! Y � N (0; 1) ; pentru n! +1:

Demonstratie. Definim Yi = Xi=n; pentru i = 1; 2; :::; n: Avem:

�X =nXi=1

Yi si �i = E(Yi) = E�Xin

�=�

n; i = 1; :::; n:

Prin urmare, pentru i = 1; 2; :::; n;

E�(Yi � �i)2

�= �2i = E

�Xi � �n

�2!=�2

n2si E

�(Yi � �i)3

�= �3i = E

jXi � �jn3

3!=�3

n3:

4

Page 5: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

Fiind verificata conditia lui Leapunov:

limn!+1

�Xn

i=1�3i

�1=3�Xn

i=1�2i

�1=2 = limn!+1

��3=n2

�1=3(�2=n)

1=2= lim

n!+1

1

n1=6= 0;

obtinem conform Teoremei limita centrala,

limn!+1

P� �X � ��=pn� x

�=

1p2�

Z x

�1e�z

2=2dz; pentru orice x 2 R;

rezultatul fiind astfel demonstrat.Înainte de introducerea urmatoarei statistici de selectie, dispersia de selectie, prezentam câtiva parametri em-

pirici (statistici) ai împrastierii valorilor sondajului (R; s2; s; (s�)2 ; s�). Acestia ajuta si la evaluarea (aproximanta)a mediei si dispersiei pentru momentele de selectie introduse anterior. Pentru x = (x1; x2; :::; xn) o valoare deselectie repetata de volum n; definim:

Momentul centrat empiric de ordin r este

�0r =1

n

kXi=1

ni (xi � �x)r =kXi=1

fi (xi � �x)r ;

unde fi = ni=n este frecventa relativa a valorii xi: Daca nu grupam elementele în clase, atunci k = n; iar fiecareni = 1: În particular, pentru r = 2 obtinem dispersia (sau varianta) empirica:

s2 = �02 =1

n

kXi=1

ni (xi � �x)2 =kXi=1

fi (xi � �x)2 :

Marimea s =ps2 se numeste abaterea medie patratica empirica (sau deviatia standard empirica).

Dispersia (sau varianta) empirica modificata este numarul

(s�)2=

n

n� 1s2 =

Pki=1ni (xi � �x)

2

n� 1 ;

unde n este volumul selectiei. Avem deci si formula de calcul

(s�)2=nx2 � n�x2n� 1 =

n

Pki=1nix

2i

n � n�x2

n� 1 =

Pki=1nix

2i � n�x2

n� 1 :

Abaterea empirica modificata (sau deviatia standard empirica modificata) este s� =q(s�)

2:

Dispersia empirica modificata aproximeaza mai bine decât dispersia empirica s2 dispersia teoretica �2 acaracteristicii populatiei. Pentru a vedea acest lucru, notam cu � media întregii populatii (o valoare teoreticacare, în general, nu poate fi determinata de fapt) iar �2 dispersia întregii populatii de volum N; adica

�2 =1

N

NXi=1

(xi � �)2 :

Sa consideram un esantion de volum n ales aleator din cadrul populatiei. Are loc relatia

(xi � �)2 = (xi � �x)2 + 2 (xi � �x) (�x� �) + (�x� �)2 ;

decinXi=1

(xi � �)2 =nXi=1

(xi � �x)2 + 2nXi=1

(xi � �x) (�x� �) +nXi=1

(�x� �)2

=nXi=1

(xi � �x)2 + 2 (�x� �)nXi=1

(xi � �x) + n (�x� �)2 =nXi=1

(xi � �x)2 + n (�x� �)2 :

5

Page 6: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

ObtinemnXi=1

(xi � �x)2 =nXi=1

(xi � �)2 � n (�x� �)2 ; i = 1; n :

Pe de o parte, avem ca termenulPn

i=1 (xi � �)2 va fi, pentru n foarte mare (apropiat de valoarea N ), aproximat

de n�2; adica �2 '�Pn

i=1 (xi � �)2�=n: Pe de alta parte, (�x� �)2 aproximeaza dispersia mediei de selectie

�X = (Pn

i=1Xi) =n; care este D2��X�= �2=n; deci termenul n (�x� �)2 va fi, pentru n foarte mare, aproximat de

numarul n�2=n = �2: În consecinta, pentru n suficient de mare,

(s�)2=

Pni=1 (xi � �x)

2

n� 1 ' n�2 � �2n� 1 = �2;

iar utilizarea dispersiei empirice modificate este justificata.

Putem analiza media si dispersia momentelor centrate de selectie de ordinul r 2 N�;care, pentru r = 2devin caracteristicile numerice ale dispersiei de selectie repetata de volum n: Evaluarea precisa pentru mediasi dispersia momentelor centrate de selectie de ordinul r oarecare este dificila si, din acest motiv, se consideraaproximari rezonabile ale acestora (vezi Kendall, [9, Chapter 9, Standard errors]). Deoarece, pentru n suficientde mare,

D2( �X) =�2 (X)� �21 (X)

n' �02n=s2

n; (2)

atunci abaterea medie patratica empirica este de ordinul lui n�1=2: În formula (2), desi dispersia empirica modi-ficata (s�)2 este un evaluator mai bun pentru �2; pentru un volum de selectie mare, se poate utiliza si dispersiaempirica nemodificata, s2:

3. Dispersia de selectie (sau varianta selectiei). Numim dispersie de selectie repetata de volum n, statistica

V ar(X;!(n)) = S2(!(n)) =1

n

nXi=1

�Xi(!

(n))� �X(!(n))�2; !(n) 2 (n):

Pentru fiecare !(n) fixat, evaluarea dispersiei de selectie este dispersia statistica (empirica) s2: Abaterea (sau de-viatia standard) de selectie se defineste ca fiind S =

pS2; iar dispersia (sau varianta) modificata de selectie, respectiv

abaterea (deviatia standard) modificata de selectie sunt:

(S�)2 =n

n� 1S2 =

1

n� 1

nXi=1

�Xi � �X

�2; respectiv, S� =

p(S�)2:

Dispersia de selectie modificata este un estimator absolut corect al dispersiei teoretice �2; în timp ce dispersiade selectie nu este un estimator absolut corect al aceleasi cantitati, fiind un estimator deplasat, dupa cumvedem în cele ce urmeaza. Pentru selectii de volum mic, dispersia de selectie modificata este deci un estimatormai bun pentru dispersia teoretica. Acest avantaj dispare însa daca volumul de selectie creste.

Propozitia 2.4 Dispersia de selectie are urmatoarele proprietati:

E(S2) =n� 1n

�2; E�(S�)2

�= �2; S2

a:s:�! �2; (S�)2a:s:�! �2; pentru n! +1:

În ceea ce priveste dispersia dispersiei de selectie si a dispersiei de selectie modificate avem:

D2(S2) =2 (n� 1)�4

n2si D2((S�)2) =

2�4

n� 1 :

Demonstratie. Notam � = E (X) ;iar proprietatile mediei si ale variabilelor aleatoare de selectie conduc la:

E(S2) = E

1

n

nXi=1

�Xi � �X

�2!=1

nE

nXi=1

�Xi � �+ �� �X

�2!

=1

nE

nXi=1

(Xi � �)2 +nXi=1

��� �X

�2 � 2 � �X � �� nXi=1

(Xi � �)!

=1

n

nXi=1

E�(Xi � �)2

�� 2nE

���X � �

�2�+ nE

���X � �

�2�!

=1

n

�nE�(X � �)2

�� nE

���X � �

�2��= D2 (X)�D2

��X�= �2 � �

2

n=n� 1n

�2

6

Page 7: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

Obtinem, de asemenea, ca

E�(S�)2

�= E

�n

n� 1S2

�=

n

n� 1E(S2) =

n

n� 1n� 1n

�2 = �2:

În ceea ce priveste convergentele, procedam astfel. Cum variabile de selectie sunt idependente si identic repar-tizate, atunci patratele lor au aceeasi proprietate, iar E

�X2�= �2 + �2 < +1: Deoarece

S2 =1

n� 1

0@ nXi=1

X2i �

1

n

nXi=1

Xi

!21A =n

n� 1

0@ 1n

nXi=1

X2i �

1

n

nXi=1

Xi

!21A ;iar Legea tare a numerelor mari permite trecerea la limita �X

a:s:�! �; si X2 a:s:�! �; pentru n ! +1; atunciconcluzia dorita este o simpla consecinta.

Privitor la dispersia lui S2 si a lui (S�)2; invocam, pentru început un rezultat tehnic, ce va fi demonstratulterior:

(n� 1) (S�)2 � �2 (n� 1; �) deci(n� 1) (S�)2

�2� �2 (n� 1; 1) = �2 (n� 1) : (3)

Aceasta distributie implica faptul ca

2 (n� 1) = D2

(n� 1) (S�)2

�2

!=(n� 1)2

�4D2�(S�)

2�

=) D2�(S�)

2�=

2�4

n� 1 :

D2�S2�= D2

�n� 1n

(S�)2

�=(n� 1)2

n22�4

n� 1 =2�4 (n� 1)

n2;

iar demonstratia este încheiata.

Observatia 2.1 În general, daca b� este un estimator pentru parametrul �; iar g este o functie continua, atunci g(b�) nueste neaparat un estimator pentru parametrul g (�) : De exemplu, daca caracteristica studiata este X � N (0; 1) ; atunciun estimator absolut corect pentru �X este media de selectie �X: Variabila X2 � �2 (1) (vezi Lema 2.2), deci �X2 = 1: Unestimator absolut corect pentru �X2 este X2: Pentru un esantion de volum n asupra caracteristicii X; în general nu esteimplicata relatia x2 = �x2; deoarece s2 = x2 � �x2 6= 0: Afirmatia este adevarata însa daca functia g este bijectiva.

Ramâne de demonstrat afirmatia (3). Prezentam un set de 4 Leme care conduc la concluzia dorita.

Lema 2.1 Pentru orice a > 0; X � �2 (n; �) daca si numai daca aX � �2 (n;pa�) ; unde n 2 N� si � > 0:

Demonstratie. Avem, pentru orice x � 0, FaX (x) = 0 si pentru orice x > 0; FaX (x) = P (aX � x) = P (X � x=a) =FX (x=a) : Deci

faX (x) = (FaX (x))0= (FX (x=a))

0= fX

�xa

� 1a=

1

2n2 (pa�)

n��n2

� xn2�1 exp

� x

2 (pa�)

2

!;

adica aX � �2 (n;pa �).

Lema 2.2 Daca X � N�0; �2

�; unde � > 0; atunci X2 � �2 (1; �).

Demonstratie. Avem, pentru orice y � 0, FX2 (y) = 0 si pentru orice y > 0;

FX2 (y) = P�X2 � y

�= P(�py � X � py) = FX(

py)� FX(�

py):

Deci

fX2 (y) = (FX2 (y))0= (FX(

py)� FX(�

py))

0= fX(

py)

1

2py+ fX(�

py)

1

2py

= fX(py)1py=

1p2��2

exp

��py�2

2�2

!1py=

1p2��

y12�1 exp

�� y

2�2

�;

adica X2 corespunde unei variabile aleatoare distribuite �2 (1; �).

7

Page 8: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

Lema 2.3 Daca Xi ; i = 1; n ; sunt variabile aleatoare de selectie corespunzatoare unei selectii de volum n asupra caracte-risticii X � N

�0; �2

�; unde � > 0; atunci

nXi=1

X2i � �2 (n; �) ; deci, echivalent,

1

�2

nXi=1

X2i � �2 (n; 1) = �2 (n) :

Demonstratie. Conform rezultatelor anterioare, Yk = 1�2X

2k � �2 (1) ; pentru orice k = 1; n;

fYk (x) =1p2�x

e�x=21(0;+1) (x)

si atunci functia sa caracteristica este 'Yk : R! C;

'Yk (t) = E(eitYk) =

Z +1

0

eitx1p2�x

e�x=2dx = (1� 2it)�1=2 :

Independenta variabilelor aleatoare Yk; k = 1; n; conduce la urmatoarea functie caracteristica pentruPn

k=1Yk :

'Pnk=1Yk

(t) =nYk=1

(1� 2it)�1=2 = (1� 2it)�n=2 ; t 2 R;

adicaPn

k=1Yk � �2 (n) = �2 (n; 1) : De aici rezulta ca

nXk=1

Yk =nXk=1

1

�2X2k =

1

�2

nXk=1

X2k � �2 (n; 1) ; adica

nXk=1

X2k � �2 (n; �) ;

demonstratia fiind, astfel, încheiata.

Lema 2.4 Consideram Xi; i = 1; n ; variabile aleatoare de selectie corespunzatoare unei selectii de volum n asupra carac-teristicii X � N

��; �2

�; unde � > 0:

(a) Daca media caracteristicii este cunoscuta, atunci:

H2 =1

�2

nXi=1

(Xi � �)2 � �2 (n; 1) = �2 (n) :

(b) Daca media caracteristicii este necunoscuta, consideram media de selectie �X = (Pn

i=1Xi) =n si vom avea:

nXi=1

�Xi � �X

�2 � �2 (n� 1; �) sau, echivalent �2 =1

�2

nXi=1

�Xi � �X

�2 � �2 (n� 1; 1) = �2 (n� 1) :Demonstratie. Avem ca suma

Pni=1Xi � N

�n�; n�2

�si apoi �X � N

��; �2=n

�: Prin urmare, deducem ca

(Xi � �) � N�0; �2

�si

��X � �

�� N

�0; �2=n

�:

În consecinta, (Xi � �)2 � �2 (1; �) ceea ce conduce lanXi=1

(Xi � �)2 � �2 (n; �) :

Obtinem ca

H2 =n

�21

n

nXi=1

(Xi � �)2 =1

�2

nXi=1

(Xi � �)2 � �2 (n; 1) = �2 (n)

De asemenea, ��X � �

�2 � �2 �1; �=pn� si n��X � �

�2 � �2 (1; �) :Pe de alta parte, avem ca

nXi=1

�Xi � �X

�2=

nXi=1

�(Xi � �)�

��X � �

��2=

nXi=1

h(Xi � �)2 � 2 (Xi � �)

��X � �

�+��X � �

�2i=

nXi=1

(Xi � �)2 � 2��X � �

� nXi=1

(Xi � �) +nXi=1

��X � �

�2=

nXi=1

(Xi � �)2 � 2n��X � �

�2+ n

��X � �

�2:

8

Page 9: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

DecinXi=1

�Xi � �X

�2=

nXi=1

(Xi � �)2 � n��X � �

�2 � �2 (n; �)� �2 (1; �) = �2 (n� 1; �) ;ceea ce conduce la

�2 =1

�2

nXi=1

�Xi � �X

�2 � �2 (n� 1; 1) = �2 (n� 1) :Determinam repartitia dispersiei de selectie modificata astfel:

�2 =n

�21

n

nXi=1

�Xi � �X

�2=n

�2S2 =

n

�2n� 1n

(S�)2=n� 1�2

(S�)2:

Rezulta ca (n� 1) (S�)2 � �2 (n� 1; �) si, în mod similar, nS2 � �2 (n� 1; �) :

2.3 Informatia Fisher. Teorema Rao-Cramer

Un estimator b� pentru parametrul necunoscut � trebuie sa aiba anumite proprietati pentru a putea fi util înestimarea parametrului dorit. Dintre acestea, o proprietate importanta este convergenta acestuia, într-un sensconvenabil, catre parametrul pe care îl estimeaza. De asemenea, este de dorit ca estimatorul b� pentru � sa fienedeplasat, adica E(b�) = �.

Exista situatii când, pentru un anumit parametru pot exista mai multi estimatori absolut corecti. Ei pot fiidentificati prin metode diferite, sau chiar prin aceeasi metoda, pornind de la date initiale diferite. De exemplu,pentru parametrul � din repartitia P (�) ; datoreaza faptului ca E(X) = D2(X) = �; pornind de la metodamomentelor, vom gasi doi estimatori, X si S2. Prin urmare, o chestiune la care trebuie gasit un raspuns estemodul de a alegere al celui mai bun estimator (nedeplasat) pentru parametru. Cum E(b�) = �; inegalitatea luiChebyshev

P����b� � E(b�)��� < "� � 1� D2(b�)

"2; 8" > 0

sugereaza ca ar fi de preferat ca cel mai bun estimator sa aiba dispersia minima. Teorema Rao-Cramér forma-lizeaza în mod riguros aceasta observatie, oferind o valoare minimala pentru dispersia unui astfel de estimatornedeplasat.

Definitia 2 Se numeste functie de verosimilitate, statistica L : Rn � Rp ! R;

L (V; �) = L (X1; : : : ; Xn; �1; :::; �p) =nYk=1

f (Xk; �1; :::; �p) =nYk=1

f (Xk; �) :

Am notat cu V = (X1; : : : ; Xn) vectorul aleator de selectie, iar independenta variabilelor aleatoare de selectie arata de faptca functia L este densitatea de repartitie a acestui vector aleator.

Vom continua studiul pentru p = 1:Intuitiv, prin maximizarea functiei de verosimilitate, putem obtine valorile parametrului pentru care esan-

tionul obtinut are probabilitatea cea mai mare de a fi observat. Daca aceasta functie de verosimilitate este de clasaC1 în raport cu parametrul, atunci identificarea punctelor de maxim presupune determinarea initial a punctelorcritice:

@

@�L (V; �) = 0 sau, echivalent, l (V; �) =

@

@�lnL (V; �) = 0;

unde l (V; �) se numeste scorul functiei de verosimilitate. Pentru a determina cât de precisa este estimarea valoriireale a parametrului �, trebuie sa avem informatii legate de curbura functiei de verosimilitate în jurul valoriimaxime. O masura probabilistica a acestei curburi este dispersia acestui scor.

Dispersia scorului se numeste informatie Fisher a functiei de verosimilitate L asociata selectiei, si se definesteastfel:

In (�) = D2

�@

@�lnL (V; �)

�;

Prezentam un rezultat referitor la comportamentul informatiei produsa de variabilele de selectie X1; :::; Xn:

Propozitia 2.5 Au loc urmatoarele afirmatii:

9

Page 10: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

(a) E�@

@�lnL (V; �)

�= 0, iar informatia Fisher are reprezentarea In (�) = E

�@

@�lnL (V; �)

�2!; n � 1;

(b) In (�) = �E�@2

@�2lnL (V; �)

�; n � 1;

(c) In (�) = nI1 (�) = �nE�@2

@�2ln f (X; �)

�; n � 1:

Demonstratie. (a) Deoarece L (x; �) este densitatea de repartitie a vectorului aleator de selectie,Z� � �ZRnL (x; �) dx1dx2 : : : dxn = 1:

Regularitatea lui L permite sa derivam aceasta relatie în raport cu parametrul � si rezulta, notând pentru simpli-tatea prezentarii dx = dx1dx2 : : : dxn;

@

@�

Z� � �ZRnL (x; �) dx =

Z� � �ZRn

@

@�L (x; �) dx =

Z� � �ZRn

�@

@�lnL (x; �)

�L (x; �) dx = E (l (X; �)) = 0: (4)

Deoarece

In (�) = D2

�@

@�lnL (V; �)

�= E

�@

@�lnL (V; �)

�2!��E�@

@�lnL (V; �)

��2obtinem formula informatiei Fisher prezentata la punctul (a) :(b) Derivam înca o data formula (4), ce da media scorului functiei de verosimilitate si obtinem, într-o manierasimilara, Z

� � �ZRn

�@2

@�2lnL (x; �)

�L (x; �) +

�@

@�lnL (x; �)

�2L (x; �)

!dx = 0;

de unde, scotând factor comun functia de verosimilitate,Z� � �ZRn

�@2

@�2lnL (x; �)

�+

�@

@�lnL (x; �)

�2!L (x; �) dx = 0:

Formula de transport conduce, datorita faptului ca L (x; �) este densitatea vectorului aleator de selectie, la iden-titatea

E�@2

@�2lnL (V; �)

�+ E

�@

@�lnL (V; �)

�2!= 0; adica E

�@2

@�2lnL (V; �)

�+ In (�) = 0:

(c) Relatia obtinuta la punctul (a) permite sa obtinem, folosind formula explicita a functiei de verosimilitate siindependenta variabilelor aleatoare de selectie:

In (�) = E

�@

@�lnL (V; �)

�2!= E

0@ nXk=1

@

@�ln f (Xk; �)

!21A= E

0@ nXk=1

�@

@�ln f (Xk; �)

�2+ 2

X1�i<j�n

@

@�ln f (Xi; �)

@

@�ln f (Xj ; �)

1A= E

nXk=1

�@

@�ln f (Xk; �)

�2!+ 2

X1�i<j�n

E�@

@�ln f (Xi; �)

�E�@

@�ln f (Xj ; �)

=nXk=1

E

�@

@�ln f (Xk; �)

�2!= nI1 (�) :

Demonstratie este încheiata.

Prezentam acum un rezultat important, care ofera o margine inferioara care permite alegerea unui estimatornedeplasat "bun".

10

Page 11: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

Teorema 1 (Rao-Cramer) (a) Consideram ca avem de studiat caracteristica X; a carei functie de probabilitate sau densi-tate de repartitie f (x; �), are suportul supp f = fx; f (x; �) > 0g independent de �, iar @f(x;�)

@� exista si este finita. Dacaam determinat b� = b� (X1 ; : : : ; Xn) ; un estimator nedeplasat pentru �; atunci are loc urmatoarea estimare:

D2(b�) � 1

In (�): (5)

(b) Daca estimatorul b� este un estimator deplasat pentru parametrul � 2 R, cu E(b�) = s (�) ; unde s : R! R este ofunctie derivabila, atunci inegalitatea Rao-Cramer devine:

D2(b�) � (s0 (�))2

In (�):

Demonstratie. (a)Covarianta dintre estimatorul nedeplasat si scorul functiei de verosimilitate l (V; �) este, deoareceE (l (V; �)) = 0 conform Propozitiei 2.5,

cov(b�; l (V; �)) = E(b�l (V; �))� E(b�)E (l (V; �)) = E(b�l (V; �));ceea ce conduce, conform formulei de transport, la

cov(b�; l (V; �)) = Z � � �ZRnb� (x)� @

@�lnL (x; �)

�L (x; �) dx =

Z� � �ZRnb� (x)� 1

L (x; �)@

@�L (x; �)

�L (x; �) dx

=@

@�

�Z� � �ZRnb� (x)L (x; �) dx� = @

@�

�E(b�)� = 1:

Egalitatea de pe rândul al doilea (comutarea integralei si a derivatei) are loc datorita conditiei de suport marginitsi independent de parametru. Ridicam la patrat egalitatea obtinuta si deducem

1 =�cov(b�; l (V; �))�2 = �cov(b� � �; l (V; �))�2 = �E�(b� � E(b�))l (V; �)��2�

Cauchy�SchwartzE�(b� � E(b�))2�

0@E�l (V; �)2�� (E (l (V; �)))2| {z }=0

1A= D2(b�)D2 (l (V; �)) = D2(b�)In (�) ;

demonstratia punctului (a) fiind încheiata.(b)Demonstratia urmeaza exact aceeasi pasi folositi la punctul (a) :Avem, de asemenea, valoarea medie a scoru-lui, l (X; �) ; egala cu 0 si estimam covarianta dintre b� si l (X; �) :

cov(b�; l (V; �)) = E(b�l (V; �)) = @

@�

�Z� � �ZRnb� (x)L (x; �) dx� = @

@�E(b�) = s0 (�) :

Inegalitatea Cauchy-Schwartz conduce imediat laqD2(b�)D2(l (V; �)) �

���cov(b�; l (V; �))��� = js0 (�)j () D2(b�) � js0 (�)j2

D2(l (V; �))=(s0 (�))2

In (�);

iar demonstratia teoremei este încheiata.

Teorema poate fi folosita si pentru furnizarea unei margini inferioare pentru dispersia unui estimator de-plasat, cu deplasarea data. În acest caz, daca deplasarea este b(b�; �) = b (�) = E(b�) � �; atunci definim functia sdin Teorema 1 ca fiind s (�) = b(�) + �; iar marginea inferioara este data de inegalitatea

D2(b�) � (1 + b0 (�))2

In (�); de unde rezulta ca MSE(b�; �) = E((b� � �)2) � (1 + b0 (�))

2

In (�)+ b2(�);

unde, reamintim caMSE(b�; �) reprezinta eroarea medie patratica a estimatorului b� pentru parametrul �:

Definitia 3 Folosind conceptele introduse anterior, numim eficienta unui estimator absolut corect b� pentru parametrul1�dimensional �, raportul numeric

e(b�) = I�1n (�)

D2(b�) :Teorema Rao-Cramer afirma deci faptul ca e(b�) � 1: Estimatorul nedeplasat b� este estimator eficient pentru parametrul1�dimensional � daca e(b�) = 1.

11

Page 12: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

Exemplul 2.1 Consideram caracteristica X � N��; �2

�; cu media � cunoscuta si dispersia teoretica �2 parametru.

Consideram statistica

b� = 1

n

nXi=1

(Xi � �)2 ; a carei dispersie este

D2(b�) = D2

�2

n

1

�2

nXi=1

(Xi � �)2!=

��2�2

n2D2

1

�2

nXi=1

(Xi � �)2!=

��2�2

n22n =

2��2�2

n;

deoarece, conform Lemei 2.4, H2 = ��2Pn

i=1 (Xi � �)2 � �2 (n) ; deci E(H2) = n si D2(H2) = 2n: Determinam

informatia Fisher a functiei de verosimilitate L asociata selectiei, calculând In (�) = nI1 (�) : Avem astfel

In (�) = nI1 (�) = �nE�@2

@�2ln f (X; �)

�= �nE

� (X � �)2

(�2)3 +

1

2(�2)2

!=

n

(�2)3E�(X � �)2

�� n

2(�2)2

=n

(�2)3�2 � n

2(�2)2=

n

2(�2)2:

Prima egalitate de pe ultimul rând are loc deoarece X � N��; �2

�; deci X � � � N

�0; �2

�; ceea ce conduce la

(X � �)2 � �2 (1; �) : Prin urmare,

1

�2(X � �)2 � �2

�1;1

�� ��= �2 (1; 1) = �2 (1) :

Aceasta implica

E�1

�2(X � �)2

�= 1; ceea ce implica E

�(X � �)2

�= �2:

Teorema 1 afirma ca2��2�2

n= D2(b�) � 1

In (�)=2��2�2

n;

având loc egalitatea, estimatorul b� fiind deci eficient.

Cu toate acestea, putem obtine chiar o valoare mai mica pentru eroarea medie patratica, MSE(b�; �); prin utilizareaunui estimator deplasat. Consideram, în acest sens, statistica estimator

b�0 = 1

n+ 2

nXi=1

(Xi � �)2 ; pentru care D2(b�0) = 2n��2�2

(n+ 2)2 <

2��2�2

n= D2(b�):

Deplasarea lui b�0 este, deoarece�1=�2

�Pni=1 (Xi � �)

2 � �2 (n) ;

�2 � E(b�0) = �2 � E 1

n+ 2

nXi=1

(Xi � �)2!= �2 � �2

n+ 2E

1

�2

nXi=1

(Xi � �)2!=

�1� n

n+ 2

��2 =

2�2

n+ 2:

Eroarea medie patratica devine:

MSE(b�0; �) = 2n

(n+ 2)2 +

4

(n+ 2)2

!(�2)2 =

2(�2)2

n+ 2<2(�2)2

n=

1

In (�);

cu informatia Fisher In (�) determinata anterior.

3 Metode de estimare punctuala a parametrilor

Prezentam în cele ce urmeaza cele patru metode utilizate pentru determinarea statisticilor ce realizeaza estimatiipunctuale ale parametrilor repartitiei caracteristiciiX studiate. Presupunem pentru aceasta ca legea de repartitieeste f (x; �) ; � = (�1; : : : ; �p) 2 Rp; p 2 N sunt parametri necunoscuti. Esantionul observat la o selectie de volumn este x = fx1; :::; xng si fX1; : : : ; Xng sunt variabilele aleatoare de selectie.

12

Page 13: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

3.1 Metoda verosimilitatii maxime

Definitia 4 (a) Numim estimator de verosimilitate maxima (maximum likelihood estimator, MLE) pentru � o statisticab� = b� (X1; : : : ; Xn) pentru care se obtine valoarea maxima a functiei de verosimilitate,

L(V; �) =nYi=1

f(Xi; �):

(b) Valoarea acestei statistici pentru o observatie data se numeste estimatie de verosimilitate maxima pentru b�.Daca exista derivatele partiale @L=@�, atunci, pentru determinarea estimatiei determinam punctele critice, si

apoi cele de maxim, ale lui L :

@L(V; �)@�k

= 0 () @ lnL(V; �)@�k

=nXi=1

@ ln f(Xi; �)

@�k= 0; k = 1; 2; : : : ; p:

Odata identificate punctele critice �, se stabileste în mod clasic (cu derivata secunda daca p = 1; sau se solicita camatricea Hessiana sa fie negativ definita, daca p > 1), daca acestea sunt de maxim. Daca este verificata conditia,trecem de la estimatie la estimator, prin înlocuirea valorilor empirice cu variabilele de selectie corespunzatoare.

Pentru mai multe informatii, exemple si analize suplimentare, privitoare la urmatoarele trei rezultate, citi-torul interesat este invitat sa consulte Kendall, Stuart [8, Chapter 18, Estimation, Maximum Likelihood].

Propozitia 3.1 (consistenta) Daca b� este un MLE pentru valoarea reala a parametrului �0 al densitatii de repartitief (x; �0) ; atunci el converge în probabilitate la parametrul pe care îl estimeaza, b� �! �0, pentru n �! 1: Altfel spus,estimatorul b� este consistent.

Demonstratie. EstimatorulMLE b� este punctul de maxim al functiei de verosimilitate L; deci L0n(b�) = 0; unde

Ln(�)def=1

nlnL(V; �) = 1

n

nXi=1

ln f(Xi; �); 8� 2 �:

Este clar ca factorizarea cu n a functiei de verosimilitate nu afecteaza valoarea punctului de maxim. Legea slabaa numerelor mari arata ca are loc convergenta:

1

n

nXi=1

ln f(Xi; �)probabilitate�! E( ln f(X1; �)) = E( ln f(X; �)); 8� 2 �:

Daca b� este punctul care maximizeaza membrul stâng din relatia de convergenta, iar �0 este valoarea "reala" aparametrului densitatii de repartitie, punct care maximizeaza membrul drept al aceleasi relatii de convergenta,atunci, în anumite conditii de regularitate, avem ca

b� probabilitate�! �0; pentru n! +1;

adica estimatorul este consistent. Mai ramâne de demonstrat doar ca �0 este punct maximizant pentruE ln f(X; �);� 2 �: Într-adevar, pentru orice � 2 �; folosim faptul ca functia x 7! lnx este concava si obtinem:

E( ln f(X; �))� E( ln f(X; �0)) = E�lnf(X; �)

f(X; �0)

��

ineg: JensenlnE

�f(X; �)

f(X; �0)

�= ln

ZR

f(x; �)

f(x; �0)f(x; �0)dx = ln

ZRf(x; �)dx = ln 1 = 0;

adica �0 este punct de maxim pentru functia E ln f(X; �); iar demonstratia este încheiata.

Observatia 3.1 În ceea ce priveste conditiile tehnice de regularitate solicitate la trecerea la limita în rezultatul anterior,acestea se refera la: toate densitatile de repartitie f(x; �); � 2 � au acelasi suport; punctul maximizant �0 2 int (�) ;functia ln f(x; �) este diferentiabila în parametru; b� este unicul punct critic al functiei de verosimilitate.

13

Page 14: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

Propozitia 3.2 (principiul invariantei) Fie b� = fb�1; :::; b�pg un estimator MLE pentru � = f�1; :::; �pg. Atunci,estimatorul de verosimilitate maxima (MLE) pentru functia h (�) este h(b�): Compunerea anterioara nu conserva însaproprietatea de nedeplasare a estimatorului. Cu alte cuvinte, daca estimatorul MLE b� pentru � este si nedeplasat,atunci estimatorulMLE pentru h(�) nu mai verifica neaparat conditia E(h(b�)) = h(�):Demonstratie. Desi proprietatea are loc pentru o functie h oarecare, presupunem, pentru început, ca functia h estebijectiva si notam � = h(�): Prin urmare,

f (x; �) = f(x; h�1(�));

iar functia de verosimilitate asociata parametrului h(�) = � este

L� (x; �) = L(x; �(�)) = L(x; h�1(�)) =nYi=1

f(xi; h�1(�)):

De asemenea,sup�L� (x; �) = sup

�L(x; h�1(�)) = L(x; b�);

adica � = h(b�) esteMLE pentru pentru parametrul h(�):Daca functia h nu este bijectiva, lucrurile sunt mai sensibile, noul parametru � = h(�) nefurnizând suficienta

informatie pentru definirea densitatii de repartitie f(x; �); deci nu putem defini functia de verosimilitate. Înconformitate cu Berk [3], alegem o functie auxiliara u si definim

w(�) = (h(�); u(�)) = (�; ) = �;

astfel încât w sa fie bijectiva. De exemplu, alegerea w(�) = (h(�); �) verifica conditia anterioara, deci, cu altecuvinte, putem considera întotdeauna pe u ca fiind functia identitate. Alegerea functiei w nu este unica, darinversa sa, � = w�1(�) este unica. În consecinta, functia de verosimilitate este bine definita, iar

w(�) esteMLE pentru parametrul �;

iar demonstratia este încheiata.Pentru ultima afirmatie, remarcam ca X este un estimator nedeplasat de verosimilitate maxima pentru �X ,

dar�X�2

este un estimator de verosimilitate maxima, deplasat pentru media lui X2, �X2 :

Exemplul 3.1 (a) Consideram caracteristica X � N�0; �2

�;adica densitatea de repartitie este

f(x; �) =1p2��

exp

�� x2

2�2

�; x 2 R; � > 0:

Estimatorii MLE pentru parametrii � si �2 sunt � = �X; respectiv �2 = S2: De exemplu, pentru a obtine MLE pentruparametrul h(�; �2) =

p�2 = � înlocuim estimatorii � si �2 în functia h si obtinem estimatorul MLE pentru deviatia

standard:

� =p�2 =

pS2 =

vuut 1

n

nXi=1

�Xi � �X

�2:

Fie acum � = �k; deci � = �1=k = h�1(�): Atunci h(�) esteMLE pentru h(�) si se obtine similar cazului precedent.(b) Pentru repartitia N

��; �2

�; cu

h(�; �2) = h(�) =�

�;

putem considera u(�) = � sau u(�) = �2:(c) Pentru repartitia B (p) putem alege w (p) = (p (1� p) ; p) :

Propozitia 3.3 (distributia asimptotica a unui estimatorMLE) Daca b� este un estimator de verosimilitate maximapentru valoarea reala a parametrului �, si anume �0; atunci, pentru n suficient de mare, avem ca

b� � N ��0; 1

In (�0)

�()

pn(b� � �0) � N �0; 1

I1 (�0)

�:

14

Page 15: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

Demonstratie. Pentru simplitatea prezentarii, presupunem p = 1: Similar Propozitiei 3.1, L0n(b�) = 0; unde

Ln(�) =1

nlnL(V; �) = 1

n

nXi=1

ln f(Xi; �): (6)

Teorema de medie conduce, pentru un �1 2 [b�; �0]; la

0 = L0n(b�) = L0n(�0) + L00

n(�1)(b� � �0); deci b� � �0 = �L0n(�0)L00

n(�1)si

pn(b� � �0) = �pnL0n(�0)L00

n(�1): (7)

Dar �0 este punct de maxim pentru E ln f(X; �); deci E ln0 f(X; �0) = 0; unde prin simbolul de derivare am întelesderivarea în raport cu parametrul functiei de repartitie. Prin urmare, din (7) obtinem

pnL0n(�0)

(6)=

pn

1

n

nXi=1

ln0 f(Xi; �0)� 0!

=pn

1

n

nXi=1

ln0 f(Xi; �0)� E�ln0 f(X1; �0)

�! rep:�!T:L:C:

N�0; D2(ln0 f(X1; �0))

�;

L00

n(�) =1

n

nXi=1

ln00f(Xi; �) �!

L:T:N:M:E�ln

00f(X1; �)

�; 8� 2 �:

(8)

Rezultatul de consistenta conduce la b� prob:! �0 si deci b�1 prob:! �0: Deducem, împreuna cu (8), a doua convergenta,

L00

n(�1)! E�ln

00f(X1; �0)

�= �I1(�0): (9)

De asemenea, din (8), prima convergenta, avem ca:

pnL0n(�0)

rep:�!T:L:C:

N�0; D2(ln0 f(X1; �0))

�:

Introducem, în aceasta convergenta de functii sirul (în membrul drept), respectiv limita sa (în membrul stâng)din convergenta de siruri numerice obtinuta în (9) si gasim:

�pnL0n(�0)L00n(�1)

rep:�! 1

I1(�0)N�0; D2(ln0 f(X1; �0))

�= N

�0;D2(ln0 f(X1; �0))

(I1(�0))2

�(10)

În final,D2(ln0 f(X1; �0)) = E

�(ln0 f(X1; �0))

2���E�ln0 f(X1; �0)

��2= I1(�0)� 0 = I1(�0);

iar convergenta (10) devine, datorita formulei (7),

pn(b� � �0) = �pnL0n(�0)L00

n(�1)� N

�0;

1

I1(�0)

�; adica b� � �0 � N �0; 1

nI1(�0)

�= N

�0;

1

In(�0)

�;

iar demonstratia este, astfel, încheiata.

3.2 Metoda momentelor a lui Pearson

În anumite cazuri, valorile critice pentru functia de verosimilitate sunt dificil de calculat, mai ales ca nu întot-deauna este asigurata derivabilitatea functiei de verosimilitate L, sau sistemul care ofera punctele critice estegreu de rezolvat.

O metoda alternativa pentru determinarea estimatorilor punctuali necesita existenta momentelor teoretice deanumite ordine �k (X) = E(Xk); k 2 N; pentru caracteristica studiata X (o astfel de abordare nu functioneazapentru caracteristici repartizate Cauchy). Pentru determinarea estimatiilor estimatorilor, metoda consta în egalareamomentelor teoretice cu momentele empirice de acelasi ordin. Aceasta se reduce la rezolvarea unui sistem deecuatii în care necunoscutele sunt parametrii ce urmeaza a fi estimati.

Definitia 5 Numim estimatie punctuala pentru parametrul �; obtinuta prin metoda momentelor, solutia

b�est = (b�1; : : : ; b�p) = (b�1 (x1; :::; xn) ; :::; b�p (x1; :::; xn))15

Page 16: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

sistemului:�1 (X) = �1; �2 (X) = �2; ::: ; �p (X) = �p;

unde, pentru orice k = 1; 2; : : : p, �k (X) = E�Xk�

sunt momente teoretice de ordinul k pentruX; iar�k = n�1Pn

i=1 xki ;

sunt momentele empirice de ordin k:Estimatorul punctual pentru parametrul � se obtine prin înlocuirea valorilor statistice cu variabilele de selectie:

b� = (b�1; : : : ; b�p) = (b�1 (X1; :::; Xn) ; :::; b�p (X1; :::; Xn)):În Sectiunea 2.2 am aratat ca momentele de selectie sunt estimatori absolut corecti pentru momentele teoretice

corespunzatoare. Aceasta argumenteaza validitatea metodei.

3.3 Metoda celor mai mici patrate

Este o metoda de estimare a parametrilor � = (�1; : : : ; �p)t functiei de repartitie în cazul modelelor liniare (similar

cazului regresiei liniare), adica atunci când avem un set de variabile aleatoare Yi; i = 1; : : : ; n, ce depind liniarde parametrii necunoscuti:

Yi =

pXj=1

xij�j + "i; i = 1; 2; : : : ; n; sau, matriceal Y = X� + "; X = (xij)i;j 2 Rn�p; (11)

Y 2 Rn�1; � 2 Rp�1; " 2Rn�1. Variabilele aleatoare "i sunt erori de estimare, despre care putem presupune,pentru orice i; j = 1; 2; : : : ; n; i 6= j;

E ("i) = 0; D2 ("i) = �2; cov ("i; "j) = 0:

Matriceal, acest lucru înseamna ca E" = 0 si D2(") = E(""t) = �2In; unde In este matricea unitate de tip n� n:

Definitia 6 Metoda celor mai mici patrate consta în determinarea parametrilor �i; i = 1; : : : ; p; astfel încât suma patratelorerorilor sa fie minima. Aceasta presupune deci rezolvarea urmatoarei probleme de optimizare patratica:

min�2Rp

nXi=1

"2i = min�2Rp

nXi=1

0@Yi � pXj=1

xij�j

1A2

: (12)

Fiind o problema de optimizare fara restrictii, estimatia, si apoi estimatorul b� = (b�1; : : : ; b�p), apar ca fiind solutiasistemului punctelor critice:

@

@�k

nXi=1

0@Yi � pXj=1

xij�j

1A2

= 0 ()nXi=1

pXj=1

xikxij�j =nXi=1

xikYi; 8k = 1; : : : ; p:

Scrierea matricealaXtX� = XtY va conduce la solutia b� = �XtX

��1XtY: (13)

Dupa determinarea punctelor critice, trebuie verificat ca acest punct este de minim pentru problema (12).Stabilim acum caracteristicile numerice ale estimatorului. Vom avea:

b� = �XtX��1

XtY =�XtX

��1Xt(X� + ") = � +

�XtX

��1Xt": (14)

Deoarece matricea X este constanta, atunci obtinem ca estimatorul este nedeplasat:

E(b�)= E(� + �XtX��1

Xt") = � +�XtX

��1XtE(") = �

Pentru evaluarea dispersiei, folosim (14) si gasim:

D2(b�) = E((b� � �)2) = E��XtX��1

Xt"��XtX

��1Xt"

�t�=�XtX

��1XtE

�""t�X�XtX

��1= �2

�XtX

��1:

Rezultatul urmator, formulat de Placket (1949) sistematizeaza ideile enuntate de Gauss. Pentru mai multe infor-matii, exemple si analize suplimentare, cititorul interesat este invitat sa consulte Kendall, Stuart [8, Chapter 18,Estimation, Least Squares and other methods, pag 75].

16

Page 17: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

Teorema 2 (Teorema lui Gauss a celor mai mici patrate) Metoda celor mai mici patrate furnizeaza estimatori nede-plasati, de dispersie minima pentru cazul compunerilor liniare de variabile aleatoare de forma (11).

Demonstratie. Fie t un vector de estimatori, dependenti liniar de vectorul variabilelor Y :

t = TY: (15)

Daca urmarim ca t sa fie nedeplasat în raport cu o multime de functii liniare dependente de parametru, fieaceasta C�; ar trebui sa fie verificata urmatoarea conditie, pentru o matrice cunoscuta de coeficienti C;

E (t) = E(TY ) = C� () E (T (X� + ")) = C� () TXE (�) = C� () TX = C: (16)

Dispersia vectorului t esteD2(t) = E((t� C�)(t� C�)t):

Cumt� C� (15)= TY � C� (11)= T (X� + ")� C� (16)= T"; obtinem

D2(t) = E(T"(T")t) = E(T""tT t) = �2InTT t = �2TT t:

Dorim sa minimizam diagonala matricei D2(t); care este formata din dispersiile multimii estimatorilor. Pornimde la identitatea, verificabila printr-un simplu calcul algebric,

TT t = (C(XtX)�1Xt)(C(XtX)�1Xt)t + (T � C(XtX)�1Xt)(T � C(XtX)�1Xt)t:

Fiecare dintre cei doi termeni ai membrului drept al egalitatii are elemente diagonale nenegative, fiind fiecare detipul AAt; si doar cel de al doilea depinde de T: Deci, suma celor doi termeni are elemente diagonale minimaleatunci când cel de al doilea are diagonala principala nula. Cu alte cuvinte, ar trebui ca

T = C(XtX)�1Xt;

iar vectorul estimatorilor nedeplasati, de dispersie minima, pentru C� este, datorita formei explicite (13) a esti-matorului b�;

t = TY = C(XtX)�1XtY| {z }=b�

= Cb�: (17)

Dispersia lui t devine astfel:

D2(t) = �2TT t = �2�C(XtX)�1Xt

� �C(XtX)�1Xt

�t= �2C(XtX)�1Xt (Xt)

t �(XtX)�1

�tCt

= �2C(XtX)�1XtX�(XtX)�1

�tCt

= �2C(XtX)�1 (XtX) (XtX)�1Ct:

Am folosit în calculul precedent faptul ca XtX este o matrice simetrica:�XtX

�t= Xt

�Xt�t= XtX;

iar inversa unei matrice simetrice este, de asemenea, simetrica, adica�(XtX)�1

�t= (XtX)�1:

Într-adevar, daca consideram matricea A 2Mn�n (R) simetrica si nesingulara, cu inversa sa A�1; atunci�A�1

�tA =

�A�1

�tAt =

�AA�1

�t= Itn = In;

ceea ce afirma ca�A�1

�t este, de asemenea, inversa lui A: Prin urmare, ea coincice cu inversa A�1: Rezulta decica inversa este simetrica.

Prin urmare,D2(t) = �2C(XtX)�1Ct: (18)

Se observa ca, daca consideram C = In; atunci estimam de fapt chiar vectorul parametrilor �, iar formulele (17)si (18) se reduc la b� = �XtX

��1XtY si D2(b�) = �2(XtX)�1;

formule deja obtinute pentru acest caz particular. Demonstratia este acum încheiata.

17

Page 18: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

3.4 Metoda minimului lui �2

Consideram caracteristica X ce urmeaza a fi studiata, si ca ea urmeaza legea de probabilitate f (x; �), cu � =(�1; : : : ; �p) 2 � � Rp sunt parametri necunoscuti. Pentru a obtine un estimator b� prin metoda minimului lui�2 pentru parametrul �; procedam astfel: descompunem multimea valorilor luiX; în clase disjuncte, obtinând ok�partitie a imaginii caracteristicii X :

X () =k[i=1

Oi; Oi \ Oj = ;; 8i 6= j:

Construim în spatiul de selectie (n) urmatoarele evenimente incompatibile, pentru i = 1; : : : ; k;

Ai =n!(n) 2 (n); X (!i) 2 Oi

o; ce formeaza o partitie pentru ((n);F (n);P(n)):

Notam cupi (�) = P(n) (Ai) ; i = 1; : : : ; k;

adica probabilitatea ca un individ ales la intâmplare sa apartina claseiOi (sau probabilitatea de realizare a eveni-mentului Ai). Este evident ca

Pki=1pi (�) = 1:

Notam în continuare:

� ni, frecventa absoluta a evenimentului Ai pentru orice selectie repetata de volum n;

� Ni;variabilele aleatoare de selectie corespunzatoare fiecarei frecvente absolute ni; i = 1; : : : ; k:

Vectorul aleator N = (N1; : : : ; Nk) urmeaza o repartitie multinomiala, de parametri pi (�) ; i = 1; : : : ; k :

P�(N1; : : : ; Nk) = (n1; : : : ; nk) j

Pki=1ni = n

�=

n!

n1! : : : nk!p1 (�)

n1 : : : pk (�)nk : (19)

Definitia 7 Statistica b� se numeste estimator obtinut prin metoda minimului lui �2 pentru � daca b� este solutie a urma-toarei probleme de minim

min�2Rp

kXi=1

(Ni � npi (�))2

npi (�)

!= min

�2Rp

kXi=1

(#observate în clasa i � #asteptate în clasa i)2

#asteptate în clasa i

!:

Functia ce trebuie minimizata este data deci de urmatoarea statistica, folosita si la Testul de concordanta �2 al lui Pearson:

�2 :=kXi=1

(Ni � npi(b�))2npi(b�) � �2(k � p� 1) (20)

3.4.1 Efectul estimatiilor asupra distributiei statisticii de lucru, �2

Conform formulei de definire (20) pentru statistica �2; observam ca probabilitatile teoretice pi(b�) sunt la rândullor variabile aleatoare si este clar ca repartitia asimptotica a statisticii �2 nu mai are acelasi numar de grade delibertate ca în cazul neparametric, k�1. Chiar mai mult, perntru fiecare termenNi�npi(b�);media sa nu mai esteneaparat zero, tocmai datorita dependentei de estimator, într-o maniera nu neaparat liniara, a probabilitatilor pi:

Pentru determinarea estimatiilor punctuale prin metoda verosimilitatii maxime, functia de verosimilitateaeste data chiar de funtia de probabilitate (19), a vectorului repartizat multinomial, cu componente independente:

L (N; �) = n!

n1! : : : nk!pn11 (�) : : : p

nkk (�) = C

kYi=1

pnii (�); unde � = (�1; :::; �p) :

Considerând functia ca având ca argumente parametrii, punctele critice vor determina estimatorii de verosimi-litate maxima,MLE: Aceasta presupune rezolvarea sistemului:

@

@�jlnL (N; �1; :::; �p) =

kXj=1

ni1

pi(�1; :::; �p)

@pi(�1; :::; �p)

@�j= 0; 8j = 1; 2; :::; p (21)

18

Page 19: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

si determinarea estimatorului b� = (b�1; b�2; :::; b�p); ce va fi numitMLE multinomial:Analizam acum problema generala a efectului estimatorilor asupra repartitiei asimptotice a statisticii testului

(20), statistica care poate fi scrisa sub forma echivalenta

�2 =kXi=1

1

npi(b�)h(Ni � npi(�))2 + n2(pi(b�)� pi(�))2 � 2n(Ni � npi(�))(pi(b�)� pi(�))i ; (22)

sau,

�2 =1

n

kXi=1

N2i

pi(b�) � 1

n

kXi=1

2npi(b�)Nipi(b�) +

1

n

kXi=1

n2p2i (b�)

pi(b�) =1

n

kXi=1

N2i

pi(b�) � n: (23)

Abordarea problemei îi apartine lui Watson [16], iar o analiza riguroasa si detaliata se poate studia în Kendall,Stuart [8, Chapter 30: Tests of fit].

Propozitia 3.4 Avem urmatoarea repartitie a statisticii suma:

kXi=1

�Ni � npi(b�)�2npi(b�) � �2 (k � p� 1) ;

unde b� este un estimator (posibilMLE) pentru parametrul multi-dimensional �:

Demonstratie. Pentru estimatorul b�; dorim sa avem abaterea de la parametrul estimat de tipul

b� � � = n�1=2AY + o(n�1=2); (24)

unde A este o matrice de tip p� k, iar y este vectorul k � 1 dimensional, ce are componentele:

Yi :=Ni � npi(�)(npi(�))

1=2; i = 1; 2; :::; k: (25)

Remarcam faptul ca matriceaA ar trebui aleasa astfel încât E(AY ) = 0 2 Rk deoarece, astfel, daca aplicam mediaîn (24), va rezulta ca estimatorul b� este nedeplasat. Din aceeasi formula rezulta, de asemenea, ca elementelematricei dispersiei lui b� sunt de ordinul lui n�1:

Printr-o aproximare Taylor aplicata diferentei pi(b�)� pi(�) în formula (22), obtinem ca

�2 =

kXi=1

Z2i ; unde Zi = Yi � n1=2pXj=1

(b�j � �j)@pi(�)@�j

1

(pi(�))1=2

+ o(1); i = 1; 2; :::; k;

pentru n! +1: Sub forma matriceala, descompunerea anterioara devine:

Z = Y � n1=2B(b� � �) + o(1);matricea B 2Mk�p (R) având elementele definite de:

bij :=1

(pi(�))1=2@pi(�)

@�j; i = 1; 2; :::; k; j = 1; 2; :::; p (26)

Având în vedere (24), formula anterioara conduce la reprezentarea:

Z = Y � n1=2B(b� � �) + o(1) = Y � n1=2B(n�1=2AY + o(n�1=2)) + o(1) = (Ik�k �BA)Y + o(1):În alta ordine de idei, E(Yi) = 0; pentru fiecare i si, pentru n suficient de mare, converg în repartitie, conformT.L.C., la o repartitie normala k�dimensionala. Matricea de covarianta a vectorului Y = (Y1; Y2; :::; Yk) este

D2(Y ) =

0BBBBBB@1� p1(�) �(p1(�)p2(�))1=2 � � � �(p1(�)pk(�))1=2

�(p2(�)p1(�))1=2 1� p2(�) � � � �(p2(�)pk(�))1=2

......

...

�(pk(�)p1(�))1=2 �(pk(�)p2(�))1=2 � � � 1� pk(�)

1CCCCCCA = Ik�k � (p1=2(�))(p1=2(�))t;

19

Page 20: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

unde p1=2(�) = (p1=21 (�); p1=22 (�); :::; p

1=2k (�))t: Obtinem ca

D2(Z) = D2((Ik�k �BA)Y ) = (Ik �BA)�Ik�k � (p1=2(�))(p1=2(�))t

�(Ik�k �BA)t : (27)

Ne ocupam acum de metoda de obtinerii a estimatorului.

Conform proprietatilor functiei de verosimilitate, inversa matricei de covarianta a vectorului estimatorului b�are elementele:

fD2(b�)g�1jl = �E�@2 lnL (N; �)@�j@�l

�; j; l = 1; 2; :::; p: (28)

Sistemul punctelor critice (21) conduce (pentru claritatea prezentarii, vom omite scrierea argumentului functieiL) la:

@2 lnL@�j@�l

=kXi=1

ni

pi(�)

@2pi(�)

@�j@�l� 1

pi(�)

@pi(�)

@�j

@pi(�)

@�l

!;

de unde, prin aplicarea E; determinam

�E�@2 lnL@�j@�l

�= n

kXi=1

1

pi(�)

@pi(�)

@�j

@pi(�)

@�l�

kXi=1

@2pi(�)

@�j@�l

!= n

kXi=1

1

pi(�)

@pi(�)

@�j

@pi(�)

@�l� @2

@�j@�l

kXi=1

pi(�)

!

= nkXi=1

1

pi(�)

@pi(�)

@�j

@pi(�)

@�l= n

kXi=1

bijbil;

matricea B = (bij)i;j 2Mk�p (R) fiind definita în (26).Formula (28) se poate scrie sub forma matriceala:

fD2(b�)g�1 = nBtB sau C := nD2(b�) = (BtB)�1:Matricea BtB fiind simetrica si nesingulara, alegem A := (BtB)�1Bt si obtinem o forma echivalanta pentrumatricea C; definita anterior:

C = A�Ik�k � (p1=2(b�))(p1=2(b�))t�At; deoarece Btp1=2(b�) = 0:

Într-adevar,

A�Ik�k � (p1=2(b�))(p1=2(b�))t�At = (BtB)�1Bt �Ik�k � (p1=2(b�))(p1=2(b�))t� ((BtB)�1Bt)t= (BtB)�1BtB

�(BtB)�1

�t � (BtB)�1Bt(p1=2(b�))(p1=2(b�))tB �(BtB)�1�t=�(BtB)�1

�t= (BtB)�1 = C:

Rezulta din (27) ca

D2 (Z) =�Ik�k �B (BtB)�1Bt

��Ik�k �B (BtB)�1Bt

�� (p1=2(b�))(p1=2(b�))t

= Ik�k �B (BtB)�1Bt � (p1=2(b�))(p1=2(b�))t:Matricea este idempotenta, iar rangul matricei este dat de urma sa, care este:

tr(D2 (Z)) = tr (Ik�k)� tr�(p1=2(b�))(p1=2(b�))t�� tr�BtB �BtB��1�

= k �kXi=1

pi(b�)� tr (Ip�p) = k � 1� p:Demonstratia este, în acest moment, încheiata.

Prezentam un scurt rezultat care demonstraza ultima afirmatie din Propozitia 3.4.

Lema 3.1 Daca A 2Mn�x (R) este o matrice idempotenta, atunci urma matricei coincide cu rangul sau.

Demonstratie. Aplicam Teorema de descompunere (factorizare) a rangului si putem scrie matricea A sub forma:

A = BC; unde B 2Mn�r (R) si C 2Mr�n (R) ;

matricea B având inversa la stânga, iar B inversa la dreapta. Cum A este idempotenta, atunci A2 = A, adicaBCBC = BC: Dar

BCBC = BC =) CBC = C =) CB = Ir�r;

de undetr (A) = tr (BC) = tr (CB) = tr (Ir�r) = r = rang (A) :

20

Page 21: Elemente deTeoria estima¸tieieduard/Capitolul 3. Teoria... · 2020. 11. 29. · punctuala˘ a parametrilor: metoda verosimilita¸˘tii maxime, metoda momentelor, metoda minimului

4 Statistici suficiente

O statistica T = T (X1 ; : : : ; Xn) se numeste statistica suficienta pentru a face inferente referitoare la parametrulnecunoscut � al densitatii de repartitie a unei caracteristici studiate, daca repartitia conditionata de evenimentulfT = tg a vectorului de selectie V = (X1; : : : ; Xn) nu depinde de �, pentru orice valoare a lui t. Prezentam unrezultat de caracterizare a acestor tipuri de statistici.

Teorema 3 (Teorema de factorizare Fisher-Neyman) Consideram un sondaj statistic de volum n asupra caracteristiciiX a unei populatii si fie V vectorul aleator de selectie, cu L (x) = L (x; �) = L (x1 ; : : : ; xn; �) densitatea sa de repartitie,iar x = fx1 ; : : : ; xng esantionul observatiei. Statistica T = T (X1; : : : ; Xn) este o statistica suficienta pentru parametrulnecunoscut � daca si numai daca densitatea parametrizata a lui V; se poate factoriza astfel:

L (x; �) = h (x) g (T (x) ; �) ; (29)

unde h : Rn �! R+ este o functie independenta de parametrul �; iar functia g : R� R �! R+ depinde de observatiileempirice doar prin intermediul functiei T (x) :

Aceasta teorema de caracterizare ofera doar o structura a densitatii de repartitie a vectorului de selectie, fac-torizarea (29) nefiind unic determinata. Intuitiv, o statistica este suficienta pentru parametrul � daca ea continetoata informatia relevanta despre � ce se poate obtine din selectia considerata. Astfel, pentru a obtine o estimarepunctuala a unui parametru este suficienta cunoasterea unei statistici suficiente, nefiind nevoie de întreaga se-lectie. Vom reveni la studiul acestor statistici în cadrul capitolului ce abordeaza utilizarea estimatorilor în studiulsemnalelor electrice.

Bibliografie

[1] Anderson, M., A characterization of the multivariate normal distribution, The Annals of Mathematical Statistics,vol. 42, no. 2, 824-827, 1971.

[2] Benhamou, E.; Melot, V., Seven proofs of the Pearson Chi-squared independence test and its graphical interpretation,arXiv:1808.09171v3, 2018.

[3] Berk, R., Review 1922 of ‘Invariance of Maximum Likelihood Estimators’ by Peter W. Zehna, Mathematical Re-views, 33, 342-343, 1967.

[4] Devore, J; Berk, K., Modern Mathematical Statistics with Applications, 2nd Edition, Springer New York Dor-drecht Heidelberg London, 2012.

[5] Duret, R., Probability: Theory and Examples, 5th Edition, Cambridge Series in Statistical and ProbabilisticMathematics, 2014.

[6] Gibbons Dickinson, J.; Chakraborti, S., Nonparametric Statistical Inference, Fourth Edition, Revised and Ex-panded, Marcel Dekker, INC., New York, Basel, 2003.

[7] Kendall, M.G., The Advanced Theory of Statistics, Volume 1, Distribution Theory, London, Charles Griffin &Company, 1945 (Edition by Stuart, Alan, Ord, Keith, 2010).

[8] Kendall, M.G.; Stuart, A., The Advanced Theory of Statistics, Volume 2, Inference and Relationships, HafnerPublishing Company, 1961 (Edition by Wiley, 2010).

[9] Klenke, A., Probability Theory: A Comprehensive Course, 2nd Edition, Springer, 2014.[10] Kolmogorov, A. N., Sulla Determinazione Empirica di Una Legge di Distribuzione, Giornale dell’Istituto Italiano

degli Attuari, 4. 83-91, 1933.[11] Montgomery, D; Runger, G, Applied Statistics and Probability for Engineers, 3rd Edition, John Wiley & Sons,

Inc, 2003.[12] Owen, A, Lectures on statistics, Department of Statistics, Stanford University.[13] Stoleriu, I., Statistica aplicata, note de curs, 2019.[14] Wackerly, D.; Mendenhall, W.; Scheaffer, R., Mathematical Statistics with Applications, 7th Edition, Thomson

Brooks/Cole, 2008.[15] Walck, C., Handbook on Statistical distributions for experimentalists, Particle Physics Group, University of

Stockholm.[16] Watson, G.S., Some recent results in chi-square goodness-of-fit tests, Biometrics, 15, 440, 1959.

21