curs statistica˘ curs 1 - math.ubbcluj.romath.ubbcluj.ro/~tcatinas/cursstatistica2008.pdf · curs...

Post on 03-Sep-2019

91 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

CURS STATISTICA

CURS 1

Bibliografie:

1. P. Blaga, Calculul probabilitatilor si statistica matematica, vol. 2, Curssi Culegere de probleme, Litografiat Univ. ”Babes-Bolyai”, Cluj-Napoca,1994

2. P. Blaga, Statistica prin Matlab, Presa Universitara Clujeana, 2002

3. I. Mihoc, C. Fatu, Calculul probabilitatilor si statistica matematica, Tran-silvania Press, Cluj-Napoca, 2003

4. R. Trımbitas, Metode statistice, Presa Universitara Clujeana, Cluj-Napoca,2000

1. Notiuni introductive

Statistica se ocupa cu descrierea si analiza numerica a fenomenelor

de masa, dezvaluind particularitatile lor de volum, structura, di-

namica, precum si legile care le guverneaza.

Statistica joaca un rol tot mai important ın diverse domenii

de activitate. O analiza statistica a datelor experimentale sau

observationale necesita stabilirea originii si naturii datelor con-

siderate.

(Lat. status=stat, stare de fapt)

Modele de probabilitate

Elemente aleatoare ıntr-o analiza statistica ⇒ stransa conexiune

ıntre probabilitati si statistica.

2 repetari a unei cercetari pot conduce la rezultate diferite.

Cauza: experimentul nu se repeta ın exact aceleasi conditii.

Rezultate similare la repetarea experimentului ın aceleasi conditii

⇒ experimentul este deterministic. Natura determinista a stiintei

permite folosirea teoriei stiintifice pentru prezicerea unor rezul-

tate ın anumite conditii date.

Exista experimente a caror rezultat variaza in ciuda eforturilor

de a pastra conditiile experimentale constante, de ex.: aruncarea

zarului, aruncarea monezii, alegerea unei carti dintr-un pachet de

carti de joc.

Apar ın toate domeniile de activitate, de ex.: seminte aparent

identice produc plate de ınaltimi diferite, lungimea vietii este

diferita pentru persoane care traiesc ın conditii similare, etc.

Experimentele care nu sunt deterministe, care ın conditii identice

nu produc acelasi rezultat, se numesc experimente aleatoare.

Probabilitatile si statistica se ocupa cu analiza experimentelor

aleatoare.

Exemplu. Aruncarea unui zar (Teoria probabilitatilor ısi are

ınceputurile ın studiul jocului de aruncare a zarurilor.) Aruncam

un zar pe o masa. Notam cu X numarul de puncte ce apar pe

fata zarului dupa aruncare.

Experimentul nu e deterministic deoarece X poate fi oricare din-

tre numerele 1,2,3,4,5,6 si nu se poate prezice. Putem face

orice efort sa controlam conditiile experimentale prin asezarea

zarului ın cupa ın aceeasi pozitie, prin scuturarea cupei de un

numar constant, prin aruncarea ın aceeasi parte a mesei, etc. In

ciuda eforturilor rezultatele raman variabile si neprevazute.

Desi rezultatul unei repetari a unui experiment nu poate fi prevazut,

totusi o succesiune de repetari coduce la o stabilitate care serveste

ca baza pentru preziceri destul de exacte.

Consideram valorile lui X dupa 10 repetari:

Repetarea 1 2 3 4 5 6 7 8 9 10

X 6 3 2 1 5 6 1 3 5 2

Consideram evenimentul: ”Valoarea lui X este mai mica decat

3.” Acest eveniment are loc la repetarile 3, 4, 7, 10. Deci are

loc la 4 repetari din 10. Frecventa relativa de aparitie este

f =4

10= 0.4.

Consideram 20 de serii a cate 10 repetari, prima fiind cea de mai

sus.

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200.6 0.6 0.2 0.4 0 0.3 0.7 0.5 0.2 0.1 0.5 0.3 0.3 0.3 0.6 0.4 0.3 0.1 0.2

Reprezentam grafic aceste date:

0 2 4 6 8 10 12 14 16 18 200

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Seria

f(X

<3)

20 de serii de 10

repetari

0 2 4 6 8 10 12 14 16 18 200

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Seria

f(X

<3)

20 de serii de 50

repetari

Se observa ca f(X < 3) nu depaseste 0.7. Experimentul sug-

ereaza ca o valoare mai mare de 0.7 nu se obtine foarte des.

Avem 0 < f(X < 3) < 0.7

Daca se considera 20 de serii a cate 50 de repetari se va obtine

ca 0.2 < f(X < 3) < 0.48.

Deci, cu cat este mai mare seria de repetari cu atat frecventa

este mai putin variabila si mai usor de prezis. Daca se considera

un numar suficient de mare de repetari frecventa poate deveni

aproape constanta.

Frecventa relativa oscileaza ın jurul unei valori care este proba-

bilitatea evenimentului.

Concepte de baza ale statisticii

Etapele cercetarii statistice:

1. Definirea obiectului studiat: contine definirea unitatilor statis-

tice, conceperea chestionarului, planificarea culegerii datelor.

2. Observarea statistica: culegerea, ınregistrarea datelor.

3. Descrierea statistica: reprezentarea grafica a datelor statis-

tice, sistematizarea acestora, calcularea indicatorilor numerici

pentru punerea ın evidenta a unor proprietati si pentru suger-

area unor ipoteze referitoare la legile care guverneaza fenomenul

cercetat.

4. Modelarea probabilistica: cercetarea fenomenului folosind

ca instrument de lucru teoria probabilitatilor relativa la datele

statistice obtinute.

Definitia 1 Numim colectivitate (populatie) o multime C de

elemente cercetata din punct de vedere al unei sau mai mul-

tor proprietati. Elementele componente se numesc indivizi sau

unitati statistice. Numarul elementelor colectivitatii se numeste

volumul colectivitatii.

Definitia 2 Numim caracteristica sau variabila a colectivitatii

C proprietatea supusa investigarii statistice relativa la C. Cand o

caracteristica poate fi masurata o numim caracteristica can-

titativa sau numerica, iar daca aceasta se exprima printr-o

ınsusire o numim caracteristica calitativa.

Caracteristici cantitative: greutate, volum, concentratie. Carac-

teristici calitative: profesiune, sex, culoarea ochilor, grupa san-

guina.

Observatia 3 Din punct de vedere al teoriei probabilitatilor o

caracteristica a unei populatii C este o variabila aleatoare X.

Scopul principal al cercetarii statistice este de a stabili legea

de probabilitate pe care o urmeaza caracteristica X, utilizand

observatiile (datele statistice) relative la colectivitatea cercetata.

Definitia 4 O caracteristica X ce ia o multime numarabila de

valori se numeste caracteristica de tip discret, iar daca ia valori

ıntr-un interval se numeste caracteristica de tip continuu.

Exemplul 5 C-multimea bolnavilor externati pe parcursul unei

saptamani; X-numarul zilelor de internare avute; Y-greutatea

bolnavilor externati

X,Y-caracteristici ale lui C

X → de tip discret (nr. finit de valori)

Y→ de tip continuu (valori ıntr-un interval, [45kg,145kg])

2. Culegerea, prezentarea si prelucrarea datelor statistice

Tehnici de culegere a datelor:

1. Observarea totala (recensamant): cand toti indivizii colec-

tivitatii C sunt ınregistrati;

2. Observarea partiala (sondaj, selectie): cand, dupa criterii

bine stabilite, sunt ınregistrati o parte dintre indivizii colec-

tivitatii C, numita esantion sau selectie;

3. Observarea curenta: cand ınregistrarea indivizilor se face

odata cu aparitia (producerea) lor;

4. Observarea perodica: cand ınregistrarea indivizilor se face

la intervale de timp stabilite.

2.1 Tabele statistice

Definitia 6 Numim tabel statistic (nesistematizat) un tablou

ın care ınregistrarile sunt trecute ın ordinea aparitiei lor.

Definitia 7 Numim tabel statistic (sistematizat) relativ la car-

acteristica X de tip discret, tabloul care contine valorile distincte

ale caracteristicii si frecventele de aparitie a acestora.

Consideram caracteristica X de tip discret pentru care se obtin

datele primare x′1, ..., x′N . Aceasta ia valorile distincte xi, i =

1, ..., n. Tabelul statistic sistematizat este de forma:

x fx1 f1x2 f2... ...xn fn

unde fi este frecventa absoluta de aparitie a valorii xi ın datele

primare x′k, k = 1, ..., N.

Are loc relatian∑

i=1

fi = N.

Fie caracteristica de tip continuu X, care ia valori ın intervalul

(a, b), descompus ın intervale disjuncte prin punctele care satisfac

relatiile:

a = a0 < a1 < ... < an = b.

Avem (a0, a1)∪(

n⋃

i=2[ai−1, ai)

)= (a, b) si [ai−1, ai)∩[aj−1, aj) = ∅.

Definitia 8 Intervalele disjuncte [ai−1, ai), i = 1, ..., n se numesc

clase.

Definitia 9 Numim tabel statistic (sistematizat) relativ la car-

acteristica X de tip continuu, tabloul care contine clasele carac-

teristicii si frecventele de aparitie a acestor clase.

Daca datele primare ale caracteristicii continue X, care ia valori ın

intervalul (a, b), sunt x′1, ..., x′N atunci tabelul statistic sistematizat

este de forma:

x f(a0, a1) f1[a1, a2) f2... ...[an−1, an) fn

sau

x fx1 f1x2 f2... ...xn fn

unde fi este frecventa absoluta de aparitie a clasei [ai−1, ai)

printre datele primare x′k, k = 1, ..., N, iar xi =ai−1+ai

2 .

Definitia 10 Numim amplitudinea clasei, definita de intervalul

[ai−1, ai), lungimea acestui interval, adica di = ai − ai−1.

Cand amplitudinile claselor sunt egale sunt utilizate frecvent 2

reguli de stabilire a numarului lor:

n =

[1 +

10

3lgN

]regula lui Sturges

sau

d =8

100(xmax − xmin),

unde xmax = max{x′1, ..., x′N} si xmin = min{x′1, ..., x′N}.

Pentru regula lui Sturges se obtine:

d =b − a

nsi ai = a + id, i = 0, ..., n.

Cand (a, b) este infinit atunci

d =xmax − xmin

nsi ai = xmin + id, i = 0, ..., n.

(Aceste formule au rolul de a da o prima informatie relativa la

numarul claselor.)

Exemplu. Se analizeaza un lot de 30 de becuri din punct devede al caracteristii X ce reprezinta durata de viata ın mii de ore.Datele statistice obtinute sunt:

1.31 3.12 1.97 2.31 2.21 1.963.42 1.69 2.64 1.87 2.25 3.383.97 2.63 2.75 2.20 2.26 1.402.12 2.42 3.53 1.63 3.39 2.441.54 2.29 0.84 1.58 1.68 1.97

Scriem tabelul sistematizat al datelor statistice, considerand clasede amplitudini egale.

Consideram numarul claselor n = 5,

ai = 0.8 + id, i = 0, ...,5

cu

d =xmax − xmin

n=

3.97 − 0.84

5= 0.62

Se considera d = 0.7.

Se obtine

x f(0.8,1.5) 3[1.5,2.2) 10[2.2,2.9) 11[2.9,3.6) 5[3.6,4.3) 1

sau

x f1.15 31.85 102.55 113.25 53.95 1

CURS 2

2.1 Tabele statistice (continuare)

Pentru caracteristica X de tip discret tabelul statistic sistemati-

zat este de forma:

x fx1 f1x2 f2... ...xn fn

unde fi este frecventa absoluta de aparitie a valorii xi ıntre datele

primare x′k, k = 1, ..., N.

Pentru caracteristica X de tip continuu tabelul statistic sistema-

tizat este de forma:

x f(a0, a1) f1[a1, a2) f2... ...[an−1, an) fn

sau

x fx1 f1x2 f2... ...xn fn

unde fi este frecventa absoluta de aparitie a clasei [ai−1, ai)

printre datele primare x′k, k = 1, ..., N, iar xi =ai−1+ai

2 .

Definitia 11 Numim frecventa relativa a clasei xi raportul

pi =fi

N.

Definitia 12 Numim frecvente cumulate ascendente, respec-

tiv frecvente cumulate descendente frecventele date de relatiile

Fk =k∑

i=1

fi, F ′k =

n∑

i=k+1

fi, k = 0, ..., n,

unde F0 = 0 si F ′n = 0.

Pentru frecventele relative are loc relatia

n∑

i=1

pi = 1,

iar pentru cele cumulate au loc relatiile

Fk + F ′k = N, Fn = N si F ′

0 = N.

Definitia 13 Numim distributie statistica a caracteristii X tabloul

de forma

X

(xifi

)

i=1,...,n

sau X

(xipi

)

i=1,...,n

unde xi, i = 1, ..., n sunt clasele considerate, iar fi si pi, i = 1, ..., n

sunt frecventele absolute si respectiv frecventele relative.

Exemplul 14 Se analizeaza un lot de 30 de becuri din punct

de vedere al caracteristii X ce reprezinta durata de viata ın mii

de ore. Tabelul sistematizat al datelor statistice, considerand 5

clase de amplitudini egale, este:

x f(0.8,1.5) 3[1.5,2.2) 10[2.2,2.9) 11[2.9,3.6) 5[3.6,4.3) 1

sau

x f1.15 31.85 102.55 113.25 53.95 1

Distributia statistica a caracteristii X poate fi scrisa, fie cu aju-

torul frecventelor absolute:

X

(1.15 1.85 2.55 3.25 3.953 10 11 5 1

)

fie cu ajutorul frecventelor relative:

X

(1.15 1.85 2.55 3.25 3.95

330

1030

1130

530

130

).

Definitia 15 Fie colectivitatea C relativ la care sunt cercetate

doua caracteristici X si Y. Numim tabel de contingenta un

tablou care contine clasele caracteristicilor X si respectiv Y, ımpreuna

cu frecventele absolute ale acestor clase.

Daca pentru caracteristicile X si Y avem respectiv clasele date

prin xi, i = 1, ..., m si yj, j = 1, ..., n, iar datele primare sunt

date prin perechile (x′1, y′1), (x′2, y′2),...,(x′N , y′N), atunci tabelul de

contingenta este de forma:

X/Y y1 y2 ... yn

x1 f11 f12 ... f1n f1·x2 f21 f22 ... f2n f2·... ... ... ... ... ...xm fm1 fm2 ... fmn fm·

f·1 f·2 ... f·n f·· = N

unde fij este frecventa absoluta de aparitie a clasei (xi, yj) ıntre

datele primare (x′k, y′k), k = 1, ..., N si

f·j =m∑

i=1

fij, j = 1, ..., n

fi· =n∑

j=1

fij, i = 1, ..., m

f·· =n∑

j=1

f·j =m∑

i=1

fi· =m∑

i=1

n∑

j=1

fij = N.

Observatia 16 Cand caracteristicile X si Y sunt caracteristici

cantitative si ıntre ele exista o relatie de dependenta, tabelul de

contingenta se numeste tabel de corelatie.

Exemplul 17 Un astfel de tabel de corelatie este prezentat pen-

tru datele statistice ce reprezinta 85 de copii de 10 ani cercetati

din punct de vedere al ınaltimii X (ın cm) si al greutatii (ın kg):

X/Y 27 28 29 30 31 32

128 4 1 2 1 8129 4 1 5 2 3 15130 1 2 1 3 2 2 11131 4 2 5 1 1 13132 3 2 6 2 2 1 16133 1 7 3 4 2 5 22

13 18 18 16 9 11 85

2.2. Reprezentari grafice

Definitia 18 Se numeste diagrama prin batoane (bare) a

distributiei statistice X de tip discret, reprezentarea grafica ıntr-

un sistem de axe rectangulare a segmentelor (batoanelor) date

prin

{(xi, y) | 0 ≤ y ≤ αfi}, i = 1, ..., n,

unde α > 0 este un factor de proportionalitate, iar fi este frecventa

absoluta a valorii xi.

0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

Definitia 19 Se numeste diagrama cumulativa (ascendenta)

a unei distributii statistice X de tip discret, linia poligonala care

uneste punctele de coordonate

(x1, αF0), (x1, αF1), (x2, αF1)(x2, αF2), ..., (xn, αFn)

unde Fi este frecventa cumulata (ascendenta) atasata valorii xi,

iar α > 0 este un factor de proportionalitate.

Definitia 20 Se numeste histograma unei distributii statistice

X de tip continuu, diagrama obtinuta prin construirea de drep-

tunghiuri avand drept baze clasele distributiei statistice si ınaltimile

astfel considerate ıncat ariile dreptunghiurilor sa fie proportionale

cu frecventele claselor.

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

Observatia 21 Daca factorul de proportionalitate este 1N atunci

se obtine histograma frecventelor relative.

Observatia 22 Histograma frecvetelor relative a distributiei statis-

tice reprezinta o aproximare rudimentara a graficului densitatii de

probabilitate a caracteristicii X.

Definitia 23 Numim poligonul frecventelor unei distributii statis-

tice X de tip continuu, poligonul obtinut prin unirea punctelor

de coordonate (xi, αifi), i = 1, ..., n, unde αi este un factor de

proportionalitate, iar fi este frecventa clasei xi.

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 20

200

400

600

800

1000

1200Poligonul frecventelor

Definitia 24 Numim diagrame integrale (cumulative) ale frecventelor

cumulate ascendente, respectiv descendente, relative la distributia

statistica X de tip continuu, liniile poligonale obtinute prin unirea

punctelor de coordonate (ak, Fk), k = 0, ..., n, si respectiv (ak, F ′k),

k = 0, ..., n.

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.50

10

20

30

40

50

60

70

80

90

100Diagrama ascendenta si Diagrama descendenta

Definitia 25 Numim nor statistic atasat caracteristicilor X si

Y, punctele din plan obtinute prin reprezentarea grafica a datelor

primare (x′k, y′k), k = 1, ..., N.

−2 −1 0 1 2 3 4−3

−2

−1

0

1

2

3

4

5

6

7

2.3. Parametrii distributiilor statistice

Se considera datele primare x′k, k = 1, ..., N relative la caracte-

ristica X, pentru care avem distributia statistica

X

(xifi

)

i=1,...,n

.

Definitia 26 Media (aritmetica) a distributiei statistice a carac-

teristicii X este data prin

xa =1

N

N∑

k=1

x′k =1

N

n∑

k=1

fkxk =n∑

k=1

pkxk.

Definitia 27 Media geometica a distributiei statistice a carac-

teristicii pozitive X este data prin

xg = N√

x′1x′2...x′N =N

√x

f11 x

f22 ...x

fnn .

Observatia 28 In aplicatii se lucreaza mai usor cu

lgxg =1

N

N∑

k=1

lg x′k =1

N

n∑

k=1

fk lgxk =n∑

k=1

pk lg xk.

Definitia 29 Media armonica a distributiei statistice a carac-

teristicii nenule X este data prin

xh =N

N∑

k=1

1x′k

=N

n∑

k=1

fkxk

=1

n∑

k=1

pkxk

.

Lema 30 Fie xi > 0, i = 1, ..., n. Are loc relatia:

n1x1

+ ... + 1xn

≤ n√

x1...xn ≤ x1 + ... + xn

n. (1)

Demonstratie. Fie f : (0,∞) → R, f(x) = ln x. Aceasta este

concava pe (0,∞). Conform inegalitatii lui Jensen are loc

f

(x1 + ... + xn

n

)≥ f(x1) + ... + f(xn)

n=

lnx1 + ... + ln xn

n= ln n

√x1...xn,

de unde rezulta

n√

x1...xn ≤ x1 + ... + xn

n.

Pentru prima inegalitate se ia ın a doua

xi :=1

xi, i = 1, ..., n.

Consecinta. Din (1) rezulta ca are loc relatia ıntre medii:

xh ≤ xg ≤ xa.

Definitia 31 Se numeste mediana distributiei statistice a ca-

racteristii X, valoarea numerica m care ımparte datele statistice,

ordonate crescator, ın doua parti egale.

Fie datele statistice primare:

x′(1) ≤ x′(2) ≤ ... ≤ x′(N).

Atunci mediana va fi data prin

m =

x′(k)

, daca N = 2k − 1,

x′(k)

+x′(k+1)

2 daca N = 2k.

Cand datele statistice sunt grupate se determina intervalul me-

dian [aj−1, aj) astfel ıncat pentru frecventele cumulate Fj−1 si

Fj sa fie satisfacute inegalitatile

Fj−1 <N

2< Fj.

Folosind apoi interpolarea liniara se ia ca mediana

m = aj−1 + dj

N2 − Fj−1

fj,

unde dj este amplitudinea intervalului median.

Semnificatie: Se considera punctele A(aj−1, Fj−1) si B(aj, Fj).

Dreapta AB are ecuatia:

x − aj−1

aj − aj−1=

y − Fj−1

Fj − Fj−1. (2)

Tinand cont ca

aj − aj−1 = dj

si

Fj − Fj−1 = fj

ecuatia (2) devine

x = aj−1 +dj

fj(y − Fj−1).

Mediana este abscisa punctului de ordonata N/2.

Definitia 32 Numim cuartile ale distributiei statistice a carac-

teristicii X, valorile numerice care ımpart datele statistice, ordo-

nate crescator, ın patru parti egale: Q1 (cuartila inferioara),

Q2 = m, Q3 (cuartila superioara), .

Cand datele statistice sunt grupate se determina intervalul cuar-

tilic inferior [ai−1, ai) astfel ıncat sa aiba loc:

Fi−1 <N

4< Fi,

respectiv intervalul cuartilic superior [ak−1, ak) astfel ıncat:

Fk−1 <3N

4< Fk.

Folosind interpolarea liniara se considera

Q1 = ai−1 + di

N2 − Fi−1

fi,

Q3 = ak−1 + dk

N2 − Fk−1

fk.

Observatia 33 In mod analog se definesc decilele si centilele.

Definitia 34 Se numeste abatere cuartila (interval intercuar-

tilic) a distributiei statistice a caracteristicii X, diferenta ıntre

cuartila superioara si cuartila inferioara, adica Q3 − Q1.

Definitia 35 Se numeste variatie intercuartila:

Q =(Q3 − m) + (m − Q1)

2=

Q3 − Q1

2

si abatere cuartila relativa:

Qr =Q3 − Q1

m.

CURS 3

2.3. Parametrii distributiilor statistice (continuare)

Se considera datele primare x′k, k = 1, ..., N relative la caracter-

istica X, pentru care avem distributia statistica

X

(xifi

)

i=1,...,n

.

Definitia 36 Numim cuartile ale distributiei statistice a carac-

teristicii X, valorile numerice care ımpart datele statistice, ordo-

nate crescator, ın patru parti egale: Q1 (cuartila inferioara),

Q2 = m, Q3 (cuartila superioara), .

Cand datele statistice sunt grupate se determina intervalul cuar-

tilic inferior [ai−1, ai) astfel ıncat sa aiba loc:

Fi−1 <N

4< Fi,

respectiv intervalul cuartilic superior [ak−1, ak) astfel ıncat:

Fk−1 <3N

4< Fk.

Folosind interpolarea liniara se considera

Q1 = ai−1 + di

N2 − Fi−1

fi,

Q3 = ak−1 + dk

N2 − Fk−1

fk.

Observatia 37 In mod analog se definesc decilele si centilele.

Definitia 38 Se numeste abatere cuartila (interval intercuar-

tilic) a distributiei statistice a caracteristicii X, diferenta ıntre

cuartila superioara si cuartila inferioara, adica Q3 − Q1.

Definitia 39 Se numeste variatie intercuartila:

Q =(Q3 − m) + (m − Q1)

2=

Q3 − Q1

2si abatere cuartila relativa:

Qr =Q3 − Q1

m.

Definitia 40 Numim mod al distributiei statistice a caracteris-

ticii X orice punct mo de maxim local al distributiei statistice.

Cand distributia statistica are un singur mod spunem ca avem

distributie statistica unimodala. Daca exista doua sau mai

multe moduri se numeste distributie statistica bimodala, respec-

tiv multimodala.

Cand datele statistice sunt grupate, pentru determinarea modului

se determina intervalul modal, adica intervalul cu frecventa

maxima locala. Daca intervalul modal este [ak−1, ak), atunci se

considera

mo = ak−1 + dk△fk

△fk −△fk+1, (3)

unde dk = ak − ak−1, △fk = fk − fk−1, △fk+1 = fk+1 − fk.

Formula se obtine ca intersectie a interpolantului liniar al punctelor

(ak−1, fk−1) si (ak, fk) cu interpolantul liniar al punctelor (ak−1, fk)

si (ak, fk+1).

Interpolatul liniar al punctelor (ak−1, fk−1) si (ak, fk) este:

y − fk−1

fk − fk−1=

x − ak−1

ak − ak−1⇔ y = fk−1 +

△fk

dk(x − ak−1)

si interpolantul liniar al punctelor (ak−1, fk) si (ak, fk+1) este:

y − fk

fk+1 − fk=

x − ak−1

ak − ak−1⇔ y = fk +

△fk+1

dk(x − ak−1).

Modul este abscisa punctului de intersectie, adica

fk−1 +△fk

dk(mo − ak−1) = fk +

△fk+1

dk(mo − ak−1)

⇔ (mo − ak−1)△fk −△fk+1

dk= △fk,

de unde rezulta (3).

Exemplul 41 Tabelul sistematizat pentru caracteristica X de tip

discret:

x f1.5 62.2 42.9 103.6 54.3 1

Modurile sunt: mo1 = x1 = 1.5 si mo2 = x3 = 2.9.

Tabelul sistematizat pentru caracteristica X de tip continuu:

x f(0.8,1.5) 3[1.5,2.2) 10[2.2,2.9) 11[2.9,3.6) 5[3.6,4.3) 1

Intervalul modal este:[a2, a3] = [2.2,2.9). Avem d3 = a3 − a2 =

0.7, △f3 = f3 − f2 = 1, △f4 = f4 − f3 = −6. Rezulta ca modul

este:

mo = ak−1 + dk△fk

△fk −△fk+1= 2.9 + 0.7

1

1 + 6= 3.

Definitia 42 Numim moment de ordin k al distributiei statis-

tice a caracteristicii X, valoarea numerica

νk =1

N

N∑

i=1

x′ki =1

N

n∑

i=1

fixki =

n∑

i=1

pixki .

Parametrii distributiilor statistice prezentati masoara tendinta. In

continuare sunt dati parametrii care masoara ımprastierea (dis-

persarea) datelor statistice.

Definitia 43 Se numeste amplitudine (interval de variatie) a

distributiei statistice a caracteristicii X, valoarea numerica

ω = max{x′1, x′2, ..., x′N} − min{x′1, x′2, ..., x′N} = xmax − xmin.

Observatia 44 Daca abaterea cuartila Q3−Q1 < ω2 atunci distributia

se considera intens concentrata, iar ın caz contrar, intens disper-

sata.

Definitia 45 Numim abatere medie (absoluta) a distributiei

statistice X, valoarea numerica

δ =1

N

N∑

i=1

|xi − x| = 1

N

n∑

i=1

fi |xi − x| =n∑

i=1

pi |xi − x| ,

unde x = xa.

Definitia 46 Numim moment centrat de ordin k al distributiei

statistice X, valoarea numerica

µk =1

N

N∑

i=1

(x′i − x)k =1

N

n∑

i=1

fi(xi − x)k =n∑

i=1

pi(xi − x)k.

Definitia 47 Momentul centrat de ordinul 2 al distributiei statis-tice X se numeste dispersie si se noteaza cu σ2 = µ2, iar

σ =√

µ2

se numeste abatere medie patratica sau abatere standard.

Alte formule de calcul pentru dispersie:

σ2 =1

N

n∑

i=1

fix2i − 1

N

n∑

i=1

fixi

2

σ2 =1

N

n∑

i=1

fi(xi − a)2 − (x − a)2, a ∈ R (Formula lui Konig).

Definitia 48 Numim coeficient de variatie al distributiei statis-tice X, raportul

v =σ

x,

care se exprima ın procente.

Definitia 49 Se numesc coeficientii lui Pearson relativi la distributia

statistica X, rapoartele:

s =x − mo

σCoeficientul de asimetrie

β1 =µ23

µ32

Skewness

β2 =µ4

µ22

Kurtosis.

Definitia 50 Se numesc coeficientii lui Fisher relativi la distributia

statistica X, valorile numerice:

γ1 =√

β1 =µ3

σ3Asimetria

γ2 = β2 − 3 =µ4

µ22

− 3 =µ4

σ4− 3 Excesul.

Pentru legea normala avem:

µ3 =∫

R(x−x)3

1√2πσ

e−(x−m)2

2σ2 dx =1√2πσ

Ry3e

− y2

2σ2dy = 0 =⇒ γ1 = 0

Considerand

I(r) :=1√2π

Rx2re−

x2

2 dx = (2r − 1)!!

se obtine

µ4 =1√2πσ

R(x − x)4e

−(x−m)2

2σ2 dx =σ4√

Ry4e−

y2

2 dy = σ4I(2) = 3σ4

=⇒ γ2 = 0

Observatie. Coeficientii lui Fisher (asimetria si excesul) pentru

legea normala sunt 0.

Proprietati. 1) Suma algebrica a abaterilor valorilor caracteris-

ticii X de la valoarea medie a acesteia este nula.

N∑

i=1

(x′i−x) =n∑

i=1

fi(xi−x) =n∑

i=1

fixi−Nx =n∑

i=1

fixi−N · 1N

n∑

i=1

fixi = 0

2) Momentul centrat µk se poate exprima ın functie de mo-

mentele νj, j = 0, ..., k.

µk =1

N

N∑

i=1

(x′i − x)k =1

N

N∑

i=1

k∑

j=0

(−1)jCjk(x

′i)

k−jxj

=k∑

j=0

(−1)jCjkxj

N∑

i=1

1

N(x′i)

k−j =k∑

j=0

(−1)jCjkxjνk−j.

3) Fie caracteristicile X si Y. Daca Y = aX + b atunci β2 si γ2

coincid, pentru X si Y .

β2(Y ) =µ4(Y )

µ22(Y )

=a4µ4(X)

(a2σ2)2= β2(X)

γ2 = β2 − 3.

(Se verifica usor ca µk(Y ) = akµk(X).)

4) Mediana este mai stabila decat media ın raport cu fluctuatiile

valorilor caracteristicii X. De exemplu, mediana nu se modifica

prin ınlaturarea valorilor extreme (x′min, x′max) ale sirului valorilor

caracteristicii X.

CURS 4

2.4. Corelatie si regresie

Corelatie = legatura care exista ıntre o caracteristica depen-

denta si una sau mai multe caracteristici independente. Regre-

sia = metoda prin care se stabileste aceasta legatura.

2.4.1. Parametrii distributiilor statistice bidimensionale

Fie caracteristicile cantitative X si Y relative la colectivitatea C.

Datele statistice primare sunt (x′k, y′k), k = 1, ..., N. Dupa grupare

se reprezinta ın tabelul de corelatie:

X/Y y1 y2 ... yn

x1 f11 f12 ... f1n f1·x2 f21 f22 ... f2n f2·... ... ... ... ... ...xm fm1 fm2 ... fmn fm·

f·1 f·2 ... f·n f·· = N

unde fij este frecventa absoluta de aparitie a clasei (xi, yj) ıntre

datele primare (x′k, y′k), k = 1, ..., N .

Definitia 51 Numim moment de ordinul (k1, k2) al distributiei

statistice a caracteristicii bidimensionale (X, Y ), valoarea numerica

νk1,k2=

1

N

N∑

i=1

x′k1i y

′k2i =

1

N

m∑

i=1

n∑

j=1

fijxk1i y

k2j

=m∑

i=1

n∑

j=1

pijxk1i y

k2j ,

unde pij =fijN este frecventa relativa a clasei (xi, yj).

Definitia 52 Numim moment centrat de ordinul (k1, k2) al

distributiei statistice a caracteristicii bidimensionale (X, Y ), val-

oarea numerica

µk1,k2=

1

N

N∑

i=1

(x′i − x)k1(y′i − y)k2 =1

N

m∑

i=1

n∑

j=1

fij(xi − x)k1(yj − y)k2

=m∑

i=1

n∑

j=1

pij(xi − x)k1(yj − y)k2,

unde

x = ν10 =1

N

m∑

i=1

fi·xi, y = ν01 =1

N

n∑

j=1

f·jyj.

Dispersiile pentru distributiile statistice ale caracteristicilor X si

Y sunt date de:

σ2X = µ20 =

1

N

m∑

i=1

fi·(xi− x)2, σ2Y = µ02 =

1

N

n∑

j=1

f·j(yj − y)2.

Definitia 53 Numim coeficient de corelatie (al lui Pearson)

al distributiei statistice bidimensionale (X, Y ), raportul

r =µ11√

µ20√

µ02=

ν11 − xy

σX σY.

Observatia 54 1) Are loc |r| ≤ 1.

2) Daca |r| = 1 atunci ∃a 6= 0, b ∈ R astfel ıncat Y = aX + b, si

reciproc.

3) Daca r = 0 atunci cele 2 caracteristici sunt necorelate.

4) Daca caracteristica bidimensionala (X, Y ) urmeaza legea nor-

mala bidimensionala, atunci r = 0 implica faptul ca cele doua

caracteristici sunt independente.

5) Folosind datele statistice negrupate formula de calcul pentru

coeficientul de corelatie este:

r =

N∑

i=1

(x′i − x

) (y′i − y

)

√N∑

i=1

(x′i − x

)2√

N∑i=1

(y′i − y

)2

Definitia 55 Se numeste valoare medie conditionata a distributiei

statistice a caracteristicii Y ın raport cu X = xi, valoarea nu-

merica

yi = y(xi) =1

fi·

n∑

j=1

fijyj, i = 1, ..., m,

si respectiv valoare medie conditionata a distributiei statistice

a caracteristicii X ın raport cu Y = yj, valoarea numerica

xj = x(yj) =1

f·j

m∑

i=1

fijxi, j = 1, ..., n.

Definitia 56 Se numeste dispersie conditionata a distributiei

statistice a caracteristicii Y ın raport cu X = xi, valoarea nu-

merica

σ2Y |xi

=1

fi·

n∑

j=1

fij(yj − yi)2, i = 1, ..., m,

si respectiv dispersie conditionata a distributiei statistice a

caracteristicii X ın raport cu Y = yj, valoarea numerica

σ2X|yj

=1

f·j

m∑

i=1

fij(xi − xj)2, j = 1, ..., n.

Definitia 57 Se numeste dispersie conditionata a distributiei

statistice a lui Y ın raport cu distributia statistica a lui X, valoarea

numerica

σ2Y |X =

1

N

m∑

i=1

fi·σ2Y |xi

=m∑

i=1

pi·σ2Y |xi

,

si respectiv dispersie conditionata a distributiei statistice a lui

X ın raport cu distributia statistica a lui Y, valoarea numerica

σ2X|Y =

1

N

n∑

j=1

f·jσ2X|yj

=n∑

j=1

p·jσ2X|yj

,

unde pi· =fi·N este frecventa relativa a clasei xi, iar p·j =

f·jN este

frecventa relativa a clasei yj.

Dispersiile conditionate satisfac relatiile

σ2Y = σ2

Y |X + σ2Y |X, σ2

X = σ2X|Y + σ2

X|Y ,

unde

σ2Y |X =

1

N

m∑

i=1

fi·(yi − y)2 si σ2X|Y =

1

N

n∑

j=1

f·j(xj − x)2,

sunt dispersiile valorilor medii conditionate.

Definitia 58 Numim raport de corelatie al distributiei statis-

tice a caracteristicii Y fata de distributia statistica a lui X, val-

oarea numerica

ηY |X =

√√√√√1 −σ2

Y |Xσ2

Y

=

√√√√√σ2

Y |Xσ2

Y

,

analog avem

ηX|Y =

√√√√√1 −σ2

X|Yσ2

X

=

√√√√√σ2

X|Yσ2

X

.

Observatia 59 1) ηY |X = 0 =⇒ σ2Y |X = 0 =⇒ y = yi, i =

1, ..., m.

2) ηY |X = 1 =⇒ σ2Y |X = 0 =⇒ σ2

Y |xi= 0, i = 1, ..., m, adica

valorile caracteristicii Y sunt aceleasi.

Coeficientul lui Spearman

Consideram datele primare (x′i, y′i), i = 1, ..., N. Fie (uk, vk), k =

1, .., N rangurile datelor statistice primare obtinute printr-o or-donare crescatoare dupa prima, respectiv a doua componenta.

Definitia 60 Se numeste coeficient de corelatie al rangurilorsau coeficientul lui Spearman, valoarea numerica

s = r(U, V ),

unde U si V sunt caracteristicile care definesc rangurile datelorstatistice pentru X si Y.

Teorema 61 Daca notam dk = |uk − vk|, k = 1, ..., N diferentadintre rangurile aceluiasi individ atunci

s = 1 − 6

N(N2 − 1)

N∑

k=1

d2k.

Demonstratie. Prin definitie se obtine

s = r(U, V ) =µ11√

µ20√

µ02=

1N

N∑

k=1(uk − u)(vk − v)

√1N

N∑

k=1(uk − u)2

√1N

N∑

k=1(vk − v)2

.

Avem

u = v =1

N(1 + 2 + ... + N) =

N + 1

2.

si

α :=N∑

k=1

(uk − u)2 =N∑

k=1

(k − N + 1

2

)2

=N∑

k=1

k2 − 2N + 1

2

N∑

k=1

k +

(N + 1

2

)2 N∑

k=1

1

=N(N + 1)(2N + 1)

6− 2

N + 1

2

N(N + 1)

2+ N

(N + 1)2

4

=N(N2 − 1)

12.

Analog,

N∑

k=1

(vk − v)2 =N(N2 − 1)

12.

Pentru numarator avem

d2k = (uk − vk)

2 = (uk − u + v − vk)2

= (uk − u)2 + (v − vk)2 − 2(uk − u)(v − vk).

Insumand se obtine

N∑

k=1

d2k = α + α − 2

N∑

k=1

(uk − u)(vk − v),

de unde rezulta ca

N∑

k=1

(uk − u)(vk − v) = α − 1

2

N∑

k=1

d2k .

In final se obtine

s =

α − 12

N∑

k=1d2k

√α√

α= 1 − 1

2

12

N(N2 − 1)

N∑

k=1

d2k .

Proprietatea 62 1) Coeficientul lui Spearman verifica relatiile

−1 ≤ s ≤ 1.

2) s = 1 cand cele 2 clasamente pentru caracteristicile X si Y

coincid.

3) s = −1 cand cele 2 clasamente pentru caracteristicile X si Y

sunt inverse unul celuilalt ((1, N), (2, N − 1), ..., (N,1)).

4) s = 0 cand caracteristicile X si Y sunt independente.

5) Cand exista doua sau mai multe date statistice primare care

au aceeasi valoare, atunci rangurile acestora se considera toate

egale cu media aritmetica a rangurilor pe care le ocupa aceste

date ın ordonarea crescatoare.

Coeficientul lui Kendall

Definitia 63 Se numeste coeficientul lui Kendall relativ la

distributia statistica a caracteristicii bidimensionale (X, Y ), ra-

portul

k =2t

N(N − 1),

unde

t =N∑

i,j=1i<j

sign{(x′j − x′i)(y′j − y′i)}.

Proprietatea 64 1) Coeficientul lui Kendall satisface relatiile

−1 ≤ k ≤ 1.

2) Pentru k = 1 cele 2 clasamente pentru caracteristicile X si Y

sunt indentice.

3) Pentru k = −1 cele 2 clasamente pentru caracteristicile X si

Y sunt inverse unul celuilalt.

4) Pentru k = 0 caracteristicile X si Y sunt independente.

5) Cand ın cele doua clasamente sunt valori egale se ınlocuiesc

toate rangurile pentru valorile egale prin media aritmetica a ran-

gurilor pe care le ocupa ın ordonare.

Pentru calculul rapid al lui k se poate proceda dupa cum urmeaza.

Se ordoneaza datele primare(x′k, y′k

), k = 1, N , ın mod crescator

dupa prima componenta:(x′ik, y

′ik

), k = 1, N, cu x′i1 6 x′i2 6 · · · 6 x′iN .

Se calculeaza apoi numarul

t =N∑

u,v=1u<v

sign(y′iv − y′iu

),

obtinandu-se astfel k.

Formula lui Daniels

Coeficientul r de corelatie (al lui Pearson), coeficientul s al lui

Spearman si coeficientul k al lui Kendall se pot exprima prin

formula unica

D =

N∑i=1

N∑j=1

aijbij

√√√√N∑

i=1

N∑j=1

a2ij

√√√√N∑

i=1

N∑j=1

b2ij

·

Daca aij = x′i − x′j, bij = y′i − y′j, atunci D = r.

Daca aij = ui − uj, bij = vi − vj, atunci D = s.

Daca aij = sign(x′i − x′j

), bij = sign

(y′i − y′j

), atunci D = k.

CURS 5

2.4.2. Curbe de regresie. Regresie liniara

Definitia 65 Curba de ecuatie y = f(x) pe care se situeaza

punctele de coordonate (xi, yi), i = 1, ..., m se numeste curba de

regresie a lui Y ın raport cu X, iar curba de ecuatie x = f(y)

pe care se situeaza punctele de coordonate (xj, yj), j = 1, ..., n

se numeste curba de regresie a lui X ın raport cu Y.

xi x

yi

y=f(x)

-

6

xj x=f(y)

yj

y

-

6

Determinarea curbelor de regresie

Determinarea ecuatiilor curbelor de regresie se face prin metoda

celor mai mici patrate. Presupunem ca prin reprezentarea punctelor

(xi, yi), i = 1, m, curba de regresie a lui Y ın raport cu X este de

forma

y = y (x) = f (x; a1, a2, . . . , as) .

Se determina parametrii ak, k = 1, s, astfel ıncat

S (a1, a2, . . . , as) =N∑

i=1

(y′i − y

(x′i))2

=m∑

i=1

n∑

j=1

fij

(yj − y (xi)

)2

=m∑

i=1

n∑

j=1

fij

(yj − f (xi; a1, a2, . . . , as)

)2

sa fie minima.

Punctul de minim (a1, a2, . . . , as) al functiei S se obtine prin re-

zolvarea sistemului normal de ecuatii, rezultat din

∂S

∂ak= −2

m∑

i=1

n∑

j=1

fij

(yj−f (xi; a1, a2, . . . , as)

)∂f (xi; a1, a2, . . . , as)

∂ak= 0,

pentru k = 1, s. Ecuatia curbei de regresie va fi

y = f (x; a1, a2, . . . , as) .

La fel se determina si ecuatia curbei de regresie a lui X ın raport

cu Y .

Drepte de regresie

Cazul liniar cand ecuatia curbei de regresie este y = y (x) = ax+b.

Ecuatiile dreptelor de regresie a lui Y ın raport cu X si, respectiv,

a lui X ın raport cu Y sunt:

y − y = rσY

σX(x − x)

si

x − x = rσX

σY(y − y) .

Coeficientul unghiular al dreptei de regresie a lui Y ın raport cu

X, notat cu

aY |X = rσY

σX,

se numeste coeficientul de regresie al lui Y ın raport cu X si

aX|Y = rσX

σY

se numeste coeficientul de regresie al lui X ın raport cu Y.

Avem

|r| =√

aY |XaX|Ysi

sign(aX|Y

)= sign

(aY |X

).

Unghiul α format de cele doua drepte de regresie este dat prin

relatia

tgα =1 − r2

r2σXσY

σ2X + σ2

Y

Folosind aceasta relatie se pot trage urmatoarele concluzii:

• Daca |r| = 1 atunci α = 0, deci dreptele de regresie se con-

funda, cu specificatia ca pentru r = −1 dreptele au panta

(coeficientul unghiular) negativa, iar pentru r = 1 panta este

pozitiva.

• Daca X si Y sunt independente atunci r = 0, deci α = π2

(dreptele de regresie sunt perpendiculare).

Tipuri de curbe de regresie care pot fi liniarizate sunt:

1. y = abx (exponentiala), care prin logaritmare se liniarizeaza

log y = log a + x log b, luand z = log y, A = log a, B =

log b =⇒ z = A + Bx

2. y = ax+b (hiperbolica), care se liniarizeaza daca se noteaza

z = 1x

3. 1y = a

x + b sau y = 1ax+b

, care se liniarizeaza daca se

noteaza u = 1x, v = 1

y

4. y = a log x + b (logaritmica), care se liniarizeaza daca se

noteaza z = log x

5. y = beax (exponentiala), care prin logaritmare se liniarizeaza

ln y = ln b + ax, luand z = ln y

6. y = beax, care prin logaritmare se liniarizeaza ln y = ln b + a

x,

luand u = 1x, v = ln y

7. y = bxa, care prin logaritmare se liniarizeaza, log y = log b +

a log x, luand u = log x, v = log y

8. 1y = ae−x + b sau y = 1

ae−x+b,care se liniarizeaza daca se

fac notatiile u = e−x, v = 1y

Curbe de regresie ce nu pot fi liniarizate:

1. y = a0 + a1x + · · · + anxn, n > 2 (polinomiala),

2. y = axb + c log x,

3. y = axbecx,

4. y = a + bx + cex. (Ultimele trei se pot aduce la forma polino-

miala.)

Capitolul 3. TEORIA SELECTIEI

Definitia 66 Se numeste esantion (selectie, sondaj) relativ la

colectivitatea C o submultime de indivizi E a lui C, care urmeaza

sa fie cercetati din punct de vedere al uneia sau mai multor

caracteristici. Numarul indivizilor din esantionul E se numeste

volumul esantionului.

Modurile de obtinere a esantionului E ne conduc la metode nealeatoare

si respectiv metode aleatoare de selectie.

Metodele nealeatoare:

• selectia sistematica, cand indivizii care intra ın esantion

sunt considerati dupa o anumita regula, de exemplu din 10

ın 10

• selectie tipica, cand, cunoscandu-se informatii anterioare

referitoare la colectivitate, sunt considerati indivizi cu valori

medii apropiate de valoarea medie a ıntregii colectivitati

• selectie stratificata, cand colectivitatea este clasificata (stra-

tificata) dupa anumite criterii, cunoscandu-se proportia indi-

vizilor pentru fiecare strat. Esantionul se ia astfel ıncat sa

fie respectate aceste proportii pentru fiecare strat

Metodele aleatoare – fiecare individ al colectivitatii C poate sa

intre ın esantion cu aceeasi probabilitate (selectie cu probabilitati

egale) sau cu probabilitati diferite.

Metode aleatoare de selectie sunt:

• repetate (bernoulliene), cand individul ce intra ın esantion,

dupa ce a fost cercetat, este reintrodus ın colectivitate

• nerepetate, cand individul ce intra ın esantion, dupa ce a fost

cercetat, nu este reintrodus ın colectivitate

Observatia 67 Daca volumul colectivitatii este mult mai mare

decat volumul esantionului, atunci o selectie nerepetata poate fi

considerata ca fiind de tip repetat.

In cele ce urmeaza vom considera ca avem de fiecare data o

selectie repetata. Fie colectivitatea C cercetata din punct de

vedere al caracteristicii X.

Definitia 68 Se numesc date de selectie relative la caracteris-

tica X datele statistice (observate) x1, x2, . . . , xn privind indivizii

care intra ın esantion.

Definitia 69 Se numesc variabile de selectie variabilele aleatoare

X1, X2, . . . , Xn, care iau ca valori datele de selectie. In cazul unei

selectii repetate sunt variabile aleatoare independente, identic

repartizate cu X.

3.1. FUNCTII DE SELECTIE

Se numeste functie de selectie sau statistica – variabila alea-

toare

Zn = hn (X1, X2, . . . , Xn) ,

unde hn : Rn −→ R este o functie masurabila, iar

zn = hn (x1, x2, . . . , xn)

se numeste valoarea functiei de selectie.

Definitia 70 Se numeste medie de selectie – functia de selectie

X =1

n

n∑

k=1

Xk, iar x =1

n

n∑

k=1

xk

se numeste valoarea mediei de selectie.

Proprietatea 71 Fie caracteristica X pentru care exista val-

oarea medie m = M (X) si dispersia σ2 = D2 (X), atunci

M(

X)= m si D2

(X)=

1

nσ2.

Demonstratie. Folosind proprietatile valorii medii si ale disper-

siei si avand ın vedere ca selectia este repetata avem succesiv

M(

X)=

1

n

n∑

k=1

M (Xk) =1

n

n∑

k=1

M (X) =1

nn m = m,

respectiv

D2(

X)=

1

n2

n∑

k=1

D2 (Xk) =1

n2

n∑

k=1

D2 (X) =1

n2n σ2 =

1

nσ2.

Observatia 72 In cazul ın care caracteristica X urmeaza legea

normala N (m, σ), atunci X, fiind o combinatie liniara de vari-

abile aleatoare independente ce urmeaza fiecare legea normala,

va urma de asemenea legea normala. X va urma legea normala

N

(m, σ√

n

).

Proprietatea 73 Fie caracteristica X pentru care exista val-

oarea medie m = M (X) si dispersia σ2 = D2 (X), atunci

statistica

Zn =X − m

σ√n

converge ın repartitie la legea normala N (0,1), cand n → ∞.

(Convergenta ın repartitie: Sirul de variabile aleatoare (Xn)n∈N

converge ın repartitie la variabila aleatoare X daca limn→∞Fn(x) =

F(x).)

Definitia 74 Se numeste moment de selectie de ordin k –

functia de selectie

νk =1

n

n∑

i=1

Xki , iar νk =

1

n

n∑

i=1

xki ,

se numeste valoarea momentului de selectie de ordin k.

Se observa ca ν1 = X.

Proprietatea 75 Fie caracteristica X pentru care exista mo-

mentul teoretic ν2k = M(X2k

)atunci

M ( νk) = νk si D2 ( νk) =1

n

(ν2k − ν2

k

).

Demonstratie. Deoarece selectia este repetata putem scrie suc-

cesiv

M ( νk) =1

n

n∑

i=1

M(Xk

i

)=

1

n

n∑

i=1

M(Xk

)=

1

nnνk = νk

si respectiv

D2 ( νk) =1

n2

n∑

i=1

D2(Xk

i

)=

1

n2

n∑

i=1

D2(Xk

)

=1

n2n(ν2k − ν2

k

)=

1

n

(ν2k − ν2

k

).

CURS 6

3.1. FUNCTII DE SELECTIE (continuare)

Definitia 76 Se numeste moment centrat de selectie de or-

din k – functia de selectie

µk =1

n

n∑

i=1

(Xi − X

)k, iar µk =

1

n

n∑

i=1

(xi − x)k ,

se numeste valoarea momentului centrat de selectie de ordin

k.

Se observa ca µ1 = 0 si µ2 = ν2 − ν21.

Proprietatea 77 Fie caracteristica X pentru care exista mo-

mentul teoretic ν4, atunci pentru momentul centrat de ordinul

doi avem

M (µ2) =n − 1

nσ2

si

D2 (µ2) =n − 1

n3[(n − 1)µ4 − (n − 3)σ4],

unde σ2 = D2 (X).

Definitia 78 Se numeste dispersie de selectie – functia deselectie

σ2 =1

n − 1

n∑

k=1

(Xk − X

)2,

iar valoarea numerica

σ2 =1

n − 1

n∑

k=1

(xk − x)2 ,

se numeste valoarea dispersiei de selectie.

Observatia 79 Intre momentul centrat de selectie de ordinul doi

si dispersia de selectie exista relatia

σ2 =n

n − 1µ2,

ca urmare, avem

M(

σ2)=

n

n − 1M (µ2) =

n

n − 1

n − 1

nµ2 = µ2 = σ2,

D2(

σ2)=

n2

(n − 1)2D2 ( µ2) =

[(n − 1)2

n3µ4 − (n − 1) (n − 3)

n3µ22

]

=1

n (n − 1)

[(n − 1)µ4 − (n − 3)µ2

2

].

Proprietatea 80 Fie caracteristica X pentru care exista mo-

mentul centrat teoretic

µk = M

[(X − M (X)

)k],

atunci avem

M (µk) = µk + O

(1

n

)

si

D2 (µk) =µ2k − 2kµk−1µk+1 − µ2

k + k2µkµ2k−1

n+ O

(1

n2

Fie caracteristica bidimensionala (X, Y ) si o selectie repetata

de volum n, cu datele de selectie (xk, yk), k = 1, n si respectiv

variabilele de selectie (Xk, Yk), k = 1, n.

Definitia 81 Se numeste coeficient de corelatie de selectie

– functia de selectie

r =

n∑i=1

(Xi − X

) (Yi − Y

)

√n∑

i=1

(Xi − X

)2√

n∑i=1

(Yi − Y

)2,

iar valoarea numerica

r =

n∑i=1

(xi − x ) (yi − y )

√n∑

i=1(xi − x )2

√n∑

i=1(yi − y )2

,

se numeste valoarea coeficientului de corelatie de selectie.

Lema 82 (Fisher) Daca variabilele aleatoare X1, X2, . . . , Xn sunt

independente, fiecare urmand legea normala N (0,1) si daca se

considera matricea ortonormata A =(aij

)

i,j=1,n, atunci vari-

abilele aleatoare

Yi =n∑

k=1

aikXk, i = 1, n,

sunt independente, fiecare urmand legea normala N (0,1).

Obs. Matricea A este ortonormata = produsul scalar a doua

linii distincte este 0, iar produsul scalar al unei linii cu ea ınsasi

este 1.

Proprietatea 83 Fie caracteristica X ce urmeaza legea normala

N (0,1) si variabilele de selectie X1, X2, . . . , Xn ce corespund unei

selectii repetate de volum n, atunci statisticile

Un =√

n X =1√n

n∑

k=1

Xk,

Vn =n∑

k=1

(Xk − X

)2,

sunt variabile aleatoare independente ce urmeaza legea normala

N (0,1) si respectiv legea χ2 cu n − 1 grade de libertate.

Proprietatea 84 Fie caracteristica X ce urmeaza legea norma-

la N (m, σ) si variabilele de selectie X1, X2, . . . , Xn ce corespund

unei selectii repetate de volum n, atunci statisticile

Un =X − m

σ√n

,

Vn =1

σ2

n∑

k=1

(Xk − X

)2,

sunt variabile aleatoare independente ce urmeaza legea normalaN (0,1) si respectiv legea χ2 cu n − 1 grade de libertate.

Demonstratie. Se considera variabilele aleatoare Zk =Xk−m

σ ,k = 1, n, care sunt variabile aleatoare independente, fiecare urmandlegea normala N (0,1). Se aplica Proprietatea 83 pentru vari-abilele aleatoare Zk, k = 1, n. Intr-adevar avem

1√n

n∑

k=1

Zk =1√n

n∑

k=1

Xk − m

σ=

1√n

n

(1

n

n∑

k=1Xk

)− nm

σ= Un

urmeaza legea normala N (0,1) si

n∑

k=1

(Zk − Z

)2=

n∑

k=1

(Xk − m

σ− 1

n

n∑

i=1

Xi − m

σ

)2

=1

σ2

n∑

k=1

(Xk − m − 1

n

n∑

i=1

Xi +1

nnm)2 =

1

σ2

n∑

k=1

(Xk − X

)2

= Vn.

urmeaza legea χ2 cu n − 1 grade de libertate.

Proprietatea 85 Fie caracteristica X ce urmeaza legea normala

N (m, σ) si variabilele de selectie X1, X2, . . . , Xn ce corespund unei

selectii repetate de volum n, atunci statistica

T =X − m

σ√n

=X − m√

µ2n−1

,

urmeaza legea Student cu n − 1 grade de libertate.

Demonstratie. Cu notatiile de la Proprietatea 84, aratam ca

T =Un√

Vnn−1

.

Avem succesiv

Un√Vn

n−1

=X − m

σ√n

·√

n − 1

√n∑

k=1

(Xk − X

)2=

X − m

1√n

√1

n−1

n∑

k=1

(Xk − X

)2

=X − m

σ√n

= T.

Din teoria probabilitatilor se stie ca raportul dintre o variabila

aleatoare ce urmeaza legea normala N (0,1) si radicalul unei vari-

abile aleatoare ce urmeaza legea χ2, raportata la numarul grade-

lor de libertate, ın cazul ın care cele doua variabile aleatoare

sunt independente, este o variabila aleatoare ce urmeaza legea

Student cu acelasi numar al gradelor de libertate ca legea χ2

considerata.

Proprietatea 86 Fie caracteristicile independente X ′ si X ′′, fiecare

urmand legea normala, respectiv N(m′, σ

)si N

(m′′, σ

)si vari-

abilele de selectie X ′1, . . . , X ′

n′, respectiv X ′′1, . . . , X ′′

n′′, ce corespund

unei selectii repetate de volum n′ pentru caracteristica X ′ si unei

selectii repetate de volum n′′ pentru caracteristica X ′′, atunci

statistica

T =

(X

′ − X′′ )− (

m′ − m′′)√(

n′ − 1)σ ′2 +

(n′′ − 1

)σ ′′2

√√√√n′ + n′′ − 21n′ +

1n′′

,

urmeaza legea Student cu n′ + n′′ − 2 grade de libertate, con-

siderand

X′=

1

n′n′∑

k=1

X ′k, X

′′=

1

n′′n′′∑

k=1

X ′′k ,

σ ′2 =1

n′ − 1

n′∑

k=1

(X ′

k − X′ )2

, σ ′′2 =1

n′′ − 1

n′′∑

k=1

(X ′′

k − X′′ )2

.

Demonstratie. Mediile de selectie X′si X

′′urmeaza fiecare

legea normala, respectiv N

(m′, σ√

n′

)si N

(m′′, σ√

n′′

)([Curs 5,

Observatia 8]). Prin urmare statistica

U =

(X

′ − X′′ )− (

m′ − m′′)

σ√

1n′ +

1n′′

,

urmeaza legea normala N (0,1) (teoria probabilitatilor).

Pe de alta parte, folosind Proprietatea 84, se obtine ca statistica

V =1

σ2

n′∑

k=1

(X ′

k − X′ )2

+1

σ2

n′′∑

k=1

(X ′′

k − X′′ )2

,

urmeaza legea χ2 cu n′ + n′′ − 2 grade de libertate, fiind suma

a doua variabile aleatoare independente ce urmeaza legea χ2 cu

n′ − 1 grade de libertate si respectiv n′′ − 1 grade de libertate.

Statistica U√V

n′+n′′−2

urmeaza legea Student cu n′ + n′′ − 2 grade

de libertate (ca si ın demonstratia Proprietatii 85). Se arata ca

aceasta statistica este chiar T . Avem

U√

Vn′+n′′−2

=

(X

′ − X′′ )− (

m′ − m′′)

σ√

1n′ +

1n′′

·√

n′ + n′′ − 2

√√√√ n′∑

k=1

(X ′

k − X′ )2

+n′′∑

k=1

(X ′′

k − X′′ )2

=

(X

′ − X′′ )− (

m′ − m′′)√(

n′ − 1)σ ′2 +

(n′′ − 1

)σ ′′2

√√√√n′ + n′′ − 21n′ +

1n′′

= T.

Observatia 87 Daca se considera caracteristicile independente

X ′ si X ′′, fiecare urmand legea normala N(m′, σ′) si respectiv

N(m′′, σ′′) si daca avem variabilele de selectie X ′

1, X ′2, . . . , X ′

n′ ce

corespund unei selectii repetate de volum n′ relativa la carac-

teristica X ′ si respectiv variabilele de selectie X ′′1, X ′′

2, . . . , X ′′n′′ ce

corespund unei selectii repetate de volum n′′ relativa la caracter-

istica X ′′, atunci statistica

Z =

(X

′ − X′′ )− (

m′ − m′′)√

σ′2n′ + σ′′2

n′′

,

urmeaza legea normala N (0,1).

Proprietatea 88 Fie caracteristicile independente X ′ si X ′′, fiecare

urmand legea normala, respectiv N(m′, σ′) si N

(m′′, σ′′) si vari-

abilele de selectie X ′1, . . . , X ′

n′, respectiv X ′′1, . . . , X ′′

n′′, ce corespund

unei selectii repetate de volum n′ pentru caracteristica X ′ si unei

selectii repetate de volum n′′ pentru caracteristica X ′′, atunci

statistica

F =σ ′2

σ′2

/σ ′′2

σ′′2

urmeaza legea Snedecor-Fisher cu m = n′−1 si n = n′′−1 grade

de libertate.

Demonstratie. Din Proprietatea 84 avem ca functiile de selectie,

V ′ =1

σ′2n′∑

k=1

(X ′

k − X ′)2

=(n′ − 1

) σ ′2

σ′2 ,

V ′′ =1

σ′′2n′′∑

k=1

(X ′′

k − X′′)2

=(n′′ − 1

) σ ′′2

σ′′2

urmeaza fiecare legea χ2 cu m = n′ − 1 si n = n′′ − 1 grade de

libertate.

Pe de alta parte, X ′ si X ′′ sunt independente =⇒ V ′ si V ′′ sunt

independente. Din calculul probabilitatilor se stie ca raportul a

doua variabile aleatoare independente, ce urmeaza legea χ2, ra-

portate fiecare la numarul gradelor de libertate corespunzator,

este o variabila aleatoare ce urmeaza legea Snedecor–Fisher cu

numarul gradelor de libertate dat de numerele gradelor de liber-

tate ale celor doua legi χ2. Asadar avem ca

V ′

n′ − 1

/V ′′

n′′ − 1=

σ ′2

σ′2

/σ ′′2

σ′′2 = F

urmeaza legea Snedecor-Fisher cu m = n′−1 si n = n′′−1 grade

de libertate.

CURS 7

3.1. FUNCTII DE SELECTIE (continuare)

Fie caracteristica X, datele de selectie x1, x2, . . . , xn si variabilele

de selectie X1, X2, . . . , Xn.

Definitia 89 Se numeste functie de repartitie de selectie –

functia de selectie definita prin

Fn (x) =νn (x)

n, x ∈ R,

unde

νn (x) = card{Xi |Xi < x, i = 1, n },iar valoarea functiei de repartitie de selectie este

Fn (x) =card{xi |xi < x, i = 1, n }

n, x ∈ R.

Proprietatea 90 1) Fn este crescatoare si Fn(R) ⊂[0,1].

2) Daca datele de selectie sunt ordonate crescator atunci

Fn(x) =

0, x ≤ x1kn, xk ≤ x ≤ xk+1,1, x > xn.

Teorema 91 (Glivenko) Fie caracteristica X, care are functia

de repartitie teoretica F, si fie o selectie repetata de volum n rel-

ativa la caracteristica X, cu variabilele de selectie X1, X2, . . . , Xn

si functia de repartitie de selectie corespunzatoare Fn, atunci

P

(lim

n→∞ supx∈R

∣∣∣Fn (x) − F (x)∣∣∣ = 0

)= 1,

adica functia de repartitie de selectie converge aproape sigur la

functia de repartitie teoretica.

Teorema 92 (Kolmogorov) Fie caracteristica X care are functia

de repartitie teoretica F continua si fie o selectie repetata de

volum n relativa la caracteristica X cu variabilele de selectie

X1, X2, . . . , Xn si functia de repartitie de selectie corespunzatoare

Fn, atunci

limn→∞P

(√nDn < x

)= K (x) , x > 0,

unde Dn = supx∈R

∣∣∣Fn (x) − F (x)∣∣∣, iar

K (x) =+∞∑

k=−∞(−1)k e−2k2x2

, x > 0,

este functia lui Kolmogorov.

4. TEORIA ESTIMATIEI

Se obtin datele statistice ın urma cercetarii selective → Se fac

generalizari relative la populatia din care se extrage selectia.

Generalizarile - estimarea parametrilor statistici necunoscuti.

Estimarea - printr-o marime cat mai apropiata de valoarea reala.

Daca nu se reuseste se cauta limite ın interiorul carora se afla,

cu o anumita probabilitate.

Fie colectivitatea C, caracteristica X cu functia de probabilitate

f (x; θ) , (=functia de frecventa daca X este de tip discret; den-

sitatea de probabilitate daca X este de tip continuu), θ ∈ A este

un parametru real necunoscut. Se considera o selectie repetata

de volum n avand variabilele de selectie X1, X2, . . . , Xn.

4.1. FUNCTII DE ESTIMATIE

Definitia 93 Se numeste functie de estimatie (estimator) pen-

tru parametrul θ, functia de selectie

Θ = θ (X1, X2, . . . , Xn) ,

care ia valori ın domeniul A, iar valoarea numerica θ = θ (x1, x2, . . . , xn)

se numeste estimatia lui θ.

Definitia 94 Estimatorul Θ = θ (X1, X2, . . . , Xn) este estimator

(functie de estimatie) nedeplasat pentru parametrul necunos-

cut θ daca

M(Θ) = θ,

iar valoarea numerica θ = θ (x1, x2, . . . , xn) se numeste estimatie

nedeplasata pentru parametrul θ.

Definitia 95 Estimatorul Θ = θ (X1, X2, . . . , Xn) se numeste es-

timator consistent pentru parametrul necunoscut θ daca

Θp−→ θ,

adica

limn→∞P

(| Θ − θ | < ε

)= 1,

pentru orice ε > 0, iar valoarea numerica θ = θ (x1, x2, . . . , xn) se

numeste estimatie consistenta pentru parametrul θ.

FUNCTII DE ESTIMATIE ABSOLUT CORECTE

Definitia 96 Se numeste functie de estimatie (estimator) ab-

solut corecta pentru parametrul θ – functia de selectie Θ =

θ (X1, X2, . . . , Xn) care satisface conditiile

(i) M(Θ)= θ,

(ii) limn→∞D2

(Θ)= 0,

iar valoarea numerica θ = θ (x1, x2, . . . , xn) se numeste estimatie

absolut corecta pentru parametrul θ.

Proprietatea 97 Un estimator absolut corect este un estimator

consistent.

Demonstratie. Fie estimatorul Θ = θ (X1, X2, . . . , Xn) un esti-

mator absolut corect pentru parametrul θ. Din inegalitatea lui

Cebısev avem

1 > P(| Θ − θ | < ε

)> 1 − D2(Θ)

ε2,

pentru orice ε > 0. Facand pe n → ∞ din (ii) rezulta

limn→∞P

(| Θ − θ | < ε

)= 1,

pentru orice ε > 0, ceea ce trebuia demonstrat.

Proprietatea 98 Fie caracteristica X pentru care exista mo-

mentul teoretic de ordinul 2k, ν2k = M(X2k

), si fie o selectie

repetata de volum n, atunci momentul de selectie de ordin k

νk =1

n

n∑

i=1

Xki

este functie de estimatie absolut corecta pentru parametrul νk.

Demonstratie. Din [Curs 5, Propr. 11] avem ca

M (νk) = νk

si

D2 (νk) =ν2k − ν2

k

n.

Rezulta

limn→∞D2 (νk) = lim

n→∞ν2k − ν2

k

n= 0.

Deci conditiile pentru o functie de estimatie absolut corecta sunt

satisfacute.

Observatia 99 Media de selectie X (= ν1) este functie de estimatie

absolut corecta pentru media teoretica M (X) (= ν1).

FUNCTII DE ESTIMATIE CORECTE

Definitia 100 Se numeste functie de estimatie (estimator)

corecta pentru parametrul necunoscut θ, functia de selectie Θ =

θ (X1, X2, . . . , Xn) care satisface conditiile

(i) limn→∞M

(Θ)= θ,

(ii) limn→∞D2

(Θ)= 0,

iar valoarea numerica θ = θ (x1, x2, . . . , xn) se numeste estimatie

corecta pentru parametrul θ.

Proprietatea 101 Un estimator corect este un estimator con-

sistent.

Demonstratie. Fie estimatorul Θ = θ (X1, X2, . . . , Xn) corect

pentru parametrul θ, atunci din conditiile (i) si (ii) avem ca pen-

tru orice ε > 0 si δ > 0 exista numarul natural N = N (ε, δ) astfel

ıncat

|M(Θ)− θ | <

ε

2si D2

(Θ)

<ε2δ

4, pentru n > N.

Putem scrie

| Θ − θ | 6 | Θ − M(Θ)| + |M

(Θ)− θ | < | Θ − M

(Θ)| +

ε

2,

pentru n > N , de unde daca | Θ − M(Θ)| < ε

2, vom avea ca

| Θ − θ | < ε, pentru n > N . Prin urmare avem(| Θ − M

(Θ)| <

ε

2

)⊂(| Θ − θ | < ε

), n > N,

care conduce la inegalitatea

P(| Θ − M

(Θ)| <

ε

2

)6 P

(| Θ − θ | < ε

), n > N.

Pe de alta parte, folosind inegalitatea lui Cebısev,

P(| Θ − M

(Θ)| <

ε

2

)> 1 −

4D2(Θ)

ε2·

Deoarece D2(Θ)

< ε2δ4 , pentru n > N , rezulta ca

P(| Θ − M

(Θ)| <

ε

2

)> 1 − δ, n > N.

Prin urmare se ajunge la

P(| Θ − θ | < ε

)> P

(| Θ − M

(Θ)| <

ε

2

)> 1 − δ, n > N

si tinand cont ca P(| Θ − θ | < ε) ≤ 1, rezulta

limn→∞P

(| Θ − θ | < ε

)= 1

adica Θp−→ θ, ceea ce trebuia aratat.

Proprietatea 102 Fie caracteristica X pentru care exista mo-

mentul teoretic ν2k = M(X2k

)si fie o selectie repetata de

volum n, atunci momentul centrat de selectie de ordin k, µk =

1n

n∑i=1

(Xi − X

)k, este functie de estimatie corecta pentru mo-

mentul centrat teoretic de ordin k, µk = M((X − M (X))k

).

Demonstratie. Conform [Curs 6, propr. 5] avem

limn→∞M (µk) = lim

n→∞

(µk + O

(1

n

))= µk.

si

limn→∞D2 (µk) = lim

n→∞

[µ2k − 2kµk−1µk+1 − µ2

k + k2µkµ2k−1

n+O

(1

n2

)]= 0.

Asadar, conditiile pentru o functie de estimatie corecta sunt

satisfacute.

Observatia 103 Momentul centrat de selectie µ2, este functie

de estimatie corecta pentru dispersia teoretica D2(X) = µ2.

Dispersia de selectie,

σ2 =1

n − 1

n∑

k=1

(Xk − X)2,

este functie de estimatie absolut corecta pentru dispersia teo-

retica D2(X) = µ2.

FUNCTIA DE VEROSIMILITATE

Definitia 104 Se numeste functie de verosimilitate – functia

de frecventa (ın cazul discret), respectiv densitatea de proba-

bilitate (ın cazul continuu) a vectorului aleator (X1, X2, . . . , Xn) ,

adica

g (x1, x2, . . . , xn; θ) =n∏

k=1

f (xk; θ) .

Definitia 105 Statistica S = S (X1, X2, . . . , Xn) se numeste statis-

tica suficienta, pentru parametrul θ, daca accepta descompunerea

g (x1, x2, . . . , xn; θ) = ϕ (x1, x2, . . . , xn)hθ (s) = ϕ (x1, x2, . . . , xn)h (s; θ) ,

unde ϕ : Rn → R+ si hθ : R → R+ sunt functii masurabile nenega-

tive si s = S (x1, x2, . . . , xn).

Definitia 106 Se numeste cantitatea de informatie (a lui

Fisher) a unei selectii de volum n, relativ la parametrul θ ∈ R

necunoscut, valoarea medie

In (θ) = M

[(∂ln g (X1, X2, . . . , Xn; θ)

∂θ

)2],

cand functia de verosimilitate g este derivabila ın raport cu θ.

Teorema 107 Daca domeniul valorilor caracteristicii X nu de-

pinde de parametrul θ, iar functia de verosimilitate este derivabila

de doua ori ın raport cu θ, atunci

In (θ) = −M

(∂2 ln g (X1, X2, . . . , Xn; θ)

∂θ2

Demonstratie. Se porneste de la relatia pe care o satisface

densitatea de probabilitate:∫

· · ·∫

Rng (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn = 1. (4)

Se tine seama de faptul ca

∂ln g (x1, x2, . . . , xn; θ)

∂θ=

1

g (x1, x2, . . . , xn)

∂g (x1, x2, . . . , xn; θ)

∂θ

adica

∂g (x1, x2, . . . , xn; θ)

∂θ=

∂ln g (x1, x2, . . . , xn; θ)

∂θg (x1, x2, . . . , xn) ,

(5)

si se deriveaza (4) ın raport cu θ obtinandu-se

∫· · ·

Rn

∂ln g (x1, x2, . . . , xn; θ)

∂θg (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn = 0.

(6)

Derivand ınca odata ın raport cu θ rezulta

∫· · ·

Rn

∂2ln g (x1, x2, . . . , xn; θ)

∂θ2g (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn

+

∫· · ·

Rn

∂ln g (x1, x2, . . . , xn; θ)

∂θ

∂g (x1, x2, . . . , xn; θ)

∂θdx1dx2 . . . dxn = 0

si avand ın vedere relatia (5) se poate scrie

∫· · ·

Rn

∂2ln g (x1, x2, . . . , xn; θ)

∂θ2g (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn

+

∫· · ·

Rn

(∂ln g (x1, x2, . . . , xn; θ)

∂θ

)2

g (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn = 0.

Am obtinut ca

M

(∂2ln g (X1, X2, . . . , Xn; θ)

∂θ2

)+M

[(∂ln g (X1, X2, . . . , Xn; θ)

∂θ

)2]= 0,

de unde avem relatia dorita.

Observatia 108 In demonstratie s-a considerat cazul cand X

este de tip continuu. In mod analog se procedeaza si ın cazul

discret, integrala multipla fiind ınlocuita cu o suma multipla.

CURS 8

4.1. FUNCTII DE ESTIMATIE (continuare)

Corolar 109 Are loc

In (θ) = nI1 (θ) ,

cu In (θ) = M

[(∂ln g(X1,X2,...,Xn;θ)

∂θ

)2](cantitatea de informatie

(a lui Fisher)), θ ∈ R parametrul necunoscut.

Demonstratie. Deoarece selectia este repetata, avem ca

∂2ln g (x1, x2, . . . , xn; θ)

∂θ2=

∂2lnn∏

k=1f (xk; θ)

∂θ2=

n∑

k=1

∂2ln f (xk; θ)

∂θ2·

Folosind [Curs 7, Teorema 19] se obtine

In (θ) = −M

(∂2 ln g (X1, X2, . . . , Xn; θ)

∂θ2

)= −

n∑

k=1

M

(∂2ln f (Xk; θ)

∂θ2

)

=n∑

k=1

I1 (θ) = nI1 (θ) ,

deoarece

I1 (θ) = −M

(∂2ln f (X; θ)

∂θ2

Observatia 110 Are loc

In (θ) = D2

(∂ln g (X1, X2, . . . , Xn; θ)

∂θ

).

Demonstratie. Avem

D2

(∂ln g (X1, X2, . . . , Xn; θ)

∂θ

)= M

((∂ln g (X1, X2, . . . , Xn; θ)

∂θ(7)

− M

(∂ln g (X1, X2, . . . , Xn; θ)

∂θ

))2).

Din [Curs 7, dem. Teoremei 19 - relatia (3)], rezulta ca

M

(∂ln g (X1, X2, . . . , Xn; θ)

∂θ

)= 0,

deci (7) devine

D2

(∂ln g (X1, X2, . . . , Xn; θ)

∂θ

)= M

((∂ln g (X1, X2, . . . , Xn; θ)

∂θ

)2)= In (θ) .

Exemplul 111 Se considera caracteristica X ce urmeaza legea

normala N (m, σ), unde m ∈ R este necunoscut, iar σ > 0 este

cunoscut.

Avem

f (x;m) =1

σ√

2πe−(x−m)2

2σ2 , x ∈ R.

Rezulta ca

I1 (m) = M

[(∂ln f (X;m)

∂m

)2]= M

[(∂(−(x−m)2

2σ2 )

∂m

)2]

= M

[(−2 (x − m) (−1))

2σ2

)2]= M

((X − m)2

σ4

)=

1

σ2·

Deci cantitatea de informatie continuta (adusa) de observatie

este cu atat mai mare cu cat dispersia este mai mica.

ESTIMATORI EFICIENTI

Teorema 112 (Inegalitatea Rao–Cramer) Fie caracteristica X

avand functia de probabilitate f (x; θ), θ ∈ (a, b), pentru care ex-

ista derivata partiala de ordinul ıntai ın raport cu θ si fie esti-

matorul nedeplasat Θ = θ (X1, X2, . . . , Xn), pentru parametrul θ,

atunci

D2(Θ) >1

In (θ)·

Demonstratie. Estimatorul Θ e nedeplasat ⇒ M(Θ) = θ, adica∫

· · ·∫

Rnθ (x1, x2, . . . , xn) g (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn = θ,

unde g (x1, x2, . . . , xn; θ) =n∏

k=1f (xk; θ) este functia de verosimili-

tate.

Derivand ın raport cu θ se obtine:

∫· · ·

Rnθ (x1, . . . , xn)

(∂f (x1; θ)

∂θf (x2; θ) . . . . . . f (xn; θ) + ...

+∂f (xn; θ)

∂θf (x1; θ) . . . . . . f

(xn−1; θ

))

dx1 . . . dxn = 1

echivalenta cu∫

· · ·∫

Rnθ (x1, . . . , xn)

(1

f (x1; θ)

∂f (x1; θ)

∂θ+ ... +

1

f (xn; θ)

∂f (xn; θ)

∂θ

)

·f (x1; θ) f (x2; θ) . . . . . . f (xn; θ) dx1 . . . dxn = 1,

care este∫

· · ·∫

Rnθ (x1, . . . , xn)

( n∑

k=1

∂ lnf (xk; θ)

∂θ

)( n∏

i=1

f (xi; θ)

)dx1 . . . dxn = 1.

(8)

Pe de alta parte, avem∫

Rf (x; θ) dx = 1

si derivand in raport cu θ se obtine∫

R

∂ f (x; θ)

∂θdx = 0.

Rezulta∫

R

∂ lnf (x; θ)

∂θf (x; θ) dx =

R

1

f (x; θ)

∂ f (x; θ)

∂θf (x; θ) dx =

R

∂ f (x; θ)

∂θdx = 0,

(9)

de unde se obtine

θn∑

k=1

∫· · ·

Rn

∂ lnf (xk; θ)

∂θ

( n∏

i=1

f (xi; θ)

)dx1dx2 . . . dxn (10)

= θ∫

· · ·∫

Rn

(∂ lnf (x1; θ)

∂θ+ ... +

∂ lnf (xn; θ)

∂θ

)( n∏

i=1

f (xi; θ)

)dx1dx2 . . . dxn

= 0.

Scadem (10) din egalitatea (8) si se obtine

∫· · ·

Rn

(θ (x1, . . . , xn)−θ

)( n∑

k=1

∂ lnf (xk; θ)

∂θ

)g (x1, . . . , xn; θ) dx1 . . . dxn = 1

adica

M

[(θ (X1, X2, . . . , Xn) − θ

)( n∑

k=1

∂ lnf (Xk; θ)

∂θ

)]= 1.

Se aplica inegalitatea lui Schwarz: M2(|XY |) ≤ M(X2)M(Y 2),

si tinand cont ca M(θ) = θ si de (9) se obtine:

1 =

[M

[(θ (X1, X2, . . . , Xn) − θ

)( n∑

k=1

∂ lnf (Xk; θ)

∂θ

)]]2

6M

[(θ (X1, X2, . . . , Xn) − θ

)2]M

[( n∑

k=1

∂ lnf (Xk; θ)

∂θ

)2]

=D2(Θ)

D2

( n∑

k=1

∂ lnf (Xk; θ)

∂θ

)= D2

(Θ)· nD2

(∂ lnf (X; θ)

∂θ

),

adica

D2(Θ)

>1

nD2

(∂ ln f(X;θ)

∂θ

)· (11)

Dar avem ca

In (θ) = nI1 (θ) = n M

[(∂ lnf (X; θ)

∂θ

)2]= nD2

(∂ lnf (X; θ)

∂θ

),

care ınlocuita ın (11) conduce la ineg. lui Rao-Cramer.

Observatia 113 Rezultatul a fost stabilit de Fisher (1922) si

ulterior de Rao (1945) si Cramer (1946).

Definitia 114 Se numeste eficienta a unei functii de estimatie

nedeplasate Θ = θ (X1, X2, . . . , Xn) , pentru parametrul θ, rapor-

tul

e(Θ) =I−1n (θ)

D2(Θ)·

Observatia 115 Din inegalitatea Rao-Cramer avem ca 0 6 e(Θ) 6

1, iar cand e(Θ) = 1, avem

limn→∞D2(Θ) = 0,

deci Θ = θ (X1, X2, . . . , Xn) este functie de estimatie absolut

corecta pentru parametrul θ.

Definitia 116 O functie de estimatie absolut corecta Θ = θ (X1, X2, . . . , Xn) ,

pentru parametrul θ, este eficienta daca inegalitatea Rao-Cramer

este verificata prin egalitate, adica e(Θ) = 1.

Teorema 117 (Rao–Cramer) Fie caracteristica X cu functia

de probabilitate f (x; θ), θ ∈ (a, b), care satisface conditiile Teore-

mei 112, si fie functia de estimatie absolut corecta Θ = θ (X1, X2, . . . , Xn)

pentru parametrul θ. Conditia necesara si suficienta ca Θ sa fie

functie de estimatie eficienta pentru parametrul θ este ca

ln f (x; θ) = A′ (θ) (L (x) − θ) + A (θ) + N (x) ,

ın plus, are loc formula

Θ = θ (X1, X2, . . . , Xn) =1

n

n∑

k=1

L (Xk) .

Exemplu. Fie caracteristica X ce urmeaza legea binomiala.

Aratam ca media de selectie este estimator eficient pentru parametrul

necunoscut θ = M (X) = mp, unde m ∈ N este valoarea maxima

a lui X, iar p ∈ (0,1).

Consideram o selectie repetata de volum n. Functia de frecventa

a lui X este

f (x; θ) =(m

x

) ( θ

m

)x (1 − θ

m

)m−x

,

de unde

ln f (x; θ) = ln(m

x

)+ x ln

θ

m+ (m − x) ln

(1 − θ

m

)

= x

(ln

θ

m− ln

m − θ

m

)+ mln

m − θ

m+ ln

(mx

)

= xlnθ

m

m

m − θ+ m ln (m − θ) − m lnm + ln

(mx

)

= (x − θ) lnθ

m − θ+ θ ln

θ

m − θ+ m ln (m − θ) + ln

(mx

)− m lnm.

Considerand

A (θ) = θ ln θ + (m − θ) ln (m − θ),

L (x) = x si N (x) = ln(m

x

)− m lnm

Avem

A′ (θ) = ln θ + 1 − ln (m − θ) − (m − θ)1

(m − θ)

= lnθ

m − θ.

Rezulta

ln f (x; θ) = (L (x) − θ)A′ (θ) + A (θ) + N (x) .

Pe baza teoremei Rao-Cramer se obtine ca

Θ =1

n

n∑

k=1

L (Xk) =1

n

n∑

k=1

Xk = X

este estimator eficient pentru parametrul θ = mp.

ESTIMATORI OPTIMALI

Definitia 118 Estimatorul nedeplasat Θ = θ (X1, X2, . . . , Xn) pen-

tru parametrul necunoscut θ este optimal daca are dispersia cea

mai mica dintre toti estimatorii nedeplasati ai lui θ.

Observatia 119 Estimatorul optimal al unui parametru este unic.

Observatia 120 Un estimator eficient este optimal. (Invers pro-

prietatea nu are loc.)

Demonstratie. Fie E multimea estimatorilor nedeplasati ai parametru-

lui necunoscut θ. Fie S ∈ E estimator eficient.

Avem

infT∈E

D2(T) ≥ 1

In(θ)= D2(S), S ∈ E ⇒ S − optimal.

4.2. METODE DE ESTIMARE A PARAMETRILOR

METODA MOMENTELOR

Se considera caracteristica X care are functia de probabilitate

f (x; θ) , cu parametrul necunoscut θ = (θ1, θ2, . . . , θp) ∈ A ⊂ Rp si

o selectie repetata de volum n.

Definitia 121 Se numeste estimator pentru parametrul θ obtinut

prin metoda momentelor – solutia Θ =(Θ1,Θ2, . . . ,Θp

)a sis-

temului

νk = νk, k = 1, p,

unde νk este momentul teoretic ( νk = M(Xk

)), iar νk este mo-

mentul de selectie de ordinul k, adica

νk =1

n

n∑

i=1

Xki .

Exemplul 122 Se considera caracteristica X care urmeaza legea

Gamma cu parametrii a, b > 0 necunoscuti. Densitatea de prob-

abilitate pentru X este

f (x; a, b) =1

Γ(a) baxa−1e−

xb , x > 0.

Vrem sa estimam parametrii a si b prin metoda momentelor.

Avem

ν1 = M (X) =

Rxf (x; a, b) dx =

1

Γ(a) ba

∫ ∞

0xae−

xbdx

=1

Γ(a) ba

∫ ∞

0batae−tbdt =

Γ(a + 1) b

Γ (a)=

a!b

(a − 1)!= ab

ν2 = M(X2

)=∫

Rx2f (x; a, b) dx =

1

Γ(a) ba

∫ ∞

0xa+1e−

xbdx

=1

Γ(a) ba

∫ ∞

0ba+1ta+1e−tbdt =

b2Γ(a + 2)

Γ (a)=

b2(a + 1)!

(a − 1)!= ab2 (a + 1) .

Se obtine sistemul de ecuatii:

ab = ν1 = X

ab2 (a + 1) = ν2 = X2+ µ2,

care are solutia

a =X

2

µ2, b =

µ2

CURS 9

METODA VEROSIMILITATII MAXIME

Se considera caracteristica X cu functia de probabilitate f (x; θ),

parametrul θ ∈ A ⊂ Rp. Se considera o selectie repetata de volum

n.

Definitia 123 Se numeste estimator de verosimilitate maxima

pentru parametrul θ statistica

Θ = θ (X1, X2, . . . , Xn)

pentru care se obtine maximul functiei de verosimilitate

g (X1, X2, . . . , Xn; θ) =n∏

k=1

f (Xk; θ) ,

iar

θ = θ (x1, x2, . . . , xn)

se numeste estimatie de verosimilitate maxima pentru parametrul

θ.

• In definitia estimatorului de verosimilitate maxima Θ nu este

necesar ca f (x; θ) sa fie diferentiabila ın raport cu θ.

• Estimatorul de verosimilitate maxima nu este neaparat nede-

plasat si nici unic.

• Daca functia de verosimilitate este diferentiabila de doua ori

ın raport cu θ, atunci estimatorul de verosimilitate maxima

se obtine ca solutie a sistemului

∂g (X1, X2, . . . , Xn; θ)

∂θk= 0, k = 1, p, (12)

la care se adauga conditia

∂2g (X1, X2, . . . , Xn; θ)

∂θ2

∣∣∣∣∣θ=Θ

< 0.

• Sistemul (12) este echivalent cu

∂ ln g (X1, X2, . . . , Xn; θ)

∂θk=

n∑

i=1

∂ ln f (Xi; θ)

∂θk= 0, k = 1, p

Acest sistem se numeste sistemul ecuatiilor verosimilitatii

maxime

Exemplul 124 Fie caracteristica X care urmeaza legea normala

N (m, σ). Determinam estimatorii de verosimilitate maxima pen-

tru valoarea medie si abaterea standard.

Avem M (X) = m si σ (X) = σ, iar

f (x;m, σ) =1

σ√

2πe−(x−m)2

2σ2 ,

si

ln f (x;m, σ) = − ln√

2π − lnσ − (x − m)2

2σ2,

de unde

∂ ln f (x;m, σ)

∂m=

x − m

σ2,

∂ ln f (x;m, σ)

∂σ= −1

σ+

(x − m)2

σ3·

Sistemul de verosimilitate maxima:

∂ ln g∂m =

n∑

k=1

∂ ln f(Xk;m,σ)∂m =

n∑

k=1

Xk−mσ2 = 0

∂ ln g∂σ =

n∑

k=1

∂ ln f(Xk;m,σ)∂σ =

n∑

k=1[−1

σ + (Xk−m)2

σ3 ] = 0,

sau

n∑

k=1(Xk − m) = 0

n∑

k=1

[−σ2 + (Xk − m)2

]= 0,

nm =n∑

k=1Xk

nσ2 =n∑

k=1

[(Xk − m)2

],

de unde se obtin estimatorii de verosimilitate maxima pentru

parametrii m si σ :

m⋆ =1

n

n∑

k=1

Xk = X, σ⋆ =

√√√√1

n

n∑

k=1

(Xk − X

)2=√

µ2.

Exemplul 125 Caracteristica X urmeaza legea uniforma pe in-

tervalul (0, θ], θ > 0 necunoscut. Se considera o selectie repetata

de volum n. Determinam estimatorul de verosimilitate maxima

Θ pentru parametrul necunoscut θ.

Estimatorul Θ de verosimilitate maxima pentru θ se determina

astfel ıncat functia de verosimilitate

g(X1, X2, . . . , Xn; θ) =n∏

k=1

f (Xk; θ)

sa fie maxima pentru Θ = θ(X1, X2, . . . , Xn).

Nu se poate folosi ecuatia de verosimilitate maxima, deoarece

domeniul valorilor caracteristicii X, care este (0, θ], depinde de

parametrul estimat.

Avem

f(x, θ) =

{1θ , x ∈ (0, θ]0, x ≤ 0 sau x > θ,

de unde

g(x1, x2, ..., xn; θ) =n∏

k=1

f (Xk; θ) =1

θn, cu 0 < xi ≤ θ, i = 1, n.

Valoarea maxima a lui g corespunde celei mai mici valori a parametru-

lui θ, θ > 0, ın conditiile

0 < xi ≤ θ, i = 1, ..., n. (13)

Cea mai mica valoare a lui θ care satisface (13) este θ = max{xi, i =

1, n}.

Se obtine ca

Θ = θ(X1, X2, . . . , Xn) = max{Xi, i = 1, n

}.

Vom arata ca estimatorul Θ astfel construit este estimator corect

pentru parametrul θ. Apoi vom folosi acest estimator pentru

obtinerea unui estimator absolut corect pentru θ.

Functia de repartitie a statisticii Θ este

(x; θ) = P(Θ < x

)=

n∏

i=1

P (Xi < x) = (FX (x; θ))n ,

deci Θ are densitatea de probabilitate

(x; θ) =∂F

Θ(x; θ)

∂x= n

∂FX (x; θ)

∂x(FX (x; θ))n−1 = nf (x; θ) (FX (x; θ))n−1

Avem

FX (x; θ) =

0, x ≤ 0xθ , x ∈ (0, θ]1, x > θ,

de unde rezulta

(x; θ) = n1

θ

xn−1

θn−1=

nxn−1

θn, cand x ∈ (0, θ) .

Se calculeaza

M(Θ)=

n

θn

∫ θ

0x · xn−1dx =

n

n + 1θ,

M(Θ2

)=

n

θn

∫ θ

0xn+1dx =

n

n + 2θ2.

Astfel se obtine ca

limn→∞M

(Θ)= θ

limn→∞D2

(Θ)= lim

n→∞[M(Θ2

)− M2

(Θ)]

= limn→∞

[n

n + 2θ2 − n2

(n + 1)2θ2

]= lim

n→∞n

(n + 1)2 (n + 2)θ2 = 0.

Prin urmare, Θ este estimator corect pentru θ.

Cautam estimatorul absolut corectΘ pentru θ.

Punand conditia M(

Θ)= θ, rezulta ca

θ = M(

Θ)= κnM

(Θ)= κn

n

n + 1θ,

de unde se obtine κn = n+1n . Se obtine

Θ =n + 1

nΘ =

n + 1

nmax

{Xi, i = 1, n

}.

Deoarece M(

Θ)= θ si

D2(

Θ)=

(n + 1

n

)2

D2(Θ)=

(n + 1)2

n2· n

(n + 1)2 (n + 2)θ2

=1

n(n + 2)θ2 → 0, cand n → ∞

rezulta ca Θ este estimator absolut corect pentru parametrul θ.

Proprietatea 126 Daca S = S (X1, X2, . . . , Xn) este statistica

suficienta pentru θ, iar Θ este estimator de verosimilitate maxima

pentru θ, atunci Θ este o functie de S.

Demonstratie. Deoarece statistica S este suficienta rezulta ca

g (x1, x2, . . . , xn; θ) = ϕ (x1, x2, . . . , xn)h (s, θ) ,

deci maximul lui g, dupa θ, se obtine atunci si numai atunci cand

se obtine maximul lui h dupa θ. Deci Θ se exprima ın functie de

S.

Teorema 127 Daca Θ = θ (X1, X2, . . . , Xn) este functie de estimatie

eficienta pentru parametrul θ, atunci Θ este estimator de verosimil-

itate maxima pentru θ.

Demonstratie. In demonstratia Inegalitatii lui Rao-Cramer ([Curs

8]) avem, dupa aplicarea inegalitatii lui Schwarz, relatia:

1 =

[M

[(θ (X1, X2, . . . , Xn) − θ

)( n∑

k=1

∂ lnf (Xk; θ)

∂θ

)]]2

6M

[(θ (X1, X2, . . . , Xn) − θ

)2]M

[( n∑

k=1

∂ lnf (Xk; θ)

∂θ

)2].

Deoarece Θ este estimator eficient pentru θ, din inegalitatea

Rao-Cramer (cu egalitate), rezulta ca trebuie sa avem

[M

[(θ (X1, X2, . . . , Xn) − θ

)( n∑

k=1

∂ lnf (Xk; θ)

∂θ

)]]2

=M

[(θ (X1, X2, . . . , Xn) − θ

)2]M

[( n∑

k=1

∂ lnf (Xk; θ)

∂θ

)2].

Aceasta are loc daca si numai daca variabilele aleatoare consid-

erate depind ın mod liniar, adica

∂ ln g (X1, X2, . . . , Xn; θ)

∂θ= K (θ)

(Θ − θ

), K 6= 0.

De unde rezulta ca

∂ ln g(X1, X2, . . . , Xn; Θ

)

∂θ= K

(Θ) (

Θ − Θ)= 0,

deci Θ verifica ecuatia verosimilitatii maxime.

CURS 10

METODA INTERVALELOR DE INCREDERE

Fie caracteristica X cu legea de probabilitate f (x; θ), θ ∈ A ⊂ R

parametru necunoscut. Consideram o selectie repetata de volum

n si numarul α ∈ (0,1), numit probabilitate de risc; 1 − α se

numeste probabilitate de ıncredere.

Estimam parametrului θ prin determinarea unui interval caruia θ

ıi apartine cu probabilitatea 1 − α.

Definitia 128 Se numeste interval de ıncredere pentru parametrul

θ intervalul aleator(Θ1,Θ2

)=(

θ1 (X1, X2, . . . , Xn) , θ2 (X1, X2, . . . , Xn))

,

unde statisticile Θ1 si Θ2 sunt astfel ıncat

P(Θ1 < θ < Θ2

)= 1 − α,

iar intervalul numeric(θ1, θ2

)=(

θ1 (x1, x2, . . . , xn) , θ2 (x1, x2, . . . , xn))

se numeste valoarea intervalului de ıncredere pentru parametrul

θ.

Interval de ıncredere pentru media teoretica a legii

normale cu dispersia cunoscuta

Se considera caracteristica X ce urmeaza legea normala N (m, σ),

cu m ∈ R necunoscut, σ > 0 cunoscut.

Construim un interval de ıncredere pentru media teoretica m

necunoscuta: efectuam o selectie repetata de volum n si con-

sideram probabilitatea de ıncredere 1 − α, α ∈ (0,1).

Se construieste statistica

Z =X − m

σ√n

,

care urmeaza legea normala N (0,1) ([Curs 6, Propr. 9]). Pentru

α dat determinam intervalul numeric (z1, z2) astfel ıncat

P(Z ∈ (z1, z2)

)= FZ (z2) − FZ (z1) = 1 − α,

echivalenta cu

P(Z ∈ (z1, z2)

)= Φ (z2) − Φ (z1) = 1 − α,

unde

Φ (x) =1√2π

∫ x

0e−

t2

2 dt,

este functia lui Laplace (tabelata pentru valori pozitive ale

argumentului-Anexa 1; Φ (−x) = −Φ (x)).

Deoarece dubla inegalitate

z1 <X − m

σ√n

< z2

este echivalenta cu

m1 = X − z2σ√n

< m < X − z1σ√n

= m2

rezulta ca

P (m1 < m < m2) = 1 − α,

adica (m1, m2) este un interval de ıncredere pentru media teo-

retica m.

Intervalul numeric (z1, z2) nu este ın mod unic determinat. In-

tervalul de ıncredere de lungime minima pentru α fixat se obtine

cand z1 = −z2. In acest caz z2 := z1−α2, va fi dat prin relatia

Φ

(z1−α

2

)−Φ

(−z1−α

2

)= 1−α, ceea ce este echivalent cu Φ

(z1−α

2

)=

1−α2 ·

Cand se foloseste functia lui Laplace definita prin

Φ (x) =1√2π

∫ x

−∞e−

t2

2 dt,

atunci avem

P(Z ∈ (z1, z2)

)= Φ(z2) − Φ(z1) = 1 − α.

Tinand cont ca

Φ(−x) = 1 − Φ(x)

si z1 = −z2

rezulta

Φ(z2) − Φ(z1) = 1 − α

⇔ Φ(z2) − Φ(−z2) = Φ(z2) − 1 + Φ(z2) = 1 − α

⇔ Φ(z2) = 1 − α

2,

deci z2 = z1−α2

se determina din relatia Φ

(z1−α

2

)= 1 − α

2 si

reprezinta cuantila de ordin 1 − α2·

(Caracteristica xγ se numeste cuantila daca F(xγ) = γ, unde

F este functia de repartitie. Daca γ = 14, 2

4, 34 atunci se obtin

cuartilele.)

Intervalul de ıncredere pentru parametrul m are extremitatile

m1 = m1 (X1, X2, . . . , Xn) = X − z1−α2

σ√n

, (14)

m2 = m2 (X1, X2, . . . , Xn) = X + z1−α2

σ√n·

Observatia 129 Pe baza teoremei limita centrala avem ca rezul-tatul obtinut se mentine cand X urmeaza o lege de probabilitateoarecare, pentru n > 30.

Exemplul 130 Consideram populatia C. Stiind ca dispersia teo-retica a caracteristicii X este D2 (X) = 0.35, sa se stabileasca uninterval de ıncredere pentru media teoretica M(X)=m cu proba-bilitatea de ıncredere 1− α = 0.95, utilizand distributia empiricade selectie:

X

(22.7 22.8 22.9 23.0 23.1 23.2 23.3 23.4

1 3 7 4 6 7 5 2

).

Deoarece volumul selectiei este n = 35 > 30, putem considera

ca statistica

Z =X − m

σ√n

, unde σ =√

D2 (X),

urmeaza legea normala N (0,1).

Extremitatile intervalului de ıncredere pentru m sunt date prin

(14). Calculam aceste valori pe baza datelor de selectie.

Valoarea mediei de selectie X este

x=1

35(1·22.7+3·22.8+7·22.9+4·23+6·23.1+7·23.2+5·23.3+2·23.4)=23.077,

iar din Anexa 1, pentru 1−α2 = 0.475, se gaseste z1−α

2= 1.96.

Avem

σ√n

=

√D2 (X)

n=

√0.35

35= 0.1.

Obtinem intervalul de ıncredere pentru m = M (X) :(

x − σ√n

z1−α2

; x +σ√n

z1−α2

)= (22.881 ; 23.273) .

Interval de ıncredere pentru media teoretica a legii

normale cu dispersia necunoscuta

In conditiile exemplului precedent, consideram σ > 0 necunoscut

si statistica

T =X − m

σ√n

=X − m√

µ2n−1

,

care urmeaza legea Student cu n−1 grade de libertate ([Curs 6,

Propr. 10]).

Se determina intervalul numeric (t1, t2) astfel ıncat

P(T ∈ (t1, t2)

)= Fn−1 (t2) − Fn−1 (t1) = 1 − α,

unde

Fm (x) =Γ(

m+12

)

√mπΓ

(m2

)∫ x

−∞

(1 +

t2

m

)−m+12

dt, x ∈ R,

este functia de repartitie a legii Student cu m grade de libertate

(tabelata-Anexa 2).

Avem

t1 <X − m

σ√n

< t2

este echivalenta cu

m1 = X − t2σ√n

< m < X − t1σ√n

= m2,

adica (m1, m2) este un interval de ıncredere pentru media teo-

retica m.

Luand t2 = tn−1,1−α2, t1 = −t2, si tinand cont ca Fn−1 (−t) =

1 − Fn−1 (t) rezulta

Fn−1 (t2) − Fn−1 (t1) = 1 − α

⇔ Fn−1 (t2) − Fn−1 (−t2) = Fn−1 (t2) − 1 + Fn−1 (t2) = 1 − α

⇔ Fn−1(tn−1,1−α2) = 1 − α

2,

iar P (m1 < m < m2) = 1−α, deci intervalul de ıncredere pentru

media teoretica m are extremitatile date prin

m1 = X − tn−1,1−α2

σ√n

, (15)

m2 = X + tn−1,1−α2

σ√n·

Observatia 131 Din teorema limita centrala rezulta ca rezul-

tatele pot fi aplicate pentru o caracteristica X ce urmeaza o

lege de probabilitate oarecare, pentru n > 30.

Exemplul 132 Pentru receptionarea unei marfi ambalata ın cu-

tii, se efectueaza un control prin sondaj privind greutatea X a

cutiilor. Pentru 22 de cutii cantarite s-a obtinut distributia em-

pirica de selectie:

X

2.7 2.8 2.9 3.0 3.1 3.2 3.3

1 2 5 3 5 4 2

.

Folosind probabilitatea de ıncredere 0.98, determinam un inter-

val de ıncredere pentru valoarea medie a greutatii cutiilor, pre-

supunand ca X urmeaza legea normala N (m, σ).

Deoarece abaterea standard σ =√

D2 (X) este necunoscuta, se

considera statistica

T =X − m

σ√n

,

care urmeaza legea Student cu n − 1 grade de libertate.

Extremitatile intervalului de ıncredere pentru m = M (X) sunt

date prin (15). Pentru n−1 = 21 si 1−α = 0.98 (α = 0.02), din

Anexa 2 se determina tn−1,1−α2

= 2.518.

De asemenea, folosind datele de selectie, obtinem valoarea me-

diei de selectie X:

x =1

22(1·2.7 + 2·2.8 + 5·2.9 + 3·3 + 5·3.1 + 4·3.2 + 2·3.3) = 3.032

si valoarea abaterii standard de selectie

σ =

√√√√√ 1

21

7∑

k=1

fk (xk − x )2 = 0.167.

Intervalul de ıncredere:(

x − tn−1,1−α2

σ√n

; x + tn−1,1−α2

σ√n

)= (2.942 ; 3.122) .

Interval de ıncredere pentru dispersia legii normale

Fie caracteristica X ce urmeaza legea normala N (m, σ) , m ∈ R

necunoscut si σ > 0 necunoscut. Determinam un interval de

ıncredere pentru dispersia teoretica σ2 a caracteristicii X.

Se considera statistica

χ2 =(n − 1)σ2

σ2=

1

σ2

n∑

k=1

(Xk − X

)2,

care urmeaza legea χ2 cu n−1 grade de libertate, conform ([Curs

6, Propr. 9]).

Se determina intervalul numeric(χ21, χ2

2

)astfel ıncat

P(χ2 ∈

(χ21, χ2

2

))= Fn−1

(χ22

)− Fn−1

(χ21

)= 1 − α,

unde

Fm (x) =1

2m2 Γ

(m2

)∫ x

0tm2−1e−

t2dt, x > 0,

este functia de repartitie a legii χ2 cu m grade de libertate(tabelata ın Anexa 3). Avem Fn−1 (−t) = 0, t > 0.

Daca se alege χ21 = χ2

n−1,α2si χ2

2 = χ2n−1,1−α

2adica astfel ıncat

Fn−1

(χ2

n−1,α2

)=

α

2si Fn−1

(χ2

n−1,1−α2

)= 1 − α

2,

se obtine

P(χ21 < χ2 < χ2

2) = P

(χ2

n−1,α2<

(n − 1)σ2

σ2< χ2

n−1,1−α2

)= 1 − α.

De unde

P(σ21 < σ2 < σ2

2

)= 1 − α,

cu

σ21 = σ2

1 (X1, X2, . . . , Xn) =(n − 1)σ2

χ2n−1,1−α

2

,

σ22 = σ2

2 (X1, X2, . . . , Xn) =(n − 1)σ2

χ2n−1,α2

·

Intervalul de ıncredere este (σ21, σ2

2).

CURS 11

Interval de ıncredere pentru diferenta mediilor

Caracteristicile independente X ′ si X ′′ urmeaza legile normale

N(m′;σ′) si respectiv N

(m′′;σ′′). Folosind cate o selectie repetata

de volume n′ si n′′ pentru X ′ si X ′′, determinam un interval de

ıncredere pentru diferenta m′ − m′′.

Sunt considerate urmatoarele situatii:

A. abaterile standard ale celor doua caracteristici sunt cunoscute,

B. abaterile standard sunt necunoscute, dar se stie ca sunt egale,

C. abaterile standard sunt necunoscute si diferite.

A. Abaterile standard σ′ si σ′′ sunt cunoscute.

Se considera statistica

Z =

(X

′ − X′′)− (

m′ − m′′)√

σ′2n′ + σ′′2

n′′

, (16)

care urmeaza legea normala N (0,1) ([Curs 6, Obs. 12]). Pentru

probabilitatea de risc α ∈ (0,1) data, se determina intervalul

(z1, z2) =

(−z1−α

2, z1−α

2

)astfel ıncat

P (z1 < Z < z2) = 1 − α.

Anume, z1−α2

se calculeaza din relatia Φ

(z1−α

2

)= 1−α

2 , unde

Φ (x) =1√2π

∫ x

0e−

t2

2 dt,

este functia lui Laplace, (Anexa 1). Se ajunge la relatia

P

−z1−α

2<

(X

′ − X′′)− (

m′ − m′′)√

σ′2n′ + σ′′2

n′′

< z1−α2

= 1 − α,

de unde se obtine intervalului de ıncredere pentru m′−m′′:(

X′−X

′′−z1−α2

√σ′2

n′ +σ′′2

n′′ , X′−X

′′+z1−α

2

√σ′2

n′ +σ′′2

n′′

). (17)

B. Abaterile standard σ′ si σ′′ sunt egale cu σ (necunoscut).

Se considera statistica

T =

(X

′ − X′′)− (

m′ − m′′)√(

n′ − 1)σ ′2 +

(n′′ − 1

)σ ′′2

√√√√n′ + n′′ − 21n′ +

1n′′

,

care urmeaza legea Student cu m = n′+n′′−2 grade de libertate

(cf. [Curs 6, Propr. 11]).

Ca si la punctul A. se obtin extremitatile intervalului de ıncredere:

m1,2 = X′−X

′′± tm,1−α2

√√√√1n′ +

1n′′

n′ + n′′ − 2

√(n′ − 1

)σ′2 +

(n′′ − 1

)σ′′2,

unde tm,1−α2

este cuantila de ordin 1− α2 pentru legea Student cu

m grade de libertate.

C. Abaterile standard σ′ si σ′′ sunt diferite si necunoscute.

Se considera statistica

T =

(X

′ − X′′)− (

m′ − m′′)√

σ ′2n′ + σ ′′2

n′′

,

care urmeaza legea Student cu n grade de libertate care se cal-

culeaza prin formula

1

n=

c2

n′ − 1+

(1 − c)2

n′′ − 1, unde c =

σ ′2

n′

/(σ ′2

n′ +σ ′′2

n′′

).

Ca si la punctul A. se obtine intervalului de ıncredere cu ex-

tremitatile :

m1,2 = X′ − X

′′ ± tn,1−α2

√σ ′2

n′ +σ ′′2

n′′ ,

unde tn,1−α2

este cuantila de ordin 1− α2 pentru legea Student cu

n grade de libertate.

Interval de ıncredere pentru raportul dispersiilor a doua

legi normale

Fie caracteristicile independente X ′ si X ′′ care urmeaza legile

normale, respectiv N(m′, σ′) si N

(m′′, σ′′). Se considera cate o

selectie repetata, de volume n′ si respectiv n′′. Determinam un

interval de ıncredere pentru σ′2σ′′2 corespunzator probabilitatii de

ıncredere 1 − α data.

Se considera statistica

F =σ ′′2

σ′′2

/σ ′2

σ′2 ,

care urmeaza legea Snedecor-Fisher cu m = n′′ − 1 si n = n′ − 1

grade de libertate ([Curs 6, Propr. 13]).

Se determina intervalul numeric (f1, f2) astfel ıncat

P(F ∈ (f1, f2)

)= Fm,n (f2) − Fm,n (f1) = 1 − α,

unde

Fm,n (x) =

(m

n

)m2 Γ

(m+n

2

)

Γ(

m2

)Γ(

n2

)∫ x

0tm2−1

(1 +

m

nt

)−m+12

dt, x > 0,

este functia de repartitie a legii Snedecor-Fisher cu m si n gradede libertate (Anexa IV), si Fm,n (x) = 0, x ≤ 0.

Daca se alege f1 = fm,n;α2si f2 = fm,n;1−α

2astfel ıncat

Fm,n

(fm,n;α2

)=

α

2si Fm,n

(fm,n;1−α

2

)= 1 − α

2,

atunci se obtine

P

(fm,n;α2

σ ′2

σ ′′2 <σ′2

σ′′2 < fm,n;1−α2

σ ′2

σ ′′2

)= 1 − α,

si rezulta intervalul de ıncredere pentru raportul celor doua dis-

persii:(

fm,n;α2

σ ′2

σ ′′2, fm,n;1−α2

σ ′2

σ ′′2

).

METODA INTERVALELOR DE INCREDERE PENTRU

SELECTII MARI

Fie caracteristica X cu legea de probabilitate f (x; θ), unde θ ∈A ⊂ R necunoscut. Consideram o selectie repetata de volum n

relativa la X, pentru care avem variabilele de selectie X1, X2, . . . , Xn.

Proprietatea 133 Fie variabilele aleatoare Y1, Y2, . . . , Yn definite

prin relatia

Yk =∂ ln f (Xk; θ)

∂θ, k = 1, ..., n

pentru care dispersia D2 (Yk) = d2 > 0, atunci statistica

Z =1

d√

n

n∑

k=1

Yk =1

d√

n

n∑

k=1

∂ ln f (Xk; θ)

∂θ,

pentru n → ∞, urmeaza legea normala N (0,1).

Demonstratie. Variabilele aleatoare Xk, k = 1, n, - indepen-

dente si identic repartizate ⇒ variabilele aleatoare Yk, k = 1, n,

sunt independente si identic repartizate. Conform teoremei limita

centrala avem ca

Y(n) =1

d√

n

n∑

k=1

(Yk − M (Yk)

)

converge ın repartitie la legea normala N (0,1).

Deoarece

M (Yk) = M

(∂ ln f (Xk; θ)

∂θ

)= 0,

[Curs 7 - relatia (3)], rezulta ca Y(n) = Z.

Pentru probabilitatea de ıncredere 1 − α data se va determina

intervalul numeric

(−z1−α

2, z1−α

2

)astfel ıncat

P(Z ∈ (−z1−α

2, z1−α

2))= Φ

(z1−α

2

)−Φ

(−z1−α

2

)= 2Φ

(z1−α

2

)= 1−α.

Ceea ce revine la determinarea cuantilei z1−α2

astfel ıncat

Φ

(z1−α

2

)=

1 − α

2.

Prin operatii algebrice se ınlocuieste inegalitatea

−z1−α2

< Z < z1−α2⇔ |Z | < z1−α

2

cu o inegalitate echivalenta dubla de forma

θ1 (X1, X2, . . . , Xn) < θ < θ2 (X1, X2, . . . , Xn) ,

care defineste intervalul de ıncredere pentru parametrul θ.

Exemplul 134 Fie caracteristica X ce ia numai valorile 1 si 0 cu

probabilitatile p si respectiv 1− p, adica are functia de frecventa

f (x; p) = px (1 − p)1−x , x = 0,1,

unde p ∈ (0,1) este un parametru necunoscut.

Consideram o selectie repetata de volum (mare) n (n > 30) si

probabilitatea de ıncredere 1 − α. Estimam parametrul p.

Deoarece

ln f (x; p) = x ln p + (1 − x) ln (1 − p)

avem ca

∂ ln f (x; p)

∂p=

x

p− 1 − x

1 − p=

x − p

p (1 − p),

si prin urmare se obtine statistica

Z =1

d√

n

n∑

k=1

Xk − p

p (1 − p)=

1

p (1 − p) d√

n

(n X − np

)=

√n

p (1 − p) d

(X − p

).

Stiind ca D2 (X) = M(X2) − M(X)2 = p − p2 = p (1 − p) rezulta

ca

d2 =D2

(∂ ln f (Xk; p)

∂p

)= D2

(Xk − p

p (1 − p)

)=

1

p2 (1 − p)2D2 (Xk)

=1

p2 (1 − p)2p (1 − p) =

1

p (1 − p)> 0·

Statistica Z devine

Z =

√n

√p (1 − p)

(X − p

)

si urmeaza legea normala N (0,1) cand n → ∞.

Pentru α dat se determina z = z1−α2

astfel ıncat

P ( |Z | < z) = 1 − α.

Putem scrie ca |Z | < z este echivalenta cu Z2 < z2, adica

n(

X − p)2

p (1 − p)< z2,

sau

nX2 − 2n Xp + np2 − z2p + z2p2 < 0 ⇐⇒

⇔(n + z2

)p2 −

(2nX + z2

)p + nX

2< 0.

Discriminantul trinomului este pozitiv, anume

∆ =(2nX + z2

)2 − 4(n + z2

)nX

2= z2[z2 + 4nX(1 − X)]

= z2[z2 + 4nX(nX − X)] = z2[z2 + 4nX

2(n − 1)

]> 0,

deci inecuatia ın p are solutia de forma unui interval (p1, p2), care

va reprezenta intervalul de ıncredere pentru parametrul p.

Extremitatile intervalului de ıncredere au expresiile:

p1 =

(2nX+z2

)−√

z4+4nXz2−4nX2z2

2(n+z2)=

(2X+z2

n

)−√

z4

n2+4X z2

n −4X2z2

n

2(1+z2

n

) ,

p2 =

(2nX+z2

)+

√z4+4nXz2−4nX

2z2

2(n+z2)=

(2X+z2

n

)+

√z4

n2+4X z2

n −4X2z2

n

2(1+z2

n

) ·

Aceste formule au fost deduse pentru n mare, rezulta ca putem

folosi urmatoarea scriere asimptotica:

2X + z2

n

2(1 + z2

n

) ≅ X,

iar apoi√√√√√

z4 + 4Xnz2 − 4X2nz2

4(n + z2

)2 =

√√√√z4 + 4Xnz2 − 4X2nz2

4n2 + 8nz2 + 4z4

=

√√√√ z4

4n2 + 8nz2 + 4z4+

Xnz2 − X2nz2

n2 + 2nz2 + z4

√√√√Xnz2 − X2nz2

n2= z

√√√√X(1 − X

)

S-a ajuns la intervalul de ıncredere pentru p :

(p1, p2) =

X − z1−α

2

√√√√X(1 − X

)

n, X + z1−α

2

√√√√X(1 − X

)

n

.

Observatia 135 Daca se doreste sa se determine parametrul p

cu o incertitudine ∆p (∆p- raza intervalului de ıncredere), pentru

o probabilitate de ıncredere 1 − α, atunci volumul n al selectiei

se determina astfel:

z1−α2

√√√√X(1 − X

)

n6

z1−α2√

n· 12

,

deoarece maxt∈[0,1]

t(1 − t) = 14.

Consideram

1

2

z1−α2√

n≤ ∆p,

de unde se obtine

n >

z21−α

2

4 (∆p)2·

Tabel cu valorile optime ale volumului selectiei pentru diferite

valori ale nivelului de ıncredere si ale lui ∆p:

∆p \ 1 − α 0.90 0.95 0.98

0.01 6760 9600 13530

0.02 1700 2400 3380

0.05 270 380 540

CURS 12

5. VERIFICAREA IPOTEZELOR STATISTICE

Fie colectivitatea C cercetata din punct de vedere al caracteristicii

X, care are legea de probabilitate data prin functia de proba-

bilitate f (x; θ) (functia de frecventa ın cazul discret, respectiv

densitatea de probabilitate ın cazul continuu).

Definitia 136 Se numeste ipoteza statistica – o presupunere

relativa la legea de probabilitate pe care o urmeaza caracteristica

X.

Definitia 137 Metoda de stabilire a veridicitatii unei ipoteze

statistice se numeste test (criteriu) de verificare a ipotezei

statistice.

Cand ipoteza statistica se refera la parametrii de care depinde

legea de probabilitate a caracteristicii X se obtine un test para-

metric, ın caz contrar se obtine un test neparametric.

Definitia 138 Pentru testele parametrice se considera ca θ ∈A = A0 ∪ A1, unde A0 ∩ A1 = ∅. Ipoteza H0 : θ ∈ A0 o vom

numi ipoteza nula, iar ipoteza H1 : θ ∈ A1 o vom numi ipoteza

alternativa.

Definitia 139 O ipoteza parametrica se numeste ipoteza simpla

daca multimea la care se presupune ca apartine parametrul ne-

cunoscut este formata dintr-un singur element, iar ın caz contrar

se numeste ipoteza compusa.

Ipoteza nula este aceea pe care o intuim a fi cea apropiata de

realitate.

Construirea unui test revine la obtinerea unei regiuni critice

U ⊂ Rn, pentru un nivel de semnificatie (probabilitate de

risc) α dat, astfel ıncat

P((X1, X2, . . . , Xn) ∈ U

∣∣∣ H0

)= α,

unde X1, X2, . . . , Xn sunt variabilele de selectie corespunzatoare

selectiei de volum n considerata.

Folosind datele de selectie si regiunea critica, ipoteza nula H0 va

fi admisa (acceptata) daca (x1, x2, . . . , xn) /∈ U , iar ın caz contrar

va fi respinsa (ın acest caz ipoteza alternativa H1 va fi admisa

(acceptata)).

5.1. TESTUL Z PRIVIND MEDIA TEORETICA

Se considera caracteristica X care urmeaza legea normala N (m, σ),

unde m ∈ R este necunoscut, iar σ > 0 este cunoscut.

Relativ la media teoretica m = M (X) facem ipoteza nula

H0 : m = m0 cu una din alternativele:

H1 : m 6= m0 (testul Z bilateral)

H1 : m > m0 (testul Z unilateral dreapta)

H1 : m < m0 (testul Z unilateral stanga)

Pentru verificare ipotezei nule H0, cu una din alternativele pre-

cizate, consideram o selectie repetata de volum n si un nivel de

semnificatie α ∈ (0,1).

Se cunoaste ca statistica

Z =X − m

σ√n

,

urmeaza legea normala N (0,1) , [Curs 5, Propr. 9]. Pentru

α ∈ (0,1) putem determina un interval numeric (z1, z2) astfel

ıncat

P (z1 < Z < z2) = Φ (z2) − Φ (z1) = 1 − α.

Intervalul (z1, z2) nu este determinat ın mod unic, dar avand ın

vedere alternativa H1 considerata, adaugam conditia suplimen-

tara:

• z1 = −z2, daca se considera ipoteza alternativa H1 : m 6= m0;

cu z2 = z1−α2, unde Φ

(z1−α

2

)= 1−α

2 ;

• z1 = −∞, z2 = z1−α, daca se considera ipoteza alternativa

H1 : m > m0, unde Φ(z1−α

)= 1

2 − α;

• z1 = zα, z2 = +∞, daca se considera ipoteza alternativa

H1 : m < m0, unde Φ (zα) = α − 12.

Corespunzator celor trei alternative definim regiunea critica re-

spectiv prin:

• U =

{(u1, u2, . . . , un) ∈ Rn

∣∣∣ |u−m0|σ√n

> z1−α2

},

• U =

{(u1, u2, . . . , un) ∈ Rn

∣∣∣ u−m0σ√n

> z1−α

},

• U =

{(u1, u2, . . . , un) ∈ Rn

∣∣∣ u−m0σ√n

6 zα

},

unde u = 1n

n∑

k=1uk.

Regiunea critica U corespunde multimii complementare interval-

ului (z1, z2).

Pentru fiecare dintre cele trei regiunui critice avem ca

P((X1, X2, . . . , Xn) ∈ U | H0) = α.

Ipoteza nula va fi admisa daca datele de selectie satisfac conditia

(x1, x2, . . . , xn) /∈ U , iar ın caz contrar va fi respinsa.

Etapele aplicarii testului Z

1. Se dau: α; x1, x2, . . . , xn; m0; σ

2. Se calculeaza intervalul (z1, z2) astfel ıncat

Φ (z2) − Φ (z1) = 1 − α.

3. Se calculeaza

z =x − m0

σ√n

, unde x =1

n

n∑

k=1

xk.

4. Concluzia: daca z ∈ (z1, z2) ipoteza H0 este admisa, ın caz

contrar ipoteza este respinsa

Observatia 140 Testul Z se poate aplica si ın cazul unei carac-

teristici X care nu urmeaza legea normala, daca volumul selectiei

este mare (n > 30), considerandu-se media teoretica m = M (X)

necunoscuta si abaterea standard σ =√

D2 (X) cunoscuta.

Exemplul 141 Caracteristica X reprezinta cheltuielile lunare ın

mii lei pentru abonamentele la ziare si reviste ale unei familii.

Sa se verifice, cu nivelul de semnificatie α = 0.01, daca media

acestor cheltuieli lunare pentru o familie este de 16 mii lei, stiind

ca abaterea standard σ = 3 mii lei si considerand o selectie

repetata de volum n = 40, care ne da distributia empirica de

selectie

X

11 13 15 17 20

4 6 12 10 8

.

Deoarece n = 40 > 30 si abaterea standard σ = 3 este cunoscuta,

vom folosi testul Z pentru verificarea ipotezei nule

H0 : m = M (X) = 16, cu ipoteza alternativa H1 : m 6= 16.

Pentru α = 0.01, folosind Anexa I, se determina z1−α2

= z0.995,

astfel ıncat

Φ (z0.995) =1 − α

2= 0.495.

Se obtine z0.995 = 2.58 ⇒intervalul numeric (−2.58 ; 2.58) pen-

tru statistica

Z =X − m

σ√n

.

Calculam succesiv

x =1

n

n∑

k=1

fkxk = 15.8;

z =x − m0

σ√n

=15.8 − 16

3√40

= −0.422.

Deoarece z = −0.422 ∈ (−2.58 ; 2.58), rezulta ca se accepta

ipoteza H0, cu probabilitatea de risc 0.01.

Definitia 142 Daca se considera un test relativ la ipoteza nula

H0 cu alternativa H1, se numeste eroare de genul (speta) ıntai

respingerea unei ipoteze adevarate, iar probabilitatea acestei erorise numeste risc de speta ıntai (risc al furnizorului) si estedata de nivelul α de semnificatie, adica

α = P

((X1, X2, . . . , Xn) ∈ U

∣∣∣ H0

).

Definitia 143 Se numeste eroare de genul (speta) al doilea ad-miterea unei ipoteze false, iar probabilitatea acestei erori senumeste risc de speta a doua (risc al beneficiarului) si estenotata β,

β = P

((X1, X2, . . . , Xn) /∈ U

∣∣∣ H1

).

DECIZIA H0 e adevarata H0 e falsa

Acceptam H0 decizie corecta [prob. 1 − α] eroare de speta a II-a [prob. β]

Respingem H0 eroare de speta a I-a [prob. α] decizie corecta [prob. 1 − β]

Observatia 144 Este mai grava eroarea de speta I daca se

verifica calitatea la ımbracaminte si respectiv cea de speta a

II-a daca se verifica concentratia la medicamente.

Definitia 145 Se numeste puterea unui test – probabilitatea

respingerii unei ipoteze false, adica

π(θ)= π

(U ; θ

)= P

((X1, X2, . . . , Xn) ∈ U

∣∣∣ θ = θ),

cand θ este parametrul asupra caruia se face ipoteza statistica,

iar U este regiunea critica construita sub ipoteza nula cu nivelul

de semnificatie α ∈ (0,1) fixat.

Observatia 146 Daca testul considerat se refera la ipoteza nula

H0 : θ = θ0 cu ipoteza alternativa H1 : θ = θ1, atunci

π (θ0) = α si π (θ1) = 1 − β, α, β ∈ (0,1).

Observatia 147 Testul pentru care puterea este maxima se numeste

cel mai puternic test.

Definitia 148 Testul pentru care are loc inegalitatea

1−β = P((X1, X2, . . . , Xn) ∈ U |H1

)> P

((X1, X2, . . . , Xn) ∈ U |H0

)= α,

adica puterea testului este mai mare decat riscul de speta ıntai

se numeste test nedeplasat.

CURS 13

5. VERIFICAREA IPOTEZELOR STATISTICE

Fie colectivitatea C cercetata din punct de vedere al caracteristicii

X, care are legea de probabilitate data prin functia de proba-

bilitate f (x; θ) (functia de frecventa ın cazul discret, respectiv

densitatea de probabilitate ın cazul continuu).

5.2. TESTUL T (STUDENT) PRIVIND MEDIA TEORETICA

Se considera caracteristica X ce urmeaza legea normala N (m, σ)

cu parametrii m ∈ R si σ > 0 necunoscuti. Relativ la aceasta

caracteristica se face ipoteza nula H0 : m = m0 cu una din

alternativele:

H1 : m 6= m0 (testul T bilateral);

H1 : m > m0 (testul T unilateral dreapta);

H1 : m < m0 (testul T unilateral stanga).

Pentru verificarea ipotezei se considera o selectie repetata de

volum n, cu datele de selectie x1, x2, . . . , xn si corespunzator vari-

abilele de selectie X1, X2, . . . , Xn.

Conform Proprietatii [Curs 6, Propr. 10] statistica

T =X − m

σ√n

=X − m√

µ2n−1

,

unde

X =1

n

n∑

k=1

Xk, σ2 =1

n − 1

n∑

k=1

(Xk − X

)2=

n

n − 1µ2,

urmeaza legea Student cu n − 1 grade de libertate.

Pentru nivelul de semnificatie α ∈ (0,1) dat, se poate determina

intervalul numeric (t1, t2) astfel ıncat

P(T ∈ (t1, t2)

)= Fn−1 (t2) − Fn−1 (t1) = 1 − α,

unde

Fm (t) =Γ(

m+12

)

√mπΓ

(m2

)∫ t

−∞

(1 +

x2

m

)−m+12

dx, t ∈ R,

este functia de repartitie pentru legea Student cu m grade de

libertate (Anexa II).

Intervalul (t1, t2) pentru statistica T nu este determinat ın mod

unic din conditia de mai sus. In functie de alternativa H1 aleasa,

se considera suplimentar:

• t1 = −t2, t2 = tn−1,1−α2, daca H1 : m 6= m0

• t1 = −∞, t2 = tn−1,1−α, daca H1 : m > m0

• t1 = tn−1,α, t2 = +∞, daca H1 : m < m0

unde tm,γ este cuantila de ordin γ a legii Student cu m grade de

libertate, adica Fm (tm,γ) = γ.

Corespunzator intervalului (t1, t2) se considera respectiv regiunea

critica definita prin:

• U =

{(u1, u2, . . . , un) ∈ Rn

∣∣∣∣∣|u−m0|

σ√n

> tn−1,1−α2

}

• U =

{(u1, u2, . . . , un) ∈ Rn

∣∣∣∣∣u−m0

σ√n

> tn−1,1−α

}

• U =

{(u1, u2, . . . , un) ∈ Rn

∣∣∣∣∣u−m0

σ√n

6 tn−1,α

},

cu u = 1n

n∑

k=1uk, σ2 = 1

n−1

n∑

k=1(uk − u)2.

Se verifica ca P((X1, X2, . . . , Xn) ∈ U |H0

)= α.

Folosind datele de selectie x1, . . . , xn, ipoteza nula H0 va fi admisa

daca (x1, . . . , xn) /∈ U , iar ın caz contrar va fi respinsa.

Regiunea critica U corespunde multimii complementare interval-

ului (t1, t2).

Etapele aplicarii testului T :

1. Se dau: α; x1, x2, . . . , xn; m0.

2. Se calculeaza intervalul (t1, t2) astfel ıncat

Fn−1 (t2) − Fn−1 (t1) = 1 − α.

3. Se calculeaza

t =x − m0

σ√n

, unde x =1

n

n∑

k=1

xk, σ2 =1

n − 1

n∑

k=1

(xk − x)2 .

4. Concluzia: daca t ∈ (t1, t2) ipoteza H0 este admisa, ın caz

contrar ipoteza este respinsa.

Observatia 149 Cand numarul gradelor de libertate tinde la in-

finit, conform teoremei limita centrala, avem ca legea Student

converge ın repartitie la legea normala N (0,1). Prin urmare,

daca volumul n al selectiei este mare (n > 30) se poate utiliza

testul Z pentru verificarea ipotezei nule H0 : m = m0, prin uti-

lizarea statisticii T ın loc de statistica Z. Toate rezultatele de la

testul Z raman adevarate ın acest caz.

5.3. TESTUL χ2 PRIVIND DISPERSIA TEORETICA

Fie caracteristica X ce urmeaza legea normala N (m, σ), unde

dispersia teoretica σ2 = D2 (X) este necunoscuta si media teo-

retica m ∈ R necunoscuta.

Relativ la dispersia teoretica se face ipoteza nula H0 : σ2 = σ20

cu una din alternativele:

H1 : σ2 6= σ20 (testul χ2 bilateral);

H1 : σ2 > σ20 (testul χ2 unilateral dreapta);

H1 : σ2 < σ20 (testul χ2 unilateral stanga).

Pentru verificarea ipotezei nule H0 cu una din alternativele H1

precizate, se considera o selectie repetata de volum n, cu datele

de selectie x1, x2, . . . , xn si variabilele de selectie X1, X2, . . . , Xn.

Conform Proprietatii [Curs 6, Propr. 9], statistica

χ2 =1

σ2

n∑

k=1

(Xk − X

)2=

(n − 1)σ2

σ2,

urmeaza legea χ2 cu n − 1 grade de libertate.

Pentru un nivel de semnificatie α ∈ (0,1) dat, se poate determina

un interval numeric(χ21, χ2

2

)astfel ıncat

P(χ2 ∈

(χ21, χ2

2

))= Fn−1

(χ22

)− Fn−1

(χ21

)= 1 − α,

unde

Fm (x) =1

2m2 Γ

(m2

)∫ x

0tm2−1e−

t2dt, x > 0,

este functia de repartitie pentru legea χ2 cu m grade de libertate

(Anexa III).

Intervalul de ıncredere(χ21, χ2

2

)pentru statistica χ2 nu este de-

terminat ın mod unic din conditia de mai sus.

In functie de alternativa H1 aleasa se considera suplimentar:

• χ21 = χ2

n−1,α2, χ2

2 = χ2n−1,1−α

2, daca H1 : σ2 6= σ2

0

• χ21 = 0, χ2

2 = χ2n−1,1−α, daca H1 : σ2 > σ2

0

• χ21 = χ2

n−1,α, χ22 = +∞, daca H1 : σ2 < σ2

0,

unde χ2m,γ este cuantila de ordin γ a legii χ2 cu m grade de

libertate, adica Fm

(χ2

m,γ

)= γ.

Cu ajutorul intervalului numeric(χ21, χ2

2

)astfel determinat se con-

sidera regiunea critica:

• U =

{(u1, u2, . . . , un) ∈ Rn

∣∣∣∣∣1σ20

n∑

k=1(uk − u)2 /∈

(χ2

n−1,α2, χ2

n−1,1−α2

)}

• U =

{(u1, u2, . . . , un) ∈ Rn

∣∣∣∣∣1σ20

n∑

k=1(uk − u)2 > χ2

n−1,1−α

}

• U =

{(u1, u2, . . . , un) ∈ Rn

∣∣∣∣∣1σ20

n∑

k=1(uk − u)2 6 χ2

n−1,α

}

Se verifica ca P((X1, X2, . . . , Xn) ∈ U |H0

)= α, pentru cele trei

moduri de definire a regiunii critice.

Folosind datele de selectie, ipoteza nula H0 va fi admisa daca

(x1, x2, . . . , xn) /∈ U , iar ın caz contrar va fi respinsa.

Regiunea critica corespunde multimii complementare intervalului(χ21, χ2

2

).

Etapele aplicarii testului χ2

1. Se dau: α; x1, x2, . . . , xn; σ = σ0.

2. Se determina intervalul(χ21, χ2

2

)astfel ıncat

Fn−1

(χ22

)− Fn−1

(χ21

)= 1 − α.

3. Se calculeaza

χ2 =1

σ20

n∑

k=1

( xk − x )2 , unde x =1

n

n∑

k=1

xk.

4. Concluzia: daca χ2 ∈(χ21, χ2

2

)ipoteza H0 este admisa, ın caz

contrar este respinsa.

Observatia 150 Cand caracteristica X nu urmeaza legea nor-

mala, atunci pentru a verifica ipoteza nula cu una din alterna-

tivele precizate, unde σ2 = D2 (X), se tine seama de faptul ca

statistica

S2 =σ2 − σ2

σ2√

2n

, unde σ2 =1

n − 1

n∑

k=1

(Xk − X

)2,

urmeaza legea normala N (0,1), cand n → ∞.

De exemplu, daca ipoteza alternativa este H1 : σ2 6= σ20, se va

ajunge la regiunea critica

U =

{(u1, u2, . . . , un) ∈ R

n

∣∣∣∣∣√

n|σ2 − σ2

0|σ20

√2

> z1−α2

},

unde z1−α2

este cuantila de ordin 1 − α2 pentru legea normala

N (0,1).

Observatia 151 Daca se considera statistica

H2 =σ2

σ2=

1

(n − 1)σ2

n∑

k=1

(Xk − X

)2,

atunci ıntre statisticile H2 si χ2 exista relatia χ2 = (n − 1)H2.

Deoarece se cunoaste legea de probabilitate pentru statistica χ2

(legea χ2 cu n−1 grade de libertate), se poate determina si legea

de probabilitate a statisticii H2. Descrierea testului χ2, folosind

statistica H2, urmeaza aceeasi cale ca si pentru statistica χ2.

Observatia 152 Cand se cunoaste parametrul m ∈ R (ceea ce

se ıntampla mai rar) se poate considera statistica

χ2 =1

σ2

n∑

k=1

(Xk − m)2 =n∑

k=1

(Xk − m

σ

)2

·

DeoareceXk−m

σ urmeaza legea normala N (0,1) avem ca statis-

tica χ2 urmeaza legea χ2 cu n grade de libertate. Cele prezentate

mai ınainte pot fi rescrise cu aceasta statistica.

5.4. TESTUL F (SNEDECOR–FISHER) PENTRU

COMPARAREA DISPERSIILOR

Se considera doua populatii independente C′ si C′′ cercetate din

punct de vedere al aceleiasi caracteristici. Aceasta caracteristica

este X ′ pentru C′ si urmeaza legea normala N(m′, σ′) si respectiv

X ′′ pentru C′′ si urmeaza legea normala N(m′′, σ′′).

Relativ la dispersiile teoretice ale celor doua caracteristici se face

ipoteza nula H0 : σ′2 = σ′′2 cu una din alternativele:

H1 : σ′2 6= σ′′2 (testul F bilateral);

H1 : σ′2 > σ′′2 (testul F unilateral dreapta);

H1 : σ′2 < σ′′2 (testul F unilateral stanga).

Pentru verificarea ipotezei nule H0 cu una din alternativele H1

considerate, se efectueaza cate o selectie repetata de volume n′

si respectiv n′′ din cele doua populatii C′ si C′′. Notam datele de

selectie cu x′1, x′2, . . . , x′n′ si respectiv x′′1, x′′2, . . . , x′′n′′, cu variabilele

de selectie X ′1, X ′

2, . . . , X ′n′ si X ′′

1, X ′′2, . . . , X ′′

n′′.

Conform Proprietatii [Curs 6, Propr. 13], statistica F = σ ′2σ ′2

/σ ′′2σ′′2 ,

cu

σ ′2 =1

n′ − 1

n′∑

k=1

(X ′

k − X′)2

, X′=

1

n′n′∑

k=1

X ′k,

σ ′′2 =1

n′′ − 1

n′′∑

k=1

(X ′′

k − X′′)2

, X′′=

1

n′′n′′∑

k=1

X ′′k ,

urmeaza legea Snedecor-Fisher cu m = n′−1 si n = n′′−1 grade

de libertate.

Pentru un nivel de semnificatie α ∈ (0,1) fixat se poate determina

un interval numeric (f1, f2) astfel ıncat

P(F ∈ (f1, f2)

)= Fm,n (f2) − Fm,n (f1) = 1 − α,

unde

Fm,n (f) =

(m

n

)m2 Γ

(m+n

2

)

Γ(

m2

)Γ(

n2

)∫ f

0x

n2−1

(1 +

m

nx

)−m+n2

dx, f > 0,

este functia de repartitie pentru legea Snedecor-Fisher cu m si n

grade de libertate (Anexa IV).

Intervalul de ıncredere (f1, f2) pentru statistica F nu este unic

determinat. In functie de alternativa H1 aleasa se considera:

• f1 = fm,n;α2, f2 = fm,n;1−α

2, daca H1 : σ′2 6= σ′′2

• f1 = 0, f2 = fm,n;1−α, daca H1 : σ′2 > σ′′2

• f1 = fm,n;α, f2 = +∞, daca H1 : σ′2 < σ′′2.

Cu ajutorul intervalului numeric (f1, f2) astfel determinat, se con-

sidera regiunea critica:

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′

∣∣∣∣∣σ′2

uσ ′′2

v/∈(fm,n;α2

, fm,n;1−α2

)},

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′

∣∣∣∣∣σ′2

uσ ′′2

v> fm,n;1−α

},

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′

∣∣∣∣∣σ′2

uσ ′′2

v6 fm,n;α

},

cu

σ′2u =

1

n′ − 1

n′∑

k=1

(uk − u)2 , u =1

n′n′∑

k=1

uk,

σ′′2v =

1

n′′ − 1

n′′∑

k=1

(vk − v)2 , v =1

n′′n′′∑

k=1

vk.

Se verifica ca P((

X ′1, X ′

2, . . . , X ′n′;X ′′

1, X ′′2, . . . , X ′′

n′′)

∈ U |H0

)=

α, iar cele trei alternative ne conduc la cele trei regiuni critice,

care definesc respectiv testul F bilateral, unilateral dreapta si

unilateral stanga.

Ipoteza nula va fi admisa daca(x′1, x′2, . . . , x′n′; x′′1, x′′2, . . . , x′′n′′

)/∈ U ,

iar ın caz contrar va fi respinsa.

Regiunea critica U corespunde multimii complementare interval-

ului (f1, f2).

Etapele aplicarii testului F

1. Se dau: α; x′1, x′2, . . . , x′n′; x′′1, x′′2, . . . , x′′n′′.

2. Se determina intervalul (f1, f2) astfel ıncat

Fm,n (f2) − Fm,n (f1) = 1 − α.

3. Se calculeaza f = σ ′2σ ′′2, unde

σ ′2 =1

n′ − 1

n′∑

k=1

(x′k − x ′)2 , x ′ =

1

n′n′∑

k=1

x′k,

σ ′′2 =1

n′′ − 1

n′′∑

k=1

(x′′k − x ′′)2 , x ′′ =

1

n′′n′′∑

k=1

x′′k.

4. Concluzia: daca f ∈ (f1, f2) ipoteza H0 este admisa, ın caz

contrar este respinsa.

Observatia 153 Daca se noteaza prin θ = σ′σ′′, atunci ipoteza

nula devine H0 : θ2 = 1, iar ipotezele alternative se scriu core-

spunzator

H1 : θ2 6= 1, H1 : θ2 > 1, respectiv H1 : θ2 < 1,

iar statistica F se rescrie sub forma F = 1θ2

σ ′2σ ′′2·

CURS 14

5.5. TESTE PENTRU COMPARAREA MEDIILOR

Se considera doua populatii independente C′ si C′′ cercetate din

punct de vedere al aceleasi caracteristici. Aceasta este X ′ pentru

C′ si urmeaza legea normala N(m′, σ′) si respectiv X ′′ pentru C′′

si urmeaza legea normala N(m′′, σ′′).

Relativ la mediile teoretice ale celor doua caracteristici indepen-

dente se face ipoteza nula H0 : m′ = m′′ cu una din alternativele:

H1 : m′ 6= m′′, test bilateral

H1 : m′ > m′′, test unilateral dreapta

H1 : m′ < m′′, test unilateral stanga

Se considera cate o selectie repetata de volum n′ si respectiv n′′.

Distingem urmatoarele cazuri:

a) Dispersiile σ′2 si σ′′2 sunt cunoscute. Se considera statistica

Z =

(X

′ − X′′)− (

m′ − m′′)√

σ′2n′ + σ′′2

n′′

,

care urmeaza legea normala N (0,1). Se aplica testul Z.

Pentru nivelul de semnificatie α ∈ (0,1) dat se obtin regiunile

critice corespunzatoare celor trei alternative:

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′

∣∣∣∣∣|u−v|√σ′2n′ +

σ′′2n′′

> z1−α2

}

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′

∣∣∣∣∣u−v√

σ′2n′ +

σ′′2n′′

> z1−α

}

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′

∣∣∣∣∣u−v√

σ′2n′ +

σ′′2n′′

6 zα

},

cu

u =1

n′n′∑

k=1

uk, v =1

n′′n′′∑

k=1

vk. (18)

Etapele aplicarii testului Z

1. Se dau: α; x′1, x′2, . . . , x′n′; x′′1, x′′2, . . . , x′′n′′; σ′, σ′′;

2. Se determina intervalul (z1, z2) astfel ıncat

Φ (z2) − Φ (z1) = 1 − α,

unde Φ (x) este functia lui Laplace (Anexa I). Intervalul (z1, z2)

este:

(−z1−α

2, z1−α

2

),(−∞, z1−α

), (zα,+∞);

3. Se calculeaza

z =x ′ − x ′′

√σ′2n′ + σ′′2

n′′

,

unde

x ′ =1

n′n′∑

k=1

x′k, x ′′ =1

n′′n′′∑

k=1

x′′k; (19)

4. Concluzia: daca z ∈ (z1, z2) ipoteza H0 este admisa, ın caz

contrar este respinsa.

b) Dispersiile σ′2 si σ′′2 sunt necunoscute si egale σ′2 =

σ′′2 = σ2. Se considera statistica

T =

(X

′ − X′′)− (

m′ − m′′)√(

n′ − 1)σ ′2 +

(n′′ − 1

)σ ′′2

√√√√n′ + n′′ − 21n′ +

1n′′

,

care urmeaza legea Student cu n = n′+n′′−2 grade de libertate.

Se aplica testul T . Pentru nivelul de semnificatie α ∈ (0,1) dat

se obtin regiunile critice corespunzatoare celor trei alternative:

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′ ∣∣∣K|u − v| > tn,1−α

2

},

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′ ∣∣∣K (u − v) > tn,1−α

},

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′ ∣∣∣K (u − v) 6 tn,α

},

cu u si v date prin (18) si

K =1

√(n′ − 1

)σ ′2 +

(n′′ − 1

)σ ′′2

√n

1n′ +

1n′′

,

σ ′2 =1

n′ − 1

n′∑

k=1

(uk − u)2 , σ ′′2 =1

n′′ − 1

n′′∑

k=1

(vk − v)2 . (20)

Etapele aplicarii testului T

1. Se dau: α; x′1, x′2, . . . , x′n′; x′′1, x′′2, . . . , x′′n′′;

2. Se determina intervalul (t1, t2) astfel ıncat

Fn (t2) − Fn (t1) = 1 − α,

unde Fn (x) este functia de repartitie pentru legea Student

cu n = n′ + n′′ − 2 grade de libertate. Intervalul (t1, t2) este:(−tn,1−α

2; tn,1−α

2

),(−∞; tn,1−α

), (tn,α;+∞);

3. Se calculeaza

t =x ′ − x ′′

√(n′ − 1

)σ ′2 +

(n′′ − 1

)σ ′′2

√√√√n′ + n′′ − 21n′ +

1n′′

,

cu x ′ si x ′′ date ın (19) si

σ ′2 =1

n′ − 1

n′∑

k=1

(x′k − x′

)2, σ ′′2 =

1

n′′ − 1

n′′∑

k=1

(x′′k − x′′

)2.

(21)

4. Concluzia: daca t ∈ (t1, t2) ipoteza H0 este admisa, ın cazcontrar este respinsa.

c) Dispersiile σ′2 si σ′′2 sunt necunoscute si diferite. Seconsidera statistica

T =

(X

′ − X′′)− (

m′ − m′′)√

σ ′2n′ + σ ′′2

n′′

,

care urmeaza legea Student cu n grade de libertate. Numarul nal gradelor de libertate se calculeaza cu formula

1

n=

c2

n′ − 1+

(1 − c)2

n′′ − 1,

unde

c =σ ′2

n′

/(σ ′2

n ′ +σ ′′2

n′′

).

Se aplica testul T. Pentru nivelul de semnificatie α ∈ (0,1) dat,

se obtin regiunile critice:

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′

∣∣∣∣∣|u−v|√

σ ′2n′ +σ ′′2

n′′> tn,1−α

2

}

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′

∣∣∣∣∣u−v√

σ ′2n′ +σ ′′2

n′′> tn,1−α

}

• U =

{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′

∣∣∣∣∣u−v√

σ ′2n′ +σ ′′2

n′′6 tn,α

},

cu u si v date prin (18) si σ ′2 si σ ′′2 date prin (20).

Etapele aplicarii testului T

1. Se dau: α; x′1, x′2, . . . , x′n′; x′′1, x′′2, . . . , x′′n′′;

2. Se determina intervalul (t1, t2) astfel ıncat

Fn (t2) − Fn (t1) = 1 − α,

unde Fn (x) este functia de repartitie pentru legea Student cu

n grade de libertate. Intervalul (t1, t2) este:

(−tn,1−α

2; tn,1−α

2

),

(−∞; tn,1−α

), (tn,α;+∞);

3. Se calculeaza

t =x ′ − x ′′

√σ ′2n′ + σ ′′2

n′′

,

cu x ′ si x ′′ date ın (19) si σ ′2 si σ ′′2 date ın (21).

4. Concluzia: daca t ∈ (t1, t2) ipoteza H0 este admisa, ın caz

contrar este respinsa.

Exemplu. S-au elaborat doua metode de producere a anvelopelor,

pentru care producatorul apreciaza ca nu exista o diferenta sem-

nificativa ın ceea ce priveste durata de viata. Pentru a testa

aceasta ipoteza, se iau 9 anvelope produse cu metoda 1 si 7

anvelope cu metoda 2. Primul set se testeaza ın locatia A iar al

doilea ın B. Se stie ca durata pentru oricare din anvelope este

o variabila aleatoare ce urmeaza legea normala cu dispersie ın

functie de locatie. Pentru locatia A deviatia standard este 3000

km, iar pentru B este de 4000 km. (Unitatea de masura pentru

duarata de viata se considera 1000 km.)

Permit datele din tabel acceptarea ipotezei cu nivelul de semnificatie

5%?

Anvelope testate ın A Anvelope testate ın B66,4 58,261,6 60,460,5 55,259,1 62,063,6 57,361,4 58,762,5 56,164,460,7

Se considera ipoteza nula H0 : m′ = m′′ cu alternativa H1 : m′ 6=m′′.

Avem α = 0.05; σ′ = 3, σ′′ = 4; n′ = 9, n′′ = 7

x′ =1

n′n′∑

k=1

x′k = 62.2444, x′′ =1

n′′n′′∑

k=1

x′′k = 58.2714

Se calculeaza

z =x ′ − x ′′

√σ′2n′ + σ′′2

n′′

=62.2444 − 58.2714

√99 + 16

7

= 2.192.

Avem (1−α)/2 = 0.475, deci (z1, z2) =

(−z1−α

2, z1−α

2

)= (−1.96,1.96).

Concluzia: z /∈ (z1, z2) ⇒ipoteza H0 este respinsa.

top related