matematici speciale seminar statisticatestarea ipotezelor statistice in procesul decizional...

18
Matematici speciale Seminar Statistica Mai 2018

Upload: others

Post on 04-Feb-2020

33 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

Matematici speciale

Seminar Statistica

Mai 2018

Page 2: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

ii

Page 3: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

”Statistica este arta de a minti prin intermediul cifrelor.”

Wilhelm Stekel

12Notiuni de statistica

Datele din dreapta arata tempera-turile de racire ale unei cesti de cafea,care tocmai a fost preparata. Temper-atura la care ajunge aparatul de cafeaeste 180 de grade Fahrenheit (aproxi-mativ 82∘𝐶).

In anul 1992 o femeie a dat in judecata McDonald’s pentru ca au servitcafeaua la temperatura 180∘𝐹 si aceasta i-a cauzat arsuri serioase in momentulin care a incercat sa o bea (vezi Liebeck vs. McDonald’s ). Un expert adus dinpartea acuzarii a sustinut la proces ca lichidele care se afla la aceasta temper-atura pot cauza distrugerea totala a pielii umane in doua pana la sapte secunde.S-a stabilit ca daca ar fi fost servita la 155∘𝐹 (68∘𝐶) s-ar fi racit la timp si arfi fost evitat tot incidentul. Femeia a primit in prima instanta o despagubire de

1

Page 4: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

2.7 milioane de dolari. Ca urmare a acestui caz faimos multe restaurante servescacum cafeaua la o temperatura de aproximativ 155∘𝐹 . Cat de mult ar trebuisa astepte restaurantele din momentul in care cafeaua este turnata in ceascadin aparat si pana cand ea poate fi servita, pentru a se asigura ca nu este maifierbinte de 155∘𝐹 ?

∙ Determinati ecuatia unui model de regresie exponentiala pentru a reprezentadatele

∙ Reprezentati grafic curba obtinuta∙ Decideti daca ecuatia obtinuta este buna pentru a reprezenta datele exis-

tente in tabel∙ Interpolare: Cand ajunge temperatura cafelei la 106∘𝐹 ?∙ Extrapolare: Care este temperatura prezisa, de modelul gasit, peste o ora?

2

Page 5: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

Notiuni teoretice:

∙ Statistica descriptiva: populatie statistica, esantion statistic, serie sta-tistica, frecventa abosluta, frecventa relativa, histograma, media ��, mediana𝑚3, amplitudinea 𝐴, dispersia 𝜎2, deviatia standard 𝜎, moda (modulul) 𝑚𝑜,dispersia de selectie 𝑠2, deviatia standard de selectie 𝑠, cuartilele 𝑄1, 𝑄2, 𝑄3,indicatorul de asimetrie 𝑠𝑘 (skewness), indicatorul de aplatizare 𝑘 (kurtosis)

Intervale de incredere

∙ intervalele de incredere sunt folosite cand vrem sa estimam un parametru alunei populatii folosind un esantion. Parametrul poate fi estimat printr-o singuravaloare (estimare punctuala) dar de obicei e preferabil sa fie estimat printr-uninterval care va da unele indicii asupra gradului de incertitudine al estimarii.

∙ notatia obisnuita pentru acest parametru este 𝜃. Deseori, acest parametrueste media populatiei 𝜇, care este estimata prin media esantionului ��.

∙ nivelul de incredere C al unui interval de incredere reprezinta probabilitateaca intervalul construit sa contina valoarea adevarata a parametrului.

∙ acest nivel de incredere este ales a priori si valorile cele mai utilizate sunt0.90, 0.95, sau 0.99. Aceste nivele corespund procentajelor din aria curbei luiGauss, data de densitatea de probabilitate a unei variabile aleatoare normalstandard distribuita.

∙ de exemplu, un interval de incredere cu un nivel de incredere 𝐶 = 95%acopera 95% din curba lui Gauss. Probabilitatea ca valoarea reala sa fie in afaraacestui interval este mai mica de 0.05. Pentru ca aceasta curba este simetricajumatate de arie se afla in partea din stanga a curbei si cealalta jumatate inpartea dreapta.

∙ dupa cum arata diagrama de mai jos, pentru un interval de incredere cunivelul C, aria din fiecare extremitate a curbei este 1−𝐶

2 . Pentru un nivel deincredere 95%, aria din fiecare extremitate este 0.05/2 = 0.025.

Valoarea 𝑧*, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca 𝑧* este egala cu 𝑝, este denumitavaloarea critica superioara a distributiei normale standard.

3

Page 6: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

De exemplu, pentru 𝑝 = 0.025, valoarea 𝑧* pentru care 𝑃 (𝑍 > 𝑧*) = 0.025,sau 𝑃 (𝑍 < 𝑧*) = 0.975, este egala cu 1.96 conform tabelului cu scorurile Z cititin sens invers.

∙ pentru un interval de incredere cu nivelul de incredere C, valoarea lui 𝑝este (1 − 𝐶)/2.

Medie necunoscuta si deviatie standard cunoscuta

Teorema:Pentru o populatie cu media 𝜇 necunoscuta si deviatie standard 𝜎 cunos-

cuta, un interval de incredere pentru media populatiei, construit pe baza unuiesantion de volum 𝑛, este:

(��− 𝑧*𝜎√𝑛, �� + 𝑧*

𝜎√𝑛

)

unde 𝑧* este valoarea critica corespunzatoare lui1 + 𝐶

2pentru distributia nor-

mala standard, adica Φ(𝑧*) = 1+𝐶2 .

Medie necunoscuta si deviatie standard necunoscuta

∙ cand deviatia standard 𝜎 este necunoscuta este estimata de obicei prin 𝑠numita eroarea standard /deviatia standard de selectie , unde:

𝑠2 =

𝑛∑𝑖=1

(𝑥𝑖 − ��)2

𝑛− 1

si 𝑛 este volumul selectiei.Teorema:Pentru o populatie cu media necunoscuta 𝜇 si deviatia standard 𝜎 ne-

cunoscuta, un inteval de incredere pentru media populatiei, construit pe bazaunui esantion de volum 𝑛, este:

(��− 𝑡*𝑠√𝑛, �� + 𝑡*

𝑠√𝑛

)

unde 𝑡* este valoarea critica corespunzatoare lui1 − 𝐶

2pentru distributia 𝑡-

Student cu n-1 grade de libertate.∙ Pasul final consta in interpretarea rezultatului: pe baza datelor avute

suntem 𝐶% siguri ca adevarata medie a populatiei se afla intre valorile date deintervalul gasit

∙ valorile critice 𝑧* si 𝑡* se pot gasi in tabelul urmator z-t-table∙ distributia 𝑡 sau distributia Student este data de catre urmatoarea

densitate de probabilitate:

𝑓(𝑡) =Γ(𝑛+1

2 )√𝑛𝜋Γ(𝑛

2 )

(1 +

𝑡2

𝑛

)−𝑛+12

unde 𝑛 este numarul de grade de libertate si Γ este functia lui Euler.

De retinut

4

Page 7: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

Presupunem ca un student care masoara temperatura de fierbere a unuianumit lichid observa urmatoarele valori (exprimate in grade Celsius)102.5, 101.7, 103.1, 100.9, 100.5, si 102.2 pentru 6 esantioane diferite delichid. Pe baza acestor dare el calculeaza media �� a esantionului ca fiind101.82. Daca stie ca deviatia standard a acestei proceduri este 1.2 grade,care este intervalul de incredere pentru media populatiei la un nivel deincredere de 95% ?

Cu alte cuvinte, studentul doreste sa estimeze adevarata valoare mediea temperaturii de fierbere a lichiduluui folosind rezultatele masuratorilorlui. Daca masuratorile urmeaza o distributie normala atunci esantionul

ca avea o distributie 𝑁(𝜇,𝜎2

𝑛). Deoarece volumul esantionului este 6,

deviatia standard a mediei esantionului este egala cu 1.2√6

= 0.49.

Valoarea critica 𝑧* pentru un nivel de increder de 95% este 1.96, unde(1 − 𝐶)/2 = (1 − 0.95)/2 = 0.025. Astfel un interval de incredere pentrumedia �� la un nivel de incredere 95% este:

(101.82 − 1.96 · 0.49, 101.82 + 1.96 · 0.49) = (100.86, 102.78)

Pe masura ce nivelul de incredere descreste, lungimea intervaluluidescreste. Sa presupunem ca studentul era interesat de obtinereaunui nivel de incredere de 90% pentru intervalul de incredere a tem-peraturii de fierbere. In acest caz, 𝐶 = 0.90, si (1 − 𝐶)/2 = 0.05.Valoarea critica 𝑧* pentru acest nivel este 1.645, deci un astfel deinterval ca fi:

(101.82 − 1.645 · 0.49, 101.82 + 1.645 · 0.49) = (101.01, 102.63)

O crestere a volumului esantionului va determina o descrestere alungimii intervalului de incredere atunci cand pastram nivelul de in-credere cosntant. Marja de eroare 𝑒 a unui interval de incredere estedefinita ca fiind valoarea adunata sau scazuta la media esantionului,care determina lungimea intervalului: 𝑒 = 𝑧* 𝜎√

𝑛.

Remarca:

Sa presupunem ca in exemplul de mai sus studentul doreste sa aibe omarja de eroare egala cu 0.5 grade la un nivel de incredere de 95%. Facandcalculele necesare se obtine 𝑛 = (1.96 · 1.2/0.5)2 = 22.09. Asadar, pentrua obtine un interval de incredere de 95%, pentru temperatura medie defierbere, cu lungimea de 1 grad, studentul ca avea de facut 23 masuratori.�

Exemplu:

5

Page 8: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

Testarea ipotezelor statistice

In procesul decizional managerii emit ipoteze care apoi pot fi testate cuintrumentele statisticii matematice. Un test statistic examineaza doua ipotezeopuse legate de o populatie statistica: ipoteza nula si ipoteza alternativa. Felulin care sunt construite depinde de ceea ce se incearca a se arata.

Ipoteza nula 𝐻0

∙ ipoteza nula afirma ca un parametru al unei populatii statistice este egal cuo valoare fixa. Ipoteza nula este de obicei o afirmatie facuta de catre manageripornind de la cercetarile si cunostintele anterioare.

Ipoteza alternativa 𝐻𝑎

∙ ipoteza alternativa afirma ca parametrul populatiei este diferit de cel pre-supus in ipoteza nula. Ipoteza alternativa este ceea ce s-ar putea sa crezi ca eadevarat sau speri sa se dovedeasca a fi adevarat.

Cele mai comune ipoteze sunt referitoare la media unei populatii statisticeTestarea unor astfel de ipoteze, a determina daca media 𝜇 a unei populatii

este egala cu o anumita valoare tinta 𝜇0, presupune urmatorii pasi:

⇒ pentru un volum mare 𝑛 al esan-tionului sau 𝜎 cunoscuta

· folosim testul z si calculam:

𝑧𝑐𝑎𝑙𝑐 =��− 𝜇0

𝜎√𝑛

⇒ pentru volumul 𝑛 < 30 al esan-tionului si 𝜎 necunoscuta

· folosim testul Student 𝑡 si calcu-lam:

𝑡𝑐𝑎𝑙𝑐 =��− 𝜇0

𝑠√𝑛

Two-tailed test:

𝐻0 : 𝜇 = 𝜇0

𝐻𝑎 : 𝜇 = 𝜇0

⇒ regiunea critica/ regiunea de respingere, cand respingem 𝐻0, este datade:

𝑧𝑐𝑎𝑙𝑐 < −𝑧*𝛼2sau 𝑧𝑐𝑎𝑙𝑐 > 𝑧*𝛼

2𝑡𝑐𝑎𝑙𝑐 < −𝑡*𝛼

2 ,𝑛−1 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡*𝛼2 ,𝑛−1

Upper-tailed test:

𝐻0 : 𝜇 = 𝜇0

𝐻𝑎 : 𝜇 > 𝜇0

⇒ regiunea critica/ regiunea de respingere, cand respingem 𝐻0, este datade:

6

Page 9: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

𝑧𝑐𝑎𝑙𝑐 > 𝑧*𝛼 𝑡𝑐𝑎𝑙𝑐 > 𝑡*𝛼,𝑛−1

Lower-tailed test:

𝐻0 : 𝜇 = 𝜇0

𝐻𝑎 : 𝜇 < 𝜇0

⇒ regiunea critica/ regiunea de respingere, cand respingem 𝐻0, este datade:

𝑧𝑐𝑎𝑙𝑐 < −𝑧*𝛼 𝑡𝑐𝑎𝑙𝑐 < −𝑡*𝛼,𝑛−1

⇒ in toate aceste exemple 𝛼 este nivelul de semnificatie corespunzator unuinivel de incredere 𝐶 = 1 − 𝛼

⇒ valorile critice 𝑧* si 𝑡* pentru diferite intervale de incredere sunt afisatein z-t-table

Estimarea parametrilor prin metoda momentelor

Metoda momentelor este o metoda de estimare a parametrilor unei populatiistatistice. Metoda este bazata pe presupunerea ca momentele esantionului suntestimatori buni pentru momentele corespunzatoare ale populatiei.

∙ pentru o populatie 𝑋 momentele 𝜇𝑘 de ordin 𝑘 (sau 𝑀𝑘) sunt definite ca:

𝜇𝑘 = 𝑀(𝑋𝑘) =

⎧⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎩

∞∫−∞

𝑥𝑘𝑓(𝑥)𝑑𝑥, daca 𝑋 este continua

∑𝑖∈𝐼

𝑥𝑘𝑖 𝑝𝑖, daca 𝑋 este discreta

∙ momentele de ordin 𝑘 ale esantionului, notate 𝑚𝑘, pentru un esantion devolum 𝑛 sunt:

𝑚𝑘 =1

𝑛

𝑛∑𝑖=1

𝑋𝑘𝑖

Estimarea prin metoda momentelor pur si simplu presupune egale cele douatipuri de momente 𝜇𝑘 = 𝑚𝑘 si urmareste apoi aflarea parametrilor lispa.(distributiatrebuie sa aiba momente finite)

Metoda momentelor:

1. vrem sa estimam un parametru 𝜃

2. calculam momente de ordin mic 𝜇𝑘 ca functii de 𝜃

7

Page 10: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

3. realizam un sistem de ecuatii pornind de la presupunerea ca momentelepopulatiei 𝜇𝑘 sunt egale cu cele ale esantionului 𝑚𝑘, si exprimam dinaceste ecuatii parametrul ca functii de momentele exantionului 𝑚𝑘.

Fie 𝑋1, 𝑋2, . . . 𝑋𝑛 un esantion dintr-o populatie care are o distributie bi-nomiala 𝑋 ∼ 𝐵𝑖(𝑛0, 𝑝) cu parametrii 𝑛0 si 𝑝. Estimati acesti parametrifolosind metoda momentelor.

Solutie: Deoarece

𝑀(𝑋) = 𝑛0 · 𝑝 (vezi fisa variabile aleatoare discrete)

si𝐷2(𝑋) = 𝑛0𝑝(1 − 𝑝)

obtinem:

𝑀2(𝑋) = 𝑀(𝑋2) = 𝐷2(𝑋) + 𝑀(𝑋)2 = 𝑛0𝑝(1 − 𝑝) + 𝑛20𝑝

2,

putem scrie 𝑛0𝑝(1 − 𝑝) = 𝑀2(𝑋) −𝑀(𝑋)2.Egaland:

𝑀(𝑋) = 𝑚1

(=

𝑋1 + 𝑋2 + . . . + 𝑋𝑛

𝑛

)si

𝑀2(𝑋) = 𝑚2

(=

𝑋21 + 𝑋2

2 + . . . + 𝑋2𝑛

𝑛

)se poate observa ca:

1 − 𝑝 =𝑚2 −𝑚2

1

𝑚1

astfel:

𝑝 =𝑚1 + 𝑚2

1 −𝑚2

𝑚1

poate fi folosit ca un estimator pentru parametrul 𝑝.In acelasi context:

𝑛0 =𝑚1

𝑝=

𝑚21

𝑚1 + 𝑚21 −𝑚2

.

Exemplu:

8

Page 11: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

Analiza regresiva prin metoda celor mai mici patrate

∙ in sectiunile anterioare am considerat experimente pentru care am observato singura cantitate (variabila) aleatoare, iar esantioanele respective au constatdin date reprezentate de numere reale 𝑥1, 𝑥2, . . . , 𝑥𝑛

∙ in aceasta sectiune vom considera experimente ın care suntem interesati dedoua cantitati (variabile) aleatoare, deci esantioanele respective vor fi reprezen-tate de perechi de numere reale (𝑥1, 𝑦1), (𝑥2, 𝑦2), . . . , (𝑥𝑛, 𝑦𝑛)

∙ in analiza regresiva una din cele doua variabile (spre exemplu 𝑋) esteprivita ca o variabila ce poate fi masurata (determinata) cu precizie, numitavariabila independenta si suntem interesati de modul cum cealalta variabila𝑌 (numita variabila dependenta) depinde de aceasta: spre exemplu sunteminteresati de modul de aportul de crestere 𝑌 al animalelor ın functie de cantitateazilnica de hrana 𝑋.

∙ in general, intr-un anumit experiment alegem valorile 𝑥1, 𝑥2, . . . , 𝑥𝑛 apoiobservam valorile 𝑦1, 𝑦2, . . . , 𝑦𝑛 ale unei variabile aleatoare 𝑌 , obtinand astfelun esantion (𝑥1, 𝑦1), (𝑥2, 𝑦2), . . . , (𝑥𝑛, 𝑦𝑛)

Se pune problema gasirii unei curbe care sa aproximeze cat mai bine dateleobitnute experimental (norul de puncte)

∙ aceasta aproximare se face de obicei impunand conditia ca suma patratelordistantelor de la puncte la curba sa fie minima (metoda celor mai mici patrate)

𝐸 =

𝑛∑𝑖=1

(𝑦𝑖 − 𝑓(𝑥𝑖))2 = minim

unde 𝑓 este functia care da curba de regresie. In functie de forma norului sepoate alege una din urmatoarele functii de regresie:

9

Page 12: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

Regresia liniara

∙ estimam norul de puncte printr-o dreapta 𝑦 = 𝑓(𝑥) = 𝑎 + 𝑏𝑥∙ impunand conditia data de metoda celor mai mici patrate se obtine sis-

temul: {𝑎 + 𝑏 ·

∑𝑛𝑖=1 𝑥𝑖

𝑛 =∑𝑛

𝑖=1 𝑦𝑖

𝑛

𝑎 ·∑𝑛

𝑖=1 𝑥𝑖

𝑛 + 𝑏 ·∑𝑛

𝑖=1 𝑥2𝑖

𝑛 =∑𝑛

𝑖=1 𝑥𝑖𝑦𝑖

𝑛

care are solutia:

𝑏 =𝑛∑

𝑥𝑦 −∑

𝑥 ·∑

𝑦

𝑛∑

𝑥2 − (∑

𝑥)2

si:

𝑎 =

∑𝑛𝑖=1 𝑦𝑖𝑛

− 𝑏

∑𝑛𝑖=1 𝑥𝑖

𝑛= 𝑌 − 𝑏��.

Regresia parabolica

∙ estimam norul de puncte printr-o parabola 𝑦 = 𝑓(𝑥) = 𝑎 + 𝑏𝑥 + 𝑐𝑥2

∙ impunand conditia data de metoda celor mai mici patrate se obtine sis-temul: ⎧⎪⎨⎪⎩

𝑎 · 𝑛 + 𝑏 ·∑

𝑥 + 𝑐 ·∑

𝑥2 =∑

𝑦

𝑎 ·∑

𝑥 + 𝑏 ·∑

𝑥2 + 𝑐 ·∑

𝑥3 =∑

𝑥𝑦

𝑎 ·∑

𝑥2 + 𝑏 ·∑

𝑥3 + 𝑐 ·∑

𝑥4 =∑

𝑥2𝑦

Regresia hiperabolica

∙ estimam norul de puncte printr-o hiperbola 𝑦 = 𝑓(𝑥) = 𝑎 + 𝑏𝑥

∙ impunand conditia data de metoda celor mai mici patrate se obtine sis-temul: {

𝑎 · 𝑛 + 𝑏 ·∑

1𝑥 =

∑𝑦

𝑎 ·∑

1𝑥 + 𝑏 ·

∑1𝑥2 =

∑ 𝑦𝑥

Regresia exponentiala

∙ estimam norul de puncte printr curba 𝑦 = 𝑓(𝑥) = 𝑎 · 𝑏𝑥∙ se logaritmeaza relatia si obtinem:

ln 𝑦 = ln 𝑎 + ln 𝑏 · 𝑥

care are forma unui model de regresie liniara pentru datele (𝑥𝑖, ln 𝑦𝑖), 𝑖 = 1, 𝑛deci 𝑎 si 𝑏 se determina din:

ln 𝑏 =𝑛∑

𝑥 ln 𝑦 −∑

𝑥 ·∑

ln 𝑦

𝑛∑

𝑥2 − (∑

𝑥)2

si:

ln 𝑎 =

∑𝑛𝑖=1 ln 𝑦𝑖𝑛

− ln 𝑏 ·∑𝑛

𝑖=1 𝑥𝑖

𝑛.

prin intermediul formulelor 𝑎 = 𝑒ln 𝑎 si 𝑏 = 𝑒ln 𝑏

10

Page 13: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

Probleme rezolvate

Problema 1. Calculati cuartilele 𝑄1, 𝑄2, 𝑄3 pentru urmatoarea seriestatistica simpla

𝑋 : 1, 2, 5, 7, 11, 21, 22, 23, 29

si abaterea cuartilica.

Solutie: Facem mai ıntai observatia ca mediana 𝑚𝑒 coincide cu cuartila 𝑄2.Deoarece seria statistica data are un numar impar de termeni (9 mai exact),

vom folosi formula corespunzatoare pentru a determina cuartila 𝑄2 si avem

𝑥 9+12

= 𝑥5 = 11 ⇒ 𝑚𝑒 = 𝑄2 = 11.

Mai departe pentru a determina prima cuartila tinem cont de seria statisticasimpla

1, 2, 5, 7, 11

care are tot un numar impar de termeni si obtinem

𝑥 5+12

= 𝑥3 = 5 ⇒ 𝑄1 = 5.

Analog procedam pentru a treia cuartila tinand cont de seria statisticasimpla

11, 21, 22, 23, 29

care are tot un numar impar de termeni si rezulta

𝑥 5+12

= 𝑥3 = 22 ⇒ 𝑄3 = 22.

Atunci rezulta ca abaterea cuartilica este

𝑄 = 𝑄3 −𝑄1 = 22 − 5 = 17.

Problema 2. Fie seria statistica

𝑋 : 1, 5, 4, 20, 3, 16.

Determinati:a) amplitudinea absoluta 𝐴.b) abaterea medie patratica �� (𝑋).c) dispersia 𝜎2 (𝑋).d) deviatia standard 𝜎 (𝑋).e) coeficientul de variatie 𝑐𝑣(𝑋).

Solutie: a) Amplitudinea absoluta 𝐴 este

𝐴 = 𝑋max −𝑋min = 20 − 1 = 19.

11

Page 14: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

b) Abaterea medie patratica �� (𝑋) se obtine astfel

𝑎 (𝑋) =|1 − 𝑥| + |5 − 𝑥| + |4 − 𝑥| + |20 − 𝑥| + |3 − 𝑥| + |16 − 𝑥|

6,

unde media 𝑥 este

𝑥 =1 + 5 + 4 + 20 + 3 + 16

6= 8, 16.

Atunci rezulta�� (𝑋) ≃ 6, 55.

c) Dispersia este

𝜎2 (𝑋) =1

6

6∑𝑖=1

(𝑥𝑖 − 𝑥)2

=

=1

6

(7, 162 + 3, 162 + 4, 162 + 11, 842 + 5, 162 + 7, 842

)= 51, 138 ≃ 51.

d) deviatia standard rezulta imediat de mai sus

𝜎 (𝑋) =√𝜎2(𝑋) =

√51 = 7, 14 ≃ 7.

e) Din cele de mai sus, rezulta coeficientul de variatie

𝑐𝑣(𝑋) =𝜎 (𝑋)

𝑥· 100 = 85, 78.

Problema 3. Pe o perioada de mai multi ani, un profesor a ınregistratrezultatele elevilor si a obtinut ca media 𝜇 a acestor rezultate este 72 siabaterea standard 𝜎 = 12. Clasa de 36 de elevi pe care-i ınvata ın prezentare o medie 𝑥 = 75, 2, iar profesorul afirma ca ea este superioara celorde pana acum. Intrebarea care se pune este daca media clasei 𝑥 este unargument suficient pentru a sustine afirmatia profesorului la un nivelulde semnificatie dat 𝛼 = 0, 05 (95% sigur).

Solutie: Etapa 1: Formularea ipotezei nule 𝐻0

𝐻0 : 𝑥 = 𝜇 = 72 ⇔ clasa nu este superioara.

Etapa 2: Formularea ipotezei alternative 𝐻𝑎

𝐻𝑎 : 𝑥 = 𝜇 > 72 ⇔ clasa este superioara.

Etapa 3: Metodologia de verificare a ipotezelora) Cand ın ipoteza nula media populatiei si deviatia standard sunt cunos-

cute, atunci folosim scorul standard 𝑧 ca si test statistic.b) Nivelul de semnificatie este dat si este 𝛼 = 0, 05.

c) In baza teoremei limita centrala distributia mediilor esantioanelor esteaproape normala, deci prin urmare distributia normala va fi folosita pentru

12

Page 15: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

determinarea regiunii critice. Regiunea critica este egala cu multimea valorilorscorului standard 𝑧 care determina respingerea ipotezei nule si este situata laextremitatea dreapta a distributiei normale. Regiunea critica este la dreaptadeoarece valori mari ale mediei esantionului sustin ipoteza alternativa ın timpce valori apropiate valorii 72 sustin ipoteza nula.

Valoarea critica ce desparte zona valorilor ”nu este superior”de zona valorilor”este superior”este determinata de probabilitatea 𝛼 = 0, 05 de a comite o eroarede tip 𝐼 (eroarea de tip 𝐼 apare cand ipoteza nula este adevarata si tot ea esterespinsa).

Etapa 4: Determinarea valorii testului statisticValoarea testului statistic este data de formula

𝑧𝑐𝑎𝑙𝑐 =𝑥− 𝜇𝜎√𝑛

=75, 2 − 72

12√36

= 1, 6.

Etapa 5: Luarea unei decizii si interpretarea eiDaca comparam valoarea gasita cu valoarea critica observam ca:

1, 6 < 1, 65

Conform celor stabilite in sectiunea ipotezelor statistice respingem ipoteza 𝐻0

daca:𝑧𝑐𝑎𝑙𝑐 > 𝑧*𝛼

Decizia: nu putem respinge ipoteza nula !In final, tragem concluzia ca probele nu sunt suficiente pentru a sustine ca

actuala clasa este superioara celor anterioare.

Problema 4. Noua dintre studentii unei facultati cu profil sportiv au fostselectati pentru a da un test de alergare pe distanta mare. Masuratorilepentru acest grup au condus la un timp mediu de 12, 87 minute cu oabatere standard 𝑠 = 1, 3. Sa se aproximeze, cu o probabilitate de 90%,timpul mediu pe care studentii intregii facultati il vor inregistra pe aceadistanta .

Solutie: Deoarece nu se cunoaste dispersia populatiei iar esantionul are volu-mul mai mic dacat 30, intervalul de ıncredere este dat de formula(

𝑥− 𝑠√𝑛𝑡𝑛−1,𝛼2

, 𝑥 +𝑠√𝑛𝑡𝑛−1,𝛼2

),

unde 𝑥 = 12, 87 ; 𝑠 = 1, 3 ; 𝑛 = 9 ; 𝛼 = 0, 10 ; iar 𝑡𝑛−1,𝛼2este valoarea critica a

repartitiei Student (statisticianul William Sealy Gosset folosea acest pseudonim

in articolele sale ) cu 𝑛−1 grade de libertate corespunzatoare valorii𝛼

2=

1 − 𝐶

2care ın cazul nostru este 𝑡9−1, 0.05 = 𝑡8, 0,05 = 1, 860 conform tabelului z-t-table

Obtinem intervalul(12.064, 13.676)

In concluzie suntem 90% siguri ca timpul mediu inregistrat de un studentpe acea distanta va fi in acest interval !

13

Page 16: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

Probleme propuse

Problema 1. Fiind date seriile statistice simple

𝑋 : 1, 5, 7, 8, 10,

𝑌 : 1, 6, 100, 135

determinati mediana ın ambele cazuri.

Problema 2. Intr-o colectivitate s-au ales date statistice numerice obtinandu-se

𝑋 : 4, 1, 1, 5, 6, 3, 2, 1,

𝑌 : 100, 90, 40, 80, 70, 50, 100, 70.

Aflati dupa care din variabilele de mai sus, colectivitatea este mai omogena.

Problema 3. Diagrama Herzsprung-Russell arata dependenta dintre magnitu-dinile absolute si temperaturile efective de la suprafata stelelor:

Pentru un grup de stele din sirul principal al diagramei astronomii au inregistratcu ajutorul telescopului Keck urmatoarele date:

(+5, 5000∘𝐾), (+10, 3000∘𝐾), (0, 10000∘𝐾), (−5, 25000∘𝐾), (+6, 7500∘𝐾)

Cautati un model de regresie adecvat pentru aceste date.

14

Page 17: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

Problema 4. Directorul de operatiuni al unei uzine ar dori sa estimeze timpulmediu de care are nevoie un muncitor pentru a asambla o noua componentaelectronica. Presupunem ca deviatia standard a timpului de asamblare este de3.6 minute.

a) Dupa cronometrarea a 120 de muncitori, managerul observa ca timpul lormediu de asamblare a componentei este de 16.2 minute. Construiti un intervalde incredre cu un nivel de incredere de 95% pentru timpul mediu de asamblarea componentei.

b) Cati muncitori ar trebui sa fie implicati in studiul managerului pentru aobtine timpul mediu real de asamblare cu o eroare de ±15 seconde si un nivelde incredere de 95% ?

Problema 5. Pentru a asigura folosirea eficienta a unui server, este necesaraestimarea numarului mediu de useri simultani. Conform datelor disponibile me-dia si deviatia standard a numarului de utilizatori simultani, inregistrati in 100momente de timp aleator alese, este de 37.7, respectiv 9.2.

Construiti un interval de incredere, cu un nivel de incredere de 90%, pentrumedia utilizatorilor concurenti.

Problema 6. Fie 𝑋1, 𝑋2, ..., 𝑋𝑛 variabile aleatoare normal distribuite cu media𝑚 si dispersia 𝜎2. Care sunt estimarile date de metoda momentelor pentru media𝑚 si dispersia 𝜎2?

Problema 7. Un grup de consumatori, preocupati de procentajul mediu degrasime al unui anumit steakburger trimite la un laborator independent un esan-tion de 12 steakburgeri pentru analize. Procentajul de grasime gasit in fiecaresteakburger este dat mai jos:

21 18 19 16 18 24 22 19 24 14 18 15

Producatorul afirma ca procentajul mediu de grasime al unui steakburger esteaproximativ 20%. Presupunand ca procentajul de grasime este normal distribuitcu o deviatie standard de 3, testati ipoteza producatorului, la un nivel de sem-nificatie 𝛼 = 0.05.

Problema 8. Pe parcursul unei anumite saptamani, 13 copii s-au nascut la omaternitate. O parte a procedurii standard e reprezentata de masurarea lungimiiacestora. Mai jos aveti o lista a lungimilor masurate, exprimate in centimetri:

49 50 45 51 47 49 48 54 53 55 45 50 48

Presupunand ca lungimile la nastere ale bebelusilor sunt normal distribuite, tes-tati, la un nivel de semnificatie de 5%, ipoteza ca media lungimii la nastere aunui bebelus este de 50 cm.

Problema 9. 𝑋1, 𝑋2, . . . 𝑋𝑛 reprezinta o selectie dintr-o populatie 𝑋 cu dis-tributie exponentiala, adica cu densitatea de repartitie:

𝑓(𝑥) =

{𝜆𝑒−𝜆𝑥, if 𝑥 ≥ 0,

0, otherwise

Estimati parametrul 𝜆 folosind metoda momentelor.

15

Page 18: Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional managerii emit ipoteze care apoi pot testate cu intrumentele statisticii matematice. Un

Problema 10. 𝑋1, 𝑋2, . . . 𝑋𝑛 reprezinta o selectie dintr-o populatie 𝑋 cu odistributie Poisson, adica cu densitatea de repartitie:

𝑃 (𝑋 = 𝑘) =

{𝑒−𝜆 𝜆𝑘

𝑘! , if 𝑘 = 0, 1, . . .

0, otherwise

Estimati parametrul 𝜆 folosind metoda momentelor.

16