what is hypothesis testing?ileana.brudiu.ro/mvr/an ii mvr/lectia 8/statistica...3. statistica...

STATISTICA

Statistica este ștința colectării și interpretării datelor.

Ramuri:

• Statistica descriptivă

• Statistica inferențială

Statistici, știința colectării, analizei, prezentării și interpretării datelor. Ramuri: Statisticile descriptive Statistici d

STATISTICA DESCRIPTIVĂ

INSTRUMENTELE STATISTICII DESCRIPTIVE

Statisticile descriptive folosesc frecvent următoarele “unelte statistice” pentru a

descrie grupurile:

• Tendință centrală: utilizați media sau mediana pentru a localiza centrul setului de

date. Această măsură vă arată unde se ăsesc cele mai multe valori.

• Dispersie: Cât de departe se extind datele din centru? Puteți utiliza intervalul de

încredere sau abaterea standard pentru a măsura dispersia. O dispersie redusă

indică faptul că valorile se strâng mai strâns în jurul centrului. O dispersie mai mare

înseamnă că punctele de date se îndepărtează mai mult de centru.

• Asimetrie și boltirea: spune dacă distribuția valorilor este simetrică, înclinată, plată

sau ascuțită

Statisticile descriptive sunt rezumate tabelare, grafice sau numerice

a datelor observate

STATISTIC INFERENTIALĂ A

Statisticile inferențiale se folosesc de datele dintr-un eșantion și fac inferențe despre populația din care au fost extras eșantionul

Statistica descriptivă descrie date (de

exemplu, o diagramă sau un grafic), iar

statisticile inferențiale vă permit să faceți

predicții („inferențe”) din acele date.

Cu statistici inferențiale, luați date din

eșantioane și faceți generalizări despre o

populație

Statisticile inferențiale sunt atunci când luați date dintr-un eșantion și faceți o

predicție care are impact asupra unei populații.

Pentru a obține o analiză exactă, va trebui să identificați populația pe care o

măsurați, să creați un eșantion pentru acea populație și să faceți măsurător. Datele

observate prin intermediul uneltelor utilizate de statistica inferențială permit predicții

pentru întreaga populație.

EXISTĂ DOUĂ DOMENII PRINCIPALE ALE STATISTICII INFERENȚIALE:

1. Estimarea parametrilor. Aceasta înseamnă să luați o statistică din datele de eșantionare (de exemplu, media eșantionului) și să o utilizați pentru a spuneceva despre un parametru al populației (adică media populației).

2. Verificarea ipotezelor statistice cu ajutorul testelor . Aici puteți utiliza exemple de date pentru a răspunde la întrebări de cercetare. De exemplu, s-ar putea să fiți interesat să știți dacă un nou medicament împotriva cancerului este eficient.

Aici puteți utiliza exemple de date pentru a răspunde la întrebări de cercetare.

Să presupunem că aveți date privind procentul de grăsime din lapte într-un eșantion de vaci.

Utilizați statistici descriptive pentru a descrieeșantionul:

• medie

• deviație standard

• histograma

Histograma datelor

grupate

Cu statistici inferențiale, se pornește de la datele măsurate pe un eșantion prelevat din populație și încercați sădeterminați dacă datele pot prezicedacă procentul de grăsime din lapteva funcționa pentru întreagapopulație.

Deoarece scopul statisticilor inferențiale este de a trage concluzii dintr-

un eșantion și de a le generaliza la o populație, trebuie să avem

încredere că eșantionul nostru reflectă cu precizie populația.

Această cerință ne afectează procesul. La un nivel larg, trebuie să

facem următoarele:

1. Definiți populația pe care o studiem.

2. Determinați un eșantion reprezentativ din acea populație.

3. Utilizați analize care încorporează eroarea de eșantionare.

INSTRUMENTE STANDARD DE ANALIZĂ A STATISTICILOR INFERENȚIALE

Cele mai frecvente metodologii din statisticile inferențiale sunt:

• teste de ipoteză,

• intervale de încredere,

• analiza regresiei.

INTERVALUL DE ÎNCREDERE (CI)

În statisticile inferențiale, un obiectiv principal este estimarea parametrilor

populației.

Acești parametri sunt valorile necunoscute pentru întreaga populație, cum ar fi

media populației și abaterea standard.

Aceste valori ale parametrilor nu sunt doar necunoscute, ci aproape întotdeauna

de necunoscut. De obicei, este imposibil să se măsoare o întreagă populație.

INTERVALUL DE ÎNCREDERE

Statisticienii folosesc un interval de încredere pentru a exprima precizia și incertitudineaasociate cu o anumită metodă de eșantionare.

Un interval de încredere constă din trei părți.

1. Un nivel de încredere.

2. O statistică.

3. O marjă de eroare.

Nivelul de încredere descrie incertitudinea unei metode de eșantionare.

Statistica și marja de eroare definesc o estimare a intervalului care descrie preciziametodei.

Un interval de încredere este definit de:

MEDIA+ MARJA DE EROARE

Partea de probabilitate a unui interval de încredere se numește nivel de încredere.

Nivelul de încredere descrie cât de puternic credem că o anumită metodă de eșantionareva produce un interval de încredere care include parametrul real al populației. 9

ANALIZA DE REGRESIE

Analiza de regresie descrie relația dintre un set de variabile

independente și o variabilă dependentă.

Această analiză încorporează teste STAISTICE care ajută la

determinarea dacă relațiile observate în datele eșantionului există

de fapt în populație.

CE ESTE O IPOTEZĂ STATISTICĂ

O ipoteză este o presupunere educată despre ceva din lumea din

jur.

Ar trebui să poată fi testat, fie prin experiment, fie prin observare.

De exemplu:

Un medicament nou, despre care credeți că ar putea funcționa.

De exemplu, dacă studiem eficacitatea unui nou medicament comparând rezultatele

unui grup de tratament și de control, testele de ipoteză ne pot spune dacă efectul

medicamentului pe care îl observăm în eșantion este probabil să existe în populație.

La urma urmei, nu vrem să folosim medicamentul dacă este eficient numai în

eșantionul nostru specific. În schimb, avem nevoie de dovezi că vor fi utile pentru

întreaga populație de pacienți. Testele de ipoteză ne permit să tragem aceste tipuri de

concluzii despre populații întregi.

TESTE DE IPOTEZĂ

Testele de ipoteză utilizează date de eșantion pentru a răspunde la

întrebări precum următoarele:

1. Este MEDIA POPULAȚIEI mai mare sau mai mică decât o anumită

valoare?

2. Sunt MEDIANELE a două sau mai multe populații diferite între ele?

CE SUNT TESTELE STATISTICE DE IPOTEZĂ

⚫O ipoteză statistică este o presupunere despre un parametru al populației.

Această presupunere poate fi sau nu adevărată.

⚫Testarea ipotezei se referă la procedurile formale utilizate de statisticieni

pentru a accepta sau respinge ipotezele statistice.

CE ESTE O IPOTEZĂ (statistică)

Dacă doriți să propuneți o ipoteză, este obișnuit să scrieți o declarație. Declarația dvs. va arăta astfel: „Dacă eu… (faceți asta cu o variabilăindependentă)… atunci (acest lucru se va întâmpla cu variabiladependentă).” De exemplu:

▪ Dacă eu (scad cantitatea de apă dată plantelor) atunci (plantele vorcrește în dimensiune).

▪ Dacă eu (dau pacienți consiliere în plus față de medicamente) atunci(scara lor globală de depresie va scădea).

▪ Dacă eu (dau examene la prânz în loc de dimineață) atunci (scoruriletestelor elevilor se vor îmbunătăți).

▪ Dacă eu (caut în această anumită locație) atunci (sunt mai probabilsă găsesc specii noi)

IPOTEZE STATISTICE

Cel mai bun mod de a determina dacă o ipoteză statistică este adevărată ar fi

examinarea întregii populații. Deoarece acest lucru este adesea impracticabil,

cercetătorii examinează de obicei un eșantion aleatoriu din populație.

Dacă datele eșantionului nu sunt în concordanță cu ipoteza statistică, ipoteza

este respinsă.

IPOTEZE STATISTICE

Există două tipuri de ipoteze statistice.

Ipoteza nulă.

Ipoteza nulă, notată cu H0, este de obicei ipoteza că observațiile

eșantionului rezultă pur din întâmplare.

Ipoteză alternativă.

Ipoteza alternativă, notată cu H1 sau Ha, este ipoteza că observațiile

eșantionului sunt influențate de o cauză non-aleatorie.

IPOTEZE STATISTICE

De exemplu, să presupunem că vrem să stabilim dacă atunci când aruncăm o

monedă cade pe cap sau pajură.

O ipoteză nulă ar putea fi că jumătate din aruncări ar avea ca rezultat CAP și

jumătate, în PAJURĂ.

Ipoteza alternativă ar putea fi că numărul de CAP și PAJURĂ ar fi foarte diferit.

Simbolic, aceste ipoteze ar fi exprimate ca:

H0: P = 0,5

Ha: P ≠ 0,5

Să presupunem că am aruncăm moneda de 50 de ori, rezultând 40 de CAP și

10 PAJURĂ. Având în vedere acest rezultat, am fi înclinați să respingem

ipoteza nulă. Am concluziona, pe baza dovezilor, că moneda are o defecțiune

nu a fost probabil echitabilă și echilibrată.

TESTE DE IPOTEZA

Statisticienii urmează un proces formal pentru a determina dacă să respingă o

ipoteză nulă, pe baza datelor eșantionului.

Acest proces, numit testarea ipotezelor, constă în patru etape:

1. Prezentarea ipotezele. Aceasta implică formularea ipotezelor nule și

alternative. Ipotezele sunt enunțate în așa fel încât să se excludă reciproc.

Adică, dacă una este adevărată, cealaltă trebuie să fie falsă.

2. Formulează un plan de analiză. Planul de analiză descrie modul de utilizare a

eșantionului de date pentru a verifica ipoteza nulă. Verificarea se

concentrează adesea pe o singură statistică de testare.

3. Statistica descriptivă asupra eșantionului. Aflarea statisticilor (medie,

dispersie) pentru eșantion.

4. Interpretează rezultatele. Aplicați regula de decizie descrisă în planul de

analiză. Dacă valoarea statisticii testului este puțin probabilă, pe baza

ipotezei nule, respingeți ipoteza nulă.

REGULI DE DECIZIE

Planul de analiză include reguli de decizie pentru respingerea ipotezei

nule.

În practică, statisticienii descriu aceste reguli de decizie în două moduri -

cu referire la o valoare P sau cu referire la o regiune de acceptare.

Valoarea P.

Puterea dovezilor în sprijinul unei ipoteze nule este măsurată de valoarea

P. Să presupunem că statistica testului este egală cu S. Valoarea P este

probabilitatea de a observa o statistică de test la fel de extremă ca S,

presupunând că hipoteza nulă este adevărată. Dacă valoarea P este mai

mică decât nivelul de semnificație, respingem ipoteza nulă.

Regiunea de acceptare. Regiunea de acceptare este o gamă de valori.

Dacă statistica testului se încadrează în regiunea de acceptare, ipoteza

nulă nu este respinsă. Regiunea de acceptare este definită astfel încât

șansa de a face o eroare de tip I să fie egală cu nivelul de semnificație.

ERORI DE DECIZIE

Două tipuri de erori pot rezulta dintr-un test de ipoteză.

Eroare de tip I.

O eroare de tip I apare atunci când cercetătorul respinge o ipoteză nulă

atunci când este adevărată. Probabilitatea de a comite o eroare de tip I se

numește nivel de semnificație. Această probabilitate se mai numește alfa și

este adesea notată cu α.

Eroare de tip II.

O eroare de tip II apare atunci când cercetătorul nu reușește sărespingă o ipoteză nulă care este falsă. Probabilitatea de a comite o eroare de tip II se numește beta și este adesea notată cu β. Probabilitatea de a nu comite o eroare de tip II se numește Putereatestului.

REGULI DE DECIZIE

Setul de valori în afara regiunii de acceptare se numește

regiunea de respingere.

Dacă statistica testului se încadrează în regiunea de

respingere, ipoteza nulă este respinsă. În astfel de cazuri,

spunem că ipoteza a fost respinsă la nivelul de semnificație α.

Aceste abordări sunt echivalente. Unele texte statistice

folosesc abordarea valorii P; alții folosesc abordarea regiunii

de acceptare.

what is hypothesis testing?ileana.brudiu.ro/mvr/an ii mvr/lectia 8/statistica...3. statistica...

Documents