what is hypothesis testing?ileana.brudiu.ro/mvr/an ii mvr/lectia 8/statistica...3. statistica...

21
STATISTICA Statistica este ștința colectării și interpretării datelor. Ramuri: Statistica descriptivă Statistica inferențială Statistici, știința colectării, analizei, prezentării și interpretării datelor. Ramuri: Statisti

Upload: others

Post on 17-Feb-2021

6 views

Category:

Documents


0 download

TRANSCRIPT

  • STATISTICA

    Statistica este ștința colectării și interpretării datelor.

    Ramuri:

    • Statistica descriptivă

    • Statistica inferențială

    Statistici, știința colectării, analizei, prezentării și interpretării datelor. Ramuri: Statisticile descriptive Statistici d

  • STATISTICA DESCRIPTIVĂ

    INSTRUMENTELE STATISTICII DESCRIPTIVE

    Statisticile descriptive folosesc frecvent următoarele “unelte statistice” pentru a

    descrie grupurile:

    • Tendință centrală: utilizați media sau mediana pentru a localiza centrul setului de

    date. Această măsură vă arată unde se ăsesc cele mai multe valori.

    • Dispersie: Cât de departe se extind datele din centru? Puteți utiliza intervalul de

    încredere sau abaterea standard pentru a măsura dispersia. O dispersie redusă

    indică faptul că valorile se strâng mai strâns în jurul centrului. O dispersie mai mare

    înseamnă că punctele de date se îndepărtează mai mult de centru.

    • Asimetrie și boltirea: spune dacă distribuția valorilor este simetrică, înclinată, plată

    sau ascuțită

    Statisticile descriptive sunt rezumate tabelare, grafice sau numerice

    a datelor observate

  • STATISTIC INFERENTIALĂ A

    Statisticile inferențiale se folosesc de datele dintr-un eșantion și fac inferențe despre populația din care au fost extras eșantionul

    Statistica descriptivă descrie date (de

    exemplu, o diagramă sau un grafic), iar

    statisticile inferențiale vă permit să faceți

    predicții („inferențe”) din acele date.

    Cu statistici inferențiale, luați date din

    eșantioane și faceți generalizări despre o

    populație

    Statisticile inferențiale sunt atunci când luați date dintr-un eșantion și faceți o

    predicție care are impact asupra unei populații.

    Pentru a obține o analiză exactă, va trebui să identificați populația pe care o

    măsurați, să creați un eșantion pentru acea populație și să faceți măsurător. Datele

    observate prin intermediul uneltelor utilizate de statistica inferențială permit predicții

    pentru întreaga populație.

  • EXISTĂ DOUĂ DOMENII PRINCIPALE ALE STATISTICII INFERENȚIALE:

    1. Estimarea parametrilor. Aceasta înseamnă să luați o statistică din datele de eșantionare (de exemplu, media eșantionului) și să o utilizați pentru a spuneceva despre un parametru al populației (adică media populației).

    2. Verificarea ipotezelor statistice cu ajutorul testelor . Aici puteți utiliza exemple de date pentru a răspunde la întrebări de cercetare. De exemplu, s-ar putea să fiți interesat să știți dacă un nou medicament împotriva cancerului este eficient.

    Aici puteți utiliza exemple de date pentru a răspunde la întrebări de cercetare.

  • Să presupunem că aveți date privind procentul de grăsime din lapte într-un eșantion de vaci.

    Utilizați statistici descriptive pentru a descrieeșantionul:

    • medie

    • deviație standard

    • histograma

    Histograma datelor

    grupate

  • Cu statistici inferențiale, se pornește de la datele măsurate pe un eșantion prelevat din populație și încercați sădeterminați dacă datele pot prezicedacă procentul de grăsime din lapteva funcționa pentru întreagapopulație.

    Deoarece scopul statisticilor inferențiale este de a trage concluzii dintr-

    un eșantion și de a le generaliza la o populație, trebuie să avem

    încredere că eșantionul nostru reflectă cu precizie populația.

    Această cerință ne afectează procesul. La un nivel larg, trebuie să

    facem următoarele:

    1. Definiți populația pe care o studiem.

    2. Determinați un eșantion reprezentativ din acea populație.

    3. Utilizați analize care încorporează eroarea de eșantionare.

  • INSTRUMENTE STANDARD DE ANALIZĂ A STATISTICILOR INFERENȚIALE

    Cele mai frecvente metodologii din statisticile inferențiale sunt:

    • teste de ipoteză,

    • intervale de încredere,

    • analiza regresiei.

  • INTERVALUL DE ÎNCREDERE (CI)

    În statisticile inferențiale, un obiectiv principal este estimarea parametrilor

    populației.

    Acești parametri sunt valorile necunoscute pentru întreaga populație, cum ar fi

    media populației și abaterea standard.

    Aceste valori ale parametrilor nu sunt doar necunoscute, ci aproape întotdeauna

    de necunoscut. De obicei, este imposibil să se măsoare o întreagă populație.

  • INTERVALUL DE ÎNCREDERE

    Statisticienii folosesc un interval de încredere pentru a exprima precizia și incertitudineaasociate cu o anumită metodă de eșantionare.

    Un interval de încredere constă din trei părți.

    1. Un nivel de încredere.

    2. O statistică.

    3. O marjă de eroare.

    Nivelul de încredere descrie incertitudinea unei metode de eșantionare.

    Statistica și marja de eroare definesc o estimare a intervalului care descrie preciziametodei.

    Un interval de încredere este definit de:

    MEDIA+ MARJA DE EROARE

    Partea de probabilitate a unui interval de încredere se numește nivel de încredere.

    Nivelul de încredere descrie cât de puternic credem că o anumită metodă de eșantionareva produce un interval de încredere care include parametrul real al populației. 9

  • ANALIZA DE REGRESIE

    Analiza de regresie descrie relația dintre un set de variabile

    independente și o variabilă dependentă.

    Această analiză încorporează teste STAISTICE care ajută la

    determinarea dacă relațiile observate în datele eșantionului există

    de fapt în populație.

  • CE ESTE O IPOTEZĂ STATISTICĂ

    O ipoteză este o presupunere educată despre ceva din lumea din

    jur.

    Ar trebui să poată fi testat, fie prin experiment, fie prin observare.

    De exemplu:

    Un medicament nou, despre care credeți că ar putea funcționa.

    De exemplu, dacă studiem eficacitatea unui nou medicament comparând rezultatele

    unui grup de tratament și de control, testele de ipoteză ne pot spune dacă efectul

    medicamentului pe care îl observăm în eșantion este probabil să existe în populație.

    La urma urmei, nu vrem să folosim medicamentul dacă este eficient numai în

    eșantionul nostru specific. În schimb, avem nevoie de dovezi că vor fi utile pentru

    întreaga populație de pacienți. Testele de ipoteză ne permit să tragem aceste tipuri de

    concluzii despre populații întregi.

  • TESTE DE IPOTEZĂ

    Testele de ipoteză utilizează date de eșantion pentru a răspunde la

    întrebări precum următoarele:

    1. Este MEDIA POPULAȚIEI mai mare sau mai mică decât o anumită

    valoare?

    2. Sunt MEDIANELE a două sau mai multe populații diferite între ele?

  • CE SUNT TESTELE STATISTICE DE IPOTEZĂ

    ⚫O ipoteză statistică este o presupunere despre un parametru al populației.

    Această presupunere poate fi sau nu adevărată.

    ⚫Testarea ipotezei se referă la procedurile formale utilizate de statisticieni

    pentru a accepta sau respinge ipotezele statistice.

  • CE ESTE O IPOTEZĂ (statistică)

    Dacă doriți să propuneți o ipoteză, este obișnuit să scrieți o declarație. Declarația dvs. va arăta astfel: „Dacă eu… (faceți asta cu o variabilăindependentă)… atunci (acest lucru se va întâmpla cu variabiladependentă).” De exemplu:

    ▪ Dacă eu (scad cantitatea de apă dată plantelor) atunci (plantele vorcrește în dimensiune).

    ▪ Dacă eu (dau pacienți consiliere în plus față de medicamente) atunci(scara lor globală de depresie va scădea).

    ▪ Dacă eu (dau examene la prânz în loc de dimineață) atunci (scoruriletestelor elevilor se vor îmbunătăți).

    ▪ Dacă eu (caut în această anumită locație) atunci (sunt mai probabilsă găsesc specii noi)

  • IPOTEZE STATISTICE

    Cel mai bun mod de a determina dacă o ipoteză statistică este adevărată ar fi

    examinarea întregii populații. Deoarece acest lucru este adesea impracticabil,

    cercetătorii examinează de obicei un eșantion aleatoriu din populație.

    Dacă datele eșantionului nu sunt în concordanță cu ipoteza statistică, ipoteza

    este respinsă.

  • IPOTEZE STATISTICE

    Există două tipuri de ipoteze statistice.

    Ipoteza nulă.

    Ipoteza nulă, notată cu H0, este de obicei ipoteza că observațiile

    eșantionului rezultă pur din întâmplare.

    Ipoteză alternativă.

    Ipoteza alternativă, notată cu H1 sau Ha, este ipoteza că observațiile

    eșantionului sunt influențate de o cauză non-aleatorie.

  • IPOTEZE STATISTICE

    De exemplu, să presupunem că vrem să stabilim dacă atunci când aruncăm o

    monedă cade pe cap sau pajură.

    O ipoteză nulă ar putea fi că jumătate din aruncări ar avea ca rezultat CAP și

    jumătate, în PAJURĂ.

    Ipoteza alternativă ar putea fi că numărul de CAP și PAJURĂ ar fi foarte diferit.

    Simbolic, aceste ipoteze ar fi exprimate ca:

    H0: P = 0,5

    Ha: P ≠ 0,5

    Să presupunem că am aruncăm moneda de 50 de ori, rezultând 40 de CAP și

    10 PAJURĂ. Având în vedere acest rezultat, am fi înclinați să respingem

    ipoteza nulă. Am concluziona, pe baza dovezilor, că moneda are o defecțiune

    nu a fost probabil echitabilă și echilibrată.

  • TESTE DE IPOTEZA

    Statisticienii urmează un proces formal pentru a determina dacă să respingă o

    ipoteză nulă, pe baza datelor eșantionului.

    Acest proces, numit testarea ipotezelor, constă în patru etape:

    1. Prezentarea ipotezele. Aceasta implică formularea ipotezelor nule și

    alternative. Ipotezele sunt enunțate în așa fel încât să se excludă reciproc.

    Adică, dacă una este adevărată, cealaltă trebuie să fie falsă.

    2. Formulează un plan de analiză. Planul de analiză descrie modul de utilizare a

    eșantionului de date pentru a verifica ipoteza nulă. Verificarea se

    concentrează adesea pe o singură statistică de testare.

    3. Statistica descriptivă asupra eșantionului. Aflarea statisticilor (medie,

    dispersie) pentru eșantion.

    4. Interpretează rezultatele. Aplicați regula de decizie descrisă în planul de

    analiză. Dacă valoarea statisticii testului este puțin probabilă, pe baza

    ipotezei nule, respingeți ipoteza nulă.

  • REGULI DE DECIZIE

    Planul de analiză include reguli de decizie pentru respingerea ipotezei

    nule.

    În practică, statisticienii descriu aceste reguli de decizie în două moduri -

    cu referire la o valoare P sau cu referire la o regiune de acceptare.

    Valoarea P.

    Puterea dovezilor în sprijinul unei ipoteze nule este măsurată de valoarea

    P. Să presupunem că statistica testului este egală cu S. Valoarea P este

    probabilitatea de a observa o statistică de test la fel de extremă ca S,

    presupunând că hipoteza nulă este adevărată. Dacă valoarea P este mai

    mică decât nivelul de semnificație, respingem ipoteza nulă.

    Regiunea de acceptare. Regiunea de acceptare este o gamă de valori.

    Dacă statistica testului se încadrează în regiunea de acceptare, ipoteza

    nulă nu este respinsă. Regiunea de acceptare este definită astfel încât

    șansa de a face o eroare de tip I să fie egală cu nivelul de semnificație.

  • ERORI DE DECIZIE

    Două tipuri de erori pot rezulta dintr-un test de ipoteză.

    Eroare de tip I.

    O eroare de tip I apare atunci când cercetătorul respinge o ipoteză nulă

    atunci când este adevărată. Probabilitatea de a comite o eroare de tip I se

    numește nivel de semnificație. Această probabilitate se mai numește alfa și

    este adesea notată cu α.

    Eroare de tip II.

    O eroare de tip II apare atunci când cercetătorul nu reușește sărespingă o ipoteză nulă care este falsă. Probabilitatea de a comite o eroare de tip II se numește beta și este adesea notată cu β. Probabilitatea de a nu comite o eroare de tip II se numește Putereatestului.

  • REGULI DE DECIZIE

    Setul de valori în afara regiunii de acceptare se numește

    regiunea de respingere.

    Dacă statistica testului se încadrează în regiunea de

    respingere, ipoteza nulă este respinsă. În astfel de cazuri,

    spunem că ipoteza a fost respinsă la nivelul de semnificație α.

    Aceste abordări sunt echivalente. Unele texte statistice

    folosesc abordarea valorii P; alții folosesc abordarea regiunii

    de acceptare.