erori statistice puterea testului statistic mărimea efectului · pdf filetestul bilateral...

39
Erori statistice Puterea testului statistic Mărimea efectului Erori statistice Puterea testului statistic Mărimea efectului Marian Popa 2011

Upload: ngonga

Post on 06-Feb-2018

228 views

Category:

Documents


0 download

TRANSCRIPT

Erori statistice

Puterea testului statistic

Mărimea efectului

Erori statistice

Puterea testului statistic

Mărimea efectului

Marian Popa

2011

Adoptarea deciziei statistice Adoptarea deciziei statistice Am respins H0 pentru că valoarea calculată a testului

a fost mai mare decât valoarea criticăAm fi admis H0 dacă valoarea calculată a testului era

mai mică decât valoarea critică

Raportarea la un criteriu pentru evaluarea rezultatului pe eşantion Raportarea la un criteriu pentru evaluarea rezultatului pe eşantion

z critic corespunzător lui alfa=0.05 pe curba normală

Colectarea şi analiza descriptivă a datelorColectarea şi analiza descriptivă a datelorSelectarea eşantionului, aplicarea unui test de inteligenţă

Alegerea nivelului de semnificaţie (alfa)Alegerea nivelului de semnificaţie (alfa)0.05; 0.01; 0.001

Enunţarea ipotezei de nul (H0)Enunţarea ipotezei de nul (H0)QI mediu al elevilor olimpici nu este mai mare (diferit)

Enunţarea ipotezei cercetării (H1)Enunţarea ipotezei cercetării (H1)

QI mediu al elevilor olimpici este mai mare

... cum înţelegem rezultatul?

Fiecare elev olimpic este mai inteligent decât unul ne-olimpic?Fiecare elev olimpic este mai inteligent decât unul ne-olimpic?

• Nu, doarece sunt comparate mediile

Elevii olimpici sunt în mod sigur mai inteligenţi decât elevii în general?Elevii olimpici sunt în mod sigur mai inteligenţi decât elevii în general?

• Nu, deoarece pe curba normală (ipoteza de nul) este posibilă o medie QI mai mare decât a olimpicilor

... ce am testat de fapt?

Posibilitatea ca H1 să fie adevărată?

(“olimpicii sunt mai inteligenţi”)

Posibilitatea ca H1 să fie adevărată?

(“olimpicii sunt mai inteligenţi”)

• NU, deoarece testul se referă în mod direct la H0

Am testat probabilitatea ca H1 să fie falsă

(“olimpicii nu sunt mai inteligenţi”)

Am testat probabilitatea ca H1 să fie falsă

(“olimpicii nu sunt mai inteligenţi”)

• Decizia privind H1 este derivată din H0

...o analogieCăutăm aur într-un un munte (populaţia)Căutăm aur într-un un munte (populaţia)

• H1=există aur (exploatabil)

• H0=nu există aur (exploatabil)

Fixăm o “valoare critică” corespunzătoare unei probabilităţi de maxim 0.05 ca o anumită

cantitate de aur să se afle oriunde pe pamânt (”concentrație naturală” - H0)

Fixăm o “valoare critică” corespunzătoare unei probabilităţi de maxim 0.05 ca o anumită

cantitate de aur să se afle oriunde pe pamânt (”concentrație naturală” - H0)

Excavăm o cantitate de pământ (eşantion)Excavăm o cantitate de pământ (eşantion)

Măsurăm cantitatea de aur şi descoperim o anumită concentraţie de aurMăsurăm cantitatea de aur şi descoperim o anumită concentraţie de aur

Admitem H0 dacă eșantionul are o concentrație mai mică decât cea “naturală” (H0)Admitem H0 dacă eșantionul are o concentrație mai mică decât cea “naturală” (H0)

• Dar dacă am avut “ghinion” când am selectat zona de explorare?

Respingem H0 dacă eșantionul are o concentraţia egală sau mai mare decât cea “naturală”Respingem H0 dacă eșantionul are o concentraţia egală sau mai mare decât cea “naturală”

• Dar dacă am avut “noroc” când am selectat zona de explorare?

Rezultă că în orice situație decizia privind H0 presupune un risc de eroareRezultă că în orice situație decizia privind H0 presupune un risc de eroare

Erori statistice

Se referă la eroarea deciziei statistice în raport cu “realitatea vieţii”, nu la aplicarea greşită a procedurii de testare.

Se referă la eroarea deciziei statistice în raport cu “realitatea vieţii”, nu la aplicarea greşită a procedurii de testare.

În raport cu „realitatea vieţii”, decizia cu privire la ipoteza de nul poate fi corectă sau greşită

În raport cu „realitatea vieţii”, decizia cu privire la ipoteza de nul poate fi corectă sau greşită

Cercetătorul nu poate şti cu certitudine dacă decizia statistică este corectă sau este greşită (dacă ar putea ști, nu ar mai avea nevoie de statistică)

Cercetătorul nu poate şti cu certitudine dacă decizia statistică este corectă sau este greşită (dacă ar putea ști, nu ar mai avea nevoie de statistică)

De

cizi

a s

tati

stic

ă

Acceptarea H0

(olimpicii NU SUNT mai inteligenţi)

“Adevărul vieţii” (necunoscut)

1. decizie corectă

p=1-alfa

H0 este adevărată

(olimpicii NU SUNT mai inteligenţi)

Respingerea H0

(olimpicii SUNT mai inteligenţi)

H0 este falsă

(olimpicii SUNT mai inteligenţi)

3. decizie corectă

p=1-beta (power)

2. eroare de tip I

P=alfa

4. eroare de tip II

p=beta

decizia statistică vs. “adevărul vieţii”

Eroarea statistică de tip IRespingem H0 deşi în realitate este adevăratăRespingem H0 deşi în realitate este adevărată

• rezultat fals pozitiv – decidem că olimpicii sunt mai inteligenţi; că există aur... deşi nu este

adevărat

• pE1=alfa; Nivelul maxim acceptat pentru E1=0.05!

Decizia statistică se bazează pe măsura în care eşantionul reprezintă caracteristicile populaţieiDecizia statistică se bazează pe măsura în care eşantionul reprezintă caracteristicile populaţiei

• chiar şi un eşantion selecţionat aleatoriu poate prezenta valori neobişnuit de îndepărtate de parametrii populaţiei

• supunându-ne în mod corect regulilor convenţionale ale deciziei statistice, respingem ipoteza de nul, făcând o eroare de tip I

putem reduce probabilitatea erorii de tip I prin asumarea unei valori mai mici pentru alfa

putem reduce probabilitatea erorii de tip I prin asumarea unei valori mai mici pentru alfa

• acest lucru nu ar fi însă lipsit de consecinţe…

Eroarea de tip I este complementară cu decizia corectă de acceptare a H0, când aceasta este realmente adevăratăEroarea de tip I este complementară cu decizia corectă de acceptare a H0, când aceasta este realmente adevărată

• (1-alfa) reprezintă “nivelul de încredere”

dacă am efectua exact acelaşi experiment de 100 ori, cu alfa=0.05:dacă am efectua exact acelaşi experiment de 100 ori, cu alfa=0.05:

• în 5% din cazuri respingem eronat H0

• în 95% din cazuri acceptăm corect ipoteza de nul

alfa maxim este impus prin convenţie alfa maxim este impus prin convenţie

• eroarea de tip I maximă=5% (0.05)

• nivelul de încredere minim=95% (0.95)

z=0 zcalculat =+1.96

Eroarea de tip I“fals pozitiv”

Nivelul de încredere1-alfa=0.95

zcalculat =-1.96

Eroarea de tip I“fals pozitiv”

p=0.025p=0.025

Eroarea de tip I şi nivelul de încredere

în condiţiile deciziei bilaterale

Eroarea de tip I şi nivelul de încredere

în condiţiile deciziei bilaterale

Eroarea statistică de tip II

Rezultatul testului impune acceptarea H0, deşi în realitate aceasta este falsă

• Muntele conţine în mod real un zăcământ de aur

• Eşantionul nu conţine dovada acestui fapt

• Rezultat fals negativ

• Ca urmare a hazardului eşantionării, diferenţa dintre media eşantionului cercetării şi media populaţiei nu atinge pragul semnificaţiei statistice

Eroarea de tip II este codificată cu beta, și nu poate fi mai mare de 0.30-0.40.

care eroare este mai gravă?

“societatea” (comunitatea ştiinţifică) este interesată să evite respingerea H0 când ea este de fapt adevărată“societatea” (comunitatea ştiinţifică) este interesată să evite respingerea H0 când ea este de fapt adevărată

• evitarea erorii de tip I

• Declararea existenţei unui zăcământ inexistent

cercetătorul este interesat să evite acceptarea H0 când ea este de fapt falsăcercetătorul este interesat să evite acceptarea H0 când ea este de fapt falsă

• eroarea de tip II

• Declararea inexistenţei unui zăcământ existent

ambele sunt “rele”ambele sunt “rele”

• eroare de tip I = se vor consuma resurse pentru exploatarea unui zăcământ nereal (Călimani)

• eroare de tip II = un zăcământ real va rămâne neexploatat

1. Respingerea corectă a ipotezei de nul, urmată de atribuirea incorectă a cauzei (Raiffa)

•interpretare greşită a rezultatului.

•„ceva semnificativ se întâmplă”, dar nu ceea ce crede cercetătorul

•Exemplul clasic este ilustrat de „efectul de noutate”

•Efectul placebo poate fi inclus de asemenea în categoria erorilor de tip III, dar nu toate erorile de tip III sunt de tip placebo

•Nu există metode statistice pentru eliminarea erorii de tip III, în această accepţie

•Singura protecţie vine dinspre calitatea modelului de cercetare

•Pentru evaluarea efectului placebo studiile medicale prevăd protocoale de tip „dublu orb”

2. Rezultatul cercetării conduce la confirmarea unui „efect” sau „relaţii între variabile”, dar sensul (direcţia) efectului este greşit interpretat.

•Rezultatele cercetării susţin că efectul noii metode de învăţare este superior celei vechi deşi, în realitate, situaţia stă exact invers, concluzia fiind greşită.

• În această accepţie, probabilitatea erorii de tip III este codificată cu litera γ (gamma)

•Unele programe statistice sunt capabile să o estimeze.

Eroarea de tip III se poate manifesta numai în cercetări de tip experimental, singurele care permit concluzii de natură cauzală.

Eroarea de tip III

Puterea testului

Să presupunem că datele cercetării ne impun admiterea H0. Ce poate determina un astfel de rezultat?

1. Ipoteza de nul este în realitate adevărată (ipoteza cercetării este realmente falsă)

• muntele nu conţine aur

2. Ipoteza de nul este în realitate falsă, dar cercetarea nu a fost capabilă să aducă dovada statistică

• zăcământul de aur există, dar explorarea noastră nu a avut suficientă „putere” („sensibilitate”) pentru a surprinde existenţa aurului

• în acest caz, prin acceptarea ipotezei de nul (respingerea ipotezei cercetării) am comis o eroare de tip II.

Puterea testului

Teoretic = „sensibilitatea” unui test statistic (cercetări) de a detecta un efect real (legătură reală) între variabileTeoretic = „sensibilitatea” unui test statistic (cercetări) de a detecta un efect real (legătură reală) între variabile

• „efect real” → modificări ale valorilor unei variabile se regăsesc în modificări ale valorilor celeilalte variabile

Practic = exprimă probabilitatea de a respinge ipoteza de nul atunci când ea este cu adevărat falsăPractic = exprimă probabilitatea de a respinge ipoteza de nul atunci când ea este cu adevărat falsă

• se exprimă ca 1-beta (probabilitatea erorii de tip II)

situaţia cea mai bunei decizii pe care şi-o poate dori un cercetătorsituaţia cea mai bunei decizii pe care şi-o poate dori un cercetător

• să dovedească să confirme ipoteza cercetării (să respingă ipoteza de nul)

Eroarea de tip II şi puterea testului

eroarea de tip II şi puterea testului sunt complementareeroarea de tip II şi puterea testului sunt complementare

cu cât puterea testului este mai mare, cu atât probabilitatea erorii de tip II (acceptarea nejustificată a H0) este mai micăcu cât puterea testului este mai mare, cu atât probabilitatea erorii de tip II (acceptarea nejustificată a H0) este mai mică

• eroarea de tip II : beta=1-puterea testului

dacă puterea unei cercetări este 0.85: probabilitatea erorii de tip II este: 1-0.85=0.15dacă puterea unei cercetări este 0.85: probabilitatea erorii de tip II este: 1-0.85=0.15

dacă puterea cercetării ar fi de 0.15: probabilitatea erorii de

tip II : 1-0.15=0.85 dacă puterea cercetării ar fi de 0.15: probabilitatea erorii de

tip II : 1-0.15=0.85

Metode de creştere a puterii testuluiMetode de creştere a puterii testului

• Scade eroarea standard creşterea volumului eşantionului (N)

• „efectul” variabilei independente se manifestă mai puternic pe grupurile de subiecţi aflate la extremităţile scalei de măsurare a variabilei dependente decât pe valorile întregii scale

• dacă împrăştierea datelor de cercetare este mică, atunci puterea testului de a surprinde un efect semnificativ se reduce.

maximizarea variabilităţii primare, aceea care decurge ca urmare a „efectului” unei variabile

asupra celeilalte

• utilizarea unor proceduri de investigare adecvate

• controlul şi eliminarea surselor de eroare;

• tratarea identică a tuturor subiecţilor cercetării;

• selectarea aleatoare a eşantioanelor

• eliminarea surselor de selecţie „părtinitoare” (bias).

Reducerea erorilor de măsurare

• modelele de cercetare within-subjects (intra-subiect) au mai multă putere decât modelele between-subjects (inter-subiect)

Alegerea modelul de cercetare

• ori de câte ori este justificabil, se va opta pentru test unilateral, chiar dacă, în practică, testul bilateral este cel uzual

Testul bilateral reduce probabilitatea erorii de

tip I, dar creşte probabilitatea erorii de tip II şi, implicit, reduce puterea

• utilizarea acestora din urmă se va face doar atunci când este absolut necesar (în conformitate cu condiţiile de aplicare)

• nu se va renunţa cu uşurinţă la un test parametric, dacă datele cercetării sunt măsurate pe scală cantitativă.

Testele parametrice prezintă o putere statistică mai mare decât cele neparametrice

cât de multă putere?

prea multă putere este tot atât de nedorit ca şi prea puţină prea multă putere este tot atât de nedorit ca şi prea puţină

dacă mărim puterea reducem probabilitatea erorii de tip II, dar creştem probabilitatea erorii de tip I

dacă mărim puterea reducem probabilitatea erorii de tip II, dar creştem probabilitatea erorii de tip I

• un studiu cu putere mare (cu N foarte mare), are probabilitate mai mare de a respinge ipoteza de nul, chiar dacă aceasta este adevărată (eroare de tip I)

ThompsonThompson

• „... testul statistic devine o căutare tautologică pentru suficienţi

participanţi în măsură să atingă semnificaţia statistică”

calitatea deciziei statistice reprezintă rezultatul unei „negocieri” între nivelul acceptat pentru erorile de tip I şi IIcalitatea deciziei statistice reprezintă rezultatul unei „negocieri” între nivelul acceptat pentru erorile de tip I şi II

• Eroare de Jp I MICA → Putere MICĂ → eroare de Jp II MARE

să presupunem că studiul din exemplul nostru este efectuat identic de doi cercetătorisă presupunem că studiul din exemplul nostru este efectuat identic de doi cercetători

• unul dintre ei îşi fixează nivelul lui alfa la 0.05

• al doilea la 0.01

dacă rezultatului îi corespunde un p=0.03dacă rezultatului îi corespunde un p=0.03

• primul respinge H0

• al doilea este nevoit să accepte H0 (risc mai mare pt. E II)

utilizarea analizei de putereÎn faza premergătoare a unei cercetări În faza premergătoare a unei cercetări

• pentru a evalua şansa de a obţine un rezultat semnificativ statistic

• cât de mică poate fi puterea unei cercetări pentru a accepta efectuarea ei?

• 0.5 este prea puţin pentru a investi timp şi bani

• 0.7, care corespunde unei probabilităţi de 0.3 pentru eroarea de tip II, este considerată ca fiind minimă

• 0.8 este considerat cel mai bun compromis între nivelul puterii şi consecinţele ei negative

După efectuarea unei cercetări După efectuarea unei cercetări

• care este probabilitatea ca rezultatul acesteia să indice un „efect real” al variabilei independente asupra variabilei dependente

GPower... GPower...

Mărimea efectului

semnificaţia statistică nu spune nimic despre intensitatea relaţiei (efectului) dintre variabile

Să considerăm că rezultatul explorării muntelui presupus aurifer conduce la respingerea ipotezei de nul

• geologii concluzionează că eşantionul conţine aur într-o proporţie „semnificativă”

• înseamnă oare acest lucru că muntele conţine „mult aur”?

• NU! Înseamnă că acea concentrație de aur din eşantion are o probabilitate prea

mică să fie acolo din întâmplare

• CÂT DE MARE este cantitatea de aur nu putem şti doar pe baza testului de semnificaţie statistică

“mărimea efectului” răspunde acestei întrebări

indici de mărime a efectului

indici care se bazează pe diferenţa standardizată dintre mediiindici care se bazează pe diferenţa standardizată dintre medii

• „d” al lui Cohen, „delta” al lui Glass, „g” al lui Hedges;

r, r2 (coeficientul de determinare), eta pătrat, omega pătratr, r2 (coeficientul de determinare), eta pătrat, omega pătrat

unii sunt oferiţi de SPSS, alţii de alte programeunii sunt oferiţi de SPSS, alţii de alte programe

Calcularea lui d pentru testul z(t) pentru un singur eşantion

• m=media eşantionului

• μ=media populaţiei

• σ=abaterea standard a populaţiei (se poate utiliza s)

σ

µ−=m

d

d (Cohen)

0.20

mic

0.50

mediu

0.80

mare

4.015

100106=

−=d

Suprapunerea distribuţiilor comparate, ca

expresie a mărimii efectului

Creşterea mărimii efectului reduce suprapunerea distribuţiilorCreşterea mărimii efectului reduce suprapunerea distribuţiilor

Raportarea mărimii efectului

Testarea ipotezei de nul este supusă unor critici puternice

American Psychological Association a organizat un grup de lucru având ca obiect elaborarea unor recomandări cu privire la raportarea rezultatelor statistice (Wilkinson&APA Task Force on Statistical Inference, 1999)

• „raportarea şi interpretarea mărimii efectului (...) este esenţială pentru o cercetare bună”

raportarea şi interpretarea mărimii efectului prezintă trei avantaje importante:

• facilitează studiile de metaanaliză (studii care sintetizează rezultatele mai multor cercetări pe aceeaşi temă);

• facilitează formularea unor ipoteze cu un grad mai mare de specificitate de către cercetătorii care vor studia aceeaşi temă;

• facilitează integrarea rezultatului unei cercetări în literatura dedicată acelui subiect,

Interdependenţa erorilor statistice cu puterea testului şi mărimea

efectului

Interdependenţa erorilor statistice cu puterea testului şi mărimea

efectului

mărimea efectuluiDistribuţia

H1

Distribuţia

H0

Nivelul de

încredere

(1-alfa)

Puterea

(1-beta)

Eroarea de tip I

(alfa)

Pragul de decizie

(valoarea critică)

Eroarea de tip II

(beta)

µH0 µH1

mărimea efectului

=

Nivelul de încredere

(eroarea de tip II)

(1-alfa)

-

Puterea

(1-beta)

+

Eroarea de tip I

(alfa)

+

µH0 µH1

mărimea efectului

Crește

Nivelul de încredere

(eroarea de tip II)

(1-alfa)

același

Puterea

(1-beta)

+

Eroarea de tip I

(alfa)

aceeași

µH0 µH1

Eroarea de

tip II

scade

=

Important...

La interpretarea rezultatului trebuie să ţinem cont

•de nivelul de semnificaţie

•de puterea testului

•de mărimea efectului

Rezultat

semnificativ

statistic?

(se respinge H0?)

Volumul

eşantionuluiConcluzii

DA MIC

•Rezultat important.

•Chiar dacă puterea testului este mică, din cauza

volumului redus al eşantionului, existenţa unui rezultat

semnificativ arată o mărime a efectului importantă.

DA MARE

•Rezultatul poate fi important sau nu:

�semnificaţia poate rezulta din puterea ridicată a

testului, ca urmare a volumului mare al eşantionului

SAU

�poate fi expresia unei diferenţe importante dintre

populaţiile comparate

NU MIC

•Rezultatul este neconcludent. Absenţa semnificaţiei

statistice se poate datora:

�faptului că ipoteza cercetării este falsă

SAU

�puterii reduse a testului, ca urmare a eşantionului prea

mică

NU MARE

•Ipoteza cercetării este probabil falsă din cauză că, în

ciuda puterii ridicate (eşantion mare), rezultatul nu a

atins nivelul semnificaţiei statistice.

•Mărimea efectului este foarte mică

Testarea ipotezei de nul- varianta extinsă -

1. Enunţarea ipotezei de nul (H0)1. Enunţarea ipotezei de nul (H0)

2. Enunţarea ipotezei cercetării (H1)2. Enunţarea ipotezei cercetării (H1)

3. Alegerea nivelului de semnificaţie (alfa)3. Alegerea nivelului de semnificaţie (alfa)

5. Colectarea şi analiza descriptivă a datelor5. Colectarea şi analiza descriptivă a datelor

6. Raportarea la un criteriu pentru evaluarea rezultatului pe eşantion6. Raportarea la un criteriu pentru evaluarea rezultatului pe eşantion

7. Adoptarea deciziei statistice (reţinerea sau respingerea H0)7. Adoptarea deciziei statistice (reţinerea sau respingerea H0)

8. Calcularea mărimii efectului8. Calcularea mărimii efectului

• indicele de intensitate a asocierii (r2, eta2 omega2, )

• d Cohen

• estimarea puterii testului

Concluzii

interpretarea testului statistic nu este completă fără discuţia în jurul erorilor statistice, puterii testului şi mărimii efectuluiinterpretarea testului statistic nu este completă fără discuţia în jurul erorilor statistice, puterii testului şi mărimii efectului

în ultimii ani, din ce în ce mai mult se atrage atenţia asupra faptului că limitarea rezultatelor la raportarea semnificaţiei statistice nu este suficientă

în ultimii ani, din ce în ce mai mult se atrage atenţia asupra faptului că limitarea rezultatelor la raportarea semnificaţiei statistice nu este suficientă

American Psychological Association (2001)American Psychological Association (2001)

• recomană publicarea, alături de semnificaţia statistică, a mărimii efectului şi limitelor de încredere

• din ce în ce mai multe reviste de specialitate care se respectă pretind includerea acestui indice în completarea semnificaţiei statistice