anova one way

9
Analiza de variant , ˘ a uni-factorial˘ a (Anova One-Way) Asist. drd. Adrian Gorb˘ anescu 15 Decembrie 2014 1 Introducere Atunci cˆand am dorit s˘ a compar˘ am nivelul de deschidere al student , ilor (anul I s , i anul III) am utilizat testul t pentru es , antioane independente. Totus , i, ˆ ın analiza statistic˘ a ar putea fi introduse s , i datele student , ilor de anul II. Astfel, ne plas˘ am ˆ ın situat , ia ˆ ın care trebuie s˘a compar˘am trei medii. T , inˆ and cont de cunos , tint , ele pe care le avem, putem evident , ia diferent , ele dintre cele trei grupuri prin compararea grupurilor dou˘ a cˆ ate dou˘ a. O simpl˘ a analiz˘ a ne dovedes , te c˘ a o astfel de strategie aduce mai multe erori: 1. Fiecare aplicarea testului t pentru es , antioane independente pentru a com- para grupurile dou˘a cˆate dou˘ a vine cu o eroare de tip I asumat˘ a de 0,05. Astfel, dac˘a am realiza trei comparat , ii vom face o eroare de tip I de 0,15. 2. Pentru un num˘ ar mai mare de niveluri ale variabilei independete ar trebui realizate mai multe comparat , ii, iar num˘arul calculelor ar deveni prea mare. 3. ˆ Intr-un astfel de studiu ne intereseaz˘ a efectul global al variabilei indepen- dente (prin intermediul tuturor nivelurilor sale) asupra variabilei dependente. Prin urmare ne intereseaz˘a utilizarea unui singur test, care s˘a studieze acest efect global. Testul statistic care reus , es , te s˘a elimine aceste erori este analiza de variant , ˘ a. ˆ In es , ent , ˘ a, analiza de variant , ˘ a este utilizat˘ ın situat , iile ˆ ın care ne dorim s˘ acompar˘am mediile provenite de la mai mult de dou˘a grupuri (cel put , in trei grupuri). ˆ In contextul analizei de variant , ˘ a factoriale variabila independent˘ a se numes , te factor. Valorile pe care le poate lua acesta se numesc niveluri. Variabila inde- pendet˘ a este m˘asurat˘ a pe scal˘a categorial˘ a (nominal˘ a sau ordinal˘a), ˆ ın timp ce variabila dependent˘ a este m˘ asurat˘ a pe scal˘a de interval/raport. Atunci cˆ and avem un design experimental cu un singur factor ne afl˘ am ˆ ın situat , ia ˆ ın care vom folosi analiza de variant , ˘ a unifactorial˘ a. Nu trebie s˘ a omitem faptul c˘a factorul trebuie s˘a aib˘ a cel put , in trei niveluri. Cˆ and cercetarea pe care o construim are dou˘ a variabile independente (doi factori) avem de-a face cu analiza de variant , ˘ a mltifactorial˘ a. ˆ In acest caz, variabila independent˘ a trebuie s˘a aib˘ a cel put , in dou˘a niveluri. Exemple de analiz˘a de variant , ˘ a unifactorial˘ a: efectul fumatului (nefum˘ ator, 1-10 t , ig˘ ari, 11-20 t , ig˘ ari) asupra nivelului de asumare a riscului. atitudinea fat , ˘ a de viitor ˆ ın funct , ie de starea civil˘ a(c˘as˘ atorit, divort , at,v˘aduv). 1

Upload: danieldaniel

Post on 16-Nov-2015

6 views

Category:

Documents


2 download

DESCRIPTION

Anova One Way

TRANSCRIPT

  • Analiza de variant, a uni-factoriala(Anova One-Way)

    Asist. drd. Adrian Gorbanescu

    15 Decembrie 2014

    1 Introducere

    Atunci cand am dorit sa comparam nivelul de deschidere al student, ilor (anul I s, ianul III) am utilizat testul t pentru es,antioane independente. Totus, i, n analizastatistica ar putea fi introduse s, i datele student, ilor de anul II. Astfel, ne plasam nsituat, ia n care trebuie sa comparam trei medii. T, inand cont de cunos,tint,ele pecare le avem, putem evident, ia diferent,ele dintre cele trei grupuri prin comparareagrupurilor doua cate doua. O simpla analiza ne dovedes,te ca o astfel de strategieaduce mai multe erori:

    1. Fiecare aplicarea testului t pentru es,antioane independente pentru a com-para grupurile doua cate doua vine cu o eroare de tip I asumata de 0,05.Astfel, daca am realiza trei comparat, ii vom face o eroare de tip I de 0,15.2. Pentru un numar mai mare de niveluri ale variabilei independete ar trebuirealizate mai multe comparat, ii, iar numarul calculelor ar deveni prea mare.3. Intr-un astfel de studiu ne intereseaza efectul global al variabilei indepen-dente (prin intermediul tuturor nivelurilor sale) asupra variabilei dependente.Prin urmare ne intereseaza utilizarea unui singur test, care sa studieze acestefect global.

    Testul statistic care reus,es,te sa elimine aceste erori este analiza de variant, a. Ines,ent, a, analiza de variant, a este utilizata n situat, iile n care ne dorim sa comparammediile provenite de la mai mult de doua grupuri (cel put, in trei grupuri).

    In contextul analizei de variant, a factoriale variabila independenta se numes,tefactor. Valorile pe care le poate lua acesta se numesc niveluri. Variabila inde-pendeta este masurata pe scala categoriala (nominala sau ordinala), n timp cevariabila dependenta este masurata pe scala de interval/raport.

    Atunci cand avem un design experimental cu un singur factor ne aflam nsituat, ia n care vom folosi analiza de variant,a unifactoriala. Nu trebie sa omitemfaptul ca factorul trebuie sa aiba cel put, in trei niveluri. Cand cercetarea pe care oconstruim are doua variabile independente (doi factori) avem de-a face cu analizade variant,a mltifactoriala. In acest caz, variabila independenta trebuie sa aiba celput, in doua niveluri.

    Exemple de analiza de variant, a unifactoriala:

    efectul fumatului (nefumator, 1-10 t, igari, 11-20 t, igari) asupra nivelului deasumare a riscului.

    atitudinea fat, a de viitor n funct, ie de starea civila (casatorit, divort,at, vaduv).

    1

  • Exemple de analiza de variant, a multifactoriala:

    efectul genului (masculin, feminin) s, i al varstei (15-19 ani, 20-24 ani s, i 25-29ani) asupra timpului de react, ie.

    efectul genului (masculin, feminin) s, i al liceului absolvit (real, uman) asupraatitudinii fat, a de statistica.

    Analiza exemplelor de mai sus ne evident, iza faptul ca un factor poate aveadoua niveluri atunci cand este utilizat n analiza de variant, a multifactoriala. Ast-fel, n ultimul exemplu avem doi factori, fiecare cu cate doua niveluri. Un astfel demodel experimental presupune compararea a patru grupuri (numarul de nivelurial factorului 1 * numarul de niveluri al factorului 2).

    Presupunem ca dorim sa realizam o cercetare n care dorim sa evident, iemdiferent,ele la nivelul atitudinii fat, a de viitor n funct, ie de nivelul de s,colarizare(liceal, universitar s, i postuniversitar). Ipoteza cercetarii va afirma ca exista diferent,esemnificative n ceea ce prives,te atitudinea fat, a de viitor n funct, ie de nivelulde s,colarizare. Cu alte cuvinte, ipoteza cercetarii afirma ca cele trei tipuri des,colarizare fac parte din populat, ii diferite, cu niveluri distincte ale atitudinii fat, ade viitor.

    Ipoteza de nul sust, ine ca nu exista diferent,e semnificative la nivelul atitudiniifat, a de viitor n funct, ie de s,colarizare, adica cele trei es,antioane fac parte dintr-opopulat, ie unica, cu o viziune similara a viitorului.

    Spre deosebire de testele t, ANOVA nu compara mediile celor trei es,antioanen mod direct, ci se foloses,te de dispersiile lor. Cu cat cele trei es,antioane suntmai diferite unul fat, a de celalalte, cu atat distribut, ia lor are o variant, a (dispersie)mai mare.

    Pentru a verifica ipoteza cercetarii ANOVA parcurge urmatoarele etape:

    calculeaza dispersia n interiorul fiecarui es,antion (dispersia intragrup).

    calculam dispersia mediei fiecarui grup fat, a de media mare (media aritmeticaa mediilor celor trei gurpuri). Astfel obt, inem dispersia intergrup. Mediamare este simbolizata cu M.

    Facem raportul dintre dispersia intergrup s, i dispersia intragrup. Cu catvaloarea acestui raport este mai mare, cu atat mai mult cele trei es,antioanevor proveni din populat, ii diferite. Rezultatul obt, inut (F) este raportat la odistribut, ie teoretica (diferita de distribut, ia normala).

    Valorile lui F se distribuie n distribut, ia Fisher. Aceasta este o distribut, ieparticulara s, i are urmatoarele proprietat, i:

    Valoarea minima este 0, deoarece este raportul dintre doua dispersii (dis-persiile se obt, in prin ridicarea la patrat s, i nu pot fi negative). Prin urmareraportul dintre doua valori pozitive este, de asemenea, pozitiv.

    Poate lua valori oricat de mari, tinzand spre infinit.

    Asimetrie pozitiva - tendint,a valorilor de a se grupa n zona stanga.

    Forma distribut, iei depinde de o pereche de grade de libertate (numarul degrupuri s, i numarul de subiect, i).

    2

  • F =s2intergrups2intragrup

    Grafic 1 - Distribut, ia F

    2 Analiza de variant, a unifactoriala n SPSS

    Reamintim faptul ca n contextul analizei de variant, a, variabila independenta estemasurata pe scala categoriala, n timp ce variabila dependenta este masurata pescala de interval/raport.

    Presupunem ca dorim sa verificam ipoteza conform careia rezistent,a la accelerat, iagravitat, ionala la pilot, i n funct, ie de tipul de avion pilotat (avion de lupta, avionde acrobat, ii s, i avion de linie). Cele trei es,antioane de subiect, i sunt egale, avandcate 10 subiect, i.

    In cazul cercetarii noastre, variabila independenta este tipul de avion pilotat(1 = avion de lupta, 2 = avion de acrobat, ii s, i 3 = avion de linie) s, i este masuratape scala nominala. Variabila dependenta, rezistent,a la accelerat, ia gravitat, ionalaeste masurata pe scala de interval/raport.

    Pentru a aplica analiza de variant, a unifactoriala trebuie sa respectam urmatoarelecondit, ii:

    Distribut, ia fiecarui es,antion trebuie sa respecte condit, ia de normalitate. Ver-ificarea acestei condit, ii este realizata prin intermediul procedurii Explore(Plots Normality Plots with Tests) sau prin analiza valorilor skewness s, ikurtosis. In condit, iile n care es,antioanele au un volum mare de subiect, i,ANOVA nu mai este sensibil la nerespectarea condit, iei de normalitate.

    Masurarea variabilei dependente pentru un es,antion nu trebuie sa fie afectatade evaluarea efectuala la nivelul celorlalte es,antioane.

    Omogenitatea variant,ei la nivelul fiecarui grup. Impas,tierea valorilor vari-abilei dependente n interiorul es,antioanelor trebuie sa fie egala. Nerespectareaacestei condit, ii nu afecteaza validitatea testului ANOVA, nsa ne atent, ioneazaasupra existent,ei valorilor extreme.

    Realizarea bazei de date

    Baza de date n SPSS va cont, ine doua variabile: factorul s, i variabila depen-denta. Vom defini o variabila masurata pe scala categoriala (nominala sau ordi-nala) care va primi codurile cu care am etichetat nivelurile factorului. In cazulnostru tipurile de avion pilotat: 1, 2 s, i 3. Vom introduce s, i o variabila masurata

    3

  • pe scala I/R care va primi valorile variabilei dependente.

    Dupa ce am realizat baza de date, vom verifica ndeplinirea condit, iei de normal-itate la nivelul fiecarui es,antion. Astfel, vol folosi procedura Analyze DescriptiveStatistics Explore, iar n zona Factor List vom introduce variabila independenta(tip avion).

    In Output ne vor fi prezentate rezultatele testelor de noramlitate Kolmogorov-Smirnov s, i Shapiro-Wilk. Deoarece es,antioanele noastre au mai put, in de 50 desubiect, i, vom citi rezultatele testului Shapiro-Wilk.

    Dupa cum putem observa, pentru fiecare es,antion avem un p > 0, 05 ceea cene face sa afirmam ca distribut, ia este normala la nivelul fiecarui grup.

    Lansarea testului ANOVA presupune parcurgerea urmatoarelor etape:

    1. Analize - Compare Means - One-Way ANOVA

    4

  • 2. Se va deschide o caseta de dialog unde variabila dependenta este mutata nzona Dependent List, iar variabila independenta este mutata n zona Factor.

    In Post Hoc vom bifa testele Bonferoni (pentru omogenitatea variant,elor) s, iTamhane T2 (pentru lipsa de omogenitate a variant,elor).

    In Options vom bifa opt, iunile Descriptive, Homogeneity of variance test s, iMeans Plot.

    3. In zona de afis,are a rezultatelor vor aparea patru table.

    Descriptives prezinta indicatorii descriptivi ai variabilei dependente la nivelulfiecarui factor. Spre deosebire de testele t, tabelul Descriptives este mai cuprinzator,oferind s, i intervalul de ncredere al mediei.

    5

  • Test of Homogeneity of Variances ofera rezultatele testului Levene pentruomogenitatea variant,elor.

    Levene Statistic - prezinta valoarea calculata a testului Levene (n cazulnostru, 0,80).

    df1 - reprezinta numarul de grade de libertate intergrup (numarul de grupuri- 1).

    df2 - reprezinta numarul de grade de libertate intragrup (numarul cumulatde subiect, i - numarul de grupuri).

    p(sig) - reprezinta probabilitatea asociata testului Levene. Daca p>0,05 vomaccepta omogenitatea variant,elor s, i vom realiza analiza post hoc cu testulBonferoni. Atunci cand p 0, 05 respingem omogenitatea variant,elor s, ifolosim n analiza post hoc testul Tamhane. In cazul nostru, p(0,45)>0,05 s, iconcluzionam ca variant,ele sunt omogene.

    Tabelul ANOVA cuprinde rezultatele testului de analiza de variant, a unifac-toriala. In acest tabel pe linia Between Groups sunt prezentate rezultateleintergrup. Pe linia Within Groups sunt afis,ate rezultatele la nivel intragrup.

    df - numarul de grade de libertate intergrup (2), respectiv intragrup (27).

    Mean Square - reprezinta dispersia intergrup (5,12), respectiv dispersia in-tragrup (0,63).

    F - reprezinta valoarea calculata a testului ANOVA.

    p(sig) - este probabilitatea asociata testului F. Daca p>0,05 acceptam ipotezade nul s, i afirmam ca nu exista diferent,e semnificative la nivelul rezistent,eila accelerat, ia gravitat, ionala n funct, ie de avionul pilotat. Daca p 0, 05respingem ipoteza de nul s, i afirmam ca exista diferent,e semnificative statis-tic ntre mediile celor trei es,antioane. In cazul nostru p(0, 002) 0, 05 s, iconcluzionam ca exista diferent,e semnificative statistic la nivelul rezistent,eiaccelerat, iei gravitat, ionale n funct, ie de tipul de avion pilotat.

    6

  • Testul ANOVA ne informeaza asupra faptului ca exista un efect global semni-ficativ statistic al variabilei independente asupra variabilei dependente. In acestecondit, ii nu putem preciza nimic despre semnificat, ia diferent,elor dintre mediilees,antioanelor comparate doua cate doua. Analiza Post Hoc ne informeaza asuprasemnficat, iei diferent,ei dintre es,antioane luate doua cate doua.

    Tabelul Multiple Comparisons prezinta rezultatele comparat, iilor multiple.

    Pe prima coloana a tabelului sunt prezentate cele trei grupuri. Pe coloana adoua este afis,ata diferent,a dintre mediile es,antioanelor analizate, iar pe coloanaa patra (sig) este prezentata semnificat, ia pentru diferent,a dintre medii. Anal-iza rezultatelor ne indica faptul ca pilot, ii avioanelor de lupta au o rezistent, a laaccelerat, ia gravitat, ionala semnificativ statistic mai mare decat cea a pilot, ilor deacrobat, ii (p = 0,034), dar s, i fat, a de pilot, ii de linie (p = 0,002). In acelas, i timp, nuexista diferent,e semnificative statistic la nivelul rezistet,ei accelerat, iei gravitat, ionalentre pilot, ii avioanelor de acrobat, ii s, i pilot, ii avioanelor de lupta (p = 0,71).

    3 Exemplu de calcul ANOVA

    In tabelul de mai jos este prezentata rezistent,a pilot, ilor la accelerat, ia gravitat, ionala.

    X1 X2 X3 Xi m1 (Xi m1)2 Xi m2 (Xi m2)2 Xi m3 (Xi m3)2

    5,60 4,55 3,58 0,99 0,98 0,91 0,83 0,37 0,145,80 3,80 3 1,19 1,42 0,16 0,03 -0,21 0,046,30 5 4 1,69 2,86 1,36 1,85 0,79 0,623,98 2,74 2,17 -0,63 0,40 -0,90 0,81 -1,04 1,083,51 2,90 2,58 -1,10 1,21 -0,74 0,55 -0,63 0,404,45 3,87 3,96 -0,16 0,03 0,23 0,05 0,75 0,563,98 2,70 3,40 -0,63 0,40 -0,94 0,88 0,19 0,04

    4 3,63 3 -0,61 0,37 -0,01 0,00 -0,21 0,044,51 3,81 3,98 -0,10 0,01 0,17 0,03 0,77 0,59

    4 3,47 2,49 -0,61 0,37 -0,17 0,03 -0,72 0,52

    1. Formulat, i ipoteza cercetarii2. Formulat, i ipoteza de nul3. Stabilit, i Fcritic4. Stabilit, i decizia statistica5. Calculat, i marimea efectului

    7

  • 1) H1: Exista diferent,e semnificative statistic la nivelul rezistent,ei la accelerat, iagravitat, ionala n funct, ie de avionul pilotat.

    2)H0: Nu exista diferent,e semnificative statistic la nivelul rezistent,ei la accelerat, iagravitat, ionala n funct, ie de avionul pilotat.

    3) Pentru a stabili Fcritic vom citi tabelul valorilor critice ale lui F (Anexa3). Valoarea critica se cites,te la intersect, ia dintre numarul de grade de libertateintergrup s, i numarul de grade de libertate intragrup.

    dfintergrup = Ngrupuri 1 dfintergrup = 3 1 dfintergrup = 2.dfintragrup = Nsubiect, i Ngrupuri dfintragrup = 30 3 dfintragrup = 27.

    Astfel, vom citi Fcritic la intersect, ia 2 grade de libertate intergrup cu 27 gradede libertate intragrup. Valoarea Fcritic = 3, 35.

    4) Pentru a lua decizia statistica avem nevoie de o valoare calculata F pe caresa o comparam cu valoarea critica (tabelara).

    In prima etapa vom calcula mediile celor trei es,antioane, pe care le vom numigeneric m1, m2 s, i m3. Astfel, observam urmatoarele medii ale celor trei es,antioane:

    m1 = 4, 61 m2 = 3, 64 s, i m3 = 3, 21.

    Pe baza acestor medii putem calcula media mare (M), media aritmetica a medi-

    ilor celor trei es,antioane M =m1 +m2 +m3

    3. Astfel, M = 3,82.

    F =s2intergrups2intragrup

    s2intragrup =s21 + s

    22 + s

    23

    3

    s2intergrup =N1 (m1 M2) +N2 (m2 M2) +N3 (m3 M2)

    dfintergrup

    In acest moment, avem nevoie de dispersiile celor trei es,antioane.

    8

  • s21 =

    (Xi m1)2

    N1 1 s21 =

    8, 05

    9 s21 = 0, 89.

    s22 =

    (Xi m2)2

    N2 1 s22 =

    5, 06

    9 s22 = 0, 56.

    s23 =

    (Xi m3)2

    N3 1 s23 =

    4, 03

    9 s23 = 0, 44.

    Astfel, putem calcula dispersia intragrup

    s2intragrup =s21 + s

    22 + s

    23

    3 s2intragrup =

    0, 89 + 0, 56 + 0, 44

    3 s2intragrup =

    1, 89

    3 s2intragrup = 0, 63.

    Dispersia intergrup devine:

    s2intergrup =N1 (m1 M)2 +N2 (m2 M)2 +N3 (m3 M)2

    dfintergrup

    s2intergrup =10 (4, 61 3, 82)2 + 10 (3, 64 3, 82)2 + 10 (3, 21 3, 82)2

    2 s2intergrup = 5, 12.

    F =s2intergrups2intragrup

    F = 5, 120, 63

    F = 8, 12

    Cum F = 8, 12 > Fcrit = 3, 35, ipoteza de nul este respinsa s, i afirmam carezistent,a la accelerat, ia gravitat, ionala este influent,ata de tipul de avion pilotat.

    5) Pentru testul ANOVA exista doi indici de marime a efectului: 2 s, i f.

    2 =dfintergrup F

    dfintergrup F + dfintragrup 2 = 2 8, 12

    2 8, 12 + 27 2 = 16, 24

    16, 24 + 27 2 = 0, 34

    Conform grilei lui Hopkins, indicile de marime a efectului obt, inut este de in-tensitate medie.

    f =

    2

    1 2 f =

    0, 34

    0, 66 f =

    0, 51 f = 0, 71.

    Conform grilei lui Cohen, indicile de marime a efectului f (0,71) este de inten-sitate mare.

    4 Vacant, a placuta!!!

    9