spss 06 anova one way

7
M. Popa – AplicaŃii SPSS (ANOVA One Way) 1/7 Actualizat la: 26.03.2007/06:59:20 Analiza de varianŃă unifactorială (One Way ANOVA) Utilizare Analiza de varianŃă este, în esenŃă, o procedură de testare a diferenŃelor dintre medii, atunci când acestea sunt mai mult de două şi sunt calculate pe grupuri formate din subiecŃi diferiŃi. Dacă, de exemplu, am evaluat nivelul de sociabilitate cu un scor numeric, pentru trei categorii de copii (crescuŃi în familie, crescuŃi de bunici şi crescuŃi la orfelinat), analiza de varianŃă ne permite: - să decidem dacă variaŃiile mediei la scorul de sociabilitate sunt semnificative (testul F); - să facem comparaŃii multiple între media fiecărui grup de copii cu mediile celorlalte grupuri cercetate (analiza post-hoc). În contextul analizei de varianŃă valorile variabilei dependente sunt exprimate pe scală cantitativă (I/R), iar variabila independentă este de tip categorial. Dat fiind faptul că grupurile comparate sunt formate din subiecŃi diferiŃi, modelul de cercetare acoperit de analiza de varianŃă este denumit model intersubiect (between subjects). Dacă se utilizează ANOVA pentru a testa diferenŃa dintre două medii obŃinute pe grupuri independente, rezultatul ei este echivalent cu al testului t pentru grupuri independente (dar este o utilizare este neuzuală). Exemplu Pornind de o serie de observaŃii din viaŃa cotidiană, ne propunem să verificăm ipoteza că nivelul de conformism variază în funcŃie de vârstă, fiind mai scăzut la tineri şi mai ridicat la persoanele mai în vârstă. În acest scop, am selecŃionat un eşantion de subiecŃi (N=30) format din trei categorii de vârstă (1=sub 30 de ani; 2=31-40 ani; 3=41-50 ani), fiecare categorie fiind compusă din 10 subiecŃi. Atitudinea conformistă a fost evaluată cu un chestionar specializat, iar rezultatul se exprimă printr-un scor numeric. Putem observa că variabila independentă (vârsta) deşi se exprimă pe o scală ordinală, (valorile „1”, „2” şi „3” desemnează vârste ordonate crescător), este de natură categorială. Variabila dependentă (scorul la conformism) este măsurată pe scală de raport. CondiŃii Utilizarea procedurii ANOVA este supusă următoarelor condiŃii prealabile: 1. IndependenŃa observaŃiilor (valorilor) pentru fiecare grup comparat. Cu alte cuvinte, valorile măsurate pe subiecŃii unui grup să nu fie în nici un fel influenŃate de valorile măsurate pe celelalte grupuri. O modalitate de „influenŃă” ar putea fi, de exemplu, faptul că subiecŃii sunt informaŃi cu privire la ipoteza cercetării, fapt care i-ar putea stimula pe cei mai în vârstă să intre în „competiŃie” cu cei mai tineri (dacă percep „conformismul” drept un aspect „negativ”). 2. DistribuŃie normală a valorilor fiecărui grup comparat. Analiza de varianŃă este robustă dacă distribuŃiile comparate sunt simetrice sau dacă asimetriile sunt în aceeaşi direcŃie. Verificarea normalităŃii se face cu testele de normalitate din procedura Explore (opŃiunea Normality Plots with Tests...), ori prin calcularea limitelor de în credere pentru Skewness, fapt care permite evaluarea normalităŃii simetriei, separat de cea a boltirii. Din fericire, testul F este considerat remarcabil de robust în cazul încălcării condiŃiei de normalitate. ANOVA este mai vulnerabilă în situaŃia când distribuŃia variabilei dependente este prea aplatizată sau prea înaltă (kurtosis≠0) decât

Upload: neo-gabriel

Post on 31-Dec-2015

60 views

Category:

Documents


1 download

DESCRIPTION

spss

TRANSCRIPT

Page 1: Spss 06 Anova One Way

M. Popa – AplicaŃii SPSS (ANOVA One Way)

1/7 Actualizat la: 26.03.2007/06:59:20

Analiza de varianŃă unifactorială

(One Way ANOVA) Utilizare

Analiza de varianŃă este, în esenŃă, o procedură de testare a diferenŃelor dintre medii, atunci când acestea sunt mai mult de două şi sunt calculate pe grupuri formate din subiecŃi diferiŃi. Dacă, de exemplu, am evaluat nivelul de sociabilitate cu un scor numeric, pentru trei categorii de copii (crescuŃi în familie, crescuŃi de bunici şi crescuŃi la orfelinat), analiza de varianŃă ne permite:

- să decidem dacă variaŃiile mediei la scorul de sociabilitate sunt semnificative (testul F);

- să facem comparaŃii multiple între media fiecărui grup de copii cu mediile celorlalte grupuri cercetate (analiza post-hoc).

În contextul analizei de varianŃă valorile variabilei dependente sunt exprimate pe scală cantitativă (I/R), iar variabila independentă este de tip categorial. Dat fiind faptul că grupurile comparate sunt formate din subiecŃi diferiŃi, modelul de cercetare acoperit de analiza de varianŃă este denumit model intersubiect (between subjects). Dacă se utilizează ANOVA pentru a testa diferenŃa dintre două medii obŃinute pe grupuri independente, rezultatul ei este echivalent cu al testului t pentru grupuri independente (dar este o utilizare este neuzuală).

Exemplu

Pornind de o serie de observaŃii din viaŃa cotidiană, ne propunem să verificăm ipoteza că

nivelul de conformism variază în funcŃie de vârstă, fiind mai scăzut la tineri şi mai ridicat la persoanele mai în vârstă. În acest scop, am selecŃionat un eşantion de subiecŃi (N=30) format din trei categorii de vârstă (1=sub 30 de ani; 2=31-40 ani; 3=41-50 ani), fiecare categorie fiind compusă din 10 subiecŃi. Atitudinea conformistă a fost evaluată cu un chestionar specializat, iar rezultatul se exprimă printr-un scor numeric.

Putem observa că variabila independentă (vârsta) deşi se exprimă pe o scală ordinală, (valorile „1”, „2” şi „3” desemnează vârste ordonate crescător), este de natură categorială. Variabila dependentă (scorul la conformism) este măsurată pe scală de raport.

CondiŃii Utilizarea procedurii ANOVA este supusă următoarelor condiŃii prealabile: 1. IndependenŃa observaŃiilor (valorilor) pentru fiecare grup comparat. Cu alte cuvinte,

valorile măsurate pe subiecŃii unui grup să nu fie în nici un fel influenŃate de valorile măsurate pe celelalte grupuri. O modalitate de „influenŃă” ar putea fi, de exemplu, faptul că subiecŃii sunt informaŃi cu privire la ipoteza cercetării, fapt care i-ar putea stimula pe cei mai în vârstă să intre în „competiŃie” cu cei mai tineri (dacă percep „conformismul” drept un aspect „negativ”).

2. DistribuŃie normală a valorilor fiecărui grup comparat. Analiza de varianŃă este robustă dacă distribuŃiile comparate sunt simetrice sau dacă asimetriile sunt în aceeaşi direcŃie. Verificarea normalităŃii se face cu testele de normalitate din procedura Explore (opŃiunea Normality Plots with Tests...), ori prin calcularea limitelor de în credere pentru Skewness, fapt care permite evaluarea normalităŃii simetriei, separat de cea a boltirii. Din fericire, testul F este considerat remarcabil de robust în cazul încălcării condiŃiei de normalitate. ANOVA este mai vulnerabilă în situaŃia când distribuŃia variabilei dependente este prea aplatizată sau prea înaltă (kurtosis≠0) decât

Page 2: Spss 06 Anova One Way

M. Popa – AplicaŃii SPSS (ANOVA One Way)

2/7 Actualizat la: 26.03.2007/06:59:20

în cazul asimetriei (skewness≠0). Cu cât volumul grupurilor supuse comparaŃiei este mai mare, cu atât aspectele legate de normalitatea distribuŃiei au un efect mai mic asupra ANOVA.

3. Omogenitatea dispersiei la nivelul fiecărui grup. Împrăştierea valorilor variabilei dependente în interiorul grupurilor definite prin valorile variabilei independente trebuie să fie egală. Această condiŃie se numeşte omogenitatea varianŃei. Încălcarea acestei condiŃii nu invalidează testul ANOVA, care este destul de robust şi în acest caz. În orice caz, se vor analiza cu atenŃie cazurile care prezintă valori extreme, care au un efect important asupra varianŃei. Egalitatea (omogenitatea varianŃei) poate fi testată cu testul Levene. Pentru situaŃia în care testul Levene infirmă omogenitatea varianŃei la nivelul grupurilor comparate, există şi soluŃia mai „conservatoare” a utilizării unor teste alternative la ANOVA: testul Brown-Forsythe şi testul Welch (selectabile din ANOVA-Options).

Aranjarea datelor

Datele obŃinute se introduc într-o tabelă SPSS aşa cum se vede în imaginea din anexă. Se

defineşte o variabilă independentă (definită ca „factor” în contextul ANOVA) care conŃine codurile de apartenenŃă a cazurilor la fiecare dintre grupurile supuse analizei (în cazul nostru categoriile de vârstă: „1”, „2”, „3”), şi o variabilă dependentă, care conŃine valorile scorului la conformism.

Se va reŃine faptul că procedura ANOVA nu suportă variabila independentă de tip „string”. În imagine baza de date SPSS este ordonată crescător după variabila „virsta”, dar acest lucru nu este necesar pentru procedura de calcul.

Pentru început verificăm respectarea condiŃiei de normalitate a distribuŃiilor la nivelul fiecăruia dintre grupurile comparate. În acest scop efectuăm procedura Explore (din meniul Statistics-Summarize), introducând variabila dependentă (conf) în zona Dependent List, iar variabila independentă (virsta) în zona Factor List, cu bifarea opŃiunii Normality plots with tests în caseta Plots.

Rezultatul apare în tabelul de mai jos. Aşa cum se observă, testul Shapiro-Wilk

(recomandabil pentru eşantioane mai mici de 40 de subiecŃi) are un p (Sig.) mai mare de 0.05 pentru fiecare dintre cele trei grupuri, ceea ce susŃine concluzia de normalitate a distribuŃiilor.

Page 3: Spss 06 Anova One Way

M. Popa – AplicaŃii SPSS (ANOVA One Way)

3/7 Actualizat la: 26.03.2007/06:59:20

Omogenitatea dispersiei la nivelul celor trei grupuri comparate se ilustrează grafic prin

intermediul celor trei reprezentări box-plot.

101010N =

VIRSTA

41-50 ani31-40 anisub30 ani

CONFORM

60

50

40

30

O concluzie cu privire la omogenitatea dispersiilor se fundamentează însă pe baza unui test statistic specializat, testul Levene, care se programează în caseta Explore: Plots (Spread vs Level with Levene Test:).

Sunt oferite mai multe opŃiuni de calcul pentru testul de omogenitate în funcŃie de diferite

modalităŃi de transformare preliminară a datelor. - OpŃiunea Power estimation este utilă pentru situaŃia în care testul nu susŃine ipoteza

omogenităŃii, iar variabila independentă necesită o transformare de normalizare.1 - OpŃiunea Transformed permite alegerea directă a unei modalităŃi de transformare a

valorilor variabilei independente, în scopul normalizării lor. - Ultima dintre opŃiuni este „Untransformed”, pe care o considerăm o soluŃie

recomandabilă în acest caz, având în vedere rezultatul testului de normalitate anterior.

1 Problematica normalizării datelor nu face obiectul cursului de bază.

Page 4: Spss 06 Anova One Way

M. Popa – AplicaŃii SPSS (ANOVA One Way)

4/7 Actualizat la: 26.03.2007/06:59:20

Rezultatul este sintetizat în tabelul următor, care estimează omogenitatea distribuŃiilor în interiorul celor trei grupuri comparate, pe baze unor criterii variate (media, mediana, mediana ajustată, media 5% trim). Valoarea lui p (Sig.) mai mare de 0.05 susŃine concluzia că distribuŃiile sunt omogene sub aspectul dispersiei.

Deoarece ipoteza de nul pentru testul Levene este aceea că dispersiile sunt omogene,

dispersiile vor fi considerate neomogene dacă valoarea lui p (Sig.) este mai mică sau egală cu 0.05. În cazul nostru, valorile lui p pentru cele trei grupuri sunt mai mari decât 0.05 şi, drept urmare, concluzionăm că dispersiile sunt omogene.

După ce am testat principalele condiŃii ale analizei de varianŃă, putem trece la efectuarea

testului ANOVA unifactorial. Procedura: Statistics-Compare Means-One-Way ANOVA...

Caseta principală One-Way ANOVA: Variabila dependentă de trece în lista Dependent List (pot fi testate mai multe variabile simultan) Variabila independentă se trece în zona Factor.

Caseta Post Hoc Multiple Comparison: Se aleg testele de analiză post-hoc, pentru testarea diferenŃei dintre medii, luate două câte două. Pentru că nu ştim încă dacă varianŃa este omogenă, vom bifa câte un test pentru fiecare caz (Bonferoni, pentru varianŃă neomogenă şi Tamhane T2, pentru varianŃă omogenă).

În caseta Options bifăm Descriptives şi, dacă nu am efectuat testul de omogenitate ca mai

sus, îl putem face aici, bifând Homogeneity-of-variance şi Means Plot.

Page 5: Spss 06 Anova One Way

M. Popa – AplicaŃii SPSS (ANOVA One Way)

5/7 Actualizat la: 26.03.2007/06:59:20

După finalizarea setărilor se apasă OK pe caseta principală şi se analizează rezultatele.

Rezultate Tabelul Descriptives prezintă indicatorii descriptivi ai variabilei dependente pentru

grupurile analizate.

Tabelul Test of Homogeneity of Variance conŃine rezultatul testului Levene. O valoare

nesemnificativă a acestuia (cum este cazul nostru, p=0.455), conduce la concluzia că dispersiile în interiorul celor trei grupuri sunt omogene), ceea ce confirmă concluzia la care am ajuns prin procedura Explore (evident, efectuarea testului de omogenitate a varianŃei în acest punct nu mai este necesară, dacă a fost făcută anterior).

Tabelul ANOVA conŃine rezultatului testului F a cărui valoare este 8.201 pentru un prag

p=0.002.

Tabelul Post Hoc Tests – Multiple Comparisons prezintă comparaŃiile mediilor celor trei grupuri, luate două câte două. MulŃi autori recomandă utilizarea analizei post-hoc numai dacă se obŃine un nivel semnificativ pentru testul F, deoarece unele teste post-hoc nu anihilează într-o manieră suficientă cumulul de eroare de tip I. Pe de altă parte, logica celor mai multe dintre

Page 6: Spss 06 Anova One Way

M. Popa – AplicaŃii SPSS (ANOVA One Way)

6/7 Actualizat la: 26.03.2007/06:59:20

testele post-hoc nu reclamă existenŃa unei semnificaŃii globale a testului F drept condiŃie de utilizare (testul Bonferoni este unul dintre ele).

Având în vedere că testul Levene a confirmat omogenitatea varianŃei, se vor citi valorile pentru testul Bonferoni (în caz contrar, s-ar fi citit cele pentru testul Tamhane). Valorile sunt uşor de analizat. În prima coloana avem definite grupurile analizate (etichetarea valorilor variabilei independente ajută mult la inteligibilitatea tabelului). În coloana a patra (Sig.) se află semnificaŃiile pentru diferenŃa dintre medii. Astfel, putem constata faptul că nivelul de conformism al subiecŃilor sub 30 de ani diferă semnificativ de nivelul de conformism al fiecăreia din celelalte două categorii de vârstă (p=0.027 respectiv, p=0.002). În acelaşi timp, nu se contată o diferenŃă semnificativă între categoria 31-40 ani şi 41-50 de ani (p=0.814). Aceasta concluzie este ilustrată de reprezentarea grafică a mediei timpului de reacŃie ale celor trei grupuri.

VIRSTA

41-50 ani31-40 anisub30 ani

CONFORMISM (media)

50

48

46

44

42

40

Aşa cum se poate observa, nivelul de conformism creşte progresiv de la o categorie de vârstă la alta, dar mai accentuat între 21-30 ani şi 31-40 ani. Graficul singur, fără susŃinerea procedurii ANOVA, nu ar fi permis concluzionarea unei diferenŃe semnificative între cele trei grupuri.

Page 7: Spss 06 Anova One Way

M. Popa – AplicaŃii SPSS (ANOVA One Way)

7/7 Actualizat la: 26.03.2007/06:59:20

RelaŃia dintre ANOVA unifactorială şi testul t Logica testului ANOVA se potriveşte şi pentru situaŃiile în care variabila independentă prezintă două valori şi, ca urmare, această procedură se poate aplică şi în acest din urmă caz. În practică însă, pentru testarea diferenŃei dintre mediile a două grupuri independente se utilizează testul t pentru eşantioane independente. Unul dintre motivele principale pentru care este recomandabil să procedăm astfel este faptul că testul t este direcŃional (testează diferenŃa dintre medii în ambele sensuri, peste şi sub zero), în timp ce ANOVA este nondirecŃională (ne spune numai dacă variaŃia mediilor este semnificativă, indiferent de semnul diferenŃei dintre ele).

Datele cercetării