1_2_m_popa_statistica_sem2_m2.pdf

50
Marian Popa 1 UNIVERSITATEA DIN BUCUREŞTI FACULTATEA DE PSIHOLOGIE ŞI ŞTIINŢELE EDUCAŢIEI DEPARTAMENTUL DE ÎNVĂŢĂMÂNT LA DISTANŢĂ CURSUL STATISTICĂ PSIHOLOGICĂ ŞI PRELUCRAREA COMPUTERIZATĂ A DATELOR MODULUL 2 STATISTICI DESCRIPTIVE CU SPSS TESTE STATISTICE PARAMETRICE Titular curs: Conf. univ. dr. Marian POPA Email: [email protected] Universitatea din Bucureşti Editura CREDIS 2009 Copyright © DEPARTAMENT ID 2009

Upload: roxana-apostol

Post on 12-Dec-2015

28 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

1

UNIVERSITATEA DIN BUCUREŞTI

FACULTATEA DE PSIHOLOGIE ŞI ŞTIINŢELE EDUCAŢIEI

DEPARTAMENTUL DE ÎNVĂŢĂMÂNT LA DISTANŢĂ

CURSUL

STATISTICĂ PSIHOLOGICĂ ŞI PRELUCRAREA COMPUTERIZATĂ A DATELOR

MODULUL 2 STATISTICI DESCRIPTIVE CU SPSS TESTE STATISTICE PARAMETRICE

Titular curs: Conf. univ. dr. Marian POPA Email: [email protected]

Universitatea din Bucureşti Editura CREDIS

2009

Copyright © DEPARTAMENT ID 2009

Page 2: 1_2_M_Popa_statistica_sem2_M2.pdf

Acest material este destinat uzulului studenţilor Universităţii din Bucureşti, forma de învăţământ la distanţă. Conţinutul cursului este proprietatea intelectuală a autorului/autorilor; designul, machetarea şi transpunerea în format electronic aparţin Departamentului de Învăţământ la Distanţă al Universităţii din Bucureşti.

Universitatea din Bucureşti Editura CREDIS Bd. Mihail Kogălniceanu, Nr. 36-46, Corp C, Etaj I, Sector 5 Tel: (021) 315 80 95; (021) 311 09 37, 031 405 79 40, 0723 27 33 47 Fax: (021) 315 80 96 Email: [email protected] Http://www.credis.ro

Copyright © DEPARTAMENT ID 2009

Page 3: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

2

Cuprins  

Modulul 2 ................................................................................................................................................ 3 

Calcularea indicatorilor statistici descriptivi ....................................................................................... 3 

Procedura Frequencies.................................................................................................................... 3 

Procedura Descriptives.................................................................................................................... 5 

Procedura Explore ........................................................................................................................... 7 

Procedura Explore factorială ......................................................................................................... 12 

Testele t ............................................................................................................................................. 15 

1. Testul z (t) pentru media unui singur eşantion ......................................................................... 15 

2. Testul t pentru eşantioane independente................................................................................. 17 

3. Testul t pentru diferența dintre mediile a două eşantioane dependente (perechi)................. 20 

Analiza de varianță unifactorială ....................................................................................................... 23 

(One Way ANOVA)......................................................................................................................... 23 

Coeficientul de corelație liniară Pearson (r)...................................................................................... 30 

Analiza de itemi ................................................................................................................................. 35 

 

 

 

Copyright © DEPARTAMENT ID 2009

Page 4: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

3

Modulul 2  

Calcularea indicatorilor statistici descriptivi Reamintim faptul că statistica descriptivă are ca obiectiv analiza caracteristicilor variabilelor

sub aspectul tendinţei centrale, împrăştierii şi formei distribuţiei. Principalele componente ale statisticii descriptive sunt:

• reprezentarea întregii distribuţii, pe cale: o numerică (analiza de frecvenţe) o grafică (bară, histogramă, box-plot, stem and leaf)

• indicatorii tendinţei centrale o mod o medie o mediană

• indicatorii împrăştierii o amplitudine o abatere standard

• indicatorii formei distribuţiei o indice de simetrie (skewness) o indice de boltire (kurtosis)

SPSS oferă posibilităţi variate de reprezentare şi de calcul a acestor indicatori. În acest sens

există, pe de o parte, proceduri specializate şi, pe de altă parte, opţiuni care pot fi accesate din interiorul altor proceduri. Fie şi acest aspect numai, ar trebui să sugereze că statistica descriptivă, în ciuda caracterului ei „elementar”, este o componentă indispensabilă a analizei statistice. În ceea ce priveşte procedurile specializate, ele se lansează din meniul Statistics-Summarize (sau Analyze-Descriptive statistics, pentru versiunile mai noi de SPSS), şi sunt grupate în trei proceduri: Frequencies, Descriptives şi Explore (vezi imaginea de mai jos).

Aceste proceduri oferă, fiecare, atât prelucrări distincte, cât şi identice. Alegerea uneia sau alteia dintre proceduri depinde de necesităţile de analiză sau de modul specific de afişare a rezultatelor în Viewer.

Fişierul utilizat pentru exemplificări la acest capitol este descriptives.sav (htpp://marianpopa.tripod.com/id2.html).

Procedura Frequencies Aceasta este singura procedură care permite analiza de frecvenţe. La apariţia casetei Frequencies, variabila pe care dorim să o supunem analizei se mută în lista de calcul Variable(s), prin

Copyright © DEPARTAMENT ID 2009

Page 5: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

4

selectarea ei şi acţionarea butonului de transfer (►). Pot fi incluse mai multe variabile simultan în această listă, rezultatele fiind afişate distinct, pentru fiecare în parte. În cazul nostru, am ales variabila cantitativă nr_cor.

Se va observa pe caseta Frequencies marcarea implicită a opţiunii pentru tabela de frecvenţe (Display frequency tables), care este funcţia specifică a acestei proceduri. În plus, prin acţionarea butoanelor din partea de jos a casetei, se pot seta alte analize, astfel:

Butonul Statistics Butonul Chart Butonul Format Se aleg indicatorii statistici descriptivi doriţi

Se alege tipul de grafic dorit

Se aleg diverse moduri de prezentare a rezultatelor

Rezultatele sunt afişate în SPSS Viewer în forma de mai jos

Tabelul Statistics cuprinde lista

indicatorilor statistici solicitaţi

Tabelul frecvenţelor simple prezintă lista crescătoare a valorilor distribuţiei, frecvenţa absolută, procentul, procentul valid (prin eliminarea valorilor lipsă şi procentul cumulat).

În mod obişnuit, tabela frecvenţelor simple se solicită pentru variabile categoriale. Atunci când avem o variabilă cu foarte multe valori, tabela frecvenţelor simple poate fi prea lungă pentru a fi utilă.

Copyright © DEPARTAMENT ID 2009

Page 6: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

5

Iată cum se prezintă rezultatul procedurii Frequencies pentru variabila gen:

Procedura Descriptives Această procedură vizează doar indicatorii statistici descriptivi. La lansare - Satistics-Descriptives - se deschide caseta principală Descriptives. Se trec variabilele vizate în lista Variable(s) (dacă dorim calcularea scorurilor z, se bifează opţiunea din stânga-jos a casetei )

Se aleg indicatorii doriţi din Options

Prin bifarea opţiunii Save standardized values as variables, programul va crea o variabilă standardizată z, pe care o va pune în baza de date, la sfârşitul listei de variabile.

Rezultatul analizei, din Viewer, se prezintă astfel:

Copyright © DEPARTAMENT ID 2009

Page 7: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

6

În tabelul Descriptives Statistic găsim: N (numărul valorilor şi al valorilor valide); valoarea minimă şi maximă a distribuţiei, media; abaterea standard şi valorile indicatorilor simetriei (skewness) şi boltirii (kurtosis). Pentru aceştia din urmă, alături de valoarea calculată, avem şi eroarea standard, care ne dă gradul de imprecizie (eroare) al celor doi indicatori în raport cu valorile lor reale, la nivelul populaţiei din care se presupune a fi fost extrase datele analizate. Aşa cum ştim, în cazul unei distribuţii normale valorile pentru skewness şi kurtosis sunt egale cu 0. Dar, chiar şi în cazul unui eşantion aleator, extras dintr-o populaţie normală, este puţin probabil să obţinem indici de simetrie şi boltire egali cu 0, din cauza variaţiei de eşantionare. Ca urmare, este util să ştim dacă eşantionul valorilor analizate provine dintr-o populaţie asimetrică sau boltită anormal. Sau, altfel spus, în cazul unui eşantion, sunt skewness şi kurtosis atât de diferite de zero încât trebuie să respingem ipoteza că valorile eşantionului provin dintr-o distribuţie normală? Pentru a răspunde la această întrebare poate fi utilizată eroarea standard a fiecăruia dintre cei doi indici pentru calcularea limitelor intervalului lor de încredere. Dacă în limitele unui interval de încredere de 95% se va afla şi valoarea zero (caracteristică unei distribuţii normale), atunci va trebui să acceptăm ipoteza că distribuţia populaţiei are simetrie sau boltire normală. Limitele unui interval de încredere de 95% pentru skewness se calculează la fel ca pentru oricare indicator statistic:: 95% CI =Skewness ± 1.96 * (eroarea standard a lui skewness) Iar pentru kurtosis:

95% CI =Kurtosis ± 1.96 * (eroarea standard a lui kurtosis) Astfel, pentru variabila nr_cor, analizată mai sus, limitele de încredere pentru skewness sunt:

95% CI=-0.724± 1.96 *0.277 De unde:

Lim. inf.=-0.905 Lim. sup.=+0.361

Deoarece în intervalul de încredere intră şi valoarea zero (caracteristică distribuţiei normale) acceptăm că variabila nr_cor are o distribuţie simetrică. În mod similar, limitele de încredere pentru kurtosis sunt:

95% CI=-0.134± 1.96 *0.548 De unde:

Lim. inf.=-0.134 Lim. sup.=+0.806

Concluzia este că şi intervalul de încredere pentru indicele de boltire include valoarea zero (caracteristică unei curbe normale), fapt care permite acceptarea ipotezei că distribuţia nu prezintă o boltire anormală. În fine, dacă ne uităm în Data Editor, la sfârşitul coloanelor cu variabile, găsim noua variabilă znr_cor, care conţine valorile variabilei nr_cor transformate în scoruri z. Aducem aminte faptul că prin transformarea în z a

Copyright © DEPARTAMENT ID 2009

Page 8: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

7

valorilor unei variabile, acestea nu urmează forma curbei normale, ci exprimă doar distanţa în abateri standard faţă de media distribuţiei.

Procedura Explore Procedura Explore este cea mai complexă dintre toate procedurile statisticii descriptive şi se poate utiliza atunci când se doreşte o analiză exhaustivă a variabilei (sau variabilelor). Vom utiliza pentru exemplificare trei variabile (asim, normal şi uniform) din fişierul descriptives.sav, ale căror distribuţii prezintă particularităţile sugerate de nume.

Caseta principală Explore

• În zona Dependent List se includ variabilele de analizat (asim, uniform, normal). • În zona Factor List se includ eventualele variabile categoriale, în funcţie de care se doreşte

analiza variabilei analizate (vezi mai jos). • Label cases by, permite etichetarea cazurilor la afişare (rar utilizat). • Display, permite alegerea opţiunilor de afişare a rezultatelor numerice (Statistics), grafice

(Plots) sau ambele categorii (Both). • Butonul Statistics deschide caseta pentru alegerea indicatorilor care vor fi calculaţi.

Opţiunea implicită o reprezintă Descriptives, care calculează toţi indicatorii statistici descriptivi de bază.

M-estimators, calculează estimări ale valorilor tendinţei centrale la nivelul populaţiei mai robuşti, ţinând cont de forma distribuţiei.

Percentiles, calculează percentilele 5, 10, 25, 50, 75, 90 şi 100.

• Butonul Plots, permite alegerea reprezentărilor grafice dorite: am ales reprezentarea Boxplot şi reprezentarea Stem-and-leaf:

Copyright © DEPARTAMENT ID 2009

Page 9: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

8

Una dintre opţiunile importante ale acestei aceste este Normality plots with tests, care testează normalitatea distribuţiei (vezi discuţia rezultatelor afişate în Viewer).

• Butonul Options, permite setarea modului de tratare a valorilor lipsă Rezultatele analizei Explore, definită mai sus, se prezintă astfel:

Un tabel sintetic al variabilei, de unde aflăm numărul valorilor şi procentul lor, pentru cazurile valide, pentru cele care lipsesc şi pentru total. O privire atentă pe acest tabel este necesară cu scopul de a identifica eventuale probleme cu datele. În acest caz, toate variabilele au 75 de valori şi nu există valori lipsă.

Tabelul Descriptives conţine toţi indicatorii statistici descriptivi cunoscuţi:

95% Confidence Interval for mean ne dă limita inferioară (Lower Bound) şi pe cea superioară (Upper Bound) a intervalului de încredere pentru medie, calculate pe baza erorii standard a acesteia, afişate pe ultima coloană.

5% Trimmed Mean, este o medie calculată fără participarea a 5% dintre valorilor de la extremele distribuţiei, ceea ce are ca efect eliminarea efectului eventualelor valori extreme. Cu cât aceasta este mai apropiată de media obişnuită, cu atât se poate aprecia că distribuţia nu are valori extreme. Pe o distribuţie

Copyright © DEPARTAMENT ID 2009

Page 10: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

9

normală, media şi 5% trim-media, sunt identice. Se vor observa:

- distanţa relativ mare dintre medie şi mediană în cazul distribuţiei asimetrice, comparativ cu celelalte două.

- faptul că media 5% trim a distribuţiei asimetrice se apropie mult de media aritmetică uzuală.

Tabelul percentilelor afişează valorile percentile. Percentilele de pe linia Tuckey’s Hinges sunt valorile care intră în calcularea înălţimii casetei boxplot (abaterea interquartilă).

Tabelul Tests of Normality cuprinde rezultatele testelor de normalitate. În esenţă, acestea

testează gradul de suprapunere dintre distribuţia cumulativă a variabilei analizate şi distribuţia cumulativă a unei variabile a cărei distribuţie urmează forma Gauss. Cele mai uzuale sunt testele Kolmogorov-Smirnov (numit şi statistica D) şi Shapiro-Wilk (numit şi statistica W). Desigur, dintre ele se va lua în considerare numai unul singur. Tendinţa actuală este de a se da un credit mai mare testului Shapiro-Wilk, deoarece se apreciază că dispune de o putere mai mare de a surprinde normalitatea unei distribuţii, atunci când aceasta este reală (Shapiro, Wilk, & Chen, 1968), mai ales dacă numărul valorilor este mic. SPSS calculează testul Shapiro-Wilk numai pentru distribuţii cu mai puţin de 50 de valori, în celelalte cazuri limitându-se doar la Kolmogorov-Smirnov. Atât pentru testul Kolmogorv-Smirnov, cât şi pentru testul Shapiro-Wilk, contează numai valoarea lui p (Sig.), care se interpretează invers decât interpretările cu care ne-am obişnuit pentru p, astfel:

- Dacă p (Sig.) este mai mic sau egal cu 0.05, atunci se respinge ipoteza de normalitate a distribuţiei (distribuţia variabilei se abate de la forma normală);

- Dacă p (Sig.) este mai mare decât 0.05, atunci se acceptă ipoteza de normalitate a distribuţiei (distribuţia )

În cazul nostru, observăm că testul de normalitate are valori p (Sig.) mai mici de 0.05 pentru

variabilele asim şi uniform, ceea ce ne confirmă că cele două variabile nu prezintă o formă normală. În acelaşi timp, variabilei normal îi corespunde un p=0.200 (mai mare de 0.05), ceea ce confirmă forma normală a distribuţiei sale.

Principala problemă care se pune în legătură cu interpretarea testelor de normalitate este legată de faptul că, pe măsură ce eşantionul este mai mic, este din ce în ce mai dificil să fie apreciată corect normalitatea distribuţiei unei variabile. Nici chiar un test statistic nu ne poate oferi o concluzie fundamentată, deoarece nu este suficient de sensibil pentru a distinge între o distribuţie normală şi una ne-normală. Pentru mai puţin de 5 valori, SPSS nici nu mai calculează testul de normalitate, chiar dacă este cerut. Pentru a avea suficientă încredere în rezultatul testelor de normalitate distribuţia trebuie să

Copyright © DEPARTAMENT ID 2009

Page 11: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

10

aibă cel puţin câteva zeci de valori. Rezultă că interpretarea rezultatului la testele de normalitate depinde simultan de valoarea lui p şi de mărimea eşantionului. În mod obişnuit, această interpretare se face dup următoarea grilă:

Valoarea p a testului de normalitate

Mărimea eşantionului Interpretare

≤ 0.05 oricare Forma distribuţiei nu este normală.

>0.05 mare (cel puţin câteva zeci) Distribuţia are o formă normală.

>0.05 mică (sub câteva zeci)

Deşi testul confirmă forma normală a distribuţiei, o astfel de concluzie este riscantă, dată fiind capacitatea reală testului de a surprinde acest lucru.

Utilitatea testului de normalitate a distribuţiei se raportează la decizia de a utiliza teste

parametrice în cazul variabilelor cantitative, care, după cum ştim, sunt supuse acestei condiţii. Atât testul K-S cât şi Shapiro-Wilk sunt sensibile atât la asimetrie cât şi la boltire. În general, testele statistice bazate pe scale de interval (raport) sunt mai „robuste” (mai sigure) dacă distribuţiile sunt simetrice, dar existenţa unei boltiri nu reprezintă o problemă. Ca urmare, atunci când utilizăm testul t sau analiza de varianţă, existenţa boltirii este mai puţin preocupantă decât aceea a asimetriei. Din acest motiv, dacă testul de normalitate este semnificativ este recomandabil să verificăm dacă acest lucru se datorează asimetriei, boltirii sau ambelor. Reprezentările Stem-and-leaf

Pentru distribuţia asimetrică

Să observăm că sunt menţionate şi valori extreme, cele mai mari sau egale cu 145.

Pentru distribuţia uniformă

Copyright © DEPARTAMENT ID 2009

Page 12: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

11

Pentru distribuţia normală Reprezentările boxplot Redăm mai întâi schema constructivă a unei reprezentări boxplot:

Pentru variabilele analizate, imaginile boxplot se prezintă astfel: Aşa cum ştim, caseta din mijlocul reprezentării boxplot include 50% dintre valorile distribuţiei, liniile verticale fiind trasate la o lungime de 1.5xH, unde H este distanţa dintre limitele casetei (abaterea interquartilă, Q3-Q1). Punctele marcate în dincolo de limitele orizontale ale reprezentării marchează valorile marginale ale distribuţiei (O=Outliers) şi valorile extreme (E). În cazul variabilei asim observăm gruparea valorilor spre partea inferioară a distribuţiei, cu o linie superioară mai lungă decât cea inferioară, şi cu o valoare excesivă mult deasupra „mustăţii” superioare. Variabila uniform prezintă o casetă centrală extinsă şi linii verticale relativ apropiate ca lungime, dar scurte, comparativ cu înălţimea casetei. În fine, variabila normal prezintă o formă simetrică, cu o casetă centrală de dimensiuni moderate şi cu linii verticale sensibil egale.

75N =

Asimetrica

160

140

120

100

80

60

40

20

38

75N =

Uniforma

14

12

10

8

6

4

2

0

-275N =

Normala

30

20

10

0

-10

-20

-30

Copyright © DEPARTAMENT ID 2009

Page 13: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

12

Histogramele

Histogramele reprezintă într-o manieră diferită ceea ce reprezintă şi graficele boxplot de mai

sus. Recomandăm analiza comparativă a histogramei şi boxplot-ului fiecărei variabile. Toate cele trei tipuri de reprezentări grafice (stem-and-leaf, boxplot şi histogramă) pot fi utile

în analiza distribuţiilor, dar se va evita introducerea lor simultană într-un document de cercetare. De asemenea, este de evitat introducerea acestor reprezentări pentru variabile singulare (descrise în mod suficient cu valorile numerice ale indicatorilor statistici). De regulă, graficele de acest gen sunt introduse în lucrări pentru a prezenta imagini comparative ale variabilelor.

Graficele Normal Q-Q Plot Graficul Normal plot compară scorul brut (pe axa Ox) cu scorul z aşteptat al unei distribuţii

care ar avea o formă normală (pe axa Oy). Scorul z aşteptat se găseşte prin convertirea rangului percentil al fiecărui scor în scor z, utilizând tabelul probabilităţilor de sub cuba normală. Acesta reprezintă o expresie grafică a normalităţii. Dacă valorile variabilei se distribuie normal, atunci graficul scorurilor brute şi aşteptate va urma o linie dreaptă pe diagonala axelor de coordonate. Dacă scorurile nu se distribuie normal, linia celor două scoruri deviază de la modelul rectiliniu. Privind graficele celor trei tipuri de distribuţii, observăm că liniile punctate ale variabilelor asim şi uniform se abat de la linia dreaptă, în timp ce pentru variabila normal linia punctată aproape se suprapune peste linia teoretică. Graficele Normal Q-Q Plot nu fac decât să ilustreze grafic rezultatele testelor de normalitate.

Procedura Explore factorială

Aşa cum am spus, în caseta

principală Explore, în zona Factor List, se poate introduce o variabilă categorială, rezultatul fiind acela că variabila (sau variabilele) din zona Dependent List vor fi

Asimetrica

150,0140,0

130,0120,0

110,0100,0

90,080,0

70,060,0

50,040,0

Histogram

Freq

uenc

y

30

20

10

0

Std. Dev = 21,67 Mean = 70,5N = 75,00

Uniforma

12,011,0

10,09,0

8,07,0

6,05,0

4,03,0

2,01,0

0,0

Histogram

Freq

uenc

y

10

8

6

4

2

0

Std. Dev = 3,80 Mean = 6,9N = 75,00

Normala

27,522,5

17,512,5

7,52,5-2,5-7,5

-12,5-17,5

-22,5

Histogram

Freq

uenc

y

10

8

6

4

2

0

Std. Dev = 11,67 Mean = 1,4N = 75,00

Normal Q-Q Plot of Asimetrica

Observed Value

16014012010080604020

Expe

cted

Nor

mal

3

2

1

0

-1

-2

-3

Normal Q-Q Plot of Uniforma

Observed Value

20100-10

Exp

ecte

d N

orm

al

3

2

1

0

-1

-2

-3

Normal Q-Q Plot of Normala

Observed Value

3020100-10-20-30

Expe

cted

Nor

mal

3

2

1

0

-1

-2

-3

Copyright © DEPARTAMENT ID 2009

Page 14: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

13

analizate separat pentru fiecare dintre categoriile variabilei Factor. Vom ilustra această opţiune pentru variabila nr_cor, în funcţie de valorile variabilei cond_prez.

În imaginea

alăturată se poate vedea conţinutul tabelului Descriptives din Viewer pentru această configuraţie de analiză.

Iar mai jos, reprezentările comparative boxplot, care fac mai expresive raporturile dintre distribuţiile analizate, prin raportarea simultană la acelaşi cadru de referinţă.

Utilizarea opţiunii factoriale din procedura Explore este foarte utilă atunci când suntem

interesaţi să analizăm descriptiv caracteristicile unei variabile cantitative în raport de categoriile definite prin valorile unei variabile categoriale.

Copyright © DEPARTAMENT ID 2009

Page 15: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

14

Valorile marginale (Outliers) Tabelul Extreme Values listează câte cinci valori de la marginea distribuţiei, fără ca acestea să

fie în mod necesar valori care întrunesc condiţiile definite în contextul procedurii boxplot pentru valorile marginale sau extreme. Ca urmare, aceste valori vor fi analizate pentru a constata în ce măsură se abat grav de la tendinţa centrală a distribuţiei.

Copyright © DEPARTAMENT ID 2009

Page 16: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

15

Testele t Testul t este în esenţă o procedură de testare a semnificaţiei diferenţei dintre două medii. Ca urmare, el este potrivit atunci când variabila dependentă este măsurată pe scală cantitativă (interval-raport). Distribuţia teoretică de referinţă (distribuţia de nul) este cea normală, pentru eşantioane mai mari de 30 de subiecţi, şi distribuţia t (Student), pentru eşantioane mai mici de 30 de subiecţi. Chiar dacă formulele de calcul sunt diferite, forma de prezentare a rezultatelor şi raţionamentul decizional sunt similare pentru ambele situaţii.

Tipuri de teste t 1. Testul t pentru un eşantion. 2. Testul t pentru eşantioane independente 3. Testul t pentru eşantioane dependente

Condiţii de aplicare Condiţia teoretică de bază pentru testele t este normalitatea distribuţiei de eşantionare.

Rezultatul testului devine nesigur dacă distribuţia variabilei se abate de la forma normală, mai ales dacă volumul eşantionului este mai mic de 40 de subiecţi (Gardner, 1975, Moore, 1995). În temeiul teoremei limitei centrale, cu cât volumul eşantionului este mai mare, cu atât normalitatea distribuţiei de eşantionare este mai sigură, iar impactul unei eventuale anormalităţi a distribuţiei asupra testului t, mai mic.

1. Testul z (t) pentru media unui singur eşantion

Utilizare

Testul z pentru un singur eşantion este utilizat pentru se testa diferenţa dintre media unui eşantion faţă de media cunoscută a populaţiei din care face parte (de exemplu, în ce măsură diferă înălţimea femeilor diagnosticate cu depresie cronică de înălţimea femeilor în general?). De asemenea, acest test poate fi utilizat pentru a testa diferenţa unei medii faţă de o constantă oarecare, care prezintă interes pentru cercetător (de exemplu, media QI=117 a unui eşantion de candidaţi respinşi, diferă semnificativ de media QI=125 a candidaţilor admişi la un examen de selecţie?). Utilizarea acestui test statistic este condiţionată de cunoaşterea mediei populaţiei. Dacă populaţia are o extindere mare, acest lucru este dificil de realizat (în afara cazurilor în care există studii speciale, cum sunt cele antropometrice, de exemplu). Dintre variabilele psihologice ale căror medie pentru populaţie este cunoscută, este inteligenţa, exprimată în unităţi QI (μ=100). Testul poate fi utilizat, însă, şi atunci când populaţia are o extindere mai redusă. De exemplu, dacă a fost evaluat nivelul de satisfacţie într-o organizaţie, se poate testa diferenţa dintre nivelul de satisfacţie la nivelul unei secţii faţă de media satisfacţiei la nivelul întregii organizaţii (populaţie). De asemenea, acest test poate fi utilizat pentru a testa semnificaţia diferenţei dintre media eşantionului şi orice altă valoare care prezintă interes pentru cercetător. Aranjarea datelor

Datele supuse testării trebuie să fie incluse într-o variabilă SPSS de tip numeric (vezi imaginea de mai jos). În exemplul următor vom testa semnificaţia diferenţei dintre media unui eşantion de cinci valori QI în raport cu media populaţiei (QI=100)1

1 Exemplul are un caracter didactic, motiv pentru care nu ne interesăm de normalitatea distribuţiei.

Copyright © DEPARTAMENT ID 2009

Page 17: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

16

Procedura: Statistics-Compare Means-One Sample T Test

Variabila testată

Caseta principală Variabila testată este trecută în lista Test Variable(s) În zona Test Value se înscrie media populaţiei, sau altă valoare de referinţă (100 în cazul nostru)

Caseta Options permite alegerea pragului de semnificaţie. Confidence Interval 95% este echivalent cu p=0.05 şi este valoarea implicită pentru toate testele statistice

Rezultate Imaginea de mai jos prezintă cele două tabele din Viewer cu rezultatele procedurii:

• Primul tabel include statistica descriptivă a variabilei testate (N, media, ab.std, eroarea standard a mediei).

• Al doilea tabel include rezultatele testului statistic, pe coloane, după cum urmează: o QI → Numele variabilei (dacă variabila este etichetată, este afişată eticheta); o t → 6.254 Valoarea calculată a testului t. Valoarea în sine nu se interpretează în nici

un fel, iar când se raportează sunt suficiente primele două zecimale; o df → Gradele de libertate (degrees of freedom), calculate ca N-1. Acestea trebuiesc

raportate, dar acest lucru poate fi omis dacă este menţionat volumul eşantionului, o Sig. (2-tailed) → Probabilitatea asociată valorii calculate a lui t (simbolizată în mod

uzual cu „p”). În acest caz, p=0.003 semnifică faptul că pe distribuţia teoretică t există o probabilitate de 0.003 (sau 3 la mie) de a se obţine din întâmplare o valoare a lui t egală sau mai mare de 6.254. Dacă în situaţia calculării manuale comparam valoarea calculată a lui t cu o valoare critică, corespunzătoare pragului alfa (0,05), în condiţiile utilizării SPSS se compară direct valoarea p=0,003 cu pragul alfa=0.05 pentru a se lua decizia statistică. Atunci când p este mai mic sau cel mult egal cu alfa, ipoteza de nul se respinge. Este evident că raportul dintre p şi alfa trebuie să fie invers decât cel dintre t calculat şi t critic, dacă avem în vedere că p este cu atât mai mic cu cât t este mai mare. Dacă p este mai mare decât alfa, ipoteza de nul se acceptă. În cazul de faţă, p(0,003)<alfa(0,05), ceea ce permite respingerea ipotezei de nul.

Copyright © DEPARTAMENT ID 2009

Page 18: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

17

o Mean difference → 22.60 este diferenţa dintre media eşantionului şi valoarea de referinţă.

o 95% CI for the mean difference → Reprezintă limitele intervalului de încredere pentru diferenţa dintre media eşantionului şi valoarea de referinţă. În cazul nostru ea se situează între o limită inferioară=12.57 şi o limită superioară=32.63. Altfel spus, există 95% şanse ca diferenţa adevărată dintre valoarea obţinută pe eşantion (estimare) şi valoarea de referinţă (media populaţiei) să fie cuprinsă între 12.57 şi 32.63.

Concluzia testului Media eşantionului de cercetare (m=122,6) diferă semnificativ de media populaţiei (μ=100),

(t=6.254, df=4, p=0.03).

2. Testul t pentru eşantioane independente

Utilizare

Testul t pentru eşantioane independente este utilizat pentru testarea diferenţei dintre mediile aceleiaşi variabile măsurate pe două grupuri, formate din subiecţi diferiţi (performanţa la un test de reprezentare spaţială diferă între bărbaţi şi femei?; nivelul de extraversie este diferit între piloţi şi controlorii de trafic aerian?).

Atunci când grupurile comparate fac parte din acelaşi eşantion de cercetare, nefiind selecţionate independent unul de altul, este posibil ca variabila dependentă să fie afectată de una sau mai multe variabile mascate, fapt care poate influenţa rezultatul testului. De exemplu, atunci când comparăm performanţa la un test de reprezentare spaţială pe un eşantion format din piloţi femei şi bărbaţi, este posibil ca să obţinem un rezultat semnificativ dacă experienţa de zbor a unui grup este mai mare decât a celuilalt grup (dacă acceptăm că experienţa de zbor poate avea un efect dezvoltare a abilităţii de reprezentare în spaţiu ). Într-un astfel de caz, diferenţa de performanţă la testul de reprezentare spaţială nu ar face decât să surprindă diferenţa de experienţă de zbor.

Exemplu:

Testarea diferenţei dintre media scorului la o scală de sociabilitate, aplicată unor copii crescuţi în familie, pe de o parte, şi unor copii crescuţi în instituţii de ocrotire, pe de altă parte. În acest caz, scorul la sociabilitate este variabila dependentă, măsurată pe scală cantitativă (interval/raport), iar mediul de educare este variabila independentă, exprimată pe scală nominală dihotomică (familie/instituţie de ocrotire)

Condiţii

Teoretic, testul t poate fi utilizat pentru eşantioane oricât de mici dacă distribuţia de eşantionare pentru cele două grupuri este normală şi dacă varianţa valorilor în cele două grupuri nu diferă semnificativ. În ce priveşte condiţia egalităţii varianţei, ea este testată cu un test specific. Unul dintre acestea este testul Levene, iar în funcţie de rezultatul său programul calculează testul t pe două căi, aşa cum vom vedea mai jos.

Dacă variabila dependentă nu întruneşte condiţiile pentru testul t, se poate apela la teste neparametrice, astfel:

• Testul z pentru proporţii (compararea procentului de „sociabili” din cele două grupuri) • Testul Mann-Whitney U, dacă se transformă valorile variabilei „sociabilitate” în valori de

rang

Copyright © DEPARTAMENT ID 2009

Page 19: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

18

Aranjarea datelor

Tabela de date SPSS va conţine variabila dependentă, de tip numeric, şi variabila independentă, de tip nominal, cu două valori, în funcţie de apartenenţa la un grup sau altul. Variabila independentă poate fi de tip „string” (codificând cele două grupuri cu valori de genul „A” şi „B”) sau de tip numeric (cu codificarea convenţională 1 şi 2). Din principiu, însă, recomandăm cea de a doua variantă.

Procedura: Statistics-Compare means-Indpendent Samples T Test

În caseta principală se trece variabila dependentă (soc) în lista Test Variable(s) (pot fi testate mai multe variabile simultan), iar variabila independentă (grup), în zona Grouping Variable. În acest moment programul ataşează variabilei dependente două semne de întrebare, sugerând introducerea valorilor care definesc cele două grupuri. Concomitent se activează butonul Define Groups a cărui acţionare deschide caseta secundară Define Groups, unde se introduc valorile care definesc cele două grupuri comparate (ordinea lor nu este relevantă). După acţionarea butonului Continue, caseta principală devine completă şi se poate acţiona OK pentru efectuarea testului.

Rezultate afişate în Viewer

Copyright © DEPARTAMENT ID 2009

Page 20: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

19

În primul tabel (Group Statistics) avem statistica descriptivă a celor două grupuri. Se va observa că programul descrie grupurile prin intermediul etichetelor valorilor. Dacă acestea nu ar fi fost definite, în loc de „institutie” şi „familie” ar fi apărut 1, respectiv, 2.

Al doilea tabel are două linii:

• Pe prima linie avem rezultatele testului t pentru situaţia în care varianţa celor două grupuri comparate este egală. Egalitatea varianţelor este testată cu testul Levene. Dacă probabilitatea asociată testului Levene este mai mare de p=0.05, atunci înseamnă că varianţele sunt egale, iar rezultatul testului t se citeşte pe prima linie. În cazul nostru, avem p=0.666, ceea ce înseamnă că acceptăm egalitatea varianţelor şi citim pe această linie rezultatul: t=-2.42, df=12, p=0.045. • Pe a doua linie avem rezultatele testului t pentru situaţia în care nu s-ar întruni condiţia de omogenitate a varianţei celor două grupuri. Dacă semnificaţia testului Levene ar fi fost mai mică sau egală cu 0.05, rezultatului testului t s-ar fi citit pe această linie.

Pentru exemplul nostru, rezultatul testului t permite acceptarea ipotezei cercetării, conform căreia copiii crescuţi în mediu familial sunt mai sociabili decât cei crescuţi în mediu instituţional (m1=22.00, m2=17.71, t=-2.42, df=12, p=0.045).

Copyright © DEPARTAMENT ID 2009

Page 21: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

20

3. Testul t pentru diferenţa dintre mediile a două eşantioane dependente (perechi)

Utilizare Testul t al diferenţei mediilor a două eşantioane dependente permite evaluarea semnificaţiei

variaţiei unei anumite caracteristici, la aceeaşi subiecţi, în două situaţii diferite (de exemplu, „înainte” şi „după” acţiunea unei anumite condiţii), ori în două contexte diferite, indiferent de momentul manifestării acestora. Avantajul major al acestui model statistic este acela că surprinde variaţia numită „intrasubiect”, prin faptul că baza de calcul este diferenţa dintre două valori măsurate pentru fiecare subiect în parte.

Exemplu: Un grup de subiecţi efectuează operaţii aritmetice în condiţii de linişte şi, ulterior, în condiţii

de zgomot puternic. Ipoteza cercetării este că în condiţii de zgomot performanţa este mai redusă. Performanţa la test, măsurată prin numărul de operaţii corecte, este variabila dependentă, măsurată pe o scală de raport. Contextul în care se desfăşoară experimentul („linişte”-„zgomot”), reprezintă variabila independentă, măsurată pe o scală nominală, categorială, dihotomică, ale cărei valori convenţionale pot fi 1, respectiv 2.

Condiţii Şi în acest caz condiţia de aplicare a testului t este normalitatea distribuţiei de diferenţe dintre

mediile unui număr infinit de eşantioane perechi („linişte”-„zgomot”). Din fericire, teorema limitei centrale garantează normalizarea distribuţiei de eşantionare pe măsură ce volumul eşantioanelor creşte. În situaţia în care condiţia nu se îndeplineşte, se pot utiliza teste neparametrice echivalente: testul semnului (pentru date nominale) sau testul Wilcoxon (pentru date ordinale).

Aranjarea datelor Vor fi create două variabile distincte, ambele cantitative, măsurate pe scală de tip I/R, care

primesc câte o valoare pentru fiecare subiect.

Copyright © DEPARTAMENT ID 2009

Page 22: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

21

Procedura: Statistics-Compare Means-Paired Sample T Test...

Se selectează cu câte un clic de mouse, pe rând, fiecare dintre cele două variabile. Astfel se constituie perechea de variabile în zona Current selection.

O dată constituită, perechea de variabile se trece în lista Paired Variables cu butonul de transfer (►). Pot fi create mai multe perechi de variabile şi prelucrate simultan.

Caseta Options permite alegerea pragului de semnificaţie, dacă dorim schimbarea celui

implicit (p=0.05). Rezultate Rezultatele sunt prezentate în trei tabele, ca în imaginea de mai jos: În tabelul Paired Samples Statistics sunt afişate mediile celor două grupuri comparate

(Mean), numărul subiecţilor din fiecare grup (N), abaterea standard pentru fiecare grup (Std. Deviation) şi eroarea standard a mediei fiecărui grup (Std. Error Mean).

Tabelul Paired Samples Correlations prezintă corelaţia dintre cele doua variabile:

r=0.74, p=0.013, N=10. Evaluarea corelaţiei liniare dintre cele două variabile este legitimă în acest context de date, dar oferă o informaţie diferită de testul diferenţei dintre medii şi, în mod obişnuit, este ignorat în acest context. Alegerea testului de corelaţie sau a testului t se decide în funcţie de obiectivul cercetării. Dacă ne interesează măsura în care performanţă creşte (sau scade) în funcţie de condiţia de zgomot, atunci testul t este cel potrivit.

Tabelul Paired Samples Test prezintă rezultatele testului t, astfel:

- Diferenţa dintre medii (Mean)=53 - Abaterea standard a diferenţei (Std. Deviation)=33.02 - Intervalul de încredere al diferenţie (95% Confidence Interval of the Difference):

limita inferioară (Lower)=29.38, limita superioară (Upper)=76.62. Dat fiind numărul foarte mic al subiecţilor (N=10), este de înţeles de ce intervalul de

Copyright © DEPARTAMENT ID 2009

Page 23: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

22

încredere este atât de mare, ceea ce înseamnă că diferenţa reală, la nivelul populaţiei, este estimată cu precizie scăzută de către cercetarea noastră.

- Valoarea calculată a testului t (t)=5.07 - Gradele de libertate (df)=9 (N-1) - Probabilitatea p (Sig. 2-tailed)=0.001.

Concluzia cercetării şi raportarea rezultatelor

Având în vedere că p<0.05, se respinge ipoteza de nul. Se acceptă ipoteza cercetării, conform căreia performanţă de calcul aritmetic, pe un eşantion

de 10 subiecţi, este mai mică în condiţii de zgomot (m=124) decât atunci când au fost testaţi în condiţii de linişte (m=177), pentru t=5.07 şi p=0.001. Limitele de încredere ale diferenţei de performanţă în cele două condiţii sunt, totuşi, destul de largi, fapt care indică o precizie redusă de estimare, ceea ce presupune o încredere redusă că la repetarea aceleiaşi cercetări, pe un număr egal de subiecţi, am obţine acelaşi rezultat.

Copyright © DEPARTAMENT ID 2009

Page 24: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

23

Analiza de varianţă unifactorială

(One Way ANOVA)

Utilizare

Analiza de varianţă este, în esenţă, o procedură de testare a diferenţelor dintre medii, atunci când acestea sunt mai mult de două şi sunt calculate pe grupuri formate din subiecţi diferiţi. Dacă, de exemplu, am evaluat nivelul de sociabilitate cu un scor numeric, pentru trei categorii de copii (crescuţi în familie, crescuţi de bunici şi crescuţi la orfelinat), analiza de varianţă ne permite:

- să decidem dacă variaţiile mediei la scorul de sociabilitate sunt semnificative (testul F); - să facem comparaţii multiple între media fiecărui grup de copii cu mediile celorlalte

grupuri cercetate (analiza post-hoc). În contextul analizei de varianţă valorile variabilei dependente sunt exprimate pe scală

cantitativă (I/R), iar variabila independentă este de tip categorial. Dat fiind faptul că grupurile comparate sunt formate din subiecţi diferiţi, modelul de cercetare acoperit de analiza de varianţă este denumit model intersubiect (between subjects). Dacă se utilizează ANOVA pentru a testa diferenţa dintre două medii obţinute pe grupuri independente, rezultatul ei este echivalent cu al testului t pentru grupuri independente (dar este o utilizare este neuzuală).

Exemplu Pornind de o serie de observaţii din viaţa cotidiană, ne propunem să verificăm ipoteza că

nivelul de conformism variază în funcţie de vârstă, fiind mai scăzut la tineri şi mai ridicat la persoanele mai în vârstă. În acest scop, am selecţionat un eşantion de subiecţi (N=30) format din trei categorii de vârstă (1=sub 30 de ani; 2=31-40 ani; 3=41-50 ani), fiecare categorie fiind compusă din 10 subiecţi. Atitudinea conformistă a fost evaluată cu un chestionar specializat, iar rezultatul se exprimă printr-un scor numeric.

Putem observa că variabila independentă (vârsta) deşi se exprimă pe o scală ordinală, (valorile „1”, „2” şi „3” desemnează vârste ordonate crescător), este de natură categorială. Variabila dependentă (scorul la conformism) este măsurată pe scală de raport.

Condiţii Utilizarea procedurii ANOVA este supusă următoarelor condiţii prealabile: 1. Independenţa observaţiilor (valorilor) pentru fiecare grup comparat. Cu alte cuvinte,

valorile măsurate pe subiecţii unui grup să nu fie în nici un fel influenţate de valorile măsurate pe celelalte grupuri. O modalitate de „influenţă” ar putea fi, de exemplu, faptul că subiecţii sunt informaţi cu privire la ipoteza cercetării, fapt care i-ar putea stimula pe cei mai în vârstă să intre în „competiţie” cu cei mai tineri (dacă percep „conformismul” drept un aspect „negativ”).

2. Distribuţie normală a valorilor fiecărui grup comparat. Analiza de varianţă este robustă dacă distribuţiile comparate sunt simetrice sau dacă asimetriile sunt în aceeaşi direcţie. Verificarea normalităţii se face cu testele de normalitate din procedura Explore (opţiunea Normality Plots with Tests...), ori prin calcularea limitelor de în credere pentru Skewness, fapt care permite evaluarea normalităţii simetriei, separat de cea a boltirii. Din fericire, testul F este considerat remarcabil de robust în cazul încălcării condiţiei de normalitate. ANOVA este mai vulnerabilă în situaţia când distribuţia variabilei dependente este prea aplatizată sau prea înaltă (kurtosis≠0) decât în cazul asimetriei (skewness≠0). Cu cât volumul grupurilor supuse comparaţiei este mai mare, cu atât aspectele legate de normalitatea distribuţiei au un efect mai mic asupra ANOVA.

3. Omogenitatea dispersiei la nivelul fiecărui grup. Împrăştierea valorilor variabilei dependente în interiorul grupurilor definite prin valorile variabilei independente trebuie să

Copyright © DEPARTAMENT ID 2009

Page 25: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

24

fie egală. Această condiţie se numeşte omogenitatea varianţei. Încălcarea acestei condiţii nu invalidează testul ANOVA, care este destul de robust şi în acest caz. În orice caz, se vor analiza cu atenţie cazurile care prezintă valori extreme, care au un efect important asupra varianţei. Egalitatea (omogenitatea varianţei) poate fi testată cu testul Levene.

Aranjarea datelor

Datele obţinute se introduc într-o tabelă SPSS aşa cum se vede în imaginea din anexă. Se

defineşte o variabilă independentă (definită ca „factor” în contextul ANOVA) care conţine codurile de apartenenţă a cazurilor la fiecare dintre grupurile supuse analizei (în cazul nostru categoriile de vârstă: „1”, „2”, „3”), şi o variabilă dependentă, care conţine valorile scorului la conformism.

Se va reţine faptul că procedura ANOVA nu suportă variabila independentă de tip „string”. În imagine baza de date SPSS este ordonată crescător după variabila „virsta”, dar acest lucru nu este necesar pentru procedura de calcul.

Pentru început verificăm respectarea condiţiei de normalitate a distribuţiilor la nivelul fiecăruia dintre grupurile comparate. În acest scop efectuăm procedura Explore (din meniul Statistics-Summarize), introducând variabila dependentă (conf) în zona Dependent List, iar variabila independentă (virsta) în zona Factor List, cu bifarea opţiunii Normality plots with tests în caseta Plots.

Rezultatul apare în tabelul de mai jos. Aşa cum se observă, testul Shapiro-Wilk (recomandabil

pentru eşantioane mai mici de 40 de subiecţi) are un p (Sig.) mai mare de 0.05 pentru fiecare dintre cele trei grupuri, ceea ce susţine concluzia de normalitate a distribuţiilor.

Omogenitatea dispersiei la nivelul celor trei grupuri comparate se ilustrează grafic prin

intermediul celor trei reprezentări box-plot.

Copyright © DEPARTAMENT ID 2009

Page 26: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

25

101010N =

VIRSTA

41-50 ani31-40 anisub30 ani

CO

NFO

RM

60

50

40

30

O concluzie cu privire la omogenitatea dispersiilor se fundamentează însă pe baza unui test statistic specializat, testul Levene, care se programează în caseta Explore: Plots (Spread vs Level with Levene Test:).

Sunt oferite mai multe opţiuni de calcul pentru testul de omogenitate în funcţie de diferite

modalităţi de transformare preliminară a datelor. - Opţiunea Power estimation este utilă pentru situaţia în care testul nu susţine ipoteza

omogenităţii, iar variabila independentă necesită o transformare de normalizare.2 - Opţiunea Transformed permite alegerea directă a unei modalităţi de transformare a

valorilor variabilei independente, în scopul normalizării lor. - Ultima dintre opţiuni este „Untransformed”, pe care o considerăm o soluţie recomandabilă

în acest caz, având în vedere rezultatul testului de normalitate anterior. Rezultatul este sintetizat în tabelul următor, care estimează omogenitatea distribuţiilor în

interiorul celor trei grupuri comparate, pe baze unor criterii variate (media, mediana, mediana ajustată, media 5% trim). Valoarea lui p (Sig.) mai mare de 0.05 susţine concluzia că distribuţiile sunt omogene sub aspectul dispersiei.

2 Problematica normalizării datelor nu face obiectul cursului de bază.

Copyright © DEPARTAMENT ID 2009

Page 27: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

26

Deoarece ipoteza de nul pentru testul Levene este aceea că dispersiile sunt omogene,

dispersiile vor fi considerate neomogene dacă valoarea lui p (Sig.) este mai mică sau egală cu 0.05. În cazul nostru, valorile lui p pentru cele trei grupuri sunt mai mari decât 0.05 şi, drept urmare, concluzionăm că dispersiile sunt omogene.

După ce am testat principalele condiţii ale analizei de varianţă, putem trece la efectuarea

testului ANOVA unifactorial. Procedura: Statistics-Compare Means-One-Way ANOVA...

Caseta principală One-Way ANOVA: Variabila dependentă de trece în lista Dependent List (pot fi testate mai multe variabile simultan) Variabila independentă se trece în zona Factor.

Caseta Post Hoc Multiple Comparison: Se aleg testele de analiză post-hoc, pentru testarea diferenţei dintre medii, luate două câte două. Pentru că nu ştim încă dacă varianţa este omogenă, vom bifa câte un test pentru fiecare caz (Bonferoni, pentru varianţă neomogenă şi Tamhane T2, pentru varianţă omogenă).

În caseta Options bifăm Descriptives şi, dacă nu am efectuat testul de omogenitate ca mai sus,

îl putem face aici, bifând Homogeneity-of-variance şi Means Plot.

După finalizarea setărilor se apasă OK pe caseta principală şi se analizează rezultatele.

Rezultate Tabelul Descriptives prezintă indicatorii descriptivi ai variabilei dependente pentru grupurile

analizate.

Copyright © DEPARTAMENT ID 2009

Page 28: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

27

Tabelul Test of Homogeneity of Variance conţine rezultatul testului Levene. O valoare

nesemnificativă a acestuia (cum este cazul nostru, p=0.455), conduce la concluzia că dispersiile în interiorul celor trei grupuri sunt omogene), ceea ce confirmă concluzia la care am ajuns prin procedura Explore (evident, efectuarea testului de omogenitate a varianţei în acest punct nu mai este necesară, dacă a fost făcută anterior).

Tabelul ANOVA conţine rezultatului testului F a cărui valoare este 8.201 pentru un prag

p=0.002.

Tabelul Post Hoc Tests – Multiple Comparisons prezintă comparaţiile mediilor celor trei grupuri, luate două câte două. Mulţi autori recomandă utilizarea analizei post-hoc numai dacă se obţine un nivel semnificativ pentru testul F, deoarece unele teste post-hoc nu anihilează într-o manieră suficientă cumulul de eroare de tip I. Pe de altă parte, logica celor mai multe dintre testele post-hoc nu reclamă existenţa unei semnificaţii globale a testului F drept condiţie de utilizare (testul Bonferoni este unul dintre ele).

Copyright © DEPARTAMENT ID 2009

Page 29: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

28

Având în vedere că testul Levene a confirmat omogenitatea varianţei, se vor citi valorile pentru testul Bonferoni (în caz contrar, s-ar fi citit cele pentru testul Tamhane). Valorile sunt uşor de analizat. În prima coloana avem definite grupurile analizate (etichetarea valorilor variabilei independente ajută mult la inteligibilitatea tabelului). În coloana a patra (Sig.) se află semnificaţiile pentru diferenţa dintre medii. Astfel, putem constata faptul că nivelul de conformism al subiecţilor sub 30 de ani diferă semnificativ de nivelul de conformism al fiecăreia din celelalte două categorii de vârstă (p=0.027 respectiv, p=0.002). În acelaşi timp, nu se contată o diferenţă semnificativă între categoria 31-40 ani şi 41-50 de ani (p=0.814). Aceasta concluzie este ilustrată de reprezentarea grafică a mediei timpului de reacţie ale celor trei grupuri.

VIRSTA

41-50 ani31-40 anisub30 ani

CO

NFO

RM

ISM

(med

ia)

50

48

46

44

42

40

Aşa cum se poate observa, nivelul de conformism creşte progresiv de la o categorie de vârstă la alta, dar mai accentuat între 21-30 ani şi 31-40 ani. Graficul singur, fără susţinerea procedurii ANOVA, nu ar fi permis concluzionarea unei diferenţe semnificative între cele trei grupuri. Relaţia dintre ANOVA unifactorială şi testul t Logica testului ANOVA se potriveşte şi pentru situaţiile în care variabila independentă prezintă două valori şi, ca urmare, această procedură se poate aplică şi în acest din urmă caz. În practică însă, pentru testarea diferenţei dintre mediile a două grupuri independente se utilizează testul t pentru eşantioane independente. Unul dintre motivele principale pentru care este recomandabil să procedăm astfel este faptul că testul t este direcţional (testează diferenţa dintre medii în ambele sensuri, peste şi sub zero), în timp ce ANOVA este nondirecţională (ne spune numai dacă variaţia mediilor este semnificativă, indiferent de semnul diferenţei dintre ele).

Copyright © DEPARTAMENT ID 2009

Page 30: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

29

Datele cercetării

Copyright © DEPARTAMENT ID 2009

Page 31: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

30

Coeficientul de corelaţie liniară Pearson (r) Utilizare Corelaţia Pearson (r) evaluează gradul de asociere dintre două variabile măsurate pe scală de interval/raport. Aceasta se referă la intensitatea şi sensul de variaţie concomitentă a valorilor unei variabile în raport cu cealaltă, după un model de tip liniar. Dacă valorile unei variabile urmează, în sens direct, crescător, sau invers, descrescător, valorile celeilalte variabile, atunci cele două variabile corelează între ele. Domeniul de variaţie a coeficientului de corelaţie Pearson (r) este între r=-1 (corelaţie perfectă negativă) şi r=+1 (corelaţie perfectă pozitivă). Absenţa oricărei legături (corelaţii) dintre variabile se traduce prin r=0.

Analiza de corelaţie este o procedură care implică două măsurări pentru aceiaşi subiecţi, situaţie care corespunde aşa numitului model de cercetare „intrasubiecţi” (within-subjects). Acelaşi model se întâlneşte însă şi atunci când aplicăm testul t pentru eşantioane dependente, deoarece şi în acest caz avem două măsurări pentru fiecare subiect. Să presupunem că măsurăm numărul erorilor înainte şi după ingerarea unei anumite cantităţi de alcool. În această situaţie am putea, desigur, să calculăm şi testul de corelaţie Pearson, dar testul t pentru eşantioane dependente ne-ar spune nu doar dacă există o legătură între variabila dependentă (numărul erorilor) şi variabila independentă (alcoolul „prezent”/„absent”), ci şi dacă diferenţa dintre cele două momente este una importantă sau nu. În exemplul dat, cele două măsurări s-au efectuat cu acelaşi instrument, fapt care permite calcularea diferenţei dintre cele două momente. Dar sunt şi alte situaţii de cercetare în care cercetătorul este interesat să probeze existenţa unei relaţii între variabile diferite, măsurate pentru aceiaşi subiecţi (de exemplu, între anxietate şi depresie, între timpul de reacţie şi numărul erorilor, între înălţime şi atitudinea de agresivitate etc.). În aceste situaţii fiecare variabilă este măsurată cu instrumente diferite şi se exprimă prin unităţi de măsură diferite. Testul de corelaţie este o metodă care permite probarea existenţei unei asocieri între aceste de variabile, ca urmare a faptului că, principial, procedura de calcul se bazează pe transformarea în valori z, libere de unitatea de măsură.

Testul de corelaţie implică două variabile dar, adesea, într-o cercetare psihologică numărul variabilelor supuse corelaţiei este mai mare de două. Acest fapt conduce la ceea ce se numeşte o matrice de corelaţii, care este un tabel ale cărui celule cuprind corelaţiile dintre perechile de variabile. Exemplu: Într-un studiu cu privire la preferinţa pentru risc se urmăreşte evidenţierea asocierii acesteia cu nivelul anxietăţii şi cu agresivitatea. În acest scop, toate cele trei variabile au fost măsurate cu ajutorul unor scale special construite, iar rezultatele sunt exprimate în scoruri numerice (scală I/R). Testul de corelaţie ne va spune în ce măsură există o relaţie (asociere) între preferinţa pentru risc, pe de o parte, şi celelalte două caracteristici de personalitate, pe de altă parte. Deşi variabila care face obiectul cercetării este „preferinţa pentru risc”, ea nu este considerată variabilă dependentă. În contextul testului de corelaţie nu există variabile dependente şi independente. Rezultatul testului pune în evidenţă asocierea dintre ele, ceea ce corespunde unei situaţii de „dependenţă reciprocă”. Condiţii Condiţia principală pentru calcularea coeficientului de corelaţie liniară Pearson este ca variabilele implicate să fie măsurate pe scală de interval/raport (alături de existenţa unei forme a distribuţiei care nu se abate sever de la curba normală). Testele neparametrice alternative, pentru cazul în care condiţiile pentru utilizarea testului Pearson nu se îndeplinesc, sunt: testul chi-pătrat (pentru date nominale) sau coeficienţii de corelaţie Spearman sau Kendall (pentru date ordinale).

Aranjarea datelor

Se creează variabile distincte pentru fiecare caracteristică supusă testării.

Copyright © DEPARTAMENT ID 2009

Page 32: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

31

Procedura: Statistics-Corelate-Bivariate Variabilele supuse corelaţiei vor fi trecute în lista Variables: Testul implicit, din zona Correlation Coefficients, este Pearson, dar se poate bifa un altul (Kendall sau Spearman), dacă datele sunt neparametrice (ordinale). Tipul implicit de testare a ipotezei este bilateral (Two-tailed), dar se poate alege unilateral (dacă există o justificare solidă). Flag significant correlations, determină marcarea cu un asterisc a coeficienţilor semnificativi la p=0.05, şi cu două asteriscuri a celor semnificativi la p=0.01. Acest lucru este util atunci când matricea de corelaţie este mare, pentru a scoate în evidenţă valorile semnificative ale lui r.

Rezultate

Tabelul rezultatelor cuprinde matricea de corelaţii a variabilelor analizate. El este redundant, deoarece prezintă aceleaşi corelaţii de două ori, odată deasupra diagonalei şi, din nou, sub diagonala tabelului. Corelaţiile variabilelor cu ele însele sunt perfecte şi pozitive (r=1) şi nu prezintă, desigur, nici un interes. Fiecare celulă include următoarele informaţii:

Copyright © DEPARTAMENT ID 2009

Page 33: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

32

• valoarea lui r • nivelul p (probabilitatea cu care valoarea calculată a lui r apare pe distribuţia de

nul) • numărul de subiecţi (N)

În cazul nostru, consemnăm corelaţii negative dar nesemnificative între anxietate şi agresivitate (r=-0.38, p=0.26), pe de o parte, şi între anxietate şi preferinţa pentru risc, pe de altă parte (r=-0.40, p=0.24). În acelaşi timp, se constată o corelaţie semnificativă (r=0.96, p<0.0005) între agresivitate şi preferinţa pentru risc. Precizăm faptul că raportarea coeficienţilor de corelaţie se face cu două zecimale, chiar dacă programele îi calculează cu trei zecimale.

Dezavantajul acestui tip de tabel constă în faptul că avem, de fapt, o dublă prezentare a corelaţiilor, deasupra diagonalei şi sub diagonală. Pentru corelaţii implicând multe variabile tabelul se va citi cu relativă dificultate.

Să presupunem că suntem interesaţi doar de corelaţiile dintre anxietate şi agresivitate cu variabila preferinţă pentru risc, nu şi de corelaţia dintre anxietate şi agresivitate. În acest caz, în caseta principala, Bivariate Correlations, prezentată mai sus, variabilele vor fi introduse astfel încât variabila „preferinţa pentru risc” sa fie ultima din listă. Apoi se apasă butonul Paste, al cărui efect este deschiderea ferestrei Syntax, ca o fereastră distinctă, în care se află procedura de corelaţie. Acolo, pe linia /VARIABLES=anx agresiv risc, se inserează cuvântul WITH între agresiv si risc, având grijă să existe spaţiu atât în stânga cât şi în dreapta sa.

Mai departe, se selectează întreaga procedură (cu ajutorul mouse-ului) şi se apasă pe butonul

Run (►) de pe bara de comenzi a ferestrei Rezultatul din Viewer va arăta ca mai jos:

Este evident că această modalitate se poate aplica pentru oricât variabile, dacă avem grijă să le aşezăm separat în listă şi să includem clauza WITH între cele două categorii de variabile. Nu pot fi incluse mai multe clauze WITH în aceeaşi procedură.

Ulterior, putem reveni în fereastra Syntax pentru a o închide (cu File-Close), salvând sau nu procedura astfel modificată.

inseraţi WITH

Copyright © DEPARTAMENT ID 2009

Page 34: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

33

Expresia grafica a corelaţiei (Scatterplot) Caracterul şi intensitatea corelaţiei dintre două variabile se evidenţiază extrem de sugestiv cu

ajutorul unei proceduri grafice specifice, numită scatterplot. Aceasta se lansează din meniul principal Graphs-Scatter... care deschide următoarea casetă de

dialog:

În cazul nostru, să presupunem că dorim reprezentarea grafică a corelaţiei dintre agresivitate şi preferinţa pentru risc, singura semnificativă. În acest scop, selectăm pe caseta Scatterplot opţiunea Simple şi apăsăm Define.

Trecem variabila Agresivitate pe axa Y şi variabila Preferinţa pentru risc pe axa Z (se poate la fel de bine şi invers). Se apasă OK şi se obţine graficul din imaginea următoare, care sugerează foarte clar existenţa unei asocieri de tip liniar între cele două variabile.

Reprezentarea grafică este sursă de informaţii cu privire la natura relaţiei dintre variabile, motiv pentru care este recomandabilă utilizarea frecventă a acesteia. Mai mult, ea este necesară în

Copyright © DEPARTAMENT ID 2009

Page 35: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

34

special atunci când valoarea corelaţiei este redusă, sau nesemnificativă, deoarece graficul poate scoate în evidenţă o legătura de alt tip decât liniară.

O corelaţie r=0.92, ca cea obţinută mai sus, între agresivitate şi preferinţă pentru risc, este improbabil să se întâlnească într-un studiu real. De fapt, dacă s-ar întâmpla să apară, ar trebui să concluzionăm mai degrabă că cele două variabile se confundă, decât că sunt distincte. Aceasta deoarece este firesc să existe corelaţii între variabile psihologice, dar este nefiresc ca relaţia dintre ele să fie atât de intensă, fără a ne gândi că rezultă dintr-o eventuală eroare de definire a lor sau, eventual, dintr-o eroare de măsurare, prin utilizarea unui instrument care nu face o distincţie reală între ele.

Copyright © DEPARTAMENT ID 2009

Page 36: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

35

Analiza de itemi

Introducere în analiza de itemi Măsurarea caracteristicilor psihologice se bazează în mod obişnuit pe teste, care sunt formate din mai multe întrebări sau sarcini (denumite generic „itemi”). Răspunsul subiecţilor la fiecare item sunt punctate, după care se calculează „rezultatul” la testul respectiv, sub forma unui scor numeric. Pe tot acest parcurs, conduita subiectului (subiectivă sau obiectivă) este fixată prin numere. Pentru ca rezultatul final să fie unul adecvat, adică să exprime corect starea subiectului în raport cu caracteristica psihologică măsurată, este esenţial să ne asigurăm că aceste numere au calităţi reale de măsurare. În caz contrar, riscăm să facem evaluări lipsite de orice fundament. Analiza de itemi reprezintă o colecţie de proceduri statistice care permit investigarea calităţilor de măsurare a testelor psihologice.

Principiile analizei de itemi se aplică atât instrumentelor care măsoară atribute ale personalităţii, cât şi celor care vizează aspecte de performanţă (abilităţi, aptitudini). Analiza de itemi se prezintă sub două aspecte principale:

- calitativ, analiza de itemi se referă la modul în care sunt elaboraţi itemii (întrebările sau sarcinile de lucru) şi are în vedere aspecte de formulare lingvistică sau stilistică (de exemplu, evitarea dublei negaţii);

- cantitativ, analiza de itemi se referă la proprietăţile statistice ale răspunsurilor la itemi.

În cazul unui chestionar psihologic sau a unui test de performanţă, este posibil ca unii dintre itemii care le compun să nu funcţioneze aşa cum ne-am dorit: pot crea confuzii, pot fi interpretaţi greşit, pot fi prea uşori sau prea dificili, etc. Motivele care pot genera astfel de situaţii sunt variate:

• formulare confuză (de exemplu, prin utilizarea negaţiei); • alte informaţii care acompaniază itemul (grafice, imagini, diagrame, etc.) pot fi neclare sau

greşite; • nu există un răspuns corect evident, situaţie în care una dintre variantele greşite (distractor)

este considerată corectă; • există itemi care se referă la un alt conţinut (atribut) decât cel vizat de restul itemilor; • există un efect discret de incompatibilitate al unor itemi în raport cu caracteristicile subiecţilor

investigaţi (legat de sex, grup etnic, vârstă, etc.) Până la un punct, aceste neajunsuri pot fi, fie prevenite, fie eliminate, mai ales când sunt

evidente, prin analiza calitativă, intuitivă. Precizia operaţiei poate fi însă mult îmbunătăţită dacă se apelează la un set de prelucrări statistice special destinate analizei de itemi. Aceste proceduri contribuie la ameliorarea calităţilor psihometrice ale unui instrument de evaluare psihologică, prin identificarea itemilor improprii (greşiţi sau redundanţi) care ar trebui eliminaţi sau modificaţi.. Toate aceste proceduri sunt denumite generic „analiza de itemi”.

În funcţie de obiectivele urmărite, procedurile clasice ale analizei de itemi, care sunt cele mai frecvent utilizate, sunt următoarele:

1. evaluarea indicelui de dificultate a itemilor; 2. evaluarea capacităţii de discriminare a itemilor. 3. evaluarea consistenţei interne a instrumentului;

Premisa fundamentală de la care porneşte analiza clasică a testelor psihologice este aceea că

scorul testului este compus dintr-o valoare „adevărată” (care exprimă corect atributul vizat) şi o cantitate de „eroare” (care vizează ”altceva”). În cazul unui test bine făcut, „eroarea” se distribuie normal pe ansamblul testului, nu este corelată cu scorul „adevărat” şi are media egală cu zero. 1. Evaluarea dificultăţii itemilor

Multe dintre testele dezvoltate de psihologi vizează caracteristici psihice exprimate în termeni de performanţă, în scopul clasificării pentru selecţie sau evaluării comparative (aptitudini şi abilităţi

Copyright © DEPARTAMENT ID 2009

Page 37: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

36

diverse). În cazul acestui tip de scale, este de interes major evaluarea capacităţii de discriminare a fiecărui item.

Unul dintre indicatorii utilizaţi în acest scop este indicele de dificultate, care semnifică procentul de răspunsuri corecte al fiecărui item. Pentru testele de personalitate, conceptul de „corect” sau „greşit” se înlocuieşte cu orientarea răspunsului spre semnificaţia scalei sau împotriva acesteia (marcând prezenţa sau absenţa trăsăturii vizate). Orice item la care se obţin numai răspunsuri corecte, sau la care nimeni nu răspunde corect, este lipsit de relevanţă deoarece nu produce nici o diferenţiere între subiecţi. Dacă presupunem existenţa unei relaţii perfecte dintre abilitatea subiectului (cea măsurată prin test) şi succesul la un item, atunci un indice de dificultate de 50% va diferenţia între subiecţii care se plasează în prima jumătate a scalei şi cei care se plasează în doua jumătate a scalei de performanţă. În acelaşi timp, dacă toţi itemii unei scale ar avea un indice de dificultate de 50%, atunci, prin aplicarea scalei, s-ar discrimina doar două categorii de subiecţi, fapt care nu este de natură să conducă la rezultate suficient de sensibile în evaluarea subiecţilor. În general, se consideră că o scală este suficient de discriminativă atunci când este compusă din itemi al căror indice de dificultate este moderat (30%-40%).

Într-un mod similar se pune problema şi în cazul întrebărilor la teste de personalitate, la care răspunsurile sunt interpretate în funcţie de orientarea lor spre o anumită „trăsătură” psihică, sau împotriva ei.

Atunci când itemii sunt selectaţi pe baza indicelui de dificultate, mai trebuie luaţi în considerare doi factori suplimentari:

a. Deşi un indice mediu de dificultate de 50% este suficient pentru a maximiza varianţa totală a scorului, această valoare trebuie să fie mai mare în cazul în care avem de a face cu răspunsuri la un test cu alegeri multiple. Aceasta deoarece trebuie să luăm în considerare faptul că o parte a răspunsurilor corecte pot fi ghicite, date la întâmplare.

b. Dacă dorim ca scala să fie discriminativă şi spre extremele ei, atunci vor trebui incluşi şi itemi al căror indice de dificultate să se afle în apropierea extremelor, adică mai mici sau mai mari de 50%.

În general, este considerat recomandabil un indice de dificultate mediu pe scală cuprins între

30%-70% (sau, exprimat sub formă zecimală, între 0.3 şi 0.7) Modul de calcul al indicelui de dificultate

Aşa cum l-am descris mai sus, indicele de dificultate se calculează ca procent de răspunsuri corecte pentru fiecare item. Pentru evaluarea dificultăţii itemilor cu SPSS se va utiliza procedura Frequency din meniul Statistics. Mai jos avem imaginea analizei de frecvenţe pentru un item oarecare, i_01, al unui test cu 22 de itemi, unde valoarea 0 înseamnă răspuns greşit iar valoarea 1, răspuns corect3.

Indicele de dificultate se citeşte pe coloana Percent, dacă variabila nu are valori lipsă, şi pe coloana Valid Percent, dacă există valori lipsă. În cazul nostru, indicele de dificultate al itemului 01 este de 81.8% (0.81) cazul nostru.

3 Se utilizează datele din fişierul didactic alfa_tema.sav

Copyright © DEPARTAMENT ID 2009

Page 38: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

37

2. Evaluarea capacităţii de discriminare a itemilor

Procentajul răspunsurilor corecte (indicele de dificultate) nu este o condiţie suficientă pentru a judeca calitatea unui item. La fel de important este ca numărul răspunsurilor corecte să fie în legătură cu nivelul abilităţii (sau trăsăturii, dacă este un test de personalitate) pe care intenţionăm să o măsurăm cu acel instrument. Acest aspect este surprins de indicele de discriminare. Dacă cei care răspund corect (sau în spiritul „trăsăturii”, pentru un test de personalitate), la un anumit item, au un nivel ridicat al abilităţii (trăsăturii), în timp ce cei care răspund greşit au nivel scăzut, sau dacă ambele grupuri au acelaşi nivel al abilităţii (trăsăturii), atunci este clar că itemul respectiv este, fie formulat greşit, fie măsoară altceva decât se presupune că măsoară.

Un item care dispune de capacitate de discriminare are un procentaj al răspunsurilor corecte mai mare pentru subiecţii care obţin rezultate mai mari la nivelul întregii scale (care măsoară abilitatea), şi un procentaj mai mic pentru subiecţii care obţin o valoare mai mică pentru scala respectivă. În absenţa unui criteriu extern de validare a răspunsului, scorul total, obţinut prin însumarea răspunsurilor corecte, este utilizat drept criteriu de discriminare. Pentru calcularea indicelui de discriminare se procedează în felul următor:

• se calculează scorul total; • se formează două grupuri distincte, fiecare reprezentând un anumit procent din

subiecţii evaluaţi, aflaţi la extremele distribuţiei. Procentul selectat este arbitrar. Cu cât este mai mic, cu atât indicele de discriminare este mai mare dar, în acelaşi timp, mai puţin sigur. De aceea, se recomandă un selectarea unui procent cuprins între 25% şi 33%, care reprezintă un compromis rezonabil.

• odată grupurile selecţionate, se poate calcula un indice de discriminare, simbolizat cu "D", după următoarea formulă:

LU nL

nUD −=

unde:

• U=numărul subiecţilor din grupul superior (Upper group) care au răspuns corect la un item

• nU=numărul subiecţilor din grupul superior • L=numărul subiecţilor din grupul inferior (Lower group) care au răspuns corect la un

item • nL=numărul subiecţilor din grupul inferior

Dacă numărul subiecţilor din cele două grupuri extreme este egal, atunci D=(U-L)/n. O valoare pozitivă va indica faptul că itemul discriminează corect, în concordanţă cu

constructul psihologic măsurat. Cu cât mai mare este diferenţa, cu atât mai mare este capacitatea itemului de discriminare între subiecţii „buni” şi cei „slabi” sub aspectul acelui construct. Pe de altă parte, o valoare negativă sugerează o discriminare negativă între grupurile extreme, fapt care este o dovadă puternică a unei probleme în construcţia acelui item. Ebel (1965) sugerează eliminarea sau revizuirea completă itemilor a căror indice de discriminare este mai mic de 0.20 şi revizuirea itemilor al căror indice este între 0.20 şi 0.30. Un indice de discriminare bun se plasează între 0.30-0.39, iar unul foarte bun, peste 0.40.

Deşi uşor de calculat şi utilizat, indicele D suferă de un mare neajuns: prin compararea a doar

două grupuri extreme, selectate arbitrar din ansamblul subiecţilor testaţi, o parte din informaţie este ignorată, deoarece subiecţii care fac parte din grupul de performanţă intermediar nu sunt luaţi în considerare. Soluţia acestei probleme ar putea fi aceea de a împărţi ansamblul valorilor scalei în mai multe subgrupuri, în funcţie de numărul subiecţilor şi de fineţea dorită a analizei. În acest fel, indicele de dificultate al fiecărui item ar putea fi analizat prin raportare la fiecare subgrup valoric. În mod ideal, indicele de dificultate (procentul răspunsurilor corecte) al unui item bine „calibrat” trebuie să fie mai

Copyright © DEPARTAMENT ID 2009

Page 39: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

38

mic pentru subiecţii din grupul valoric inferior şi să crească progresiv, pe măsură ce este calculat pentru grupurile cu performanţe mai mari la scorul global (Peladeau, 1995). Modul de calcul al indicelui de discriminare cu SPSS

Programul SPSS nu dispune de o procedură specifică pentru analiza de discriminare a itemilor. Cu toate acestea, dispune de suficiente posibilităţi pentru realizarea acestui tip de analiză. Vom prezenta mai jos un exemplu pentru itemul i_01, al cărui nivel de dificultate a fost calculat anterior. În acest scop, am procedat astfel:

a) Calculăm scorul global al scalei, compusă din 22 de itemi, din care face parte itemul i_01, utilizând procedura Transform/Compute, aşa cum se vede mai jos:

b) Analizăm variabila "scor" astfel obţinută cu procedurile Explore şi Frequencies, din meniul

Statistics, fixând arbitrar două grupe extreme de performanţă, compuse fiecare din aproximativ 30% dintre subiecţii examinaţi cu respectivul instrument, astfel:

• grupul inferior, valorile 7-13 (NL=7) • grupul superior, valorile 18-22 (NU=11)

scor

1 4,5 4,5 4,51 4,5 4,5 9,11 4,5 4,5 13,62 9,1 9,1 22,72 9,1 9,1 31,82 9,1 9,1 40,91 4,5 4,5 45,51 4,5 4,5 50,04 18,2 18,2 68,23 13,6 13,6 81,82 9,1 9,1 90,91 4,5 4,5 95,51 4,5 4,5 100,0

22 100,0 100,0

7,009,0010,0012,0013,0015,0016,0017,0018,0019,0020,0021,0022,00Total

ValidFrequency Percent Valid Percent

CumulativePercent

c) Am creat o variabilă nouă, în care am definit apartenenţa subiecţilor la grupurile definite mai sus, pe care le-am codificat astfel, cu procedura Tranform/Recode/Into Different Variables:

"1", grupul inferior "2", grupul median

Copyright © DEPARTAMENT ID 2009

Page 40: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

39

"3", grupul superior

Şi apoi, după acţionarea butonului Old and New Values: declarăm valorile aşa cum se vede în

caseta de mai jos

În urma acestei operaţii am obţinut variabila "grup", ale cărei valori, 1,2 sau 3, marchează

apartenenţa subiecţilor la unul dintre cele trei grupe valorice. d) Declarăm împărţirea fişierului cu date în trei categorii de subiecţi, cu procedura Data/Split

File, aşa cum se vede în imaginea de mai jos.

Copyright © DEPARTAMENT ID 2009

Page 41: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

40

Efectul acestei acţiuni este acela că, orice prelucrare vom face cu SPSS în continuare, aceasta

va fi efectuată separat pentru fiecare din cele trei categorii separate prin valorile variabilei "grup".

e) În fine, acum se poate rula procedura Frequencies din meniul Statistics, pentru variabila i_01. Datorită efectului de împărţire a bazei de date prin comanda Split file, rezultatul va fi structurat pentru fiecare subgrup valoric în parte, aşa cum se vede în imaginea de mai jos:

i_01

3 42,9 42,9 42,94 57,1 57,1 100,07 100,0 100,04 100,0 100,0 100,01 9,1 9,1 9,1

10 90,9 90,9 100,011 100,0 100,0

01Total

Valid

1Valid01Total

Valid

grup1,00

2,003,00

Frequency Percent Valid PercentCumulative

Percent

Tabelul din imagine prezintă frecvenţa răspunsurilor corecte, citită pe coloana Percent (sau pe coloana Valid Percent, dacă există valori lipsă). Aşa cum se observă, indicele de dificultate pentru grupul valoric inferior este mai mic (57.1%) decât pentru grupul superior (90.9%).

Aplicând manual formula, obţinem indicele de discriminare căutat:

33.074

1110

+=−=D

Rezultatul arată că itemul i_01 are un indice pozitiv de discriminare de 0.33 care, în

conformitate cu criteriile lui Ebel, indică o capacitate bună de discriminare. Chiar dacă obţinem şi unii indici de discriminare mai mici, dacă dorim să avem o scală care are putere de discriminare şi la extremele sale, aceştia pot fi păstraţi.

Notă: Se poate observa că se poate ajunge la o valoare similară, exprimată în procente, prin simpla diferenţă a celor doi indici de dificultate "D=90.9-57.1=33.7)

Mai departe, ar trebui efectuată procedura Frequencies pentru toţi cei 22 de itemi ai testului şi extragerea concluziilor care se impun. 3. Consistenţa internă (Cronbach alfa)

Având un instrument psihologic format din itemi diferiţi, o problemă fundamentală care se pune este măsura în care aceşti itemi sunt „unidimesionali”, adică măsoară aceeaşi realitate psihologică. Numai dacă această condiţie este îndeplinită, se poate face suma lor, pentru construirea unui scor unic (denumit în continuare „scală”). Dacă avem în vedere un chestionar de personalitate sau o scală de atitudine de tip Lickert, atunci ne aşteptăm că acest instrument este destinat măsurării unui anumit aspect sau atribut psihic şi, în mod ideal, numai aceluia. Cu alte cuvinte, întrebările unui chestionar, la fel ca şi cele ale unui test de performanţă, ar trebui să fie astfel formulate încât să se refere la o singură realitate psihică, vizată prin obiectivul instrumentului. Dacă această condiţie este întrunită, atunci itemii ar trebui să aibă o variabilitate comună, adică o anumită relaţie unii cu alţii, pe de o parte, dar şi o relaţie cu scorul global al scalei, pe de altă parte. Această calitate a unui test se numeşte consistenţă internă şi este întrunită atunci când fiecare dintre itemii care îl compun este relevant în raport cu dimensiunea psihică vizată de instrument. Corelaţia dintre un anumit item şi

Copyright © DEPARTAMENT ID 2009

Page 42: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

41

scorul global, calculat fără acel item, poate fi considerată un indicator a relaţiei mai sus amintite. O altă faţetă a consistenţei unui instrument psihologic este fiabilitatea sa, care poate fi exprimată prin stabilitatea scorului global atunci când acelaşi instrument, sau o formă alternativă a acestuia, este aplicată aceloraşi subiecţi.

Fără a fi singura procedură statistică utilizabilă în astfel de situaţii, coeficientul Cronbach alfa (ά) este de departe cel mai cunoscut dintre toate, fiind utilizat ca un indicator al preciziei de măsurare a unui test, al consistenţei interne şi fidelităţii unui instrument psihologic. El nu este un test statistic, ci un indice sau coeficient care măsoară caracteristica de consistenţă internă a unui instrument psihologic compus din mai mulţi itemi, care sunt însumaţi într-un scor unic. Formula de calcul se bazează pe media coeficienţilor de corelaţie dintre itemi şi numărul itemilor:

( ) m

m

rNrN

*11 −+∗

unde: N=numărul itemilor rm=media coeficienţilor de corelaţie dintre itemi

Principalul motiv pentru care am introdus aici formula lui ά Cronbach este pentru a scoate în evidenţă faptul că valoarea sa poate fi crescută pe două căi:

- fie prin creşterea similarităţii dintre itemi, care conduce la coeficienţi mai mari de corelaţie interitemi;

- fie prin creşterea numărului de itemi. Indicele Cronbach alfa este, de asemenea, un indicator al preciziei scalei şi poate fi văzut prin

prisma valorii teoretice maxime pe care o poate lua o corelaţie cu această scală. Altfel spus, corelaţia unei variabile măsurate cu un test psihologic, cu o altă variabilă psihologică, nu va putea fi niciodată mai mare decât consistenţa internă a fiecăreia dintre cele două variabile investigate, dată de indicele Cronbach alfa. Din acest motiv, atunci când studiem relaţia dintre anumite variabile psihologice trebuie să ne punem problema „preciziei” cu care acestea au fost măsurate, deoarece mărimea corelaţiei posibile dintre ele este fixată de precizia măsurării fiecăreia.

Valoarea Cronbach alfa tinde sa fie cu atât mai mare cu cât numărul itemilor scalei este mai mare. Ca urmare, putem fi tentaţi să utilizăm chestionare cu un număr mai mare de întrebări. Acest lucru poate genera cel puţin două probleme pe care trebuie să le luăm în considerare:

• din motive practice, testele mai scurte sunt de dorit, date fiind reducerea costurilor de realizare şi a duratei de aplicare;

• în cazul testelor mai lungi, pot exista întrebări care, chiar dacă au o corelaţie pozitivă cu scala, contribuie la reducerea indicelui Cronbach alfa sau au o contribuţie minoră la consistenţa generală a scalei. În practică, autorul unui chestionar este interesat să reducă numărul itemilor fără a afecta

consistenţa internă a scalei. În acest scop, "valoarea lui alfa în cazul eliminării itemului" (Alpha if item deleted) este un indicator foarte util. Eliminând succesiv itemii a căror prezenţă contribuie la reducerea valorii Cronbach alfa, sau au o contribuţie redusă la acesta, se poate ajunge la un număr suficient de mic de itemi în condiţiile obţinerii unei valori mai mari pentru Cronbach alfa.

Procedura de analiză a consistenţei interne are un caracter recursiv, cu evaluări succesive ale relaţiilor dintre itemi, dintre itemi şi scorul global, şi cu operarea selecţiei itemilor în funcţie de relaţia lor cu acesta. Criteriul de bază pentru această operaţie este valoarea indicelui Cronbach alfa, care are o plajă de variaţie între 0 şi 1. O scală, pentru a fi considerată consistentă, trebuie să atingă o valoare a indicelui Cronbach alfa cât mai aproape de 1, nivelul de 0.70 fiind acceptat, prin convenţie, ca prag minim. Oricum pentru un instrument consistent valoarea lui Cronbach alfa nu poate fi mai mică de 0.60, iar o valoare cât mai mare este întotdeauna de dorit. Unii autori consideră drept acceptabilă o valoare de 0.5 a indicelui Cronbach alfa în cazul scalelor cu un număr mic de itemi (10-15), în timp ce pentru scalele mai mari de 50 de itemi reclamă valori ale lui Cronbach alfa de cel puţin de 0.80.

Facem precizarea că atunci când ne referim la „scorul global” al unei scale, avem în vedere însumarea răspunsurilor fiecărui item care contribuie la construcţia acestuia. În cazul în care testul

Copyright © DEPARTAMENT ID 2009

Page 43: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

42

respectiv este compus din mai multe scale (trăsături de personalitate, de exemplu), indicele Cronbach alfa se calculează, desigur, în mod distinct pentru fiecare scală în parte. Acesta nu se calculează însă în situaţiile în care itemii unui instrument nu sunt utilizaţi pentru construcţia unui scor global, ci sunt analizaţi de sine stătător (de exemplu, in cazul întrebărilor unui interviu). Analiza de consistenţă internă cu SPSS

Procedura de analiză se lansează din meniul Statistics-Scale-Reliability Analysis..., care deschide următoarea casetă de dialog:

Variabilele4 care conţin valorile itemilor de analizat vor fi trecute în lista Items.

Atenţie, variabilele trebuie să conţină valori care exprimă semnificaţia răspunsului în raport cu

scala globală şi nu răspunsul efectiv al subiectului. De exemplu, dacă variantele de răspuns sunt codificate cu „1”, respectiv „2”, pot exista întrebări pentru care varianta „1” aduce un punct la scala iar varianta „2” aduce zero puncte la scală. Într-o asemenea situaţie, pentru analiza de itemi valorile codificate de răspuns vor fi transformate în valori corespunzătoare (0 şi 1). În acelaşi mod se va opera şi pentru itemii care au mai multe variante de răspuns, cum este cazul scalelor de tip Lickert. Codurile convenţionale ale variantelor de răspuns vor fi transformate în valori, în funcţie de semnificaţia contribuţiei lor la construirea scorului global. În lista Model se poate alege unul dintre următoarele modele de analiză:

• Alfa. Calculează Cronbach alfa care pentru date dihotomice este echivalent cu coeficientul Kuder-Richardson 20 (KR20)

• Split-half. Pentru corelaţia dintre forme paralele, coeficientul de fidelitate Guttman, coeficientul Spearman-Brown, coeficientul alfa pentru fiecare jumătate.

• Modele Gutman. Coeficienţii lambda, de la 1 la 6 • Modele paralele şi strict paralele. Testele pentru gradul de corespondenţă (goodness-of-

fit), varianţa comună şi alte caracteristici ale raporturilor dintre itemi.

Pentru analiza de consistenţă internă se alege modelul Alfa.

4 Se utilizează fişierul didactic saq_10_itemi.sav

Copyright © DEPARTAMENT ID 2009

Page 44: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

43

În continuare, se fac setări de analiză prin deschiderea casetei Statistics:

• În zona Descriptives se vor bifa opţiunile: o Item (analiza fiecărui item separat); o Scale (analiza scorului global) o Scale if item deleted (analiza scorului fără contribuţia unui anumit item)

• În zona Inter-item se va bifa Corelations, pentru a obţine matricea de corelaţii dintre itemi. • Summaries permite calcularea unor indicatori descriptivi pentru fiecare dintre itemii analizaţi

(media, varianţa, covarianţa, corelaţii) În practică, bifarea opţiunilor marcate pe caseta din imaginea de mai sus oferă informaţiile

cele mai importante pentru analiza itemilor unui test. Celelalte opţiuni sunt explicitate în Help-ul casetei şi pot fi utilizate pentru o analiză mai rafinată a datelor.

În continuare, vom analiza un set de 10 itemi ipotetici, aleşi doar în scop didactic. Pentru o scală reală acest număr ar fi cu totul insuficient. Ca regulă generală, numărul itemilor din faza de dezvoltare a unui astfel de instrument ar trebui să aibă cel puţin dublul numărului de itemi pe care îl preconizăm la final. Acest lucru se impune deoarece analiza de itemi este un proces selectiv care are drept scop alegerea itemilor adecvaţi pentru constituirea unei scale cu cel mai ridicat nivel de consistenţă internă posibilă.

Rularea procedurii, cu setările de mai sus ne oferă mai multe categorii de informaţii: Un tabel cu indicatori descriptivi, media şi abaterea standard a itemilor. Analiza valorilor

permite evidenţierea tendinţei centrale şi a împrăştierii răspunsurilor pentru fiecare item în parte:

Copyright © DEPARTAMENT ID 2009

Page 45: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

44

Matricea corelaţiilor dintre itemi.

Corelaţiile itemilor oferă o imagine a gradului de asociere dintre aceştia. Valorile sunt utile, pe

de o parte, pentru a sesiza itemii care tind să aibă relaţii negative cu ceilalţi, fiind un semn al unei posibile probleme de construire respectivilor itemi. Din tabelul alăturat rezultă că itemii i_02 şi i_03 tind să se asocieze negativ cu majoritatea celorlalţi itemi. Pe de altă parte, valori extrem de ridicate ale unor corelaţii, aproape de 1, ar putea sugera că itemii respectivi prezintă un grad de similitudine care nu justifică utilizarea lor în aceeaşi scală (ar putea fi, de exemplu itemi formulaţi extrem de asemănător). Un set de indicatori statistici descriptivi la nivelul întregii scale:

În fine, cea mai importantă dintre categoriile de informaţii, tabelul relaţiilor dintre itemi şi

scorul global. Două dintre coloanele tabelului au o importanţă particulară: Corected Item-Total Correlation (corelaţia dintre item şi scorul global) şi Alpha if Item Deleted (valoarea lui Cronbach alfa, dacă respectivul item ar fi eliminat).

Copyright © DEPARTAMENT ID 2009

Page 46: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

45

Dacă privim coloana Corected Item-Total Correlation observăm că doi dintre itemi (i_03 şi

i_09) au corelaţii negative cu scorul global. Cu alte cuvinte, ei nu aduc informaţie utilă în raport cu atributul măsurat ci, dimpotrivă, merg într-o altă direcţie decât acesta. În primul rând trebuie să verificăm dacă valorile itemilor respectivi au fost corect codificate. Dacă da, atunci singura soluţie posibilă este eliminarea itemilor în cauză. Observăm, de asemenea, că itemul i_02 are o corelaţie extrem de mică cu scorul global (0.015). Contribuţia sa la scorul global este nerelevantă. Cu alte cuvinte, nici nu strică, dar nici nu ajută. Pe ultima linie a imaginii găsim valoare lui Cronbach alfa, care este 0.4576, o valoare care este modestă în raport cu nivelul minim necesar (0.70), dar care poate fi crescută prin eliminarea itemilor nepotriviţi, în primul rând a celor care corelează negativ cu scorul global.5 Următoarea fază este reluarea prelucrării, cu eliminarea itemilor negativi. În general, nu este recomandabilă eliminarea mai multor itemi simultan, dar itemii negativi pot fi scoşi fără reţineri. Iată care este rezultatul obţinut după reluarea analizei cu eliminarea itemilor 3 şi 9:

Ca urmare a noii iteraţii se observă că itemul i_02, care anterior avea o corelaţie pozitivă, dar

extrem de mică, a dobândit o corelaţie negativă cu scala. În consecinţă, va fi eliminat. În principiu, chiar şi itemii pozitivi, care au corelaţii cu scala mai mici de 0.1, nu trebuie păstraţi, pentru simplul motiv că nu contribuie la constructul psihologic vizat, fiind doar consumatoare de timp în aplicarea

5 Deşi programele statistice calculează Cronbach alfa cu patru zecimale, el se raportează în mod obişnuit cu două zecimale.

Copyright © DEPARTAMENT ID 2009

Page 47: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

46

instrumentului. De altfel, se şi observă că prin eliminarea acestui singur item, valoarea lui Cronbach alfa ar creşte la 0.75.

Se face din nou prelucrarea fără itemul i_02 şi se obţine următoarea configuraţie de rezultate:

Rezultatul arată o valoare Cronbach alfa de 0.75. În plus, dacă privim coloana Alfa if Item Deleted, vedem că prin eliminarea oricărui item nu am obţine o valoare mai ridicată decât aceasta. În acest moment analiza poate fi oprită, itemii selecţionaţi putând fi constituiţi într-un instrument de măsurare psihologică.

În concluzie, cu ocazia iteraţiilor succesive se vor elimina, in ordine: • itemii care au o corelaţie negativă cu scorul global • itemii cu corelaţii mici, nerelevante

Cu cât avem mai mulţi itemi în această fază, cu atât avem posibilitatea să păstrăm itemi care

corelează mai intens cu scala şi, deci, să atingem un nivel mai ridicat de consistenţă internă. Este de la sine înţeles că, în cazul în care construim un instrument ale cărui întrebări se adresează unor „scale” diferite, consistenţa internă se va evalua separat pentru setul de întrebări corespunzător fiecărei scale.

O scală „consistentă intern” ne oferă garanţia că itemii instrumentului nostru „merg împreună”, măsoară acelaşi „construct” psihologic. Atenţie, însă, acest lucru nu ne permite încă să afirmăm că măsoară exact ceea ce n-am propus să măsoare. Această problemă va fi rezolvată ulterior, prin studii de validare.

Evaluarea numărului de itemi necesari pentru o scală În procesul de construcţie al unei scale de măsurare psihologică pot apare unele dificultăţi, pe

care statistica ne ajută să le surmontăm. De exemplu, ne putem afla în situaţia în care itemii elaboraţi nu ating nivelul minim acceptabil de consistenţă internă şi trebuie să adăugăm noi itemi. Cât de mulţi itemi ar trebui să mai elaborăm pentru a atinge un indice Cronbach alfa acceptabil? Numărul itemilor necesari pentru a completa o scală care nu a atins valoarea acceptabilă a indicelui Cronbach alfa, poate fi estimat cu ajutorul formulei Spearman-Brown: unde:

αx este valoarea curentă a lui Cronbach alfa αk este nivelul dorit al lui Cronbach alfa

)1(*)1(*

kx

xkkαααα

−−

=

Copyright © DEPARTAMENT ID 2009

Page 48: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

47

k este factorul de multiplicare a scalei pentru a se obţine αk Într-un mod similar, se poate estima valoarea lui Cronbach alfa (αk) care ar fi atinsă pornind de la un anumit nivel calculat al acestuia αx şi un anumit factor de multiplicare al numărului de itemi (k): Exemplu:

Avem o scală cu 20 de itemi şi αx=0.50 Câţi itemi ar trebui adăugaţi pentru a atinge un nivel α de 0.70?

Deci, pentru a atinge un α de 0.70 va trebui să avem o scală de 20*2.33≈47 itemi, ceea ce

înseamnă că ne vor mai trebui 27 de itemi pe lângă cei 20 deja existenţi (estimare valabilă pentru situaţia în care noii itemi ar avea aceeaşi corelaţie inter-itemi cu cei deja existenţi).

Pentru acelaşi caz, cu cât ar creşte α dacă am adăuga 30 de itemi:

k=(nr. itemi iniţiali+nr. itemi noi)/nr. itemi noi=(20+30)/20=2.5

Desigur, se presupune că noii itemi adăugaţi vor fi la fel de „buni” ca şi cei deja utilizaţi. De

aceea este posibil ca rezultatul formulei să fie o estimare uşor optimistă, dar nu mai puţin utilă.

Câteva reguli de bază pentru dezvoltarea itemilor

1. Itemii a căror corelaţie cu scala (scorul global) este negativă, sunt eliminaţi (după ce se verifică în prealabil dacă au fost valorizaţi corect).

2. Itemii a căror corelaţie cu scala (scorul global) este mai mică de 0.15, ar trebui probabil revizuiţi, deoarece nu sunt „încărcaţi” în suficientă măsură cu atributul vizat de test, sau de subscala căruia îi aparţine. În orice caz, itemii cu corelaţii sub 0.1 nu sunt utilizabili. În principiu, un test este cu atât mai bun cu cât itemii sunt mai omogeni.

3. În cazul itemilor cu variante de răspuns, variantele greşite (distractori) care nu sunt alese de nici un subiect, ar trebui reformulate sau eliminate, deoarece nu contribuie la discriminarea între subiecţii cu performanţă slabă şi cei cu performanţă bună. Faptul că variantele greşite nu sunt alese cu aceeaşi frecvenţă nu reprezintă, însă, o problemă. De asemenea, un item la care majoritatea răspunsurilor sunt greşite nu trebuie în mod necesar eliminat, dar o analiză atentă a acestuia se impune.

4. Corectitudinea unui item la care frecvenţa de alegere a unei variante distractor este mai mare decât a variantei corecte, trebuie analizată cu atenţie, mai ales atunci când corelaţia cu scorul global este pozitivă.

5. Itemii la care se obţin (aproape) numai răspunsuri corecte sunt inutili şi ar trebui eliminaţi sau înlocuiţi.

)*)1((1*

x

xk k

αα−+

=

33.2)70.1(*50.)50.1(*70.

)1(*)1(*

=−−

=−−

=kx

xkkαααα

71.0)50.*)15.2((1

50.*5.2)*)1((1

*=

−+=

−+=

x

xk k

αα

Copyright © DEPARTAMENT ID 2009

Page 49: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

48

Utilizarea analizei de itemi

Coeficientul de consistenţă internă se calculează numai pentru instrumente compuse din itemi care sunt utilizaţi prin construirea unui scor unic. Chestionarele compuse din întrebări ale căror răspunsuri sunt utilizate ca atare, fără însumarea lor într-un scor unic, nu reclamă analiză de consistenţă internă.

Procedurile analizei de itemi sunt indispensabile pentru asigurarea calităţii instrumentelor de evaluare în psihologie. Situaţiile în care este necesară utilizarea lor sunt următoarele:

• În faza de construcţie a unui test psihologic, fie de personalitate, fie de performanţă. Analiza de itemi este, în acest caz, o condiţie obligatorie pentru acceptarea acestuia ca instrument de măsură în psihologie.

• La adaptarea unui test psihologic, prin traducerea dintr-o limbă străină. Într-o astfel de situaţie, chiar dacă versiunea originală beneficiază de documentaţia completă din punct de vedere psihometric, traducerea itemilor poate aduce modificări substanţiale care să modifice „comportamentul statistic” al acestora în noul mediu cultural.

• Atunci când se obţine un test aflat în uz, dar despre care nu există o documentaţie adecvată sub aspectul caracteristicilor psihometrice.

• Atunci când se schimbă destinaţia (populaţia) pe care este utilizat un test, chiar dacă există o documentaţie completă cu privire la caracteristicile psihometrice ale acestuia pentru utilizarea anterioară.

• După trecerea unei perioade îndelungate (de ordinul anilor) de la efectuarea analizei de itemi, pentru evaluarea diminuării potenţiale a caracteristicilor sale psihometrice. Acest lucru se poate întâmpla, de exemplu, ca urmare a modificării lente a unor caracteristici ale populaţiei pe care este aplicat.

Aşa cum am văzut, atunci când corelaţiile inter-itemi sunt ridicate acest lucru evidenţiază

faptul că aceştia măsoară acelaşi construct psihologic, cu alte cuvinte, au o componentă unidimensională. O valoare scăzută a lui Cronbach alfa poate sugera însă faptul că itemii sunt multidimensionali, adică se grupează pe două sau mai multe dimensiuni, aşa cum, de exemplu, itemii chestionarului Cattell 16 PF se grupează pe un număr de 16 dimensiuni (factori) distincţi. În situaţii de acest gen, coeficientul de consistenţă internă (ά), calculat pe toţi itemii chestionarului, va avea o valoare mică, dar calculat pe grupe de itemi, va avea o valoare mare. Problema este cum identificăm grupele de itemi atunci când nu ştim dacă aceştia sunt sau nu multidimensionali? Soluţia se află în aplicarea unei analize factoriale6 pe valorile itemilor, care ne va spune în ce măsură aceştia tind să se grupeze, şi care sunt itemii aferenţi fiecărui grup (dimensiune). În final, dacă se acceptă gruparea itemilor în conformitate cu rezultatele analizei factoriale, se va calcula coeficientul Cronbach alfa pentru fiecare grup de itemi separat.

Există şi situaţii în care analiza de itemi nu este adecvată. De exemplu, atunci când o scală

este utilizată pentru evaluarea cunoştinţelor cu privire la un anumit subiect sau temă educaţională, pentru alte scopuri decât cele de selecţie sau discriminare, unele dintre tehnicile de analiza de itemi nu sunt adecvate pentru selectarea itemilor. Acest lucru este adevărat deoarece ne aflăm într-o situaţie de învăţare şi dorim să evaluăm performanţa elevilor ca urmare a unui proces de instruire, şi nu ca trăsătură inerentă a fiecăruia. Dacă aplicăm un test înainte de parcurgerea materiei respective vom obţine un procentaj foarte scăzut de răspunsuri corecte şi o corelaţie item-total aproape de zero, fapt care reflectă necunoaşterea de către elevi a materiei respective (răspunsuri greşite, răspunsuri la întâmplare, etc.). În acest caz soluţia nu constă în eliminarea sau refacerea itemilor, ci în instruirea elevilor. Dacă aplicăm testul respectiv după parcurgerea perioadei de instruire, vom obţine procentaje mari de răspunsuri corecte, ceea ce ar fi interpretabil drept redusă capacitate discriminativă a itemilor. În realitate, eliminarea acestor itemi ar fi de asemenea o eroare, deoarece am elimina tocmai itemii care pun în evidenţă succesul învăţării, ceea ce este exact obiectivul măsurării.

6 Procedură statistică de grupare a variabilelor. Prezentarea ei face obiectul cursurilor avansate de statistică.

Copyright © DEPARTAMENT ID 2009

Page 50: 1_2_M_Popa_statistica_sem2_M2.pdf

Marian Popa

49

În astfel de situaţii, utilizarea indicelui de consistenţă internă Cronbach alfa este inadecvată. Cu toate acestea, analiza de itemi poate fi utilizată ca modalitate de identificare a itemilor greşit formulaţi, a celor nerelevanţi sau, pur şi simplu, pentru a scoate în evidenţă erorile tipice pe care le fac subiecţii la anumite întrebări.

Copyright © DEPARTAMENT ID 2009