spss analiza itemi

M. Popa – Aplicaţii SPSS (Analiza de itemi)

1/15 Actualizat la: 07.04.2009/08:40:50

Analiza de itemi cu SPSS

Introducere în analiza de itemi. Măsurarea caracteristicilor psihologice se bazează în mod obişnuit pe teste, care sunt formate din mai multe întrebări sau sarcini (denumite generic „itemi”). Răspunsul subiecţilor la fiecare item sunt punctate, după care se calculează „rezultatul” la testul respectiv, sub forma unui scor numeric. Pe tot acest parcurs, conduita subiectului (subiectivă sau obiectivă) este fixată prin numere. Pentru ca rezultatul final să fie unul adecvat, adică să exprime corect starea subiectului în raport cu caracteristica psihologică măsurată, este esenţial să ne asigurăm că aceste numere au calităţi reale de măsurare. În caz contrar, riscăm să facem evaluări lipsite de orice fundament. Analiza de itemi reprezintă o colecţie de proceduri statistice care permit investigarea calităţilor de măsurare a testelor psihologice.

Principiile analizei de itemi se aplică atât instrumentelor care măsoară atribute ale personalităţii, cât şi celor care vizează aspecte de performanţă (abilităţi, aptitudini). Analiza de itemi se prezintă sub două aspecte principale:

- calitativ, analiza de itemi se referă la modul în care sunt elaboraţi itemii (întrebările sau sarcinile de lucru) şi are în vedere aspecte de formulare lingvistică sau stilistică (de exemplu, evitarea dublei negaţii);

- cantitativ, analiza de itemi se referă la proprietăţile statistice ale răspunsurilor la itemi.

În cazul unui chestionar psihologic sau a unui test de performanţă, este posibil ca unii dintre itemii care le compun să nu funcţioneze aşa cum ne-am dorit: pot crea confuzii, pot fi interpretaţi greşit, pot fi prea uşori sau prea dificili, etc. Motivele care pot genera astfel de situaţii sunt variate:

• formulare confuză (de exemplu, prin utilizarea negaţiei); • alte informaţii care acompaniază itemul (grafice, imagini, diagrame, etc.) pot fi

neclare sau greşite; • nu există un răspuns corect evident, situaţie în care una dintre variantele greşite

(distractor) este considerată corectă; • există itemi care se referă la un alt conţinut (atribut) decât cel vizat de restul itemilor; • există un efect discret de incompatibilitate al unor itemi în raport cu caracteristicile

subiecţilor investigaţi (legat de sex, grup etnic, vârstă, etc.) Până la un punct, aceste neajunsuri pot fi, fie prevenite, fie eliminate, mai ales când

sunt evidente, prin analiza calitativă, intuitivă. Precizia operaţiei poate fi însă mult îmbunătăţită dacă se apelează la un set de prelucrări statistice special destinate analizei de itemi. Aceste proceduri contribuie la ameliorarea calităţilor psihometrice ale unui instrument de evaluare psihologică, prin identificarea itemilor improprii (greşiţi sau redundanţi) care ar trebui eliminaţi sau modificaţi.. Toate aceste proceduri sunt denumite generic „analiza de itemi”.

În funcţie de obiectivele urmărite, procedurile clasice ale analizei de itemi, care sunt cele mai frecvent utilizate, sunt următoarele:

1. evaluarea indicelui de dificultate a itemilor; 2. evaluarea capacităţii de discriminare a itemilor. 3. evaluarea consistenţei interne a instrumentului;

Premisa fundamentală de la care porneşte analiza clasică a testelor psihologice este

aceea că scorul testului este compus dintr-o valoare „adevărată” (care exprimă corect atributul vizat) şi o cantitate de „eroare” (care vizează ”altceva”). În cazul unui test bine făcut,

M. Popa – Analiza de itemi

2/15 Actualizat la: 07.04.2009

„eroarea” se distribuie normal pe ansamblul testului, nu este corelată cu scorul „adevărat” şi are media egală cu zero.

1. Evaluarea dificultăţii itemilor

Multe dintre testele dezvoltate de psihologi vizează caracteristici psihice exprimate în termeni de performanţă, în scopul clasificării pentru selecţie sau evaluării comparative (aptitudini şi abilităţi diverse). În cazul acestui tip de scale, este de interes major evaluarea capacităţii de discriminare a fiecărui item.

Unul dintre indicatorii utilizaţi în acest scop este indicele de dificultate, care semnifică procentul de răspunsuri corecte al fiecărui item. Pentru testele de personalitate, conceptul de „corect” sau „greşit” se înlocuieşte cu orientarea răspunsului spre semnificaţia scalei sau împotriva acesteia (marcând prezenţa sau absenţa trăsăturii vizate). Orice item la care se obţin numai răspunsuri corecte, sau la care nimeni nu răspunde corect, este lipsit de relevanţă deoarece nu produce nici o diferenţiere între subiecţi. Dacă presupunem existenţa unei relaţii perfecte dintre abilitatea subiectului (cea măsurată prin test) şi succesul la un item, atunci un indice de dificultate de 50% va diferenţia între subiecţii care se plasează în prima jumătate a scalei şi cei care se plasează în doua jumătate a scalei de performanţă. În acelaşi timp, dacă toţi itemii unei scale ar avea un indice de dificultate de 50%, atunci, prin aplicarea scalei, s-ar discrimina doar două categorii de subiecţi, fapt care nu este de natură să conducă la rezultate suficient de sensibile în evaluarea subiecţilor. În general, se consideră că o scală este suficient de discriminativă atunci când este compusă din itemi al căror indice de dificultate este moderat (30%-40%).

Într-un mod similar se pune problema şi în cazul întrebărilor la teste de personalitate, la care răspunsurile sunt interpretate în funcţie de ”prezența” sau ”absența” trăsăturii psihice vizate.

Atunci când itemii sunt selectaţi pe baza indicelui de dificultate mai trebuie luaţi în considerare doi factori suplimentari:

a. Deşi un indice mediu de dificultate de 50% este suficient pentru a maximiza varianţa totală a scorului, această valoare trebuie să fie mai mare în cazul în care avem de a face cu răspunsuri la un test cu alegeri multiple. Aceasta deoarece trebuie să luăm în considerare faptul că o parte a răspunsurilor corecte pot fi ghicite, date la întâmplare.

b. Dacă dorim ca scala să fie discriminativă şi spre extremele ei, atunci vor trebui incluşi şi itemi al căror indice de dificultate să se afle în apropierea extremelor, adică mai mici sau mai mari de 50%.

În general, este considerat recomandabil un indice de dificultate mediu pe scală

cuprins între 30%-70% (sau, exprimat sub formă zecimală, între 0.3 şi 0.7)

Modul de calcul al indicelui de dificultate

Aşa cum l-am descris mai sus, indicele de dificultate se calculează ca procent de răspunsuri corecte pentru fiecare item. Pentru evaluarea dificultăţii itemilor cu SPSS se va utiliza procedura Frequency din meniul Statistics. Mai jos avem imaginea analizei de frecvenţe pentru un item oarecare, i_01, al unui test cu 22 de itemi, unde valoarea 0 înseamnă răspuns greşit iar valoarea 1, răspuns corect1.

Indicele de dificultate se citeşte pe coloana Percent, dacă variabila nu are valori lipsă, şi pe coloana Valid Percent, dacă există valori lipsă. În cazul nostru, indicele de dificultate al itemului 01 este de 81.8% (0.81) cazul nostru.

1 Se utilizează datele din fişierul didactic alfa_tema.sav



2. Evaluarea capacităţii de discriminare a itemilor

Procentajul răspunsurilor corecte (indicele de dificultate) nu este o condiţie suficientă pentru a judeca calitatea unui item. La fel de important este ca numărul răspunsurilor corecte să fie în legătură cu nivelul abilităţii (sau trăsăturii, dacă este un test de personalitate) pe care intenţionăm să o măsurăm cu acel instrument. Acest aspect este surprins de indicele de discriminare. Dacă cei care răspund corect (sau în spiritul „trăsăturii”, pentru un test de personalitate), la un anumit item, au un nivel ridicat al abilităţii (trăsăturii), în timp ce cei care răspund greşit au nivel scăzut, sau dacă ambele grupuri au acelaşi nivel al abilităţii (trăsăturii), atunci este clar că itemul respectiv este, fie formulat greşit, fie măsoară altceva decât se presupune că măsoară.

Un item care dispune de capacitate de discriminare are un procentaj al răspunsurilor corecte mai mare pentru subiecţii care obţin rezultate mai mari la nivelul întregii scale (care măsoară abilitatea), şi un procentaj mai mic pentru subiecţii care obţin o valoare mai mică pentru scala respectivă. În absenţa unui criteriu extern de validare a răspunsului, scorul total, obţinut prin însumarea răspunsurilor corecte, este utilizat drept criteriu de discriminare. Pentru calcularea indicelui de discriminare se procedează în felul următor:

• se calculează scorul total; • se formează două grupuri distincte, fiecare reprezentând un anumit procent

din subiecţii evaluaţi, aflaţi la extremele distribuţiei. Procentul selectat este arbitrar. Cu cât este mai mic, cu atât indicele de discriminare este mai mare dar, în acelaşi timp, mai puţin sigur. De aceea, se recomandă un selectarea unui procent cuprins între 25% şi 33%, care reprezintă un compromis rezonabil.

• odată grupurile selecţionate, se poate calcula un indice de discriminare, simbolizat cu "D", după următoarea formulă:

LU n

L

n

UD −=

unde:

• U=numărul subiecţilor din grupul superior (Upper group) care au răspuns corect la un item

• nU=numărul subiecţilor din grupul superior • L=numărul subiecţilor din grupul inferior (Lower group) care au răspuns

corect la un item • nL=numărul subiecţilor din grupul inferior

Dacă numărul subiecţilor din cele două grupuri extreme este egal, atunci

D=(U-L)/n. O valoare pozitivă va indica faptul că itemul discriminează corect, în concordanţă cu

constructul psihologic măsurat. Cu cât mai mare este diferenţa, cu atât mai mare este capacitatea itemului de discriminare între subiecţii „buni” şi cei „slabi” sub aspectul acelui construct. Pe de altă parte, o valoare negativă sugerează o discriminare negativă între grupurile extreme, fapt care este o dovadă puternică a unei probleme în construcţia acelui



item. Ebel (1965) sugerează eliminarea sau revizuirea completă itemilor a căror indice de discriminare este mai mic de 0.20 şi revizuirea itemilor al căror indice este între 0.20 şi 0.30. Un indice de discriminare bun se plasează între 0.30-0.39, iar unul foarte bun, peste 0.40.

Deşi uşor de calculat şi utilizat, indicele D suferă de un mare neajuns: prin

compararea a doar două grupuri extreme, selectate arbitrar din ansamblul subiecţilor testaţi, o parte din informaţie este ignorată, deoarece subiecţii care fac parte din grupul de performanţă intermediar nu sunt luaţi în considerare. Soluţia acestei probleme ar putea fi aceea de a împărţi ansamblul valorilor scalei în mai multe subgrupuri, în funcţie de numărul subiecţilor şi de fineţea dorită a analizei. În acest fel, indicele de dificultate al fiecărui item ar putea fi analizat prin raportare la fiecare subgrup valoric. În mod ideal, indicele de dificultate (procentul răspunsurilor corecte) al unui item bine „calibrat” trebuie să fie mai mic pentru subiecţii din grupul valoric inferior şi să crească progresiv, pe măsură ce este calculat pentru grupurile cu performanţe mai mari la scorul global (Peladeau, 1995). Modul de calcul al indicelui de discriminare cu SPSS

Programul SPSS nu dispune de o procedură specifică pentru analiza de discriminare a itemilor. Cu toate acestea, dispune de suficiente posibilităţi pentru realizarea acestui tip de analiză. Vom prezenta mai jos un exemplu pentru itemul i_01, al cărui nivel de dificultate a fost calculat anterior. În acest scop, am procedat astfel:

a) Calculăm scorul global al scalei, compusă din 22 de itemi, din care face parte itemul i_01, utilizând procedura Transform/Compute, aşa cum se vede mai jos:

b) Analizăm variabila "scor" astfel obţinută cu procedurile Explore şi Frequencies,

din meniul Statistics, fixând arbitrar două grupe extreme de performanţă, compuse fiecare din aproximativ 30% dintre subiecţii examinaţi cu respectivul instrument, astfel:

• grupul inferior, valorile 7-13 (NL=7) • grupul superior, valorile 18-22 (NU=11)



scor

1 4,5 4,5 4,5

1 4,5 4,5 9,1

1 4,5 4,5 13,6

2 9,1 9,1 22,7

2 9,1 9,1 31,8

2 9,1 9,1 40,9

1 4,5 4,5 45,5

1 4,5 4,5 50,0

4 18,2 18,2 68,2

3 13,6 13,6 81,8

2 9,1 9,1 90,9

1 4,5 4,5 95,5

1 4,5 4,5 100,0

22 100,0 100,0

7,00

9,00

10,00

12,00

13,00

15,00

16,00

17,00

18,00

19,00

20,00

21,00

22,00

Total

Valid

Frequency Percent Valid Percent

Cumulative

Percent

c) Am creat o variabilă nouă, în care am definit apartenenţa subiecţilor la grupurile definite mai sus, pe care le-am codificat astfel, cu procedura Tranform/Recode/Into Different

Variables:

"1", grupul inferior "2", grupul median "3", grupul superior

Şi apoi, după acţionarea butonului Old and )ew Values: declarăm valorile aşa cum se

vede în caseta de mai jos



În urma acestei operaţii am obţinut variabila "grup", ale cărei valori, 1,2 sau 3,

marchează apartenenţa subiecţilor la unul dintre cele trei grupe valorice. d) Declarăm împărţirea fişierului cu date în trei categorii de subiecţi, cu procedura

Data/Split File, aşa cum se vede în imaginea de mai jos.

Efectul acestei acţiuni este acela că, orice prelucrare vom face cu SPSS în continuare,

aceasta va fi efectuată separat pentru fiecare din cele trei categorii separate prin valorile variabilei "grup".

e) În fine, acum se poate rula procedura Frequencies din meniul Statistics, pentru variabila i_01. Datorită efectului de împărţire a bazei de date prin comanda Split file, rezultatul va fi structurat pentru fiecare subgrup valoric în parte, aşa cum se vede în imaginea de mai jos:

i_01

3 42,9 42,9 42,9

4 57,1 57,1 100,0

7 100,0 100,0

4 100,0 100,0 100,0

1 9,1 9,1 9,1

10 90,9 90,9 100,0

11 100,0 100,0

0

1

Total

Valid

1Valid

0

1

Total

Valid

grup

1,00

2,00

3,00

Frequency Percent Valid Percent

Cumulative

Percent



Tabelul din imagine prezintă frecvenţa răspunsurilor corecte, citită pe coloana Percent (sau pe coloana Valid Percent, dacă există valori lipsă). Aşa cum se observă, indicele de dificultate pentru grupul valoric inferior este mai mic (57.1%) decât pentru grupul superior (90.9%).

Aplicând manual formula, obţinem indicele de discriminare căutat:

33.07

4

11

10+=−=D

Rezultatul arată că itemul i_01 are un indice pozitiv de discriminare de 0.33 care, în

conformitate cu criteriile lui Ebel, indică o capacitate bună de discriminare. Chiar dacă obţinem şi unii indici de discriminare mai mici, dacă dorim să avem o scală care are putere de discriminare şi la extremele sale, aceştia pot fi păstraţi.

)otă: Se observă că se poate ajunge la o valoare similară, exprimată în procente,

prin simpla diferenţă a celor doi indici de dificultate "D=90.9-57.1=33.7)

Mai departe, ar trebui efectuată procedura Frequencies pentru toţi cei 22 de itemi ai testului şi extragerea concluziilor care se impun. 3. Consistenţa internă (Cronbach alfa)

Având un instrument psihologic format din itemi diferiţi, o problemă fundamentală care se pune este măsura în care aceşti itemi sunt „unidimesionali”, adică măsoară una și aceeaşi realitate psihologică. Numai dacă această condiţie este îndeplinită se poate construi un scor unic (denumit în continuare „scală”). Dacă avem în vedere un chestionar de personalitate sau o scală de atitudine de tip Lickert, atunci ne aşteptăm că acest instrument este destinat măsurării unui anumit aspect sau atribut psihic şi, în mod ideal, numai aceluia. Cu alte cuvinte, întrebările unui chestionar, la fel ca şi cele ale unui test de performanţă, ar trebui să fie astfel formulate încât să se refere la o singură realitate psihică, vizată prin obiectivul instrumentului. Dacă această condiţie este întrunită, atunci itemii ar trebui să aibă o variabilitate comună, adică o anumită relaţie unii cu alţii, pe de o parte, dar şi o relaţie cu scorul global al scalei, pe de altă parte. Această calitate a unui test se numeşte consistenţă internă şi este întrunită atunci când fiecare dintre itemii care îl compun este relevant în raport cu dimensiunea psihică vizată de instrument. Corelaţia dintre un anumit item şi scorul global, calculat fără acel item, poate fi considerată un indicator a relaţiei mai sus amintite. O altă faţetă a consistenţei unui instrument psihologic este fidelitatea sa, care poate fi exprimată prin stabilitatea scorului global atunci când acelaşi instrument, sau o formă alternativă a acestuia, este aplicată aceloraşi subiecţi.

Fără a fi singura procedură statistică utilizabilă în astfel de situaţii, coeficientul Cronbach alfa (ά) este de departe cel mai cunoscut dintre toate, fiind utilizat ca un indicator al preciziei de măsurare a unui test, al consistenţei interne şi fidelităţii unui instrument psihologic. El nu este un test statistic, ci un indice sau coeficient care măsoară caracteristica de consistenţă internă a unui instrument psihologic compus din mai mulţi itemi care sunt însumaţi într-un scor unic. Formula de calcul se bazează pe media coeficienţilor de corelaţie dintre itemi şi numărul itemilor:

( ) m

m

r)

r)

*11 −+

∗=α

unde: N=numărul itemilor rm=media coeficienţilor de corelaţie dintre itemi



Principalul motiv pentru care am introdus aici formula lui α Cronbach este pentru a scoate în evidenţă faptul că valoarea sa poate fi crescută pe două căi:

- fie prin creşterea similarităţii dintre itemi, care conduce la coeficienţi mai mari de corelaţie interitemi;

- fie prin creşterea numărului de itemi. Indicele Cronbach alfa este, de asemenea, un indicator al preciziei scalei şi poate fi

văzut prin prisma valorii teoretice maxime pe care o poate lua o corelaţie cu această scală. Altfel spus, corelaţia dintre două variabile psihologice nu va putea fi niciodată mai mare decât consistenţa internă a fiecăreia dintre cele două variabile investigate, dată de indicele Cronbach alfa. Din acest motiv, atunci când studiem relaţia dintre anumite variabile psihologice trebuie să ne punem problema „preciziei” cu care acestea au fost măsurate, deoarece mărimea corelaţiei posibile dintre ele este fixată de precizia măsurării fiecăreia.

Valoarea Cronbach alfa tinde sa fie cu atât mai mare cu cât numărul itemilor scalei este mai mare. Ca urmare, putem fi tentaţi să utilizăm chestionare cu un număr mai mare de întrebări. Acest lucru poate genera cel puţin două probleme pe care trebuie să le luăm în considerare:

• din motive practice, testele mai scurte sunt de dorit, date fiind reducerea costurilor de realizare şi a duratei de aplicare;

• în cazul testelor mai lungi, pot exista întrebări care, chiar dacă au o corelaţie pozitivă cu scala, contribuie la reducerea indicelui Cronbach alfa sau au o contribuţie minoră la consistenţa generală a scalei. În practică, autorul unui chestionar este interesat să reducă numărul itemilor fără a

afecta consistenţa internă a scalei. În acest scop, "valoarea lui alfa Cronbach în cazul eliminării itemului" (Alpha if item deleted) este un indicator foarte util. Eliminând succesiv itemii a căror prezenţă contribuie la reducerea valorii Cronbach alfa, sau au o contribuţie redusă la acesta, se poate ajunge la un număr suficient de mic de itemi în condiţiile obţinerii unei valori mai mari pentru Cronbach alfa.

Procedura de analiză a consistenţei interne are un caracter recursiv, cu evaluări succesive ale relaţiilor dintre itemi, dintre itemi şi scorul global, şi cu operarea selecţiei itemilor în funcţie de relaţia lor cu acesta. Criteriul de bază pentru această operaţie este valoarea indicelui Cronbach alfa, care are o plajă de variaţie între 0 şi 1. O scală, pentru a fi considerată consistentă, trebuie să atingă o valoare a indicelui Cronbach alfa cât mai aproape de 1, nivelul de 0.70 fiind acceptat, prin convenţie, ca prag minim. Oricum pentru un instrument consistent valoarea lui Cronbach alfa nu poate fi mai mică de 0.60, iar o valoare cât mai mare este întotdeauna de dorit. Unii autori consideră drept acceptabilă o valoare de 0.5 a indicelui Cronbach alfa în cazul scalelor cu un număr mic de itemi (10-15), în timp ce pentru scalele mai mari de 50 de itemi reclamă valori ale lui Cronbach alfa de cel puţin de 0.80.

Facem precizarea că atunci când ne referim la „scorul global” al unei scale avem în vedere însumarea răspunsurilor fiecărui item care contribuie la construcţia acestuia. În cazul în care testul respectiv este compus din mai multe scale (trăsături de personalitate, de exemplu), indicele Cronbach alfa se calculează, desigur, în mod distinct pentru fiecare scală în parte. Acesta nu se calculează însă în situaţiile în care itemii unui instrument nu sunt utilizaţi pentru construcţia unui scor global, ci sunt analizaţi de sine stătător (de exemplu, in cazul întrebărilor unui interviu).

Analiza de consistenţă internă cu SPSS

Procedura de analiză se lansează din meniul Statistics-Scale-Reliability Analysis..., care deschide următoarea casetă de dialog:



Variabilele2 care conţin valorile itemilor de analizat vor fi trecute în lista Items.

Atenţie, variabilele trebuie să conţină valori care exprimă semnificaţia răspunsului în

raport cu scala globală şi nu răspunsul efectiv al subiectului. De exemplu, dacă variantele de răspuns sunt codificate cu „1”, respectiv „2”, pot exista întrebări pentru care varianta „1” aduce un punct la scala iar varianta „2” aduce zero puncte la scală. Într-o asemenea situaţie, pentru analiza de itemi valorile codificate de răspuns vor fi transformate în valori corespunzătoare (0 şi 1). În acelaşi mod se va opera şi pentru itemii care au mai multe variante de răspuns, cum este cazul scalelor de tip Lickert. Codurile convenţionale ale variantelor de răspuns vor fi transformate în valori, în funcţie de semnificaţia contribuţiei lor la construirea scorului global. În lista Model se poate alege unul dintre următoarele modele de analiză:

• Alfa. Calculează Cronbach alfa care pentru date dihotomice este echivalent cu coeficientul Kuder-Richardson 20 (KR20)

• Split-half. Pentru corelaţia dintre forme paralele, coeficientul de fidelitate Guttman, coeficientul Spearman-Brown, coeficientul alfa pentru fiecare jumătate.

• Modele Gutman. Coeficienţii lambda, de la 1 la 6 • Modele paralele şi strict paralele. Testele pentru gradul de corespondenţă

(goodness-of-fit), varianţa comună şi alte caracteristici ale raporturilor dintre itemi.

Pentru analiza de consistenţă internă se alege modelul Alfa.

În continuare, se fac setări de analiză prin deschiderea casetei Statistics:

2 Se utilizează fişierul didactic saq_10_itemi.sav


10/15 Actualizat la: 07.04.2009

• În zona Descriptives se vor bifa opţiunile: o Item (analiza fiecărui item separat); o Scale (analiza scorului global) o Scale if item deleted (analiza scorului fără contribuţia unui anumit item)

• În zona Inter-item se va bifa Corelations, pentru a obţine matricea de corelaţii dintre itemi.

• Summaries permite calcularea unor indicatori descriptivi pentru fiecare dintre itemii analizaţi (media, varianţa, covarianţa, corelaţii) În practică, bifarea opţiunilor marcate pe caseta din imaginea de mai sus oferă

informaţiile cele mai importante pentru analiza itemilor unui test. Celelalte opţiuni sunt explicitate în Help-ul casetei şi pot fi utilizate pentru o analiză mai rafinată a datelor.

În continuare, vom analiza un set de 10 itemi ipotetici, aleşi doar în scop didactic. Pentru o scală reală acest număr ar fi cu totul insuficient. Ca regulă generală, numărul itemilor din faza de dezvoltare a unui astfel de instrument ar trebui să aibă cel puţin dublul numărului de itemi pe care îl preconizăm la final. Acest lucru se impune deoarece analiza de itemi este un proces selectiv care are drept scop alegerea itemilor adecvaţi pentru constituirea unei scale cu cel mai ridicat nivel de consistenţă internă posibilă.

Rularea procedurii, cu setările de mai sus ne oferă mai multe categorii de informaţii: Un tabel cu indicatori descriptivi, media şi abaterea standard a itemilor. Analiza

valorilor permite evidenţierea tendinţei centrale şi a împrăştierii răspunsurilor pentru fiecare item în parte:

Matricea corelaţiilor dintre itemi.


11/15 Actualizat la: 07.04.2009

Corelaţiile itemilor oferă o imagine a gradului de asociere dintre aceştia. Valorile sunt utile, pe de o parte, pentru a sesiza itemii care tind să aibă relaţii negative cu ceilalţi, fiind un semn al unei posibile probleme de construire respectivilor itemi. Din tabelul alăturat rezultă că itemii i_02 şi i_03 tind să se asocieze negativ cu majoritatea celorlalţi itemi. Pe de altă parte, valori extrem de ridicate ale unor corelaţii, aproape de 1, ar putea sugera că itemii respectivi prezintă un grad de similitudine care nu justifică utilizarea lor în aceeaşi scală (ar putea fi, de exemplu itemi formulaţi extrem de asemănător). Un set de indicatori statistici descriptivi la nivelul întregii scale:

În fine, cea mai importantă dintre categoriile de informaţii, tabelul relaţiilor dintre

itemi şi scorul global. Două dintre coloanele tabelului au o importanţă particulară: Corected

Item-Total Correlation (corelaţia dintre item şi scorul global) şi Alpha if Item Deleted

(valoarea lui Cronbach alfa, dacă respectivul item ar fi eliminat).

Dacă privim coloana Corected Item-Total Correlation observăm că doi dintre itemi

(i_03 şi i_09) au corelaţii negative cu scorul global. Cu alte cuvinte, ei nu aduc informaţie utilă în raport cu atributul măsurat ci, dimpotrivă, merg într-o altă direcţie decât acesta. În primul rând trebuie să verificăm dacă valorile itemilor respectivi au fost corect codificate. Dacă da, atunci singura soluţie posibilă este eliminarea itemilor în cauză. Observăm, de asemenea, că itemul i_02 are o corelaţie extrem de mică cu scorul global (0.015). Contribuţia sa la scorul global este nerelevantă. Cu alte cuvinte, nici nu strică, dar nici nu ajută.


12/15 Actualizat la: 07.04.2009

Pe ultima linie a imaginii găsim valoare lui Cronbach alfa, care este 0.4576, o valoare care este modestă în raport cu nivelul minim necesar (0.70), dar care poate fi crescută prin eliminarea itemilor nepotriviţi, în primul rând a celor care corelează negativ cu scorul global.3 Următoarea fază este reluarea prelucrării, cu eliminarea itemilor negativi. În general, nu este recomandabilă eliminarea mai multor itemi simultan, dar itemii negativi pot fi scoşi fără reţineri. Iată care este rezultatul obţinut după reluarea analizei cu eliminarea itemilor 3 şi 9:

Ca urmare a noii iteraţii se observă că itemul i_02, care anterior avea o corelaţie

pozitivă, dar extrem de mică, a dobândit o corelaţie negativă cu scala. În consecinţă, va fi eliminat. În principiu, chiar şi itemii pozitivi, care au corelaţii cu scala mai mici de 0.1, nu trebuie păstraţi, pentru simplul motiv că nu contribuie la constructul psihologic vizat, fiind doar consumatoare de timp în aplicarea instrumentului. De altfel, se şi observă că prin eliminarea acestui singur item, valoarea lui Cronbach alfa ar creşte la 0.75.

Se face din nou prelucrarea fără itemul i_02 şi se obţine următoarea configuraţie de rezultate:

Rezultatul arată o valoare Cronbach alfa de 0.75. În plus, dacă privim coloana Alfa if

Item Deleted, vedem că prin eliminarea oricărui item nu am obţine o valoare mai ridicată

3 Deşi programele statistice calculează Cronbach alfa cu patru zecimale, el se raportează în mod obişnuit cu două zecimale.


13/15 Actualizat la: 07.04.2009

decât aceasta. În acest moment analiza poate fi oprită, itemii selecţionaţi putând fi constituiţi într-un instrument de măsurare psihologică.

În concluzie, cu ocazia iteraţiilor succesive se vor elimina, in ordine: • itemii care au o corelaţie negativă cu scorul global • itemii cu corelaţii mici, nerelevante

Cu cât avem mai mulţi itemi în această fază, cu atât avem posibilitatea să păstrăm

itemi care corelează mai intens cu scala şi, deci, să atingem un nivel mai ridicat de consistenţă internă. Este de la sine înţeles că, în cazul în care construim un instrument ale cărui întrebări se adresează unor „scale” diferite, consistenţa internă se va evalua separat pentru setul de întrebări corespunzător fiecărei scale.

O scală „consistentă intern” ne oferă garanţia că itemii instrumentului nostru „merg împreună”, măsoară acelaşi „construct” psihologic. Atenţie, însă, acest lucru nu ne permite încă să afirmăm că măsoară exact ceea ce n-am propus să măsoare. Această problemă va fi rezolvată ulterior, prin studii de validare.

Evaluarea numărului de itemi necesari pentru o scală În procesul de construcţie al unei scale de măsurare psihologică pot apare unele

dificultăţi, pe care statistica ne ajută să le surmontăm. De exemplu, ne putem afla în situaţia în care itemii elaboraţi nu ating nivelul minim acceptabil de consistenţă internă şi trebuie să adăugăm noi itemi. Cât de mulţi itemi ar trebui să mai elaborăm pentru a atinge un indice Cronbach alfa acceptabil? Numărul itemilor necesari pentru a completa o scală care nu a atins valoarea acceptabilă a indicelui Cronbach alfa, poate fi estimat cu ajutorul formulei Spearman-Brown: unde:

αx este valoarea curentă a lui Cronbach alfa αk este nivelul dorit al lui Cronbach alfa k este factorul de multiplicare a scalei pentru a se obţine αk

Într-un mod similar, se poate estima valoarea lui Cronbach alfa (αk) care ar fi atinsă pornind de la un anumit nivel calculat al acestuia αx şi un anumit factor de multiplicare al numărului de itemi (k): Exemplu:

Avem o scală cu 20 de itemi şi αx=0.50 Câţi itemi ar trebui adăugaţi pentru a atinge un nivel α de 0.70?

Deci, pentru a atinge un α de 0.70 va trebui să avem o scală de 20*2.33≈47 itemi,

ceea ce înseamnă că ne vor mai trebui 27 de itemi pe lângă cei 20 deja existenţi (estimare

)1(*

)1(*

kx

xkkαα

αα

−

−=

)*)1((1

*

x

xk

k

k

α

αα

−+=

33.2)70.1(*50.

)50.1(*70.

)1(*

)1(*=

−

−=

−

−=

kx

xkkαα

αα


14/15 Actualizat la: 07.04.2009

valabilă pentru situaţia în care noii itemi ar avea aceeaşi corelaţie inter-itemi cu cei deja existenţi).

Pentru acelaşi caz, cu cât ar creşte α dacă am adăuga 30 de itemi:

k=(nr. itemi iniţiali+nr. itemi noi)/nr. itemi noi=(20+30)/20=2.5

Desigur, se presupune că noii itemi adăugaţi vor fi la fel de „buni” ca şi cei deja

utilizaţi. De aceea este posibil ca rezultatul formulei să fie o estimare uşor optimistă, dar nu mai puţin utilă.

Câteva reguli de bază pentru dezvoltarea itemilor

1. Itemii a căror corelaţie cu scala (scorul global) este negativă, sunt eliminaţi (după ce se verifică în prealabil dacă au fost valorizaţi corect).

2. Itemii a căror corelaţie cu scala (scorul global) este mai mică de 0.15, ar trebui probabil revizuiţi, deoarece nu sunt „încărcaţi” în suficientă măsură cu atributul vizat de test, sau de subscala căruia îi aparţine. În orice caz, itemii cu corelaţii sub 0.1 nu sunt utilizabili. În principiu, un test este cu atât mai bun cu cât itemii sunt mai omogeni.

3. În cazul itemilor cu variante de răspuns, variantele greşite (distractori) care nu sunt alese de nici un subiect, ar trebui reformulate sau eliminate, deoarece nu contribuie la discriminarea între subiecţii cu performanţă slabă şi cei cu performanţă bună. Faptul că variantele greşite nu sunt alese cu aceeaşi frecvenţă nu reprezintă, însă, o problemă. De asemenea, un item la care majoritatea răspunsurilor sunt greşite nu trebuie în mod necesar eliminat, dar o analiză atentă a acestuia se impune.

4. Corectitudinea unui item la care frecvenţa de alegere a unei variante distractor este mai mare decât a variantei corecte, trebuie analizată cu atenţie, mai ales atunci când corelaţia cu scorul global este pozitivă.

5. Itemii la care se obţin (aproape) numai răspunsuri corecte sunt inutili şi ar trebui eliminaţi sau înlocuiţi.

Utilizarea analizei de itemi

Coeficientul de consistenţă internă se calculează numai pentru instrumente compuse din itemi care sunt utilizaţi prin construirea unui scor unic. Chestionarele compuse din întrebări ale căror răspunsuri sunt utilizate ca atare, fără însumarea lor într-un scor unic, nu reclamă analiză de consistenţă internă.

Procedurile analizei de itemi sunt indispensabile pentru asigurarea calităţii instrumentelor de evaluare în psihologie. Situaţiile în care este necesară utilizarea lor sunt următoarele:

• În faza de construcţie a unui test psihologic, fie de personalitate, fie de performanţă. Analiza de itemi este, în acest caz, o condiţie obligatorie pentru acceptarea acestuia ca instrument de măsură în psihologie.

• La adaptarea unui test psihologic, prin traducerea dintr-o limbă străină. Într-o astfel de situaţie, chiar dacă versiunea originală beneficiază de documentaţia completă din punct de vedere psihometric, traducerea itemilor poate aduce

71.0)50.*)15.2((1

50.*5.2

)*)1((1

*=

−+=

−+=

x

xk

k

k

α

αα


15/15 Actualizat la: 07.04.2009

modificări substanţiale care să modifice „comportamentul statistic” al acestora în noul mediu cultural.

• Atunci când se obţine un test aflat în uz, dar despre care nu există o documentaţie adecvată sub aspectul caracteristicilor psihometrice.

• Atunci când se schimbă destinaţia (populaţia) pe care este utilizat un test, chiar dacă există o documentaţie completă cu privire la caracteristicile psihometrice ale acestuia pentru utilizarea anterioară.

• După trecerea unei perioade îndelungate (de ordinul anilor) de la efectuarea analizei de itemi, pentru evaluarea diminuării potenţiale a caracteristicilor sale psihometrice. Acest lucru se poate întâmpla, de exemplu, ca urmare a modificării lente a unor caracteristici ale populaţiei pe care este aplicat.

Aşa cum am văzut, atunci când corelaţiile inter-itemi sunt ridicate acest lucru

evidenţiază faptul că aceştia măsoară acelaşi construct psihologic, cu alte cuvinte, au o componentă unidimensională. O valoare scăzută a lui Cronbach alfa poate sugera însă faptul că itemii sunt multidimensionali, adică se grupează pe două sau mai multe dimensiuni, aşa cum, de exemplu, itemii chestionarului Cattell 16 PF se grupează pe un număr de 16 dimensiuni (factori) distincţi. În situaţii de acest gen, coeficientul de consistenţă internă (ά), calculat pe toţi itemii chestionarului, va avea o valoare mică, dar calculat pe grupe de itemi, va avea o valoare mare. Problema este cum identificăm grupele de itemi atunci când nu ştim dacă aceştia sunt sau nu multidimensionali? Soluţia se află în aplicarea unei analize factoriale4 pe valorile itemilor, care ne va spune în ce măsură aceştia tind să se grupeze, şi care sunt itemii aferenţi fiecărui grup (dimensiune). În final, dacă se acceptă gruparea itemilor în conformitate cu rezultatele analizei factoriale, se va calcula coeficientul Cronbach alfa pentru fiecare grup de itemi separat.

Există şi situaţii în care analiza de itemi nu este adecvată. De exemplu, atunci când

o scală este utilizată pentru evaluarea cunoştinţelor cu privire la un anumit subiect sau temă educaţională, pentru alte scopuri decât cele de selecţie sau discriminare, unele dintre tehnicile de analiza de itemi nu sunt adecvate pentru selectarea itemilor. Acest lucru este adevărat deoarece ne aflăm într-o situaţie de învăţare şi dorim să evaluăm performanţa elevilor ca urmare a unui proces de instruire, şi nu ca trăsătură inerentă a fiecăruia. Dacă aplicăm un test înainte de parcurgerea materiei respective vom obţine un procentaj foarte scăzut de răspunsuri corecte şi o corelaţie item-total aproape de zero, fapt care reflectă necunoaşterea de către elevi a materiei respective (răspunsuri greşite, răspunsuri la întâmplare, etc.). În acest caz soluţia nu constă în eliminarea sau refacerea itemilor, ci în instruirea elevilor. Dacă aplicăm testul respectiv după parcurgerea perioadei de instruire, vom obţine procentaje mari de răspunsuri corecte, ceea ce ar fi interpretabil drept redusă capacitate discriminativă a itemilor. În realitate, eliminarea acestor itemi ar fi de asemenea o eroare, deoarece am elimina tocmai itemii care pun în evidenţă succesul învăţării, ceea ce este exact obiectivul măsurării.

În astfel de situaţii, utilizarea indicelui de consistenţă internă Cronbach alfa este inadecvată. Cu toate acestea, analiza de itemi poate fi utilizată ca modalitate de identificare a itemilor greşit formulaţi, a celor nerelevanţi sau, pur şi simplu, pentru a scoate în evidenţă erorile tipice pe care le fac subiecţii la anumite întrebări. Tema de seminar Suport teoretic: cursul de analiză de itemi Sarcina de lucru: Efectuarea unei analize de itemi, pe o baza de date care va fi distribuită la seminar.

4 Procedură statistică de grupare a variabilelor. Prezentarea ei face obiectul cursurilor avansate de statistică.

spss analiza itemi

Documents