psihodiagnostic ubb

UNIVERSITATEA “BABEŞ-BOLYAI” CLUJ-NAPOCAFACULTATEA DE PSIHOLOGIE ŞI ŞTIINŢELE EDUCAŢIEISECŢIA PSIHOLOGIE

ÎNVĂŢĂMÂNT LA DISTANŢĂ

PSIHODIAGNOSTIC

- SEMESTRUL I -

CUPRINS

MODULUL II. TESTUL PSIHOLOGIC 4

MODULUL IIII. PRINCIPALELE CALITĂŢI ALE TESTULUI PSIHOLOGIC 12II.1. FIDELITATEA TESTELOR 12II.1.1. CONSISTENŢA INTERNĂ 12II.1.2. STABILITATEA 13II.1.3. METODA FORMELOR PARALELE 13II.1.4. FIDELITATEA INTEREVALUATORI 14II.2. VALIDITATEA TESTELOR 18II.2.1. VALIDITATEA DE CRITERIU 18II.2.2. VALIDITATEA DE CONŢINUT 24II.2.3. VALIDITATEA DE CONSTRUCT 35

MODULUL IIINORMELE TESTELOR 42

MODUL IVASPECTE CONCEPTUALE ŞI METODOLOGICE ALE CONSTRUCŢIEI TESTELOR PSIHOLOGICE

48

2

MODULUL I

TESTUL PSIHOLOGIC

CE ESTE EVALUAREA PSIHOLOGICA?

Maloney & Ward (1976) consideră evaluarea psihologică un proces de rezolvare de probleme care vizează descoperirea manifestărilor realităţii. Acest proces implică un scop bine precizat, o serie de instrumente de evaluare - printre care şi testul - precum şi o serie de variabile specifice situaţiei.

Pornind de la definiţia anterioară putem considera evaluarea psihologică o problemă care poate fi rezolvată prin mai multe modalităţi atâta vreme cât sunt respectate anumite cerinţe: stabilirea clară a scopului evaluării respectiv utilizarea unor instrumente valide de evaluare.

Se poate observa faptul că vorbim de instrumente de evaluare, şi nu doar de un instrument specific cum este cel mai adesea testul psihologic. Evaluarea psihologică este realizată cel mai adesea pe baza a două categorii de instrumente: instrumente psihometrice şi instrumente nepsihometrice. În cadrul primei categorii – instrumentele psihometrice - sunt cuprinse în general testul psihologic, chestionarele, observaţia standardizată respectiv alte proceduri care au la bază indicatori psihometrici (standardizarea, fidelitatea, validitatea, etalonarea – aceste aspecte vor fi discutate ulterior). În cadrul celei de a doua categorii - instrumentele nepsihometrice – sunt cuprinse acelea care nu au indicatori psihometrici estimaţi: interviul nestandardizat, analiza produselor activităţii, analiza de Curriculum Vitae, etc.

Evaluare versus testare psihologicăTermenii de evaluare respectiv testare psihologica sunt doi temeni distincţi. Evaluarea

psihologică include testarea psihologică. Testarea psihologică constituie procesul de administrare, cotare şi interpretare a rezultatelor unui test psihologic. Ea are un câmp mult mai îngust deoarece include doar testul psihologic ca instrument de evaluare. A reduce evaluarea psihologică la testare este o practica neştiinţifică. Predicţiile pe care le facem pe baza unui test iau în considerare doar o singură sursă şi anume testul respectiv. Predicţiile pe care le facem pe baza unei evaluări psihologice ţin seama de o multitudine de surse de informaţie (incluzând bineînţeles şi testarea psihologică).

I.1. DEFINIŢII ALE TESTULUI PSIHOLOGIC

Testul psihologic reprezintă alături de alte instrumente o sursă de informaţii extrem de utilă în evaluarea comportamentului uman. Literatura de specialitate indică diferite definiţii ale testului psihologic. Prezentăm în continuare câteva definiţii ale testului psihologic:

Un examen simplu de stări, de fapte fizice sau psihice (Hehlmann, W., 1968) Testul psihologic este o probă definită, implicând o sarcină de îndeplinit, identică pentru toţi

subiecţii examinaţi, cu o tehnică precisă pentru aprecierea succesului sau eşecului sau pentru notaţia numerică a reuşitei (Pieron, H., 1968)

Testul psihologic constă dintr-o probă, mai frecvent dintr-o serie de probe, construite în scopul stabilirii prezenţei (sau absenţei) unui aspect psihic, a particularităţilor de comportare sau a gradului de dezvoltare psihică (Roşca, M., 1972)

Se numeşte test mintal o situaţie experimentală standardizată servind drept stimul pentru un comportament. Acest comportament este evaluat printr-o comparaţie statistică cu acela al altor indivizi plasaţi în aceeaşi situaţie, permiţând astfel clasarea subiectului examinat, fie cantitativ, fie tipologic (Pichot, P., 1994)

Un test psihologic este o procedură standardizată prin care se formează un eşantion de comportamente care va fi descris prin categorii sau scoruri. În plus, multe teste au norme sau

3

standarde care fac posibilă utilizarea rezultatelor la predicţia altor comportamente, mai importante (Gregory, J.,1992)

Testul reprezintă o măsură obiectivă şi standardizată a unui eşantion de comportament (Anastasi, A., 1976).

Din analiza definiţiilor anterioare, putem observa că testul este definit fie într-o manieră mai largă (cum este definiţia dată de Hehlmann) sau mai îngustă. Ceea ce rămâne însă invariabil în definiţia testului psihologic sunt următoarele caracteristici:

instrument de evaluare; vizează un eşantion de comportament; implică o procedură standard privind administrarea, cotarea şi interpretarea rezultatelor.

I.2. PRINCIPALELE REPERE ISTORICE PRIVIND DEZVOLTAREA METODEI TESTELOR

Thorndike (1918) - Dacă ceva există, atunci există într-o oarecare măsurăMcCall (1939) - Orice există într-o oarecare măsură poate fi evaluat

REPERE ISTORICE ÎN EVOLUŢIA TESTĂRII PSIHOLOGICETabelul 1.1 Repere istorice în evoluţia testării psihologice

2200 ÎC1877

18841890

190119051914

1916

1917

1920-19401920192119271939

194219491967

Chinezii încorporau militarii pe baza unor evaluări prealabileWilhem Wundt înfiinţează primul laborator de testare psihologică la Leipzig, GermaniaFrancis Galton realizează prima baterie de testeJames McKeen Cattell utilizează pentru prima dată termenul de "mental test", evaluând aptitudinile intelectuale pe baza unor probe ce vizau timpul de reacţie şi capacitatea de discriminare senzorialăClark Wissler susţine că indicii obţinuţi de Cattell nu corelează cu notele şolareScala Metrica a Inteligentei - primul test de inteligenţă elaborat de Binet-SimonStern introduce termenul de coeficient de inteligenţă (IQ) = vârsta mintală/vârsta cronologicăLewis Terman reia scalele Binet-Simon, publicând Scalele Stanford-Binet. Acestea vor fi revizuite treptat în anii 1937, 1960, 1986Robert Yerkes realizează testele pentru încorporarea în armata americană în timpul Primului Război Mondial: Army Alpha şi Army BetaDezvoltarea majoră a testelor de personalitateTestul RorchachEste fondat Psychological Corporation (Cattell, Thorndike, Woodworth)Este elaborat primul chestionar ce viza orientarea profesionalăWechsler Bellevue Intelligence Scale elaboarată de David Wechsler. Va fi revăzută ulterior şi îmbunătăţită în anii 1955 (WAIS) şi 1981 (WAIS-R)Minesota Multiphasic Personality Inventory (MMPI)Weschler Intelligence Scale for Children (WISC). Va fi revăzut şi îmbunătăţit în anii 1974 (WISC-R) şi 1990 (WISC-III)Wechsler Primary and Prescholl Intelligence Scale (WPPSI)

I.3. TESTUL CA INSTRUMENT DE MĂSURARE/EVALUARE

A măsura înseamnă a atribui numere obiectelor sau fenomenelor potrivit unor reguli determinate (Stevens, 1951). Aceste reguli stabilesc o corespondenţă între proprietăţile numerelor şi proprietăţile obiectelor/fenomenelor.

4

testele psihologice vizează atribute/trăsături specifice; au la bază scalele de măsură.

I.3.1. SCALE DE MĂSURĂDistingem 4 tipuri de scale de măsură (Stevens, 1946):

I.3.1.1. SCALELE NOMINALE

Definiţie

Exemple:1. sexul (femei / bărbaţi) - o clasă de elevi cuprinde 31 elevi din care 14 băieţi şi 17 fete;2. categoriile socioprofesionale

Statistic, nu este posibilă realizarea nici unei analize (X2, procente).

I.3.1.2. SCALELE ORDINALE

Definiţie

Observaţie:

5

scale nominale

scale ordinale

scale de interval

scale de raport / proporţii

Măsurarea pe o scală nominală poate fi realizată ori de câte ori caracteristica studiată permite împărţirea în clase de elemente echivalente.

relaţie de echivalenţăOrice două submulţimi ale unei clase, nu trebuie să se intersecteze

relaţie de echivalenţăOrice două submulţimi ale unei clase, nu trebuie să se intersecteze

Clasele sunt ordonate, dar distanţa dintre ele nu poate fi estimată.

Clasele sunt ordonate, dar distanţa dintre ele nu poate fi estimată.

Măsurarea pe o scală ordinală realizează ierarhizarea claselor. Măsurarea pe o scală ordinală realizează ierarhizarea claselor.

relaţie de echivalenţă relaţie de ordine

relaţie de echivalenţă relaţie de ordine

Exemple: A>B>C Aprecierile ca “foarte bun”, “bun”, “slab”

Statistic poate fi calculată mediana, centilele. Grafic putem să ne referim la histograme.

I.3.1.2. SCALELE DE INTERVAL

Definiţie

Exemple:1. IQ2. Coeficient perceptiv.

Permite utilizarea celor mai numeroşi indici statistici(media, varianţa, coeficienţi de corelaţie).

I.3.1.4. SCALELE DE PROPORŢII

Definiţie

În psihologie măsurarea nu se realizează pe scale de proporţii.

Concluzii privind scalele de măsură

Tabelul 1.2. Principalele caracteristici ale scalelor de măsurăScale Relaţii Prelucrări statistice

Nominale Echivalenţă Modul, frecvenţeOrdinale Echivalenţă

OrdineMediana, centilele, coef. de corelaţie al lui Spearman

De interval EchivalenţăOrdineExistenţa unei unităţi de măsură

Media, varianţa, coeficientul de corelaţie Bravais-Pearson

De proporţii

6

Măsurarea pe o scală de interval presupune o unitate de măsură comună şi constantă.

relaţie de echivalenţă relaţie de ordine distanţa între clase (zero arbitrar)

relaţie de echivalenţă relaţie de ordine distanţa între clase (zero arbitrar)

Posedă proprietăţile scalelor de interval, dar în plus au un punct zero nonarbitrar.

I.4. TESTUL VIZEAZĂ UN EŞANTION DE COMPORTAMENT

Testul psihologic, la fel ca testele în alte ştiinţe realizează observaţii pe un eşantion de comportamente ale unui subiect. Dacă un psiholog doreşte să evalueze vocabularul unui copil sau aptitudinile sale aritmetice sau coordonarea motrică la un pilot va trebui să aleagă din totalitatea comportamentelor disponibile câteva reprezentative pentru ale include într-o probă psihologică.

I. 5. TESTUL IMPLICĂ O PROCEDURĂ DE STANDARDIZARE

Standardizarea = procesul de obiectivare şi uniformitate a unui test raportat la: modalitatea de aplicare/administrare; modalitatea de cotare; modalitatea de interpretare şi raportare la norme/etaloane

I.6. TESTUL CA REZULTANTĂ A UNEI COLECŢII DE ITEMI

I.6.1. CE ESTE UN ITEM ?Item este un stimul specific care determină un anumit comportament ce poate fi cotat şi evaluat independent.I.6.2. TIPURI DE ITEMIÎn funcţie de tipul de răspuns solicitat putem distinge între itemi de tip eseu şi itemi cu răspunsuri date:I. Itemi de tip "eseu" - subiectului i se cere să răspundă liber la un item.

ex. Discutaţi implicaţiile teoriei lui Piaget în practica educaţională.II. Itemi cu răspunsuri date care pot fi:

1. Itemi de tip "da-nu", "adevărat-fals"ex. Bogota este capitala Columbiei?

sunt utilizaţi cel mai adesea în testele de cunoştinţe; uneori sunt utilizaţi şi în testele de personalitate; sunt consideraţi inadecvaţi în chestionarele de atitudini sau în cele ce evaluează simptomele

clinice (în aceste domenii nu există răspunsuri corecte sau greşite); avantaje: uşor şi rapid de administrat; dezavantaje: subiectul are 50% şanse de a ghici răspunsul.

2. Itemi cu răspunsuri la alegereex. Care este capitala Columbiei ?

A. La PazB. BogotaC. LimaD. Santiago

sunt utilizaţi în testele de cunoştinţe; avantaje: procentul de a ghici răspunsul scade;

3. Itemi cu răspunsuri pe scale de tip: "da-nu-nu ştiu", "de acord-acord parţial-dezacord", "întotdeauna-adesea-uneori-niciodată"ex. Sunt o persoană anxioasă în situaţii de examen.

A. întotdeaunaB. adeseaC. uneoriD. niciodată

4. Itemi cu răspunsuri ce trebuie alăturate după diferite criteriiex. __ 1. primul test de inteligenţă A. Raven __ 2. test proiectiv de personalitate B. Binet-Simon

7

__ 3. test de inteligenţă de grup C. Rorschach

I.7. SCOPUL UTILIZĂRII TESTELOR PSIHOLOGICE

1. Selecţie/clasificare. 2. Diagnostic şi intervenţie3. Autocunoaştere4. Proiecte de evaluare a unor modificări intervenite în urma unor intervenţii educative,

psihoterapeutice.5. Instrumente ale cercetării ştiinţifice

I.8. DOMENII DE UTILIZARE A TESTELOR PSIHOLOGICETabelul 1.3. Domenii de utilizare a testelor

Domeniu de aplicabilitate Activitatea vizată spre evaluarePsihologia clinică

Consilierea psihologică

Psihologia industrială/organizaţională

Psihologia şcolară

Neuropsihologia

- evaluarea inteligenţei- evaluarea psihopatologiei

- orientarea şcolară şi profesională- evaluarea aptitudinală- evaluarea comportamentului relaţional/social

- evaluarea potenţialului managerial- evaluarea aptitudinilor cognitive şi psihomotorii

- evaluarea maturităţii şcolare- evaluarea progresului în procesul instructiv-educativ- evaluarea potenţialului de învăţare- evaluarea copiilor cu cerinţe speciale- evaluarea leziunilor cerebrale

I.9. CLASIFICĂRI ALE TESTELOR PSIHOLOGICETestele psihologice pot fi clasificate în funcţie de diferite criterii (Albu, 1999).

1. Clasificări în funcţie de conţinutul testului:a). după modul de executare a sarcinii de către subiect

teste orale; teste scrise; teste de performanţă :

teste cu manipulare de aparate şi piese; teste administrate de calculator.

b). după utilizarea limbajului în rezolvarea sarcinii teste verbale ; teste nonverbale.

c). după modul de procesare implicat: teste de eficienţă

teste de aptitudini; teste de dezvoltare intelectuală; teste de cunoştinţe; probe de lucru; teste situaţionale

teste de personalitate (nonintelective).2. Clasificări în funcţie de modul de administrare a testului:

8

a). după numărul persoanelor care pot fi examinate simultan: teste individuale; teste de grup.

b). după timpul de execuţie teste de viteză; teste de randament:

cu limită de timp; cu timp de lucru nelimitat.

3. Clasificări în funcţie de modul de cotare a testului şi de interpretare a scorului:a). după modul de stabilire a cotei la test:

teste obiective; teste subiective.

b). după modul în care se interpretează scorurile testelor teste normative; teste centrate pe criteriu; teste idiografice;

teste ipsative.

SUMAR

Prezentul modul a conturat caracteristicile principale ale testului psihologica ca instrument de măsură în psihologie. Este important de reţinut faptul că testul este unul dintre modalităţile de evaluare psihologică. Alături de alte instrumente ca interviul, observaţia, chestionarele, scalele de evaluare, testul se constituie într-o sursă importantă de informaţii pentru o evaluare psihologică. Distingem între evaluare şi testare psihologică. Evaluarea psihologică poate fi înţeleasă ca un proces de rezolvare de probleme în care psihologul caută soluţia utilizând o serie de instrumente; testarea se referă la procesul strict de obţinerea a unor informaţii utilizând testul psihologic.

Elemente considerate esenţiale pentru înţelegerea noţiunii de „test psihologic” sunt: 1. testul psihologic serveşte la măsurarea unor atribute psihice, fie la predicţia unor comportamente, 2. un test psihologic constă în una sau mai multe probe, 3. testul evaluează doar un eşantion de comportamente, 4. în etapa de construcţie a testelor se stabilesc regulile care trebuie respectate în utilizarea acestuia, 5. un test este obiectiv dacă el permite să se măsoare fără ambiguitate capacităţile unei persoane.Testele psihologice sunt utilizate, în principal, pentru a stabili un diagnostic psihologic, pentru a face aprecieri şi predicţii referitoare la subiecţi şi pentru a lua decizii asupra persoanelor. Testele psihologice reprezintă deci una din sursele de informaţie pentru evaluarea psihologică.MODULUL II

PRINCIPALELE CALITĂŢI ALE TESTULUI PSIHOLOGIC

În urma parcurgerii eficiente a acestui modul studenţii vor fi capabili: Să enumere şi să poată defini corect fidelitatea şi validitatea testelor psihologice; Să cunoască principalele modalităţi de a analiza fidelitatea şi validitatea testelor Să interpreteze corect coeficienţii de validitate şi fidelitate Să poată analiza un test psihologic prin prisma fidelităţii şi validităţii acestuia

II.1. FIDELITATEA TESTELOR

The meter (m) is the Si unit of length and is defined as the length of the path traveled by light in vacuum during the time interval of 1/299 792 458 of a second. This replaces the

9

two previous definitions of the meter: the original adopted by CGPM in 1889 based on a platinum-iridium prototype bar, and a definition adopted in 1960 based on a krypton86 radiation from an electrical discharge lamp. In each case, the change in definition achieved not only an increase in accuracy, but also progress toward the goal of using fundamental physical quantities as standards, in particular, the quantum mechanical characteristics of atomic systems. - Taylor,1991.

Fidelitatea unui test psihologic se referă la două aspecte:1. consistenţa internă;2. stabilitatea în timp a rezultatelor testării.

Analiza fidelităţii unui test porneşte de la conceptul de eroare. Orice scor la un test psihologic este rezultatul scorului real şi al unei erori de măsură:

Xobservat = Xreal + e (e = eroarea de măsură)Fidelitatea reprezintă absenţa relativă dintr-o probă psihologică a erorilor de măsurare. Acest lucru însă în psihologie nu poate fi întâlnit; de aceea orice test psihologic trebuie să estimeze valoarea acestor erori aleatoare de măsură. Calculul fidelităţii indică măsura în care scorurile obţinute la test exprimă de fapt valorile reale ale constructului pe care testul îl măsoară.

Fidelitatea unui test poate fi calculată pe baza a patru metode:1. metoda consistenţei interne coeficienţi de consistenta internă;2. test retest coeficienţi de stabilitate;3. metoda formelor paralele coeficienţi de echivalenţă;4. metoda fidelităţii interevaluatori coeficienţi interevaluatori.

II.1.1. CONSISTENŢA INTERNĂConsistenţa internă a unui test se referă la măsura în care toţi itemii testului măsoară aceeaşi variabilă. Calculul coeficientului de consistenţă internă va consta în analiza corelaţiei ce exista între fiecare item. Pornind de la scorurile observate la un test, pentru analiza consistentei interne pot fi calculaţi următorii coeficienţi:1. Cronbach pentru testele cu orice tip de itemi;2. 3 Guttman;3. 20 şi 21 Kuder Richardson (dacă itemii testului sunt binari). Toţi coeficienţii prezentaţi se bazează pe un calcul de corelaţie între itemii ce alcătuiesc testul. Un coeficient de consistenţă ridicat exprimă faptul că toţi itemii testului se referă la aceeaşi variabilă. În afara coeficienţilor prezentaţi anterior, consistenţa internă a unui test poate fi calculată şi pe baza metodei înjumătăţirii. Pe baza acestei metode testul este împărţit în jumătate, calculându-se coeficientul de corelaţie dintre cele două părţi. Dacă acest coeficient este ridicat el ne indică o bună fidelitate (consistenţa internă) a testului. O formă particulară a metodei înjumătăţirii o constituie metoda item cu item, în care testul este împărţit în două prin selectarea itemilor pari respectiv a celor impari. Aceasta tehnică este utilă mai ales în cazul testelor în care itemii sunt prezentaţi în ordinea crescândă a dificultăţii. Se calculează şi acest caz coeficientul de consistenţă internă între cele doua părţi ale testului, valoarea lui reprezentând valoarea coeficientului de fidelitate.

II.1.2. STABILITATEA

Stabilitatea rezultatelor testării ne indică în ce măsură la aplicări diferite în timp un subiect obţine rezultate similare la un test psihologic. Calculul coeficientului de stabilitate se realizează astfel:

a) se administrează testul la un grup de persoane;b) după un interval de timp se readministrează testul;c) se calculează un coeficient de corelaţie între rezultatele la cele două administrări.

10

O valoare mare a acestui coeficient indică o bună stabilitate în timp a rezultatelor. Se poate spune despre acel instrument că este fidel deoarece relevă aceleaşi valori ale unei variabile la măsurători diferite în timp.

Factori care influenţează calculul fidelităţii test-retest (stabilităţii): Intervalul de timp între test şi retest. Dacă timpul este prea scurt există o mare probabilitate ca

subiecţii să îşi reamintească răspunsurile date anterior; respectiv un timp prea lung între test şi retest poate determina maturizarea eşantionului de subiecţi. Astfel dacă aplicăm un test de percepţie la 4 ani şi îl reaplicăm la un interval de 6 luni există o mare probabilitate să obţinem rezultate diferite la cele două administrări ale testului deoarece în intervalul de 6 luni subiecţii s-au maturizat. În acest caz retestul va include în evaluare nivelul de maturizare al subiecţilor. Datorită acestor argumente este destul de dificil de stabilit cu exactitate un timp optim între test şi retest.

Întotdeauna când se calculează acest coeficient trebuie precizat intervalul scurs între test şi retest, vârsta subiecţilor precum şi condiţiile în care s-au administrat testele pentru a putea identifica eventualele surse de eroare de măsură.

Gradul de dificultate al itemilor. Dacă itemii sunt fie prea uşori fie prea dificili se vor obţine coeficienţi de stabilitate ridicaţi deoarece itemii testului fie vor fi rezolvaţi de majoritatea subiecţilor (în primul caz) fie nu vor fi rezolvaţi nici la test nici la retest (al doilea caz).

Schimbări ale subiectului determinate de prima aplicare. Pot exista o serie de situaţii în care se obţin performanţe diferite la retest deoarece subiectul fie a învăţat să răspundă la itemi după prima administrare, fie această primă administrare a determinat schimbări de atitudini faţă de o anumită problemă.

II.1.3. METODA FORMELOR PARALELE

Există o serie de situaţii practice care necesită aplicări repetate a unui test psihologic la un interval foarte scurt de timp. În acest caz aplicarea aceluiaşi test este improprie deoarece s-a văzut anterior că la un interval scurt de timp subiecţii pot să îşi reamintească răspunsurile date anterior. În acest caz trebuie să se construiască forme echivalente sau paralele ale unui test. Două teste sunt paralele dacă pentru un subiect erorile de măsură la cele două administrări sunt variabile aleatoare independente. În acest caz itemii celor două teste trebuie să fie logic izomorfi, adică să aibă acelaşi nivel de dificultate. Avantajul acestei metode este acela că nu mai permite reamintirea răspunsurilor şi nici posibilitatea căutării răspunsurilor la întrebările la care nu s-a ştiut răspunde. um de timp prin două administrări; subiecţii se pot plictisi dacă testările sunt prea lungi; este greu de realizat fiind dificilă şi costisitoare.

II.1.4. FIDELITATEA INTEREVALUATORI

Este necesar a fi calculată în cazul testelor care nu au o cotare obiectivă aşa cum sunt testele proiective de personalitate la care scorul este influenţat şi de interpretarea pe care o dă persoana care face cotarea. Pentru a verifica în ce măsură scorul la test este influenţat de modalitatea în care se face cotarea de diferite persoane se va cere la diferiţi evaluatori să calculeze scorurile la test, iar apoi se va realiza un coeficient de corelaţie interevaluatori. Acest coeficient va exprimă măsura în care testul este independent de erori datorate modalităţii de cotare a răspunsurilor subiectului. Coeficienţii de fidelitate transformaţi în coeficienţi de determinare (pătratul coeficientului de fidelitate) relevă proporţia în care varianţa totală a rezultatelor psihometrice se datorează varianţei

11

“reale” – diferenţelor individuale reale – sau din contră, varianţei “eroare”, definită diferit, în funcţie de metoda particulară urmată în stabilirea tipului de fidelitate (Kulcsar, 1980). În consecinţă, deşi semnificaţia diferiţilor coeficienţi de fidelitate nu este aceeaşi, totuşi orice coeficient de fidelitate, ridicat la pătrat, poate fi interpretat în termeni de procentaj al variantei randamentului la test. Astfel de exemplu, un coeficient de fidelitate de .80 înseamnă că .802=64% din varianţa totală a rezultatelor psihometrice considerate se datorează varianţei reale a domeniului explorat, iar 36% varianţei eroare, generată de unele din sursele multiple ale deosebirilor în rezultatele psihometrice. Trebuie menţionat faptul ca deşi fidelitatea unui test este importanta, ea nu este suficientă pentru un test bun. Un test poate avea o bună consistenţă internă (toţi itemii evaluează aceeaşi variabilă) respectiv o bună stabilitate în timp, dar să măsoare altceva decât îşi propune. Problema evaluării corecte a ceea ce îşi propune să măsoare un test este constituie subiectul validităţii testelor.

Interpretarea unui coeficient de fidelitateMurphy & Davidshopher (1998) prezintă următoarele repere în interpretarea coeficienţilor de fidelitate (tabelul 1):Tabelul 2.1. Semnificaţia coeficienţilor de fidelitateValori ale coeficienţilor

de fidelitateTipul testului Interpretare

0.950.90 Testele de inteligenţă de grup Fidelitate mare 0.85 Testele de performanţă0.800.75 Testele cu răspunsuri multiple Fidelitate moderată0.70 Scalele comportamentale0.650.60 Unele măsurători proiective Fidelitate scăzută0.550.50 Scorul real şi eroarea au efect

egal asupra scorurilor la test

Aşa cum am precizat anterior orice rezultat (scorul observat) pe care o persoană îl obţine la un test este alcătuit din aptitudinea reală (scor real) căreia i se adaugă eroarea de măsură. Adică:Xobservat = Xreal + e (e = eroarea de măsură)Întrebarea pe care este necesar să o analizăm în acest caz ar fi următoarea: care este intervalul în care se găseşte scorul real. Altfel spus, dat fiind faptul că o persoană obţine un anumit scor la un test, ne interesează care este intervalul în care putem spune că se găseşte scorul real la test. Acest interval este denumit interval de încredere şi este definit ca probabilitatea ca scorul real al persoanei la un test să se găsească între anumite limiteCalculul intervalului de încredere (IC).Intervalul de încredere se obţine astfel:IC = Xobservat + z*SEm SEm= eroarea standard de măsurăSEm = SD* SD= abaterea standard a scorurilor la test; r= coeficientul de fidelitate

Să luăm lun exemplu.Presupunem că la un test de inteligenţă o persoană a obţinut un scor de 115. Coeficientul de fidelitate alpha este de 0,98, iar abaterea standard a scorurilor la test este de 15. Cum aflăm intervalul în care se găseşte scorul real al persoanei la test?

1. Calculăm eroarea standard de măsurăSEm = SD* SEm = 15* SEm = 15*

12

SEm = 2.122. Calculăm intervalul de încredereIC = Xobservat + z*SEm IC = 115 + z*2.12

Alegerea scorului z care va intra în calcul se face în funcţie de precizia cu care dorim să lucrăm. Dacă alegem să lucrăm cu o probabilitate de 95% scorul z corespunzător este de 1.96 . Pentru o probabilitate de 90% scorul z corespunzător este de 1.65. În acest exemplu să vom lucra cu o precizie de 95%, deci z=1.96. Astfel vom avea:IC = 115 + 1.96*2.12IC= 115 + 4.15În acest caz putem spune cu o probabilitate de 95% că scorul real al persoanei se găseşte în intervalul 110.85 – 119.15.

De reţinut: intervalul de încredere depinde de coeficientul de fidelitate al testului; dacă avem un

coeficienţi de fidelitate mici, atunci intervalul se măreşte, deci eroarea este mai mare. intervalul de încredere depinde de abaterea standard a scorurilor la test.

EXERCIŢII

Rezolvaţi următoarele probleme:1. Testul A are abaterea standard 4, fidelitatea testului este 0.89

Testul B are abaterea standard 7, fidelitatea testului este 0.88Considerând că toţi ceilalţi parametri ai celor 2 teste sunt egali, pe care dintre teste îl consideraţi mai bun?

2. Testul C are eroarea standard de măsură 3,20 iar fidelitatea testului 0,76Testul D are eroarea standard de măsură 5,6 iar fidelitatea testului 0,62

Considerând că toţi ceilalţi parametri ai celor 2 teste sunt egali, pe care dintre teste îl consideraţi mai bun?

3. Calculaţi eroarea standard de măsură pentru un scor observat de 15 şi utilizaţi valoarea obţinută pentru a determina intervalul de încredere al scorului real pentru 90 % respectiv 95%. Abaterea standard a scorurilor la test este 8; Fidelitatea testului este 0,74. Calculaţi:

a. Eroarea standard de măsură:______________b. Intervalul de încredere la 90%_________________________________c. Explicaţi semnificaţia acestui interval.d. Intervalul de încredere la 95%_________________________________e. Explicaţi semnificaţia acestui interval.

II.2 VALIDITATEA TESTELORDefiniţia validităţiiEvaluarea psihologică vizează o anumită realitate fie internă, fie externă. Numim domeniu de evaluare orice realitate (internă sau externă) care este supusă evaluării. În orice proces de evaluare psihologică pornim de la definirea domeniului de evaluare şi apoi propunem o serie de modalităţi cantitative prin care observăm dacă indivizii posedă sau nu caracteristicile domeniului respectiv. Deoarece definirea domeniului poate să fie mai mult sau mai puţin corectă ne punem întrebarea dacă aptitudinile /caracteristicile măsurate de test corespund domeniului de evaluare. Astfel, pentru ca testul să fie considerat o măsură bună a domeniului de evaluare este necesar să obţinem o serie de informaţii care să reflecte faptul că testul măsoară ceea ce şi-a propus. Din aceste cerinţe decurge problema validităţii unei măsurători.

13

Orice instrument de evaluare psihologică trebuie să satisfacă cerinţele validităţii. Tradiţional, definiţia cea mai des întâlnită a validităţii este “modalitatea în care un test măsoară ceea ce îşi propune să măsoare” (Anastasi, 1976). Validitatea se referă deci la relaţia dintre scorul obţinut la un test şi un anumit criteriu sau o performanţă externă. Acest criteriu poate să aparţină oricărui domeniu; poate include selecţia de personal, reuşita şcolară sau nosologia.

Istoric al studiilor despre validitateEste cunoscut deja faptul că măsurarea psihologică şi deci implicit şi validarea îşi au rădăcinile demult în timp. Într-un articol care viza rolul testelor în selecţia de personal, Guion (1976) realizează o trecere în revistă a principalelor aspecte de care se ţinea cont la vremea respectivă în analiza validităţii unei măsurători psihologice. Acestea sunt prezentate în tabelul 2: Tabelul 2.2. Referiri la validitate

Aspecte Observaţii1. Scopul validării* este acela de a prezice o

performanţă viitoare“este…important a se cunoaşte dacă scorurile la un test sunt într-o modalitate mai mare sau mai mică predictive pentru succesele ulterioare” (Bingham, 1937, p.216)

2. Predictorii şi criteriile trebuie să fie selectaţi pe baza analizei muncii.

3. Instrumentele de evaluare trebuie standardizate. “Pentru a putea compara performanţele unei persoane la un test la diferite momente în timp, testul trebuie să fie uniform” (Freyd, 1923, p.232)

4. Testele trebuie validate empiric. “Un test nu are nici o semnificaţie înainte ca acesta să fie validat” (Link, 1924)

5. Validarea este specifică unei situaţii.6. Un singur test nu este suficient. “Hull (1928) susţine că pentru a putea prezice cu mare

acurateţe un anumit criteriu, trebuie utilizată o baterie alcătuită din 4, 5 sau mai multe teste” (Guion, 1976, p.783).

7. Este bine să se utilizeze doar un singur criteriu. Freyd (1923) descrie procesele prin care este selectat un “criteriu”

8. Metodele psihometrice sunt preferate metodelor nepsihometrice.

“Evaluatorul nu se va limita la un instrument anume de măsură, dar cele pe care trebuie să le utilizeze cel mai des sunt testele şi chestionarele” (Freyd, 1923, p.231)

9. Un test trebuie să ţină cont de diferenţele individuale.

“Performanţele la un test trebuie analizate - acolo unde este cazul - diferit în funcţie de sexe” (Freyd, 1923).

Analiza făcută de Guion (1976) ne oferă o imagine globală a ceea ce însemna la începutul sec. xx modalităţi tradiţionale de realizare a studiilor de validitate a unui instrument de evaluare psihologică.

O abordare mai recentă şi poate mai corectă a validităţii este formulată de APA1, AERA2, NCSEPT3

în 1974. Conform standardelor asociaţiilor amintite “Validitatea se referă la corectitudinea inferenţelor realizate pe baza unui test sau a altei forme de evaluare” (p.25). Altfel spus, dar fiind un set de întrebări la care dorim să răspundem pe baza unei evaluări psihologice trebuie să ne verificăm cât de corecte (sau valide) sunt răspunsurile (sau informaţiile) oferite de un test psihologic (Ghiselli & all, 1986).

* Validarea este procesul prin care se obţin informaţii legate de validitatea unui test.

1 American Psychological Association2 American Educational Research Association3 National Council on Standards for Educational and Psychological Tests

14

Validitatea trebuie atribuită întotdeauna inferenţelor făcute pe baza performanţelor la un test. Validitatea nu este o caracteristică a testului psihologic ci este mai degrabă o caracteristică a inferenţelor care rezultă în urma utilizării acestuia (unei forme de evaluare - chiar a observaţiei). Altfel spus, validitatea determină relaţia dintre inferenţele făcute pe baza performanţelor la un test şi realitate (este inclus aici orice aspect care este supus evaluării). Dacă analizăm definiţia dată de Nunnally (1978) validităţii, şi anume “cât de util ştiinţific” este un instrument de măsură observăm că şi în acest caz este vorba de inferenţe, sau judecăţi realizate pe baza instrumentului respectiv.

Forme ale validităţii.Literatura de specialitate indică diferite tipuri de validitate psihologică. Ele trebuie înţelese ca fiind tehnici, modalităţi prin care se încearcă optimizarea unui instrument de măsură psihologică. Modalitatea cea mai des întâlnită în literatura de specialitate (Anastasi, 1976; Cohen, et. all, 2000) de a concepe validitatea o constituie următoarea taxonomie: validitate de criteriu validitate de conţinut validitate de construct.

În afara celor trei tipuri de validitate, normele APA analizează validitatea de aspect. Validitatea de aspect este definită ca “ceea ce un test pare să măsoare, mai degrabă decât ceea ce măsoară” (APA, 1974). Exprimă de fapt modul în care persoana evaluată percepe itemii testului; ea este importantă în măsura în care poate influenţa răspunsurile persoanei examinate la test. Dacă persoana examinată apreciază că testul măsoară ceea ce îşi propune să măsoare de fapt, atunci putem spune că testul are o validitate de aspect ridicată. Conform Standardelor de Evaluare APA (1974) validitatea de aspect nu constituie un criteriu important pentru inferenţele făcute pe baza unui test.

II.2.1. VALIDITATEA DE CRITERIUNu de puţine ori suntem confruntaţi cu întrebări ca: “În ce măsură performanţa la un test de inteligenţă este predictivă pentru reuşita şcolară?”, “În ce măsură rezultatul la un test de aptitudini prezice performanţa în muncă?”, “În ce măsură performanţa la un test de memorie constituie un bun predictor pentru declinul cognitiv la vârsta a treia?”. Aceste întrebări se adresează validităţii de criteriu. Adesea acest tip de validitate este întâlnit sub denumirea de validitate empirică (Lyman, 1998). Validitatea de criteriu indică deci măsura în care testul este un bun predictor pentru un eşantion de comportamente viitoare. În acest caz performanţa la un test trebuie raportată la o altă performanţă pe care o numim criteriu.

Criteriul este definit ca standardul la care este raportată performanţa la un test. Astfel criteriul poate fi “performanţa unui pilot care conduce un Boeing 767”, “numărul de zile petrecut într-un spital de psihiatrie”, “notele obţinute de un elev la disciplinele umane”, “performanţa la un alt test”. Aşa cum se poate observa nu există reguli stricte pentru ceea ce numim criteriu. Acesta poate fi un comportament specific sau un grup de comportamente, o perioadă de timp, un diagnostic psihiatric, indicele de absenteism, alcoolemia din sânge, etc. Deşi la o prima vedere se poate spune că un criteriu poate constitui orice, acest lucru este adevărat doar dacă criteriul este relevant pentru domeniul de evaluare, dacă este necontaminat, dacă este valid şi fidel.

Un test psihologic este adecvat dacă este relaţionat cu un criteriu şi deci poate fi considerat un bun substitut al criteriului. În general numim testul ca fiind predictor pentru criteriul respectiv.

Caracteristicile unui criteriu. Criteriul reprezintă o măsură directă şi independentă a ceea ce testul doreşte să prezică. Astfel pentru un test de aptitudini mecanice criteriul îl poate constitui performanţa în munca de mecanic; pentru un test de cunoştinţe criteriul îl pot constitui notele şcolare.

15

Criteriul trebuie să îndeplinească câteva condiţii (Corsini, 1994): să fie relevant pentru activitatea sau caracteristica la care se referă; adică ordinea

subiecţilor la test să coincidă cu ordinea performanţei la criteriu; să fie fidel, adică să fie congruent cu evaluări diferite ale performanţelor la care se referă,

evaluări realizate la momente diferite. să fie practic, adică să nu coste mult; să fie exprimat în aceleaşi unităţi pentru toate persoanele. Dacă de exemplu, valorile

variabilei criteriu sunt dependente de vârsta subiecţilor atunci aceste valori trebuie transformate în cote standard (de exemplu: z sau T);

Anastasi (1954) exemplifică câteva criterii utilizate în analizarea validităţii testelor care vizează constructe:

vârsta – se foloseşte ca şi criteriu în cazul constructelor ce vizează procese care cunosc o maturizare (ex. inteligenţa, funcţiile perceptive, etc.). Nu este un criteriu bun pentru testele care vizează aspecte invariabile în timp (ex. variabilele ce ţin de temperament).

performanţele şcolare – sunt un criteriu bun pentru testele de cunoştinţe sau pentru testele care evaluează aptitudini şcolare.

performanţele la diverse programe de instruire specială (muzică, sport, etc.) sunt criterii adecvate pentru testele de aptitudini speciale.

rezultatele altor teste se utilizează adesea ca şi criteriu în construirea de noi teste. Astfel Scala Metrica a inteligenţei construită de Binet-Simon (1905) a folosit drept criteriu pentru teste ulterioare construite în scopul evaluării inteligenţei;

grupele contrastante - pentru un test de inteligenţă acestea ar fi constituite din copiii care frecventează şcoala de masă, respectiv copiii integraţi în şcoala ajutătoare.

Ca şi scorurile la test, un criteriu trebuie să fie fidel (Cohen, 1999).

Dacă ar fi posibil întotdeauna să obţinem direct scoruri la criteriu pentru un anumit individ nu am mai avea nevoie de măsura predictorului şi de nici o aproximare a validităţii de criteriu. Din păcate însă nu putem obţine imediat scorurile la un criteriu; ele pot fi obţinute doar la anumite intervale în timp sau pot fi adesea extrem de costisitoare pentru a fi obţinute la cerere pentru orice individ.

Să considerăm un exemplu. S-a pus nu de puţine ori întrebarea ce înseamnă o performanţă bună într-o anumită organizaţie. Performanţa poate fi definită din mai multe puncte de vedere. Astfel, organizaţia poate fi interesată de cât de mult contribuie o persoană la creşterea profitului, iar pentru persoana respectivă performanţa poate însemna măsura în care simte că este apreciată. Avem în acest caz de-a face cu mai multe dimensiuni ale unui criteriu. Aceste surse de informaţii pot fi utilizate pentru a prezice fiecare dintre cele două surse ale criteriului iar validitatea acestora va fi determinată diferit. Dacă un criteriu este adecvat este cel mai adesea o judecată de valoare (Ghiselli et. all). Putem estima prin diferite modalităţi fidelitatea unui criteriu (stabilitatea acestuia în timp de ex.) însă formularea lui, respectiv conţinutul acestuia constituie cel mai adesea un raţionament sau o judecată a celui care realizează evaluarea.

În exemplul anterior criteriul aparţine viitorului şi în momentul evaluării nu este disponibil, deci avem nevoie de o serie de predictori pentru estimarea acestuia. Să presupunem însă că avem de-a face cu un criteriu care poate fi estimat acum (adică în momentul evaluării). Întrebarea pe care trebuie să ne-o punem este următoarea: “avem la dispoziţie măsurători economice ale criteriului care pot fi folosite acum?”. Un exemplu de astfel de criteriu este măsura în care o serie de indivizi prezintă o formă sau alta de tulburare psihică. O analiză completă a acestei dimensiuni ar dura câteva zile şi ar fi neeconomică. Dacă în plus sarcina psihologului este acela de a analiza un număr

16

mare de persoane din prisma acestor criterii ar trebui găsită o altă modalitate decât cea clinică, completă. Problema cu care ne confruntam acum este aceea de a găsi o modalitate economică (rapidă în timp şi necostisitoare) care ar putea substitui examinarea clinică completă care constituie criteriul.

Există de multe ori evenimente care s-au petrecut în trecut şi care deci nu mai pot fi evaluate în mod direct. Care este în acest caz predictorul utilizat pentru evaluarea criteriului (evenimentul trecut)? De exemplu, analiza de către medic a unei electrocardiograme (predictor) poate fi utilizată ca modalitate de a decide dacă pacientul respectiv a suferit sau nu un atac de cord (criteriu). Un alt exemplu care intră în această categorie este rolul pe care îl are un judecător de a stabili dacă un individ a comis o crimă în trecut (criteriul) pe baza prezentării faptelor la proces (predictor).

Înainte de a prezenta diferitele tipuri de validitate de criteriu trebuie reţinută următoarea afirmaţie. O anumită variabilă poate constitui un criteriu într-o anumită situaţie respectiv predictor în altă situaţie. Ceea ce este astăzi criteriu poate să nu mai fie mâine.

APA (1974) diferenţiază între două tipuri de validitate de criteriu: validitate predictivă. validitate concurentă

Validitatea predictivă.Termenul de predicţie poate fi utilizat fie în sens larg când se referă la predicţia unui test pentru orice situaţie, sau în sens restrâns când se referă la predicţie într-un interval de timp. Validitatea predictivă vizează cel de-al doilea sens.

Validitatea predictivă este definită ca acurateţea cu care putem estima în ce măsură o anumită caracteristică sau aptitudine a unei persoane se va manifesta în viitor pe baza măsurii în care persoana posedă o serie de caracteristici sau aptitudini curente (Ghiselli, et. all). De exemplu, la un examen de admitere la facultate ne poate interesează în ce măsură aptitudinile de care dispune acum o persoana sunt predictive pentru performanţa academică. Pe baza notei la examenul de admitere (predictor) am putea face o predicţie asupra reuşitei academice ulterioare (criteriu).

În practica clinică de exemplu, un test care ar reuşi să prezică tentativele viitoare de suicid ar constitui un bun predictor pentru acest criteriu.

Ce este predicţia?Predicţia este procesul de stabilire a unor expectaţii despre viitor având la baza date / evenimente curente – de exemplu desprinderea unor date despre performanţa viitoare în muncă pornind de la caracteristicile actuale ale unei persoane.

În literatura de specialitate, datele actuale se numesc „predictori”, în timp ce variabilele care descriu performanţa se numesc „criteriu”.

Principii ale predicţiei.Psihologia personalului, orientată pe selecţie oferă 2 modele ştiinţifice ale predicţiei: „abordarea pe bază de trăsături” şi „abordarea pe baza generalizării comportamentelor” (Wernimont & Campbell, 1968).

Abordarea pe bază de trăsături (figura 1) porneşte de la asumpţia că există un număr de relaţii bine precizate între trăsăturile unei persoane şi activităţile pe care persoana le desfăşoară, relaţii exprimate în forma legilor psihologice. Această abordare are la bază principiul deductiv nomologic (principiul DN) din teoria ştiinţei (Stegmuller, 1974). Când pentru un grup de persoane o anumită lege psihologică stabileşte că există o legătură între o caracteristică A a persoanei şi un anumit tip

17

de comportament E, putem realiza, pe baza acestei legi, predicţia că o persoană care posedă caracteristica A va manifesta comportamentul E. Principiul nu poate fi aplicat în această formă simplă din mai multe motive. În primul rând, relaţia dintre predictor şi criteriu este mai degrabă una probabilistică şi nu deterministă. Astfel, cunoscând scorul unei persoane la o variabilă predictor, putem face doar o inferenţă despre scorul la criteriu; această inferenţă se realizează cu o anumită probabilitate şi nu cu certitudine. În al doilea rând, trăsăturile şi caracteristicile comportamentale, nu pot fi măsurate în mod direct, ci ele sunt măsurate pe baza unor instrumente care au caracteristici psihometrice specifice. În al treilea rând legile dintre trăsături şi comportamente trebuie stabilite foarte clar, fără contradicţii logice. Astfel de contradicţii ar putea apare atunci când un test ar realiza o predicţie a unei performanţe bune a persoanei, iar un alt test ar prezice o performanţă slabă.

Caracteristica A Lege psihologică Comportamentul E

Predicţie

Ipoteze pe bază deobservaţie

Ipoteze pe bază de observaţie

Caracteristica a observată Comportamentul observat e

Figura 2.1. Predicţia pe baza principiului deductiv-nomologicAbordarea pe baza generalizării comportamentului (figura 2) are la bază următoarea asumpţie: atunci când o persoană se comportă de o manieră E într-o anumită situaţie G1 se poate concluziona că persoana respectivă se va comporta de aceeaşi manieră E într-o altă situaţie Gi, situaţie similară cu prima. Avem de-a face în acest caz cu o generalizare a comportamentului observat într-un eşantion de situaţii la un o altă situaţie similară cu cele din eşantionul ales. Pe baza acestei generalizări putem vorbi de „principiul eşantionului de situaţii”. Figura 2 prezintă grafic o reprezentare a acestui principiu.

Eşantion de situaţii Reprezentativitate Univers de situaţii

Predicţie

Reprezentare Reprezentare

Eşantion de sarcini Univers de sarcini

Figura 2.2. Predicţia pe baza principiului generalizării comportamentului

Cele două modele ale predicţiei diferă din punctul de vedere al bazei lor epistemologice. Abordarea pe baza trăsăturilor relaţionează o caracteristică durabilă a unei persoane (ceva ce persoana are) cu activitatea sa (ceva ce persoana face). Abordarea pe baza generalizării comportamentului nu ia în considerare trăsătura, ea relaţionează comportamente (ce face o persoană cu altceva ce face).

18

Această a doua abordare are la bază o similaritate mai mare între predictor şi criteriu, fapt ce poate determina o mai bună predicţie. Acest argument susţine şi faptul că instrumentele de tipul celor orientate pe conţinut au o validitate predictivă mai mare decât cele bazate pe trăsături (Schmitt&Noe, 1986). Similaritatea dintre cele două abordări se referă la faptul că ele au la bază asumpţia că există o stabilitate a comportamentului; în primul caz stabilitatea este dată de trăsătură, iar în al doilea caz stabilitatea este dată de o constantă comportamentală (comportamentul nu se schimbă atâta timp cât situaţia nu se schimbă).

Ce model de predicţie este utilizat în testul de personalitate 16PF?

Validarea predictivă presupune existenţa unui interval de timp între test şi verificarea criteriului. Pentru un test care are ca scop predicţia reuşitei şcolare la scris-citit în clasa I testul va fi aplicat la intrarea în clasa I, iar criteriul (performanţele la scris-citit) va fi verificat fie după un semestru, fie la sfârşitul clasei I. Studiul de validare al unui test care vizează prognoza reuşitei la citire în clasa I, trebuie să parcurgă următoarele etape (Kulcsar, 1980) (figura 1):

analiza psihologică a activităţii de citire; indicarea premiselor psihologice ale reuşitei la citire;

alegerea unui test sau a unor teste psihologice care explorează tocmai acele aspecte psihologice care condiţionează reuşita la citire;

aplicarea testului sau a testelor psihologice destinate predicţiei reuşitei la citire; măsurarea criteriului, adică evaluarea gradului de însuşire a deprinderii de citire pe baza

notelor şcolare sau a unor probe de citire elaborate în acest scop; analiza cantitativă şi calitativă a rezultatelor la test şi la criteriu; studierea legăturii între

cele două categorii de rezultate.

15 septembrie 1980 15 iunie 1981Aplicarea testului sau a bateriei de teste predictive (la intrarea în clasa I)

Măsurarea criteriului (notele şcolare; aplicarea unor probe de citire)

TEST (15 sept. 1980) Studierea legăturii între reuşita la şi prin:

CITIRE (15 iunie 1981)

metoda grupelor reprezentative; intercorelarea celor două categorii de rezultate (coeficientul de validitate relevă eroarea estimării)

metoda grupelor extreme sau contrastante; se studiază comparativ media şi dispersia rezultatelor la două categorii de subiecţi semnificativ diferite sub aspectul criteriului – reuşita la citire / nereuşita la citire

Figura 2.3. Ilustrarea procesului de validare predictivă (Kulcsar, 1980).

Validarea concurentă presupune obţinerea scorurilor la criteriu aproximativ în acelaşi timp cu scorurile la test. În cazul validităţii concurente este vorba tot de o predicţie, dar la aceasta se ajunge pe o cale puţin diferită faţă de cea urmată în studierea validităţii predictive (Cronbach, 1970). Trebuie menţionat faptul că distincţia logică între validitatea predictivă şi cea concurentă (figura 2) nu se bazează pe relaţia temporală dintre test şi criteriu ci mai ales pe obiectivele testării. Astfel, în timp ce validitatea concurentă are ca scop rezolvarea unei probleme privind starea actuală a subiectului, validarea predictivă vizează evoluţia sa în viitor. Diferenţa între cele două tipuri de

19

validitate poate fi sumarizată pe baza următoarelor întrebări: “Este X anxios?” (validare concurentă) şi “Este posibil ca X să devină anxios?” (validare predictivă).

15 septembrie 1980 15 septembrie 1980Testare psihologică Măsurarea criteriului

Studierea legăturii între cele două categorii de rezultate

Figura 2.4. Ilustrarea procesului de validare concurentă (Kulcsar, 1980)Dacă rezultatele la predictor (test) sunt obţinute simultan cu rezultatele la criteriu, măsura relaţiei dintre predictor şi criteriu o constituie validitatea concurentă. Validitatea concurentă exprimă deci în ce măsură scorurile la test pot fi utilizate pentru a estima performanţa actuală a unei persoane la un anumit criteriu.

Analiza validităţii de criteriu (fie ea predictivă sau concurentă) se bazează pe două tipuri de analize statistice: coeficienţii de validitate.

Coeficienţii de validateValiditatea de criteriu a unui test reprezintă o modalitate cantitativă şi obiectivă a relaţiei dintre scorurile la predictor şi scorurile la criteriu. Astfel coeficienţii de corelaţie sunt o modalitate de a estima validitatea predictivă. Când aceştia sunt utilizaţi pentru a indica relaţia dintre un predictor şi un criteriu, ei sunt denumiţi coeficienţi de validitate.

II.2.2. VALIDITATEA DE CONŢINUTValiditatea de conţinut implică examinarea sistematică a conţinutului testului pentru a se verifica dacă testul acoperă un eşantion reprezentativ din domeniul care se cere a fi evaluat prin test (Anastasi, 1976). Astfel pentru a vorbi de o validitate de conţinut ridicată trebuie ca itemii care alcătuiesc testul să fie reprezentativi pentru ceea ce testul doreşte să măsoare. Analiza validităţii de conţinut a unui test trebuie să surprindă:1. Definirea şi descrierea domeniului de conţinut a testului. Această descriere trebuie să fie extrem

de clară şi să includă toate faţetele domeniul care se doreşte a fi evaluat. 2. Analiza itemilor care sunt incluşi în test. Vor trebui să fie eliminaţi acei itemi care nu evaluează

aspecte ale domeniului de conţinut identificat anterior. Această analiză se va face de către experţi care pot să aprecieze relevanţa fiecărui item pentru un domeniu dat. Validitatea de conţinut nu depinde însă de relevanţa aparentă a conţinutului itemilor ci de caracterul relevant al răspunsurilor subiectului la itemi (Anastasi, 1976). Pentru a stabili validitatea de conţinut a testului, orice analiză teoretică trebuie deci să fie confirmată empiric (Kulcsar, 1980).

3. Compararea structurii testului cu domeniul de conţinut. Astfel se va analiza dacă itemii acoperă toate aspectele domeniului, respectiv dacă ei sunt proporţionali în test cu importanţa şi mărimea fiecărui aspect.

Deoarece acest tip de validare nu reclamă metode şi modele statistice, ea făcându-se doar pe baza de raţionamente, o găsim în literatura de specialitate şi sub denumirea de validare logică sau raţională (Thorndike, Hagen, 1961). Validarea referitoare la conţinut se impune a fi calculată în următoarele cazuri:1. în cazul testelor de cunoştinţe atunci când nu exista un criteriu extern adecvat pentru analiza

validităţii de criteriu;2. în cazul testelor utilizate la măsurarea unui atribut ce nu poate fi exprimat printr-un construct

(Murphy & Davidshofer, 1991). De exemplu, se poate descrie cu uşurinţa domeniul de conţinut al unui test construit pentru “cunoştinţe de aritmetică la elevii clasei I”, dar este foarte dificil să găsim comportamente prin care această caracteristică să poată fi observată.

20

3. în cazul testelor care evaluează performanţa în munca în scopuri de selecţie şi clasificare a angajaţilor. Acest tip de validare este adecvat când testul reprezintă un eşantion de comportamente din ceea ce reprezintă deprinderile şi cunoştinţele specifice muncii respective.

CONSTRUCŢIA ŞI ANALIZA DE ITEMI

1. Construcţia de itemiAtunci când dorim să evaluăm ceva, prima întrebare pe care ne-o formulăm este ce anume

dorim să evaluăm, care este formatul pe care trebuie să-l aibă itemii, astfel încât să ne ofere imagine acurată a aspectului care ne interesează.

Formularea itemilorConstruirea de itemi este un proces pretenţios, în continuare vom prezenta câteva aspecte

orientative legate de formularea lor:1. Definiţi clar ceea ce aveţi de măsurat, pentru a putea formula itemii cât mai specific posibil.2. Generaţi o bază de itemi, evitaţi itemii redundanţi.3. Evitaţi formularea unor itemi lungi, care ar putea fi greu înţeleşi.4. Încercaţi să formulaţi itemii într-un limbaj accesibil persoanelor evaluate cu acest

instrument.5. Evitaţi formularea unor itemi care surprind două aspecte sau idei, de exemplu:

„Îmi place să lucrez într-un mediu bine organizat, pentru că vreau să fiu cel mai bun la locul de muncă”

Acest item are în vedere două aspecte: „îmi place să lucrez într-un mediu bine organizat” şi „vreau să fiu cel mai bun la locul de munca”, astfel în momentul în care persoana evaluată va alege o opţiune de răspuns, va fi imposibil de decelat la care din cele două aspecte evaluate se referă.6. Încercaţi să formulaţi itemi pozitivi şi negativi în aceeaşi măsură, pentru a evita biasarea

care apare în cazul formulării itemilor pozitivi. Această biasare este determinată de tendinţa persoanei evaluate de a fi de acord cu toţi itemii testului.

Formatul opţiunilor de răspunsÎn funcţie de constructul pe care dorim să-l evaluăm anumite formate devin mai mult sau mai

puţin adecvate. Prezentăm în continuare cele mai frecvent întâlnite forme ale itemilor.

a. Itemii dihotomici – oferă două alternative de răspuns (adevărat şi fals), de obicei uneia dintre acestea i se acordă un punct la cotarea performanţei persoanei evaluate. Itemii au forma unor afirmaţii, iar sarcina subiecţilor este de a decide asupra valorii de adevăra a acesteia.

Avantajele acestui tip de itemi sunt: sunt uşor de cotat; sunt uşor de construit (în construirea unui test de evaluare a cunoştinţelor profesorul poate utiliza fragmente din suportul de curs pentru a formula itemii); completarea lor nu necesită mult timp deoarece răspunsul nu trebuie scris; necesită o evaluare în termeni absoluţi (alb sau negru);

Dezavantaje acestui tip de itemi sunt: în cadrul testelor de cunoştinţe acest tip de itemi pot încuraja studenţii să â memoreze materialul; şansa de a ghici răspunsul corect este foarte mare, de 50%.

b. Itemi cu mai multe opţiuni (polinomici) – au un format similar celor dihotomici, atâta doar că au mai mult de două alternative de răspuns. Se acordă un punct numai unei opţiuni de răspuns, iar celelalte care nu sunt corecte poartă denumirea de distractori. Itemii construiţi în scopul evaluării performanţei academice au de cele mai multe ori acest format.

21

Avantajele acestui tip de itemi sunt: aceşti itemii sunt uşor de cotat; sunt uşor de construit; completarea lor nu necesită mult timp deoarece răspunsul nu trebuie scris; şansa de a ghici răspunsul corect este redusă;

Dezavantajul cel mai mare al acestui tip de itemi se referă la construirea unor distractori buni, procedeu care necesită mai mult timp. În cazul itemilor polinomici, probabilitatea de a ghici răspunsul există, deşi este mai mică decât în cazul itemilor dihotomici (este de 25% în cazul a patru alternative, de 33.33% în cazul a trei alternative). Aceste lucru poate fi corectat prin utilizarea unei formule de ajustare a scorului obţinut de către fiecare persoană evaluată. Această formulă se exprimă astfel:

Scorul corect = R – W/ n – 1

R este numărul opţiunilor corecte;W este numărul opţiunilor greşite;

n este numărul opţiunilor de răspuns ale itemilor.

Răspunsurile omise nu sunt incluse deoarece acestea nici nu cresc şi nici nu duc la scăderea scorului final. De exemplu în cazul unui test de 100 de itemi, cu câte 4 opţiuni de răspuns (din care una singură este corectă, celelalte trei sunt greşite la fiecare item), dacă vom completa aleator răspunsurile corecte vom obţine scorul de 25 (bine înţeles aceasta este o situaţie ipotetică în realitate avem puţine şanse să obţinem tocmai 25 de puncte care este scorul mediu aşteptat).

În acest caz, conform formulei anterioare, scorul corect este de:25 - 75/4-1 = 25 – 25 = 0

Astfel, după aplicarea corecţiei scorul expectat este 0.Întrebarea este în ce măsură în cazul testelor de cunoştinţe este recomandat ca studenţii să

încerce să ghicească răspunsul? În cazul în care nu se utilizează procedura de corecţie răspunsul este clar, „încercaţi să nimeriţi”, dar nu şi în cazul în care se utilizează procedura de corecţie. Există situaţia în care nu sunteţi siguri de răspunsul corect, dar ştiţi sigur că două din cele patru alternative de răspuns sunt greşite, în acest caz vă sfătuim să încercaţi să ghiciţi. Formula de corecţie are la bază asumpţia că fiecare din cele patru alternative de răspuns are aceeaşi probabilitate de a fi aleasă, deci aveţi şansa de 1 la 4. În cazul în care eliminaţi două dintre alternative şansa dvs. creşte la 1 la 2, ceea ce vă oferă un avantaj asupra procedurii de corecţie.

c. Scale Likert – prezintă o formă foarte populară, utilizată mai ales în cadrul testelor de personalitate, în care persoana evaluată trebuie să-şi exprime acordul sau dezacordul faţă de a o afirmaţie (se numeşte scală Likert, pentru că a fost introdusă de către Likert în 1932, în scopul evaluării atitudinilor).

De exemplu la itemul: „Îmi este frică de înălţime.”Avem următoarele opţiuni de răspuns:

1 2 3 4 5acord total acord nici acord nici dezacord dezacord dezacord total

Pentru a se evita alegerea unui răspuns neutru din partea celui evaluat (în cazul exemplului de mai sus 3), se utilizează scale cu un număr par de opţiuni de răspuns, de exemplu:1 2 3 4 5 6acord puternic

acordmoderat

acord dezacord dezacord moderat

dezacord puternic

Acest tip de răspuns permite cotarea inversă, scorul total este calculat prin însumarea numerelor corespunzătoare răspunsurilor.

22

d. Scală categorială – este similară cu scalele Likert, dar utilizează un număr mai mare de opţiuni de răspuns, de cele mai multe ori sunt utilizate scale cu 10 opţiuni de răspuns. Pentru utilizarea lor adecvată este foarte important ca punctele extreme ale scalei să fie clar definite şi permanent reamintite celor care realizează evaluarea.

Una dintre principalele probleme legate de acest tip de scală este numărul de categorii care poate fi utilizat, care poate fi de 10 şi 15 sau 66? S-au realizat câteva studii în acest sens, ele au arătat că depinde mult de scopul pe care îl avem şi de nivelul de expertiză al evaluatorului. De exemplu dacă dorim să evaluăm performanţa unor jucători de fotbal, o scală cu 7 nivele va fi suficientă pentru ochiul unui nonexpert care nu sesizează aspectele de fineţe, dar nu şi în cazul unui expert, al unui antrenor care poate sesiza mai multe diferenţe între jucători.

e. Q- sort – este o metodă utilizată cu precădere în evaluarea personalităţii. Persoana evaluată va primi o listă de adjective pe care le va sorta în funcţie de măsura în care acestea îl caracterizează.

2. Analiza de itemi Care sunt criteriile pe baza cărora putem spune că un item este bun?Aşa după cum putem analiza un test din prisma fidelităţii şi validităţii, la fel putem analiza

conform acestor criterii un item. Mai precis, un item bun discriminează între două categorii de subiecţi; putem spune de asemenea că un item este bun dacă performanţa la item corelează cu performanţa la test.

Care este procesul pe baza căruia putem analiza itemii? După ce am generat itemii, după ce aceştia au fost aplicaţi unui eşantion de subiecţi, ne interesează în ce măsură ei pot fi consideraţi itemi buni, respectiv la care dintre itemi ar trebui să renunţăm deoarece nu satisfac criteriile. Totalitatea procedeelor statistice cunoscute sub denumirea de „analiză de itemi” servesc scopurilor prezentate. Este important de menţionat faptul că analiza de itemi cuprinde atât procedee cantitative cât şi procedee calitative.

Analiza calitativă de itemi Tehnicile de analiză calitativă a itemilor unui test constituie un procedeu des întâlnit în

analiza itemilor unui test. Tabelul 5 prezintă o serie de aspecte ale analizei calitative de itemi pe care trebuie să le ia în calcul o persoană care construieşte un test.Tabelul 2.3. Aspecte ale analizei calitative de itemiAspecte ÎntrebăriSpecificitatea culturală Crezi că itemii testului sunt discriminativi pentru un grup anume de persoane? De ce?Validitatea de aspect Testul măsoară ceea ce crezi tu că măsoară? Dacă nu este aşa ce anume din test te

îndreptăţeşte să susţii acest lucru?Examinatorul Crezi că performanţa obţinută la test a fost influenţată de comportamentul

examinatorului? Dacă da, care au fost acele comportamente care te-au influenţat?Mediul de testare Crezi că unele condiţii ale mediului în care ai fost testat au influenţat performanţele la

test? Dacă da, care au fost acelea?Limbajul testului Modalitatea de prezentare a instrucţiunilor sau alte aspecte verbale ale testului au

influenţat performanţa la test?Lungimea testului Care este opinia ta în privinţa lungimii testului – se vor discuta 2 aspecte: timpul total

şi numărul itemilorRăspunsurile aleatoare Au fost itemi în test la care ai dat răspunsuri la întâmplare? Care este procentajul de

itemi la care ai răspuns la întâmplare? Ai folosit anumite strategii specifice?Corectitudinea testării Crezi că s-a putut trişa la acest test? Dacă da, care crezi că au fi sunt modalităţile de a

trişa?Starea psihică/fizică a subiectului în timpul examinării

Cum ai descrie starea ta (psihică sau fizică) din timpul testului? Crezi ca această stare ar putea influenţa în vre-un fel performanţa la test?

Impresia generală Care este impresia ta generală lăsată de acest test? Care sunt sugestiile pe care le-ai face pentru îmbunătăţirea testului?

Preferinţe Ce ţi-a plăcut/displăcut la acest test? Au existat părţi ale testului pe care le-ai resimţit ca provocându-ţi anxietate sau alte stări negative?

23

Pregătirea anterioară Cum te-ai pregătit pentru acest test? Dacă ar trebui să sfătuieşti pe cineva privind modul în care ar trebui să se pregătească pentru acest test ce i-ai sugera?

Analiza cantitativă de itemi din perspectiva teoriei clasice

Atunci când ne referim la teoria clasică a testelor avem în vedere modelul de măsurare prezentat în cadrul modulului II. În acest subcapitol vom prezenta procedurile de analiză a itemilor bazate pe acest model şi pe asumpţiile sale.

Procedurile statistice utilizate în analiza itemilor sunt nu de puţine ori extrem de complexe, de aceea scopul nostru este de a prezenta aici doar procedurile de bază. Vom prezenta în continuare modalităţile principale utilizate în analiza itemilor. Este important de reţinut faptul că importanţa acestor procedee depinde de funcţia şi obiectivele pe care autorul testului doreşte să le atribuie testului.

Printre indicatorii care ar trebui luaţi în calcul în analiza de itemi se găsesc: indicele de dificultate al itemului; indicele de discriminare;

Indicele de dificultate al unui itemSă presupunem că un item al unui test este rezolvat corect de toţi subiecţii. Putem spune că

itemul acesta este un item bun? Ce se întâmplă dacă dimpotrivă, nici un subiect nu răspunde corect la acest item. În ambele cazuri putem considera că itemul respectiv nu este unul bun. Dacă la un item toţi subiecţii răspund corect înseamnă că itemul este prea uşor; dacă dimpotrivă, nici un subiect nu răspunde la un item atunci putem spune că itemul este prea dificil. În ambele cazuri, se recomandă rescrierea itemului sau eliminarea din test.

Observaţie. La unele teste de cunoştinţe, primul item al testului este unul extrem de facil (răspund deci majoritatea subiecţilor). Acest lucru este indicat a se realiza fie pentru a verifica dacă subiectul a înţeles sarcina de lucru, fie pentru a-i forma o atitudine pozitivă faţă de test şi astfel de a-i creşte motivaţia.

Indicele de dificultate al unui item (px) se obţine calculând proporţia subiecţilor care au răspuns corect la item. Valoarea teoretică a indicelui de dificultate se găseşte între 0 (dacă nici un subiect nu a rezolvat itemul corect) şi 1 (dacă toţi subiecţii au răspuns corect la un item).

Exemple.1. Dacă 50 din cei 100 de subiecţi la care a fost aplicat un test au răspuns la itemul 2 corect

atunci putem spune că indicele de dificultate al itemului 2 este 50/100 adică p2=0,52. Dacă 75 din cei 100 de subiecţi la care a fost aplicat un test au răspuns la itemul 3 corect

atunci putem spune că indicele de dificultate al itemului 3 este 75/100 adică p3=0,75 şi vom spune că itemul 3 este mai uşor decât itemul 2.

Se poate observa că cu cât indicele de dificultate al itemului este mai mare cu atât itemul este mai uşor. Deoarece „p” se referă la procentul celor care au rezolvat corect itemul, putem spune că cu cât este mai mare valoarea indicelui cu atât itemul este mai uşor. Vorbim de indice de dificultate pentru testele de performanţă, însă în cazul testelor de personalitate acest indice exprimă procentul de subiecţi care a răspuns „da” la item, sau în alte cazuri procentul de subiecţi care a agreeat itemul.

Un indice global de dificultate al itemilor unui test se poate calcula făcând media indicilor fiecărui item. Astfel se face suma tuturor indicilor de dificultate şi rezultatul obţinut se împarte la numărul itemilor testului. Pentru o maximă discriminare, este important ca media indicilor de dificultate al unui test să fie 0.5, deci indicii fiecărui item al testului să varieze între 0.3 şi 0.8.

Ceea ce trebuie să luăm în calcul când analizăm indicele de dificultate al unui item este şansa ca subiectul să dea răspunsul corect la întâmplare (adică de a ghici răspunsul). În acest caz indicele optim de dificultate al unui item se găseşte la mijlocul distanţei dintre 1 şi rata de răspuns la întâmplare care pentru un item cu 2 răspunsurile este de 0,50. Mijlocul distanţei dintre 1 şi 0.50 este

24

0.75 – deci indicele optim de dificultate al acestui item este 0.75. În general acest indice optim se obţine însumând valoarea şansei cu 1 şi apoi împărţind valoarea obţinută la 2, sau:

0,50+1,00=1,51,5/2=0,75

Pentru un item care are 5 variante de răspuns şansa de a răspunde corect este 1/5 adică 0,20. În acest caz, indicele de dificultate optim se va obţine astfel:

0,20+1,00=1,201,20/2=0,60

Indicele de discriminare al unui itemIndicele de discriminare al unui item (d) constituie o măsură a cât de bine reuşeşte un item

să separe sau să discrimineze subiecţii care au obţinut scoruri mari şi cei care au obţinut coruri mici la test. Mai precis, un item este considerat discriminativ dacă subiecţii care au obţinut o performanţă bună la test au rezolvat corect itemul, respectiv dacă cei care au obţinut o performanţă scăzută la test nu au rezolvat corect itemul. Dacă majoritatea subiecţilor cu performanţă mare la test nu au rezolvat corect un item atunci înseamnă că itemul respectiv nu discriminează între categorii diferite de subiecţi. Similar, în cazul testelor de personalitate subiecţii care au un scor mare la o anumită trăsătură (evaluată de întregul test) trebuie să aibă un scor mare şi la un item care se presupune că evaluează trăsătura respectivă.

Indicele de discriminare are în vedere performanţa eşantionului la un item ţinând cont de performanţa scorurilor din ultima treime sau din prima treime a distribuţiei totale a scorurilor. Limita până la care putem considera prima/ultima arie a distribuţiei scorurilor este valoarea de 27% din scoruri (Kelley, 1939). Indicele de discriminare al unui item este reprezentat de măsura diferenţei dintre proporţia celor care au rezolvat corect itemul şi cei care nu au rezolvat corect itemul. Cu cât valoarea lui d este mai mare cu atât este mai mare numărul subiecţilor „buni” care au rezolvat itemul. O valoare negativă pentru un d reprezintă o problemă a itemului deoarece indică situaţia în care cei care au avut o performanţă slabă la test rezolvă corect itemul. În această situaţie se cere revizuirea sau eliminarea itemului.

Exemplu.Să presupunem că un profesor administrează un test la 119 persoane şi selectează primele 27% şi ultimele 27% din performanţele la test, selectând 32 de teste în fiecare grup. În continuare în tabelul 3 sunt prezentate valorile necesare calcului indicelui de discriminare pentru cei 5 itemi ai testului:

Tabelul 2.4. Indicele de discriminare pentru 5 itemi ipotetici ai unui testItem Superior (S) Inferior (I) S-I n d = (S-I)/n1 20 16 4 32 0,432 30 10 20 32 0,633 32 0 32 32 1,004 20 20 0 32 0,005 0 32 -32 32 -1,00

Pentru itemul 1 se poate observa că 20 dintre subiecţii care au obţinut performanţe superioare la test au rezolvat corect itemul, în timp ce 16 dintre cei care au obţinut performanţe inferioare la test au rezolvat corect itemul. Cu un indice de discriminare de 0.13, itemul 1 poate fi considerat un item bun deoarece mai mulţi subiecţi dintre cei care au obţinut o performanţă bună la test, au răspuns corect la item. Se poate observa că cu cât este mai mare valoarea indicelui de discriminare cu atât itemul separă mai bine categoriile de subiecţi şi este deci mai discriminativ. Valoarea cea mai mare pe care o poate avea un indice de discriminare este +1 (toţi subiecţii care au obţinut performanţa superioare la test au rezolvat corect itemul); valoarea cea mai mică pe careo

25

poate avea un indice de discriminare al unui item este –1 (nici unul dintre subiecţii care au obţinut performanţe superioare la test nu au rezolvat corect itemul).

Analiza alternativelor de răspuns la itemi.Calitatea fiecărei alternative de răspuns la itemii cu răspunsuri multiple poate fi analizată

comparând-o cu performanţa obţinută de subiecţii care au avut performanţe superioare (primii 27%) şi cei care au obţinut performanţe inferioare (ultimii 27%) la un test.

Să analizăm (tabelul 4) performanţa la 5 itemi ipotetici, test la care 32 de subiecţi au obţinut performanţe inferioare (I) şi 32 de subiecţi au obţinut performanţe superioare (S).

Tabelul 2.5. Răspunsurile la 5 itemi ai unui test (Răspunsul corect al fiecărui item este marcat cu caractere îngroşate)AlternativeItem

a b c d e

1 S I

24¤ 3 2 0 310¤ 5 6 6 5

2 S I

2 13 3 2 12¤6 7 5 7 7¤

3 S I

0 0 32¤ 0 03 2 22¤ 2 3

4 S I

5 15¤ 0 5 74 5¤ 4 4 15

5 S I

14 0 0 5¤ 137 0 0 16¤ 9

Analiza itemilor. Itemul 1 este un item bun – mai multe persoane cu performanţă superioară la test l-au rezolvat corect.Itemul 2 – un număr mare de S au ales un distractor în locul răspunsului corect (răspunsul b). Acest item ar trebui revăzut.Itemul 3 reprezintă modalitatea optimă de răspuns la un item; toţii S au răspuns corectItemul 4 este mai dificil decât itemul 3 deoarece o proporţie mai mică de S au răspusn corect la item, dar discriminează mai bine (o proporţie mai mică de I au răspuns cirect la item). Itemul 5 este un item slab deoarece mai mulţi de I au răpsuns corect la item.

Analiza curbei caracteristice itemuluiO modalitate de a afla noi informaţii despre comportamentul itemilor este trasarea curbei

caracteristice itemului. Astfel, pentru un anumit item vom reprezenta pe axa X scorurile posibile la test, iar pe axa Y proporţia persoanelor care au răspuns corect la item (vezi figura 2.5).

Figura 2.5. Curba caracteristică a itemului

Scorul total reprezintă nivelul de abilitate al persoanei evaluate, acest nivel nu poate fi măsurat, doar estimat pe baza acestui scor. Relaţia dintre performanţa la unul dintre itemi şi cea obţinută la aplicarea întregului test ne oferă informaţii legate de item.

26

1

0.5

0

0 5 10 15 20 25 30 35 40 45 50 55 60 65Scorul total la test

Astfel figura de mai sus reprezintă curba caracteristică a unui item relativ bun, observăm cum curba creşte pe măsură ce creşte şi scorul total la test, aceasta înseamnă că itemul discriminează bine în cazul tuturor nivelelor de performanţă.

Să luăm spre exemplu o persoană care are un scor mai mic de 20 puncte, conform curbei (Figura 2.6), aceasta va avea o probabilitate de aproape 40% de a rezolva corect acest item.

Figura 2.6. Curba caracteristică a itemului

În cazul în care scorul este mai mare, de 40 respectiv 65 de puncte, probabilitatea de a răspunde corect este de 50 respectiv 100%.

Un item bun trebuie să prezinte un asemenea patern de comportament, adică pe măsură ce creşte nivelul de abilitate a persoanelor testate să crească şi şansa de a fi rezolvat corect.

În figura 2.7 dorim să prezentăm itemi care prezintă un patern comportamental diferit de cel prezentat anterior. Vă rugăm să analizaţi curba trasată cu linie întreruptă.

Figura 2.7. Curba caracteristică a 2 itemi

Observăm că şi dacă nivelul de abilitate al persoanelor din eşantionul nostru creşte, probabilitatea de a răspunde corect la acest item este aceeaşi, cu alte cuvinte itemul nu ne oferă nici o informaţie despre nivelul de abilitate al persoanei care l-a rezolvat (itemul trasat cu linie întreruptă). Este posibil ca acest item să măsoare un alt aspect decât cel pe care îl evaluează ceilalţi itemi ai testului.

Spre deosebire de acesta, itemul trasat cu linie neîntreruptă este rezolvat numai de persoanele care au un scor brut de cel puţin 25 de puncte, probabilitatea de a-l rezolva corect creşte apoi treptat împreună cu nivelul de abilitate. Acest item este de dificultate medie, este puţin probabil ca el să fie rezolvat corect de persoanele cu scor mai mic de 25.

27

1


1

0.5

0


0.5

0

2. Analiza de itemi din perspectiva teoriei răspunsului la item (item response theory - IRT)

Teoria răspunsului la item propune un nou model de explicare şi de analiză a itemului şi a comportamentului acestuia. Rasch (1960) a fost principalul promotor, care a propus primul model, după care acesta a fost dezvoltat şi adaptat la diferite situaţii de testare.

Aceste modele sunt unidimensionale, adecvate testelor care au ca scop evaluarea unei singure trăsături latente sau multidimensionale, în cazul testelor care evaluează mai multe dimensiuni. De asemenea în funcţie de răspunsul la item dihotomic sau cu mai mute opţiuni avem mai multe tipuri de modele. În continuare vom discuta despre modele unidimensionale dihotomice. În cazul modelelor IRT unidimensionale diferenţele dintre persoanele care alcătuiesc eşantionul pot fi explicate numai pe baza unei singure dimensiuni.

Modelele IRT implică două asumpţii:

Curba caracteristică itemului (item characteristic curve - ICC) trebuie să aibă o formă specifică (acesta descrie modul în care modificările la nivelul abilităţii induc modificări la nivelul probabilităţii de apariţie a răspunsului corect);

Trebuie îndeplinită condiţia de independenţă locală (aceasta înseamnă că nu trebuie să avem corelaţie între itemi, în condiţiile în care nivelul de abilitate al persoanelor evaluate este menţinut constant).

Înainte a trece la prezentarea concretă a unui model IRT, dorim să reamintim modelul care stă la baza teoriei clasice.

Xobservat = Xreal + e (e = eroarea de măsură)

Acesta are următoarele asumpţii:

Valoare expectată a erorii pentru fiacre persoană în parte este 0; Eroarea nu covariază cu alte variabile (aceste asumpţii sunt importante pentru interpretarea

erorii standard de măsurare).

Limitele care au fost reproşate acestui model sunt următoarele:

1. sunt menţionate două variabile independente de care depinde scorul obţinut de o persoană, şi anume scorul real şi eroarea de măsurare, dar acestea nu pot fi separate în mod real în cadrului scorului obţinut de către o persoană, astfel modelul este util în cadrul realizării unor estimări la nivel de populaţie;

2. Din acest model sunt omise proprietăţile itemului care şi ele au un impact asupra scorului persoanei (dacă de exemplu toţi itemii sunt uşori, atunci majoritatea persoanelor vor ave un scor maxim);

3. Modelele IRT explică performanţa la test considerând doi sau mai mulţi parametrii: nivelul de abilitate al persoanei evaluate, parametrul de dificultate al itemului, parametrul de discriminare, probabilitatea de a ghici răspunsul corect, iată notaţiile utilizate.

X is = răspunsul persoanei s la itemul i (care în cazul itemilor dihotomici poate fi 0 sau 1)

p(Xis=1) = probabilitatea ca persoana s să ofere un răspuns corect la itemul i

28

θ s = nivelul de abilitate al persoanei s

β i = dificultatea itemului i

α i = discriminarea itemului i

γ i = probabilitatea de a ghici răspunsul corect la itemul i

Vom explicita modelul de măsurare utilizat de această abordare prin prezentarea modelului uniparametric 1PL.

p(Xis=1) = 1/(1 + e (-(θ - β i))În cadrul acestuia probabilitatea de a răspunde un răspuns corect la un item i, depinde de

nivelul de abilitate al persoanei evaluate şi de parametrul de dificultate al itemului. Acesta se numeşte model uniparametric deoarece este considerat numai un singur parametru al itemului.

Dacă analizăm acest model la nivel grafic (vezi figura de mai jos, unde pe axa X este reprezentat nivelul de abilitate al persoanei testate , iar pe axa Y probabilitatea de a oferi un răspuns corect la itemii a căror curbă este trasată), observăm cum curbele caracteristice itemilor au acelaşi unghi de înclinare, ceea ce diferă este locaţia lor de-a lungul nivelului de abilitate, practic această locaţie este un indicator al dificultăţii itemului. De exemplu itemul trasat cu linie întreruptă (figura 2.8) este rezolvat de persoanele cu un nivel de abilitate de 01 în proporţie de aproximativ 55%, în timp ce aceleaşi persoane rezolvă itemul trasat cu linia punctată în proporţie de 20%, deci acesta din urmă este mai dificil decât primul.


În cazul acestui model, parametrul de discriminare este menţinut constant (egal cu 1).

În cadrul modelului biparametric – 2PL, este considerat şi parametrul de discriminare a itemului. În figura 2.9 prezentăm itemi care au acelaşi nivel de dificultate, dar care au o discriminare diferită.

p(Xis=1) = 1/(1 + e (-α i (θ - β i))

1 nivelul de abilitate şi parametrii itemilor (dificultate, discriminare) pot lua valori între minus şi plus infinit deoarece sunt pe scală logit.

29

-3 -2 -1 0 1 2 3nivelul de abilitate

1

0.5

0


1

0.5

0


Discriminarea este reprezentată grafic prin gradul de înclinare a curbelor care descriu comportamentul itemului. Un item cu o curbă abruptă discriminează mai bine comparativ cu un item cu o curbă mai domoală. Acest lucru înseamnă că o modificare mică la nivelul abilităţii persoanelor testate va duce la o modificare mare a probabilităţii de a răspunde corect la item. Curba trasată cu linie neîntreruptă reprezintă un item care are o discriminare perfectă, deoarece nici o persoană cu un nivel de abilitate mai mic de 0.25 nu va avea şansa de a rezolva acest item, în schimb persoanele cu o abilitate mai mare îl vor rezolva.

Modelul tri-parametric – 3PL, introduce şi parametrul care permite estimarea şansei de a ghici răspunsul corect la item.

p(Xis=1) = γ i + (1 - γ i)[1/(1 + e (-α i (θ - β i))]Probabilitatea de ghici răspunsul corect este vizibilă în punctul în care curba caracteristică

itemului intersectează axa Y. Aceasta înseamnă că şi persoanele care au un nivel de abilitate scăzut vor rezolva corect itemul, ghicind răspunsul corect (Figura 2.10).Utilizarea unui model 3PL devine necesară mai ales în situaţia în care probabilitatea de a ghici răspunsul corect este mare, de exemplu în cazul unui item cu 2 posibilităţi de răspuns acesta este de 1 din 2, spre deosebire de cea cu 6 opţiuni, în care probabilitatea de a ghici răspunsul corect este semnificativ mai mică, 1 din 6.

Figura 2.10. Curba caracteristică itemului

Aceste modele reflectă modul în care IRT a contribuit la perfecţionarea procedurilor de dezvoltare a instrumentelor de măsurare, dar analiza atentă a asumpţiilor acestora oferă o nouă perspectivă asupra vechilor reguli de măsurare, aşa cum spunea Emreston şi Reise (2000).

II.2.3. VALIDITATEA DE CONSTRUCTValiditatea de construct reprezintă măsura în care se poate susţine că testul măsoară o variabilă sau o trăsătură specifică. În termeni generali “constructul” este sinonim cu acela de concept (Kline, 1992) fiind utilizat pentru a desemna o serie de fenomene într-un cadru ştiinţific. El este util atunci când poate fi operaţionalizat. Dacă luăm de exemplu conceptul de “specie”, el este extrem de util în

30


1

0.5

0

investigare şi clasificare în ştiinţele naturii. Cu toate aceste nu există o entitate distinctă pe care putem să o etichetăm “specie”, ea nu poate fi deci studiată şi observată direct. Este doar o categorie, creată în scopul înţelegerii diferitelor tipuri de organisme vii. Constructul este desprins dintr-o teorie psihologică care oferă cadrul menit să fundamenteze analiza semnificaţiei psihologice a rezultatelor la test. Vorbim de validitate relativă la construct în cazul testelor de personalitate.

Pentru a putea fi utilizat şi evaluat, un concept trebuie corect şi precis operaţionalizat. Această operaţionalizare impune descrierea constructului în termeni comportamentali concreţi. Murphy & Davidshofer (1991) identifică următorii paşi în operaţionalizarea unui construct:

1. identificarea comportamentelor care au legătură cu constructul;2. identificarea altor constructe, pentru fiecare decizându-se dacă au sau nu legătură cu

constructul măsurat de test;maIN3. alcătuirea pentru fiecare construct a unei liste de comportamente prin care acestea se

exprimă. Pentru fiecare comportament, pe baza relaţiilor dintre constructe se decide dacă are sau nu legătură cu constructul măsurat de test.

Spunem despre un test că are validitate convergentă dacă evaluează aceleaşi constructe ca şi alte teste, adică dacă între scorurile sale şi scorurile altor teste există o relaţie funcţională. Un test are validitate de discriminare dacă evaluează altceva decât alte teste despre care se ştie că se referă la constructe ce nu au legătură cu constructul măsurat de test. Acest lucru înseamnă că între scorurile la test şi scorurile la alte teste sau variabile nu există o relaţie funcţională. Campbell & Fiske (1959) propun ca şi metodă de verificare a validităţii convergente şi de discriminare a unui test metoda bazată pe matricea “trăsături multiple-metode multiple” (tabelul 6). Pe baza acestei metode sunt relevaţi coeficienţii de corelaţie între diferite măsurători ale aceloraşi constructe, măsurători obţinute prin teste diferite. Tabelul 2.6. (Campbell & Fiske, 1959). Matrice de tipul “trăsături multiple-metode multiple”

Metoda 1 Metoda 2 Metoda 3Trăsături A1 B1 C1 A2 B2 C2 A3 B3 C3

A1 (.89)Metoda 1 B1 .51 .(89)

C1 .38 .37 (.76)A2 .57 .22 .09 (.93)

Metoda 2 B2 .22 .57 .10 .68 (.94)C2 .11 .11 .46 .59 .58 (.84)A3 .56 .22 .11 .67 .42 .33 (.94)

Metoda 3 B3 .23 .58 .12 .43 .66 .34 .67 (.92)C3 .11 .11 .45 .34 .32 .58 .58 .60 (.85)

Tabelul de mai sus prezintă toate corelaţiile posibile între scorurile obţinute când sunt evaluate trei trăsături (A, B, C) prin trei metode / teste. Cele trei trăsături reprezintă trăsături de personalitate cum ar fi: (A) dominanţa, (B) sociabilitatea, (C) motivaţia de realizare. Cele trei metode prin care se evaluează aceste caracteristici pot fi (1) un chestionar, (2) un test proiectiv, (3) scale de comportament. Astfel A1 indică scorurile la dominanţă evaluate pe baza unui chestionar, A2 indică scorurile la dominanţă evaluate pe baza unui test proiectiv, iar C3 indică scorurile pentru motivaţia de realizare evaluată printr-o scală de comportament. Tabelul include pe de o parte corelaţiile între trăsături diferite evaluate pe baza aceleiaşi metode (chenar întreg) precum şi corelaţiile între trăsături diferite prin metode diferite (chenar întrerupt). Pentru verificarea validităţii convergente în cazul constructului (A) avem următorii coeficienţi:

.57 metoda 1 cu metoda 2 .56 metoda 1 cu metoda 3 .67 metoda 2 cu metoda 3

Validarea convergentă a unui test este necesară, dar nu şi suficientă pentru a dovedi că testul măsoară ceea ce şi-a propus; etichetele atribuite testelor reprezintă trăsăturile sau caracteristicile pe care testele ar trebui să le măsoare. Corelaţia mare între două teste înseamnă că testele măsoară acelaşi lucru, însă nu se poate spune că itemii cuprinşi în teste sunt reprezentativi pentru constructul

31

pe care testele intenţionează să îl măsoare. Analiza factorială sau analiza de clusteri efectuată asupra itemilor din testele care evaluează aceleaşi constructe poate ajuta la explicarea corelaţiilor dintre scorurile testelor (Albu, 1999).

ANALIZA FACTORIALĂUna dintre metodele utilizate în validara de construct este analiza factorială. Analiza factorială este definită ca „un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la baza uneui set de măsurăori empirice”. Cel mai adesea este utilizată pentru:

identificarea factorilor care stau la baza performanţei la un test de aptitudini identificarea unor dimensiuni ale personalităţii identificarea unor sindroame clinice identificarea factorilor relaţionaţi cu satisfacţia în muncă

În continuare vor fi discutate principalele concepte implicate în analiza factorială.Concepte generale Atributele interne pot fi gândite ca şi constructe ipotetice. Ele nu sunt cu necesitate reale sau concrete. Acestea sunt mai degrabă constructe care aşa cum vom vedea pot fi utilizate pentru a înţelege şi a explica o serie de fenomene observate. Aceste constructe ipotetice nu trebuie văzute ca o critică a abordării factoriale. Utilizarea constructelor ipotetice constituie o practică obişnuită în multe domenii ale ştiinţei. De exemplu, fizicienii utilizează o serie de constructe (gravitate, magnetism) pentru a explica o serie de fenomene. Aceste forţe reprezintă de fapt constructe neobservabile, a căror existenţă a fost inferată pe baza fenomenelor observabile. Aceste constructe, împreună cu teoriile care le însoţesc pot explica o serie de fenomene observabile. Într-o manieră asemănătoare, analiza factorială postulează că există atribute interne neobservabile care pot explica variaţia şi covariaţia dintre o serie de atribute de suprafaţă, adică acele atribute care pot fi măsurate şi observate direct.

Un concept teoretic central al analizei factoriale îl constituie deci relaţia dintre atributele interne şi cele de suprafaţă. Principiul de bază este acela că atributele interne influenţează sistematic atributele de suprafaţă. Acest fapt implică ideea că atunci când avem o măsură a unui atribut de suprafaţă, această măsură este, cel puţin în parte, rezultatul influenţei atributelor interne. De exemplu, scorul obţinut de o persoană la un test de adunare (atribut de suprafaţă) este influenţat de aptitudinea numerică (atribut intern). Tradiţional, aceste relaţii dintre atributele de suprafaţă şi cele interne sunt considerate a fi lineare.

În continuare este util să distingem între 2 tipuri de atribute interne sau factori: factori comuni şi factori specifici. Factorul comun este definit ca un atribut intern care afectează /influenţează mai mult de o variabilă de suprafaţă. De exemplu, dacă factorul aptitudine numerică influenţează mai mult decât o variabilă de suprafaţă (să presupunem că influenţează atât adunarea cât şi înmulţirea) atunci acesta factor este un factor comun. Factorii specifici influenţează doar o singură variabilă de suprafaţă; astfel poate exista un număr de factori specifici pentru fiecare variabilă de suprafaţă. Prin schimbarea variabilelor de suprafaţă factorul comun se poate transforma în factor specific dacă se înlătură toate variabilele de suprafaţă care îl alcătuiesc, mai puţin una; sau dimpotrivă, dacă lărgim bateria, un factor specific se poate transforma într-un factor comun dacă el influenţează mai multe variabile de suprafaţă.În afara celor 2 variabile interne (factorii comuni şi specifici) care influenţează variabilele de suprafaţă, există o a treia influenţă asupra acestora. Această a treia influenţă o constituie erorile de măsură asociate observării atributelor de suprafaţă. Aceste erori sunt reprezentate în analiza factorială ca factori adiţionali, deşi ele nu fac parte din cadrul atributelor interne; adică nu reprezintă caracteristici neobservate ale indivizilor. Mai degrabă erorile de măsură apar ca rezultat al influenţelor datorate măsurătorii atributelor de suprafaţă. Se poate observa relaţia directă între factorii de suprafaţă şi erorile de măsură; astfel, cu cât fidelitatea măsurătorilor este mai mare cu atât erorile sunt mai mici. Deci, utilizarea unor teste mai puţin fidele va influenţa erorile de măsură,

32

dar nu în mod necesar factorii comuni sau specifici. De asemenea, adăugarea sau înlăturarea unor variabile de suprafaţă va influenţa factorii comuni sau specifici, însă nu va influenţa erorile de măsură.

Factorii specifici şi erorile de măsură caracteristice unui set de observaţii se pot combina rezultând factori unici. Un factor unic este alcătuit dintr-un factor specific caracteristic unei singure variabile de suprafaţă precum şi din eroarea de măsură asociată variabilei de suprafaţă respective. Factorul unic se va modifica la orice modificare a factorului specific sau a erorii de măsură.Pornind de la aceste definiţii ale factorilor, ţinând cont de faptul că factorii influenţează atributele de suprafaţă se poate înţelege că factorii se combină pentru a putea explica un anumit nivel al trăsăturilor de suprafaţă. Mai precis, orice nivel al atributelor de suprafaţă poate fi văzut ca o rezultantă a factorilor relevanţi. De exemplu, scorul unei persoane la un test de adunare poate fi văzut ca o rezultantă a factorului comun aptitudine numerică şi a factorului specific asociat adunării. De asemenea, eroarea de măsură contribuie la scorul obţinut la testul de adunare. Generalizând putem spune că diferenţele individuale sau varianţa atributelor de suprafaţă poate fi atribuită factorilor adiacenţi acestor atribute. Astfel diferenţele la nivelul atributelor de suprafaţă sunt datorate diferenţelor la nivelul factorilor ce influenţează aceste atribute şi de asemenea diferenţele sunt datorate şi erorilor de măsură. Distincţia realizată anterior între factorii comuni, specifici şi eroarea de măsură ne ajută să înţelegem modul în care factorii explică varianţa atributelor de suprafaţă. Este important de reţinut faptul că varianţa observată la nivelul atributelor de suprafaţă poate rezulta din trei surse. O parte din varianţă este datorată influenţei factorilor comuni – aceasta poartă numele de varianţă comună sau comunalitate. O altă parte din varianţa atributelor de suprafaţă poate fi datorată factorului specific – această varianţă este denumită varianţă specifică sau specificitate. Cea de-a treia sursă de varianţă este datorată erorilor de măsură – şi este denumită varianţa erorii de măsură. Varianţa specifică este adesea combinată cu varianţa erorii de măsură şi formează varianţa unică sau unicitatea. Altfel spus, varianţa observată la nivelul unui atribut de suprafaţă este datorată în parte factorilor care influenţează şi alte atribute de suprafaţă şi în parte factorilor care influenţează doar atributul respectiv.Printr-o extensie a conceptelor putem spune că analiza factorială ţine cont şi de covarianţa dintre variabilele de suprafaţă. Adesea se poate observa că variabilele de suprafaţă dintr-un domeniu specific tind să coreleze într-o anumită măsură una cu cealaltă. Potrivit analizei factoriale această corelaţie este datorată influenţei factorilor comuni. Deci, o corelaţie între două variabile de suprafaţă este datorată dependenţei celor două variabile de unul sau mai mulţi factori comuni. De exemplu scorul la un test de adunare va tinde să coreleze pozitiv cu scorul la un test de înmulţire deoarece ambele variabile depind de acelaşi factor comun – aptitudinea numerică. Din contră însă, rezultatul la testul de adunare va corela mai puţin cu rezultatul la un test de citire deoarece cele două variabile de suprafaţă sunt influenţate de factori comuni diferiţi. Putem spune că nivelul de intercorelaţie dintre atributele de suprafaţă este rezultatul dependenţei acestor atribute de aceiaşi factori comuni.

Este extrem de important a se reţine faptul că doar factorii comuni pot explica corelaţia variabilelor de suprafaţă; factorii unici nu determină astfel de corelaţii. La fel, factorii specifici sau erorile de măsură nu pot determina corelaţii între atributele de suprafaţă deoarece prin definiţie ei influenţează doar o singură variabilă de suprafaţă.

Pentru a sumariza aceste principii putem spune că într-un anumit domeniu există un număr mic de factori comuni care influenţează un vast număr de atribute de suprafaţă. Variaţia factorilor de suprafaţă este datorată în parte variaţiei factorilor comuni. Ceea ce rămâne se datorează factorilor unici sau factorilor specifici şi erorilor de măsură. Covarianţa variabilelor de suprafaţă este atribuită dependenţei acestora de aceiaşi factori comuni.

33

În continuare (figura 5) vor fi prezentate conceptele şi principiile discutate anterior în forma propusă de Tucker (1940) pentru a ilustra teoria analizei factoriale. În cadrul diagramelor, pătratele reprezintă atributele de suprafaţă, iar cercurile reprezintă atributele interne şi alţi factori. Săgeţile unidirecţionale exprimă o relaţie liniară (printr-un proces cauzal), iar cele bidirecţionale reprezintă corelaţii fără influenţă cauzală.

Figura 2.11. Relaţia dintre atributele de suprafaţă şi cei trei tipuri de factori

Este important de reţinut faptul că teoria factorială este o teorie care explică dinamica şi influenţele care determină variaţia şi covariaţia atributelor de suprafaţă.

34

Factori comuni(atribute interne)

Factori specifici(atribute interne)

Factori ERM

Factori unici

Atribute de suprafaţă

Obiectivele analizei factorialeIdentificarea factorilor adiacenţi variabilelor de suprafaţăObiectivul primar ala analizei factoriale este acela de a determina umărul şi natura factorilor comuni precum şi modul în care aceştia influenţează atributele de suprafaţă. Prin identificarea factorilor care explică un mare număr de variabile se pot înţelege mai bine datele de care dispunem. De exemplu o companie aeriană doreşte să studieze aproximativ 50 de variabile pe care le consideră importante din puntul de vedere al consumatorului care trebuie să opteze pentru o companie (variabilele pot fi: respectarea orelor de aterizare /decolare, flexibilitatea orarului, amabilitatea personalului de zbor, facilităţile oferite în timpul zborului, etc.). Dacă pe baza analizei factoriale aceste 50 de variabile pot fi explicate pe baza unor factori vom înţelege mai bine variabilele fundamentale care stau la baza alegerii făcute de consumator. Screeningul variabilelorO a doua utilizare a analizei factoriale se referă la analiza pe bază de screening a variabilelor care ulterior pot fi incluse în investigaţii statistice ca analiza de regresie. Deoarece analiza factorială identifică grupe de variabile care sunt corelate între ele putem opta la alegerea unei singura variabile din fiecare factor şi includerea acestei variabile într-o ecuaţie de predicţie. Sumarizarea datelorO altă aplicaţie a analizei factoriale se referă la flexibilitatea de a extrage câţi factori se doreşte dintr-un set iniţial de variabile. Primii factori extraşi dintr-un set de variabile explică cea mai mare parte din varianţa acestora; cu fiecare extragere ulterioară se obţine tot mai puţin. Selecţia variabilelorAF ne permite extragerea factorilor diferiţi dintr-un set de variabile. De exemplu dacă se pune problema selecţie caracteristicilor definitorii ale unui automobil în vederea construcţiei unei reclame ne interesează să păstrăm un număr de variabile rezonabil pentru a putea construi reclama. Este important însă ca acest variabile selectate să nu se refere la acelaşi factor, ele trebuind să nu coreleze între ele.Luând în considerare aspectele prezentate privind validitatea unui test psihologic, se poate spune că trebuie să avem întotdeauna în vedere funcţia şi scopul pe care le va avea testul pentru a putea aprecia corect tipurile de validitate. Exemplul (tabelul 7) următor ilustrează modul în care putem privi validitatea unui test de cunoştinţe la matematică (Anastasi, 1976):

Tabelul 2.7. Tipuri de validitate a unui test de cunoştinţe matematice. (Anastasi, 1976).

SCOPUL TESTĂRII PROBLEMA STUDIATĂ TIPUL DE VALIDITATEEvaluarea cunoştinţelor de matematică în ciclul primar

Cât de mult a învăţa elevul din matematica predată?

Validitate de conţinut

Anticipare a performanţelor elevului în gimnaziu

Care vor fi performanţele elevului în gimnaziu la matematică?

Validitate predictivă

Psihodiagnosticul dificultăţilor de învăţare

Care sunt dificultăţile specifice pe care le întâmpină elevul în învăţarea matematicii

Validitate concurentă

Evaluarea gândirii logice Prin ce se caracterizează gândirea elevului?

Validitate de construct

EXERCIŢII

1. Mai jos sunt prezentate descrierile câtorva studii de validare. Citiţi fiecare descriere şi identificaţi orice probleme potenţiale care ar putea afecta rezultatele.

A. Un profesor de matematică de la un liceu, face un test pentru a identifica elevii supradotaţi la matematică şi aplică acest test la o sută de elevi din şcoală. Cei care vor obţine cel mai mare punctaj la test vor avea posibilitatea să se înscrie la facultate. La sfârşitul semestrului, profesorul face o corelaţie între scorul obţinut la test şi notele obţinute de elevi la matematică. El nu a găsit nici o corelaţie semnificativă între aceste variabile.

35

B. Un psiholog industrial face un test pentru a selecta personal pentru un serviciu cleric la o anumită corporaţie şi cere supraveghetorilor să noteze muncitorii prezenţi pe o scală cu următoarele categorii : „peste medie”, „mediu”, „sub medie”. După aceasta psihologul testează muncitorii din categoria „peste medie” şi „sub medie” şi compară mediile celor două grupuri. În urma analizei psihologul găseşte o diferenţă semnificativă în favoarea grupului „peste medie”.

2. Pentru fiecare din următoarele situaţii indicaţi ce tip de studiu de validare ar fi cel mai potrivit.

A. Un psiholog social dezvoltă un inventar cu scopul de a identifica peroanele care lucrează în domeniul sănătăţii care prezintă „sindromul de epuizare (burnout)”. Pentru a defini sindromul de „burnout” se utilizează o varietate de comportamente cum ar fi: absenteismul, eşec în a respecta politica firmei, relaţii reci cu colegii şi şefii etc.

B. Un psiholog al dezvoltării specializat în problemele adolescenţilor doreşte să dezvolte un inventar care să se adreseze elevilor din clasele IX – X pentru a prezice cine va trece mai departe în clasele XI-XII.

C. Un test de aptitudini non-verbale este dezvoltat pentru copiii preşcolari cu deficit de auz. Se intenţionează ca testul să fie o măsură de screening pentru identificarea copiilor care ar putea avea dificultăţi în învăţarea cititului (încadraţi într-o clasă cu copii normali).

MODULUL III

NORMELE TESTELORObiective: Să definească ce sunt normele testelor Să cunoască principalele modalităţi prin care se pot realiza normele Să poată interpreta scorul la un test pe baza diferitelor norme

Cum interpretăm rezultatul obţinut de un subiect la un test?În general, numărul de itemi rezolvaţi corect de subiect la un test este operaţionalizat prin scor sau cotă brută. Această valoare însă nu are nici o semnificaţie dacă nu o comparăm cu anumite norme, standarde sau etaloane. Etalonul (norma sau standardele) reprezintă deci cadrul de referinţă al unui subiect cu populaţia. Un scor brut obţinut la un test nu are nici o valoare deoarece pe baza lui nu putem şti unde se situează performanţa unui subiect. Să luăm un exemplu. Să presupunem că la un test de cunoştinţe de matematică alcătuit din 100 de itemi un subiect rezolvă corect 30 de itemi. Scorul brut obţinut de subiect la acest test este 30. Ce reprezintă această valoare? Reprezintă o performanţă slabă, medie sau bună la test? Pentru a putea răspunde la această întrebare trebuie să comparăm această valoare cu un cadru de referinţă sau etalon. Acest etalon poate fi reprezentat de performanţa obţinută de ceilalţi subiecţi la test şi astfel raportăm subiectul la performanţa celorlalţi sau dimpotrivă, cadrul de referinţă îl poate constitui o normă naţională în care cadrul de referinţă îl constituie întreaga populaţie din care face parte.

Procesul de etalonare al unui test reprezintă stabilirea unui cadru de referinţă, a unei scări care să permită determinarea locului ocupat de rezultatele unui subiect faţă de rezultatele unei populaţii de referinţă, suficient de numeroasă, formată din persoane comparabile cu cea examinată. Etalonarea are astfel următoarele scopuri:

1. conferă semnificaţi scorurilor şi permite interpretarea acestora;2. permite compararea directă a scorurilor. Astfel, un scor de 33 obţinut de un subiect la un test

poate să nu aibă aceeaşi semnificaţie la un al doilea test.

36

Orice manual al unui test psihologic conţine normele testului şi trebuie să includă următoarele aspecte:

1. indicii demografici ai populaţiei pentru care a fost construit testul. Cei mai frecvenţi indicatori sunt: vârsta, sexul, mediul din care fac parte subiecţii, nivelul de şcolarizare Putem spune că aceşti indicatori definesc populaţia pentru care este destinat testul. Astfel, un test care evaluează inteligenţa la copiii preşcolari (4-7 ani) nu poate fi aplicat la un copil de 9 ani deaorece nu avem un cadru de referinţă la care să raportăm performanţa obţinută de acest copil.

2. numărul persoanelor pe care a fost etalonat testul şi modul de eşantionare ales. Această informaţie este utiă pentru analiza semnificaţiei etalonului. Ne interesează în acest caz dacă etalonul testului are la bază un număr suficient de mare de persoane dintr-o populaţie pentru a-l putea considera reprezentativ.

3. data construirii normelor. Această informaţie este utilă deoarece ne ajută ă identificăm dacă populaţia pe care a fost etalonat testul mai posedă caracteristicile populaţiei din care face parte subiectul testat. Este cunoscut faptul că unele constructe psihologice sau cunoştinţe sunt dependente de evoluţie. De exemplu un test care evalua nivelul dezvoltării vocabularului la o anumită populaţie în anii 1940-1950 nu mai are aceleaşi norme în prezent deoarece populaţia a evoluat şi astfel normele trebuie mereu reactualizate.

Procesul de construcţie a unui etalon respectă următorii paşi:1. definirea populaţiei sau a cadrului de referinţă pentru care se doreşte construcţia testului;2. eşantionarea; 3. administrarea testului la eşantionul ales;4. construcţia cotelor sau a normelor testului.

1. Definirea populaţiei constituie primul pas în construirea normelor. Acest proces cuprinde de fapt circumscriera persoanelor pentru care este destinat testul. Astfel, această definire se face prin prezentarea unor caracteristici care vor permite recunoaşterea unei persoane ca aparţinând sau nu populaţiei pentru care a fost construit testul.

Exemplu.a. Testul Bender Gestalt evaluează funcţia perceptiv motrică între 5 şi 10 ani. În această situaţie ştim că orice persoană cu vârsta între 5 şi 10 ani poate fi evaluată cu testul Bender pentru a se identifica nivelul dezvoltării funcţiei perceptiv motrice.

b. Testul de cunoştinţe matematice „X” cuprinde toţi copiii de liceu (14-18 ani) din judeţul Cluj. Pentru ca performanţa unui copil la acest test de cunoştinţa matematice să poată fi raportată la etalon, copilul respectiv trebuie să aibă următoarele caracteristici: să aibă vârsta cuprinsă între 14-18 ani şi să urmeze un liceu în judeţul Cluj.

2. Deoarece testul nu poate fi aplicat la întreaga populaţie pentru care a fost construit se impune selecţia din cadrul populaţiei (stabilite anterior) a unui grup sau eşantion de normare. Acest eşantion trebuie să fie reprezentativ pentru populaţie. Astfel structura eşantionului trebuie să respecte structura populaţiei. Variabilele care se vor lua în considerare în construirea eşantionului ţin cont atât de caracteristicile populaţiei (vezi definirea acesteia) cât şi de caracteristicile constructului măsurat de test.

Exemplu Dacă avem un test adaptat în România care evaluează inteligenţa la copiii preşcolari, populaţia testului o constituie copiii de vârsta 4 – 7 ani din România. Acestea reprezintă caracteristicile populaţiei. În afara acestor caracteristici trebuie să ţinem cont însă şi de caracteristicile constructului. În acest caz, inteligenţa depinde şi de mediul din care fac parte copii, iar astfel pentru fiecare grupa de vârstă construită vom avea ca variabilă mediul (ex. Rural sau urban).

37

Construirea eşantionului se poate realiza prin mai multe tipuri de selecţie. Cele mai des întâlnite selecţii sunt cele aleatoare şi cele stratificate. În cazul selecţiei aleatoare oricare membru al populaţiei are şanse egale de a fi inclus în eşantion. În cazul selecţiei stratificate se face întâi o împărţire a populaţiei în clase (în funcţie de variabilele relevante) şi apoi pentru fiecare clasă se trece la o selecţie aleatoare.

3. Deoarece rezultatele nu se pot culege de un singur examinator, la un singur moment în timp, este important ca în timpul etalonării administrarea să se realizeze standard, păstrând aceleaşi condiţii de aplicare şi cotare.

4. După ce s-a aplicat testul la întregul eşantion se obţine o colecţie de date pe baza cărora se impune construirea normelor testului.

Distribuţia normalăCu cât avem o colecţie mai mare de date cu atât acestea respectă mai mult distribuţia lui Gauss.- proprietăţile curbei normale (figura 1): 68% este între + 1sigma, 95% este intre + 2sigma,Beneficiul interpretării rezultatelor pe baza distribuţiei normale = simplifică interpretarea scorurilor individuale la un test. In cazul distribuţiei normale media, mediana şi modul au aceeaşi valoare- cunoscând că o persoana se găseşte în intervalul + 1 sigma ne spune ca aproximativ 2 treimi din

populaţie are acelaşi scor.

38

Figura 3.1. Proprietăţile distribuţiei normaleScorurile standardUn scor standard este un scor care a fost transformat dintr-o scală în alta, ultima fiind una pe baza căreia se pot face comparaţii.- cela mai cunoscute sunt scorurile z şi T

Scorurile z- scorul z are media 0 si abaterea standard 1z = (X –M)/ , unde „X= scorul brut obţinut de subiect la test”, „M= media scorurilor la test” „=abaterea standard a scorurilor la test”ExempluLa un test de citire un subiect obţine un scor brut de 24 (media=20, sigma=3), iar la matematică un scor brut de 42, media = 60, sigma=10. Calculaţi scorul z pentru ambele performanţe. Interpretaţi valorile obţinute.

Scorurile TT = 50 + 10z

T este o scală a cărei medie este 50 si sigma este 10; Propus de McCall (1922, 1939) în cinstea profesorului sau Thorndike (T); Cuprinde 5 sigma sub/peste medie;

39

Scorul care se găseşte la exact 5 sub medie va reprezentat un scor T de 0, media va fi 10, iar 5 sigma peste medie va fi 100;

Avantajul la scorurile T este ca nu avem o valoare negativa; Utilizat de exemplu la testul Minesota Multiphasic Personalty Inventory (MMPI).

Scorurile în clase normalizate5 clase: 7%, 24%, 38%, 24%, 7%7 clase: 5, 11%, 21%, 26%, 21%, 11%, 5%,9 clase (stanine): 4%, 7%, 12%, 17%, 20%, 17%, 12%, 7%, 4%, Paşi:1. se aranjează scorurile de la cel mai mare la cel mai mic;2. se stabileşte frecventa pentru fiecare scor;3. se stabileşte frecventa cumulata;4. se calculează procentul fiecărei clase;5. se face corespondenţa scor + procent din distribuţia de frecvenţă cumulată;ExempluSă presupunem că un test a fost aplicat la 325 de subiecţi. Scorul maxim al testului este 42 iar scorul minim este 2. Tabelul 3.1 prezintă frecvenţa fiecărui scor, frecvenţa cumulată şi stanina corespunzătoare.

Scor brut

Frecvenţa fiecărui scor

Frecvenţă cumulată

Stanine

42 1 1 Stanina 941 1 240 2 439 6 1038 7 17 Stanina 837 4 2136 9 3035 4 3434 10 44 Stanina 733 7 5132 13 6431 19 8330 11 94 Stanina 629 14 10828 16 12427 12 13626 13 149 Stanina525 11 16024 18 17823 22 200

Scor brut

Frecvenţa fiecărui scor

Frecvenţă cumulată

Stanine

22 16 216 Stanina 421 11 22720 14 24119 12 25318 13 266 Stanina 317 14 28016 8 28815 9 297 Stanina 214 6 30313 3 30612 6 31211 2 314 Stanina 110 3 3179 2 3198 2 3217 2 3236 1 3245 0 3244 0 3243 0 3242 1 325- 325

Cum obţinem staninele pentru fiecare scor?Calculul scorului care intră în stanina 9. Se ia procentul corespunzător acestei stanine (4%) şi se raportează la datele existente astfel:

325....................100%x.........................4%

x=13Valoarea obţinută reprezintă frecvenţa cumulată a scorurilor din stanina 9. Observăm în coloana frecvenţelor cumulate că această valoare nu există, deci vom lua valoarea existentă cea mai apropiată de 13. În coloana frecvenţelor cumulate avem valorile 10 şi 17. Deoarece 10 este mai

40

aproape de 13 vom lua această valoare ca limită pentru stanina 9. Deci scorurile care intră în stanina 9 sunt cele cuprinse între 42 şi 39 (este corespunzător frecvenţei cumulate 10).

Pentru a afla scorurile care intră în stanina 8 luăm procentul din populaţie din stanina 9 la care adăugăm procentul corespunzător staninei 8 adică:

4% + 7% = 11%Repetăm apoi algoritmul utilizat în stabilirea scorurilor pentru stanina 9:

325....................100%x.........................11%

x=35,75

Valoarea frecvenţei cumulate cea mai apropiată de 35,75 este valoarea 34, valoarea căreia îi corespunde scorul brut de 35. deci, în stanina 8 avem toate scorurile între 38 şi 35.

Pentru stanina 7 calculul este următorul:11%+12%=23%

325….................100%x…......................23%

x= 74,75Pentru stanina 6 calculul este următorul:

23% +17% = 40%325….................100%x…......................40%

x=130Pentru stanina 5 calculul este următorul:

40% + 20% = 60%325….................100%x…......................60%

x=195Pentru stanina 4 calculul este următorul:

60% + 17% = 77%325….................100%x…......................77%

x=250,25Pentru stanina 3 calculul este următorul:

77% + 12% = 89%325….................100%x…......................89%

x=289,25Pentru stanina 2 calculul este următorul:

89% + 7% = 96%325….................100%x…......................96%

x=312

Dacă performanţa subiectului se găseşte în staninele 4, 5 sau 6 putem spune că performanţa sa la test este una medie. O performanţa încadrată în staninele 2 şi 3 este un slabă, iar o performanţă încadrată în stanina 1 este una foarte slabă. De cealaltă parte a medie, staninele 7 şi 8 indică o performanţă bună la un test, iar stanina 9 reprezintă o performanţă foarte bună.

EXERCIŢII

1. La un test de performanţă de citire, un subiect are scorul brut de 24. Care este nivelul însuşirii cunoştinţelor sale dacă:

41

a. media la test este 30 şi este 4?b. media la test este 30 şi este 7?c. media la test este 40 şi este 5?

2. Pentru fiecare din studiile următoare se va descrie procedura de eşantionare. Citiţi fiecare descriere şi identificaţi tipul de eşantionare folosit:A. Un profesor de psihologie ataşează un scurt chestionar care vizează obiceiurile de studiu al elevilor la fiecare al patrulea test şi distribuie aceste teste elevilor pe măsură ce aceştia intră în clasă.B. Cercetătorul selectează aleatoriu jumătate din celulele unui penitenciar şi intervievează toţi indivizii din celulele selectate. C. Un administrator dintr-un cămin de studenţi selectează aleatoriu cinci dormitoare din campus şi din studenţii acestora selectează aleator 60% studenţi de anul I şi 40% studenţii din anii mai mari pentru un studiu vizând consumul de alcool.

SUMAR

Scorurile normative sunt utile atunci când cei care utilizează testul doresc să compare scorul obţinut de cel examinat cu distribuţia scorurilor pentru un eşantion bine definit al populaţiei. În realizarea unui studiu de normare se pot utiliza patru tipuri de eşantionare probabilistică: eşantionarea aleatoare simplă, eşantionarea sistematică, eşantionarea aleatoare stratificată şi eşantionarea pe clusteri.

Normele testului descriu performanţa realizată de eşantionul de persoane alese. Cu ajutorul normelor se determină modul în care se transformă cotele brute ale testului în cote uşor de interpretat, numite cote transformate. Acestea permit compararea persoane diferite sau pentru aceeaşi persoană la teste diferite. Pentru a fi cu adevărat utile, normele trebuie să fie descrise detaliat în manualul testului, indicând: compoziţia populaţiei pentru care au fost stabilite, modului de formare al eşantionului din această populaţie, numărul persoanelor din eşantion, caracteristicile eşantionului, gradul în care eşantionul ales este reprezentativ pentru populaţia specifică, natura şi uniformitatea condiţiilor în care a fost administrat testul, data testării.

42

MODUL IV

ASPECTE CONCEPTUALE ŞI METODOLOGICE ALE CONSTRUCŢIEI TESTELOR PSIHOLOGICE

Evaluările psihologice nu sunt echivalente. Ele diferă în cel puţin trei aspecte. În primul rând ele diferă din punctul de vedere al întrebărilor teoretice la care încearcă să răspundă. În al doilea rând ele diferă în privinţa structurii logice. Iar în al treilea rând ele diferă din perspectiva informaţiilor pe care ele le aduc, sau mai precis din perspectiva greutăţii inferenţelor pe care aceste le suportă. Algoritmul de construcţie al unui instrument de evaluare ar trebui să respecte următorii paşi:

1. POSTULATEAsumpţii, valori, credinţe, metafore

2. CONSTRUCTE TEORETICE FORMALEConstructe ipotetice, procese, relaţii, predicţii (e.g.

memorie implicită, anxietate, depresie)

3. REFERENTIMăsuri obiective sau reflecţii ale constructelor (e.g.

anxietate: transpiraţia palmelor, etc.)

4. METODE INSTRUMENTALESarcini, tehnici, teste, instrumente proceduri

5. MODEL DE MĂSURĂatribuirea unei scale de măsură fenomenelor

6. CULEGEREA DATELOR

7. ANALIZA DATELORmetode statistice, modele matematice

8. INTERPRETĂRI ŞI INFERENŢEInferenţa statistică, evaluare logică, analiza modelului

Figura 4.1. Componente ale unui model ştiinţific de construcţie a unui intrument de evaluare (McFall & Townsend, 1998)

43

Scopul oricărei evaluări psihologice este acela de a clarifica (de a oferi informaţii) o serie de probleme, fie ele teoretice sau practice. Astfel putem spune că există o relaţie esenţială între teorie şi evaluare: evaluarea trebuei astfel construită încât să răspundă unor întrebări teoretice.

Nivelul de plecare în construcţia unui instrument de evaluare se găseşte la nivelul postulatelor care serveşte ca punct fundmental (Polya, 1957, Smith, 1984). Postulatele sunt simplu tratate ca “ceva ce este dat”. O dată stipulate însă ele constrâng tot procesul ulterior, intrâun mod adesea foarte subtil (Lakoff & Johnson, 1980).

Nivelul următor cuprinde constructele teoretice formale. Acest nivel trebuie să fie congruent cu postulatele anterioare deoarece derivă logic din acestea. Cu toate acestea însă există o multitudine de teorii plauzibile care pot satisface postulatele încât cercetătorii trebuie să ia în calcul o serie de aspecte legate de validitatea teoriilor care adesea sunt în competiţie. Este vorba deci de a opta, pe baza unei analize de cele mai multe ori dificile, pentru o teorie ţinând cont de atuurile acesteia în competiţia cu altele. Personalitatea ca şi construct glogal sau temperamentul ca şi construct mai specific pot fi abordate din perspectiva mai multor teorii. Opţiunea pentru o teorie a personalităţii se face, în construcţia unui instrument de evaluare, la acest nivel al constructelorteoretice formale.

Procesul de validare al unui test începe la nivelul constructelor teoretice prin formularea constructelor derivate dintr-o teorie, din cercetări anterioare sau din observaţii sistematice ale unui domeniu relevant de comportamente. Itemii testului vor fi mai târziu (la nivelul referenţilor) formulaţi, astfel încât să atingă cerinţele formulate la acest nivel.

La acest al doilea nivel pe care l-am putea denumi acela de conceptualizare al testului trebuie să ne punem următoarele întrebări:

Ce dorim să măsoare testul? Această întrebare este legată de modul în care este definit constructul şi de cum această definiţie este diferită de altele care îşi propun să măsoare acelaşi construct. Care este obiectivul testului? Când sau pentru ce scop va fi utilizat testul? Va fi analizat la acest nivel în ce măsură obiectivul testului este diferit de testele existente. Este nevoie de construcţia acestui test? Cine va utiliza testul? Clinicienii, psih. educaţional sau alte categorii. Cui se adresează testul? Cine este populaţia ţintă. Aici se impune o analiză detaliată a caracteristicilor populaţiei (vârstă, sex, mediu socioeconomic – ce factori culturali pot influenţa performanţa la test). Ce nivel de citire este necesar pentru aplicarea testului.

Cel de al treilea nivel, al referenţilor, cuprinde măsurători observabile ale constructelor formulate. Astfel, constructul de anxietate se poate exprima la nivelul referenţilor prin măsurători ale conductanţei electrice a pielii, prin rata cardiacă, etc.

Pentru ca datele de la nivelul anterior să poată fi culese avem nevoie de o serie de medode instrumentale. Este vorba de generarea unor măsurători, care în cadrul testului adesea iau forma itemilor.

Itemii (vezi modulul 1) unui test sunt: în majoritatea cazurilor generaţi de psihologi pornind de la constructele formulate; În cazul testelor de cunoştinţe itemii sunt formulaţi de specialişti în domeniul respectiv; Pot fi luaţi din testele existente.

44

În general, este generat un număr mai mare de itemi decât numărul final al itemilor testului, creându-se banca de itemi. Aiken (1994) recomandă ca numărul itemilor de plecare să fie mai mare cu 20% decât lungimea tesului.

Măsurările sunt realizate pe diferite tipuri de scale. Acestă problematică a alegerii scalei sau a formatului itemlor se încadrează la nivelul modelului de măsurare. Nu există un tip general corect de scală de măsurare. Modulul anterior a prezentat formatul cel mai des al itemilor utilizaţi în testele psihologice.

Nivelul culegerii datelor se referă la obţinerea unei variante a testului şi aplicarea acesteia pe populaţia ţintă. Se ţin cont în această fază de condiţiile de standardizare.

Analiza datelor cuprinde în cadrul testului procesul de analiză a itemilor, analiza tipurilor de validitate de criteriu precum şi aprecierea fidelităţii testului.

Dacă rezultatele obţinute sunt satisfăcătoare se trece la construirea manualului testului. Dacă pe baza rezultatelor obţinute nu se pot face inferenţe valoroase atunci se recomandă identificarea erorilor şi reluarea procedeului.

Manualul unui test trebuie să cuprindă aspectele pe baza cărora utilizatorul testului să poată analiza valoarea testului, să poată utiliza testul şi să poată interpreta rezultatele acestuia. Aceste aspecte se referă la informaţii legate de:

1. Datele de identificare ale testului- autorul (autorii) testului- editura care a publicat testul- anul publicării- numele testului

2. Standardizarea testului- pe câte persoane a fost etalonat testul- care sunt caracteristicile demografice ale eşantionului- cum s-a făcut eşantionarea

3. Fidelitatea testului- care au fost metodele utilizate pentru estimarea fidelităţii testului- în ce măsură valorile coeficienţilor de fidelitate sunt subiecte pentru scopul testului

4. Validitatea testului- care au fost criteriile pe baza cărora s-a validat testul- în ce măsură testul este satisfăcător pentru ceea ce îşi propune să măsoare

5. Modul de aplicare, cotare şi interpretare a rezultatelor- care sunt instrucţiunile de lucru- care sunt criteriile de acordare a punctajului pentru răspunsurile subiecţilor?- În ce măsură testul poate fi cotat electronic (acolo unde este cazul)

6. Consideraţii practice- cât timp durează aplicarea testului- care este nivelul de pregătire pe care trebuie să îl aibă cel care administrează testul şi

cum se poate obţine această pregătire.

45

psihodiagnostic ubb

Documents