statistica anul i sem ii

53
SCOPUL UNITĂŢII DE CURS Familiarizarea cursanţilor cu problemele principale ale statisticii inferenţiale aplicate în psihologie; Informarea cursanţilor asupra principalelor tipuri de aplicaţii ale statisticii inferenţiale în domeniul psihologic de cercetare; Informarea cursanţilor asupra oportunităţii aplicării testelor statistice; Informarea cursanţilor asupra deosebirii dintre interpretarea statistic-inferenţială şi interpretarea psihologică în domeniul cercetării psihologice. OBIECTIVE OPERAŢIONALE În urma studierii acestei unităţi de curs, studenţii trebuie să-şi formeze următoarele deprinderi intelectuale: Să opereze cu principalele concepte ale statisticii inferenţiale utilizate în domeniul cercetării psihologice; Să precizeze etapele constituirii eşantioanelor şi să distingă specificul acestora în cazul unor cercetări concrete; Să precizeze situaţiile de aplicare în psihologie a conceptelor statistice referitoare la diferenţierea şi asocierea seriilor de valori ale unei variabile; Să precizeze specificul principalelor teste statistice şi să cunoască etapele derulării acestora; Să precizeze sensul şi non-sensul aplicării teste statistice; Să poată utiliza corect datele conţinute în tabelul anexă. EVALUAREA La sfârşitul semestrului evaluarea se va realiza în cadrul unui examen scris. Pentru examen se vor stabili două tipuri de subiecte: un tip referitor la teoria statistică şi un tip referitor la aplicarea în practică a cunoştinţelor dobândite. În cadrul activităţilor tutoriale se vor exersa subiectele cu caracter practic şi se va verifica realizarea exerciţiilor de la sfârşitul capitolelor. Tipurile de subiecte pentru examen vor fi egal ponderate pentru nota finală obţinută la examen.

Upload: maricela-geanina

Post on 10-Dec-2014

58 views

Category:

Documents


2 download

DESCRIPTION

curs

TRANSCRIPT

Page 1: Statistica Anul I Sem II

SCOPUL UNITĂŢII DE CURS • Familiarizarea cursanţilor cu problemele principale ale statisticii inferenţiale aplicate în psihologie; • Informarea cursanţilor asupra principalelor tipuri de aplicaţii ale statisticii inferenţiale în domeniul

psihologic de cercetare; • Informarea cursanţilor asupra oportunităţii aplicării testelor statistice; • Informarea cursanţilor asupra deosebirii dintre interpretarea statistic-inferenţială şi interpretarea

psihologică în domeniul cercetării psihologice. OBIECTIVE OPERAŢIONALE În urma studierii acestei unităţi de curs, studenţii trebuie să-şi formeze următoarele deprinderi intelectuale: • Să opereze cu principalele concepte ale statisticii inferenţiale utilizate în domeniul cercetării

psihologice; • Să precizeze etapele constituirii eşantioanelor şi să distingă specificul acestora în cazul unor

cercetări concrete; • Să precizeze situaţiile de aplicare în psihologie a conceptelor statistice referitoare la diferenţierea

şi asocierea seriilor de valori ale unei variabile; • Să precizeze specificul principalelor teste statistice şi să cunoască etapele derulării acestora; • Să precizeze sensul şi non-sensul aplicării teste statistice; • Să poată utiliza corect datele conţinute în tabelul anexă. EVALUAREA La sfârşitul semestrului evaluarea se va realiza în cadrul unui examen scris. Pentru examen se vor stabili două tipuri de subiecte: un tip referitor la teoria statistică şi un tip referitor la aplicarea în practică a cunoştinţelor dobândite. În cadrul activităţilor tutoriale se vor exersa subiectele cu caracter practic şi se va verifica realizarea exerciţiilor de la sfârşitul capitolelor. Tipurile de subiecte pentru examen vor fi egal ponderate pentru nota finală obţinută la examen.

Page 2: Statistica Anul I Sem II

STATISTICĂ (II)

97

I. CLARIFICĂRI NOŢIONALE

I.1. POPULAŢII ŞI EŞANTIOANE

Noţiunile de populaţie şi eşantion sunt foarte frecvent utilizate în statistica inferenţială, din acest motiv se cer clar precizate.

În statistic inferenţială, termenul de populaţie are un sens aparte faţă de cel curent, sens dat de specificul acestei discipline care operează cu mulţimi de date aparţinând unor domenii foarte diferite. Ca atare, populaţia nu înseamnă totalitatea locuitorilor globului pământesc sau a unei părţi din acesta. Într-o formă foarte succintă definim populaţia ca un ansamblu de entităţi care satisfac o definiţie dată. Definirea prealabilă a entităţilor, înaintea includerii lor în populaţie, trebuie să fie foarte riguroasă, pentru a nu da naştere la confuzii. În loc de entităţi se preferă în unele definiţii ale populaţiei termenii de indiviz sau de unităţi, cu precizarea că nu este vorba de indivizi umani, ci de elemente ale diferitelor mulţimi de natură foarte diferită. Făcând aceste precizări, putem da câteva exemple de ansambluri sau grupuri care pot constitui populaţii:

• grupuri de persoane; • grupuri profesionale; • grupuri etnice; • grupuri religioase; • grupuri de instituţii; • grupuri de animale; • grupuri de obiecte. • grupuri de itemi; Există o mare diversitate a modalităţilor în care putem să ilustrăm noţiunea de populaţie.

Domeniile care satisfac definiţia individului de bază sau a unităţii din cadrul populaţiei formează un mare evantai, pornind de la cele mai banale până la cele mai bizare. Astfel, exemplificând din domeniul indivizilor umani, în această noţiune statistică pot fi cuprinse:

• toate persoanele de naţionalitate română; • toate persoanele care sunt angajate într-o firmă; • toate persoanele care se ocupă cu ocrotirea minorilor din Europa; • toate persoanele care folosesc un anumit tip de şampon; • toate persoanele dintr-un anumit judeţ care posedă un câine de rasă; • toţi inginerii care sunt conducători de firme.

Practic, nu există limite ale exemplificării noţiunii de populaţie statistice. Din punct de vedere al ştiinţei numită statistică, calităţile pe care trebuie să le posede o anumită populaţie trebuiesc bine stăpânite şi, în majoritatea cazurilor, clar cuantificate. Mărimea unei populaţii poate varia de la un individ sau o unitate până la numere de dimensiuni extrem de mari. În unele cazuri, când numărul unităţilor

Page 3: Statistica Anul I Sem II

AUREL STAN

98

este foarte mare şi se găseşte într-o continuă creştere cu o rată imprevizibilă, se vorbeşte de populaţii infinite. Acelaşi individ sau aceeaşi unitate poate să se regăsească în mai multe populaţii, în cazul în care satisface şi criteriile altor sisteme de clasificare. Astfel, o persoană poate face parte din populaţia profesorilor de biologie din Moldova, din populaţia credincioşilor ortodocşi din aceeaşi zonă, din populaţia posesorilor de computere şi din cea a actorilor amatori, de exemplu.

În cazul în care se calculează un indicator numeric din date provenind de la toţi indivizii populaţiei, mărimea rezultată se cheamă parametru şi are o valoare fixă, nesupusă oscilaţiei. Este doar unul din sensurile noţiunii de parametru. Dacă avem posibilitatea să măsurăm în întregime înălţimea populaţiei copiilor de 12 ani, de sex masculin din România putem spune cu exactitate cât este media acesteia. Dar, anterior trebuie să precizăm clar când considerăm că un copil are 12 ani, deoarece foarte rar putem face măsurători exact în ziua în care acesta împlineşte 12 ani. De aceea, precizăm că în această categorie pot fi cuprinşi copii care la data măsurătorii aveau între 11 ani şi 180 de zile şi 12 ani şi 180 de zile. Precauţiile metodologice sunt foarte importante dacă dorim să evităm apariţia unor neclarităţi.

Un eşantion poate fi definit ca un subansamblu, o parte sau o porţiune dintr-o populaţie, pe care se efectuează măsurători care pot fi utilizate pentru a trage concluzii în privinţa întregii populaţii din care a fost extras. Măsurătorile efectuate asupra eşantioanelor pot oferi doar estimaţia valorii parametrilor, estimaţie ce poate fi destul de aproape de valorile exacte, valorile populaţiei, în cazul în care se parcurg paşii necesari indicaţi de o metodologie riguroasă. Un eşantion este compus din unităţi de sondaj. Mărimea unui eşantion este dată de numărul de unităţi care îl compun. În anchetele psihosociologice, unităţile sunt, în general, persoane umane. Pentru alte genuri de anchete, unităţile pot fi o situaţie, un document, o unitate de înregistrare video sau audiovizuală, un articol de ziar. Tehnicile de eşantionare sunt identice, oricare ar fi natura unităţilor.

Maniera în care se procedează pentru constituirea unui eşantion depinde de : existenţa unor informaţii asupra incidenţei caracteristicilor definite prealabil (De exemplu, bărbaţii şi

femeile au aceleaşi atitudini faţă de muncă? Există o evoluţie a acestor atitudini cu vârsta? Modalitatea în care exerciţiile şcolare de învăţare a lecturii diferă de la ţară la ţară?)

existenţa informaţii asupra populaţiei, adică dacă aceasta are precizaţi indicatorii statistici? Este important, în primul caz, ca grupele comparate să fie echivalente, cu excepţia variabilelor

definite (variabilele anchetei). În al doilea caz este imperativ ca grupele reţinute să fie constituite în aşa fel încât ele să fie asemănătoare populaţiei de care ne interesăm (denumită şi populaţie părinte), deoarece constatările făcute pe datele obţinute în eşantion urmează a fi generalizate prin inferenţă, la nivelul întregii populaţii. Se impune ca un astfel de eşantion să fie reprezentativ. Dacă eşantionul nu este asemănător populaţiei de care se interesează un studiu, se spune că eşantionul este deformat sau contorsionat. Totdeauna există diferenţe între populaţie şi eşantioane, dar acestea sunt minimalizate prin tehnici specifice de prelucrare statistică. Tehnicile de eşantionare vizează obţinerea unor eşantioane pe cât posibil de reprezentative. În cele mai multe cazuri în cercetările ştiinţifice din domeniul psihopedagogic nu se operează cu un eşantion, ci cu mai multe.

Eşantioanele de numesc independente în cazul în care indivizii care le compun nu sunt fizic aceiaşi în fiecare din ele. Ilustrarea cea mai clară a unor astfel de eşantioane sunt cele diferenţiate prin sex. Eşantioanele independente se folosesc în cercetare, în situaţia în care cercetătorul vrea să evite ca efectele adiţionale ale manipulării modalităţilor variabilelor să se producă, când exista o completă incompatibilitate în succesiunea de manipulare a acestor modalităţi şi atunci când se doreşte

Page 4: Statistica Anul I Sem II

STATISTICĂ (II)

99

a se evita efectele oboselii, scăderii motivaţiei şi a atenţiei din partea indivizilor care le compun (în cazul în care există o mare solicitare în cadrul unor cercetări). Seriile de date se consideră că aparţin unor eşantioane independente şi când membrii aceluiaşi grup de indivizi sunt supuşi la o solicitare în condiţii diferite.

Eşantioanele perechi sau dependente sunt formate din aceeaşi indivizi sau din grupe diferite de indivizi, care au fost anterior egalizate în privinţa anumitor caracteristici (vârstă, sex, nivel de şcolarizare, arie geografică de provenienţă etc.) şi pregătite cu grijă pentru competiţie. Aceste tipuri de eşantioane au utilizări multiple în psihologie şi pedagogie, ale căror cazuri se pot grupa în trei categorii:

Cercetări în care există necesitatea de a controla cât mai riguros un factor de variaţie. În cazul cercetărilor longitudinale acelaşi eşantion este folosit mai mulţi ani, sau chiar mai multe decenii În cercetările de psihosomatică cercetătorii utilizează acelaşi eşantion de persoane la un interval de 20 sau 30 de ani, după ce anterior au constatat prezenţa unor factori de ordin psihologic care predispun la apariţia unei bolii cardiace sau de altă natură;

Cercetări şi studii în care diferitele etape de măsură sunt legate între ele, în cazul în care un cercetător îşi propune să aprecieze efectele cumulative ale manipulării variabilelor Exemple de studii de acest gen sunt cele efectuate în privinţa efectului învăţării asupra memoriei;

Cercetări în care se doreşte a se controla influenţa factorilor comuni eşantioanelor. În acest tip de cercetări în care caracteristicile nu se raportează asupra trăsăturilor identice proprii indivizilor, ci asupra caracteristicilor comune ale eşantioanelor.

Dacă în psihologie ar exista posibilitatea studierii populaţiilor întregi, statistica descriptivă ar fi suficientă pentru a rezuma rezultatele observaţiilor. Însă, cel mai adesea, se lucrează cu eşantioane de subiecţi (fapt ce duce la crearea distribuţiilor observate) provenind dintr-o populaţie, sau din mai multe populaţii diferite

EXEMPLU: Într-un studiu asupra caracteristicilor memoriei copiilor se vor putea face investigaţii în mai multe clase primare pentru a observa cum se efectuează memorarea, care este geneza şi evoluţia acesteia. Se va studia, în acest caz, un eşantion din populaţia elevilor din România, având vârsta stabilită de cercetătorii care efectuează studiul. Dacă acelaşi studiu se va efectua asupra elevilor de aceiaşi vârstă din şcolile din Egipt şi din Brazilia vor exista eşantioane provenind din trei populaţii diferite. Întrebarea care se pune este următoarea: dacă în mod global (nu neapărat pentru toţi indivizii,

ci doar pentru majoritatea dintre ei) se observă diferenţe de memorare între două eşantioane de elevi, este posibil ca aceste diferenţe să existe şi la nivelul populaţiilor luate în întregime? Răspunsul la această întrebare este foarte important, deoarece dacă se pot confirma diferenţele, se poate trage concluzia existenţei diferenţelor între populaţii. Dacă nu se poate realiza acest lucru, nu se pot trage nici concluzii asupra diferenţelor între populaţii (în ciuda diferenţelor obţinute la eşantioane) şi se poate trage concluzia că geneza memoriei şi a diferitelor sale forme este universală, că ea urmează aceleaşi faze şi etape la toţi copiii, indiferent din care zonă a planetei provin. În alte conjuncturi şi în alte situaţii, miza nu poate fi la fel de importantă. Există în acest caz obligaţia de a arăta că ceea ce s-a obţinut sau observat nu este pur fortuit şi ocazional, propriu doar eşantionului studiat, ci că avem de-a face cu lucruri semnificative, suficient de generale, valabile pentru populaţie, adică dincolo de nivelul eşantionului. Faptul observat are un caracter “sistematic”, aplicabil nu la toţi indivizii, nici la toate eşantioanele de indivizi, ci la cea mai mare parte dintre acestea.

Page 5: Statistica Anul I Sem II

AUREL STAN

100

Demersul care constă în a generaliza pentru un ansamblu mai vast (populaţia), ceea ce se observă pe un ansamblu mult mai restrâns (eşantion) este cel mai uzual în psihologie, pentru că frecvent nu se cunosc statisticile descriind populaţia în întregime.

Mai rar, când se cunoaşte populaţia, problema este de şti dacă un eşantion observat este conform, tipic acestei populaţii (compatibilă cu ea) sau dacă este atipic şi, probabil, rezultat din altă populaţie. Avem un astfel de caz când se testează un model (elaborat de un cercetător) prezicând răspunsurile aşteptate din partea subiecţilor. Este vorba de a şti dacă răspunsurile efective obţinute cu un eşantion de subiecţi (plasaţi în condiţii definite prin model) sunt conforme predicţiilor acestuia.

În cele două cazuri pentru a se pronunţa asupra populaţiei (prin inferenţă, plecând de la un eşantion), cercetătorul poate fi condus la a utiliza un intermediar: statistica inferenţială. Este necesar să fie precizate natura, statutul şi rolul acestei statistici ca şi distribuţiile pe care ea le reprezintă. Chestiunile inferenţiale, de generalizare sau de compatibilitate, cuprind statisticile descriptive: frecvenţe, medii, chiar dispersii (varianţe), precum şi diferenţe de medii, de dispersii, de frecvenţe. Se vor trata în cadrul statisticii inferenţiale frecvenţele şi mediile, precum şi diferenţele lor.

I.2. EXTRAGEREA SAU PRELEVAREA EŞANTIOANELOR Operaţia de construcţie a eşantioanelor se numeşte eşantionare. Se mai utilizează termenii

eşantionaj şi sondaj. De la început trebuie conştientizată importanţa căutării informaţiei "adevărate", juste, adică a acelei informaţii pe care am avea-o dacă s-ar cerceta toţi indivizii care compun populaţia. Ca atare, eşantioanele trebuie să fie cât mai reprezentative. Metodele de eşantionare se divid, în mare, în eşantionări aleatorii şi eşantionări empirice. Dintre tipurile de eşantionări aleatorii cunoscute enumerăm următoarele:

Eşantionarea probabilistică sau eşantionarea la întâmplare. Acest tip de eşantionare face apel la mecanismele de extragere aleatorie (prin tragere la sorţi) de indivizi care compun eşantionul. Eşantionarea “la întâmplare” constă în a preleva unităţile la întâmplare dintr-o anumită populaţie. Aceasta presupune că cercetătorul dispune de date referitoare la ansamblul populaţiei, adică de bază de sondaj. În cazul cunoaşterii bazei de sondaj se procedează prin tragere la sorţi a unităţilor. În principiu, tragerea la sorţi constituie cea mai bună metodă de eşantionare, deoarece corespunde modelelor statistice folosite pentru analiză. Apoi se extrage, respectând specificul aleatoriu a acestui tip de eşantionare, un număr determinat de numere cuprinse între 1 şi n (notare pentru volumul eşantionului). Unităţile corespondente selecţionate constituie eşantionul. Totuşi, acest tip de eşantionare nu este cel mai adaptat în acele studii în care unităţile de eşantionare, astfel selecţionate, nu sunt disponibil, mai ales când este vorba de persoane (este mai uşor de a constitui un eşantion de persoane pentru a le măsura greutatea, decât de a face un eşantion statistic pentru a măsura atitudinile). Din motive de fezabilitate sau de cost tragerea la sorţi poate fi precedată de o prestructurare empirică (deci nealeatorie) a populaţiei, operaţie legată de cunoaşterea prealabilă a acesteia. Tragerea la sorţi elementară constă în a numerota toţi indivizii care compun populaţia părinte studiată, apoi de a extrage la întâmplare o cantitate definită din aceste numere, această cantitate, fiind efectiv eşantionul. Se selectează indivizii corespunzând numerelor trase la sorţi, conform principiului tragerii la loto. Este modul de eşantionaj cel mai probabilist, dar care are un inconvenient major care constă în faptul că este foarte costisitor în timp

Page 6: Statistica Anul I Sem II

STATISTICĂ (II)

101

şi bani. A inventaria toţi indivizii populaţiei este o operaţiune deosebit de dificilă, urmată de o alta la fel de dificilă, aceea de a găsi pe toţi indivizii traşi la sorţi. Acest tip de eşantion se poate totuşi utiliza în studiile de teren, în studiile efectuate pe copii unei creşe, în studiul efectuat într-o întreprindere sau, în general, în studiile efectuate pe mici colectivităţi.

Eşantion prin tragere la sorţi secvenţială sau eşantion cu mai multe trepte. Este o tragere la sorţi care se efectuează pe criterii succesive. În primul rând se defineşte o populaţie pe un criteriu dat şi se extrage un prim eşantion urmând acest criteriu. Apoi se defineşte un al doilea criteriu în interiorul acestui eşantion şi se procedează la o nouă tragere la sorţi pentru elementele iniţial selecţionate. Exemplu de tragerea la sorţi secvenţială: în cazul efectuării unui studiu asupra stress-ului profesional în rândul infirmierelor din mediul spitalicesc public, în primul moment se selecţionează un eşantion de spitale, apoi, în al doilea moment, se extrage un eşantion de infirmiere din fiecare spital selecţionat.

Eşantionaje prin grappes. Un grappes este un ansamblu de unităţi având o legătură “naturală”. Exemplu: elevii unei clase, clasele aceluiaşi aşezământ şcolar, muncitorii unui atelier, atelierele unei aceleaşi uzine, articolele unui jurnal, jurnalele unui aceluiaşi grup de presă. Unităţile componente ale unui grappes se aseamănă mai mult între ele decât cu alte unităţi. Baza de sondaj nu mai este atunci ansamblul unităţilor susceptibile de a fi chestionate, ci grappes-urile. În anchetele asupra şcolii a devenit o procedură clasică faptul de a proceda mai întâi la tragerea la sorţi prin hazard a şcolilor, apoi a claselor, apoi a elevilor în interiorul nivelelor şcolare. Este vorba, în acest caz, de o tragere la sorţi prin grappes de trei grade, pentru că sunt utilizate trei unităţi de sondaj legate. Avantajul acestui procedeu rezidă în faptul că cineva nu are nevoie de a dispune de baza de sondaj relativă la populaţia părinte şi în faptul că se limitează dispersia unităţilor de contactat. Este necesar, e totuşi, ca grappes-urile să fie de mărime suficientă şi în număr suficient pentru ca să se aplice legea numerelor mari.

Eşantionarea stratificată. În acest caz se divizează populaţia în subpopulaţii numite straturi, dispunând fiecare de caracteristici distincte. Se extrage un eşantion din interiorul fiecărui strat. Ansamblul acestor eşantioane care pot fi de mărime diferită constituie eşantionul de studiu. Această metodă are ca prioritate definirea, în prealabil, a subpopulaţiilor sau straturilor. Alegerea la hazard a unităţilor se face apoi în interiorul fiecărui strat (definit prin încrucişarea variabilelor). Această metodă este privilegiată când se realizează asupra bazei de caracteristici specifice luate drept criteriu de stratificare. Criteriile de stratificare a unităţilor sunt funcţie a specificului studiului. Exemplu, într-o anchetă asupra comportamentelor de cumpărare a bunurilor de consum zilnic se stabilesc drept criterii: nivelul de venituri al menajului, sexul, mărimea localităţii. Într-o anchetă asupra opiniei elevilor acestea pot fi considerate nivelul şcolar şi reuşita şcolară.

I.3. METODE DE EŞANTIONARE EMPIRICE SAU METODE NEALEATORII Aceste metode de eşantionare se bazează pe construirea unui eşantion ale cărui caracteristici

sunt cele mai apropiate de caracteristicile esenţiale ale populaţiei, pornind de la informaţiile care se posedă despre o populaţie.

Eşantionarea prin quote. Este cel mai familiar tip de eşantionare şi constă în alegerea indivizilor care compun eşantionul în aşa fel încât caracteristicile esenţiale ale populaţiei să se regăsească în

Page 7: Statistica Anul I Sem II

AUREL STAN

102

aceleaşi proporţii, sau după un anumit procent (quota), în eşantion. Prin acest tip de eşantionare se construieşte un “model redus al populaţiei”. Mărimea diferitelor subgrupe constitutive ale eşantionului este proporţională subgrupelor echivalente din populaţia părinte. Pentru acest tip de eşantionare se mai utilizează denumirea “eşantionare proporţională”. Dacă în populaţia părinte există 48% bărbaţi şi 52% femei, într-o anchetă purtată pe 1000 de persoane se vor chestiona 480 de bărbaţi şi 520 de femei. Pentru a realiza acest fel de eşantionare se stabilesc în prealabil cote care se comunică persoanelor însărcinate cu înregistrarea informaţiilor. Indivizii sunt, în general, mai greu de găsit dacă ei aparţin la o categorie cu frecvenţă redusă în populaţia părinte. După stabilirea quotelor se examinează sau chestionează indivizii la concurenţa proporţiilor, ţinând seama de criteriile fixate. Cele mai importante criterii pentru adulţi sunt: a) vârsta, b) sexul, c) profesia, d) nivelul de venituri, e) zona locuită. La copii se consideră vârsta şi echivalentul său (clasa şcolară), tipul de şcoală frecventat, profesiunea tatălui etc. Se pot colecţiona date până se completează procentul grilei. În cazul sondajele de opinie, în care metoda de eşantionare prin quote este foarte utilizată, variabilele cel mai frecvent utilizate sunt sexul, vârsta, mărimea comunităţii locuite, localizarea geografică, profesiunea şefului de menaj, profesiunea persoanei chestionate ca şi nivelul de studii. Fiabilitatea eşantionului este funcţie de justeţea descrierii populaţiei şi de pertinenţa variabilelor alese pentru a determina quotele în legătură cu finalitatea studiului. În domeniile de studiu noi şi în timpul bulversărilor sociale sau politice este adesea dificil de a determina a priori variabilele pertinente.

EXEMPLU. Să presupunem ca trebuie să construim un eşantion prin quote având volumul de 1200 de persoane şi trebuie să ţinem seama în colectarea datelor de sex, vârstă, nivel de studii şi specificul localităţii de provenienţă. Sexul îl vom nota cu S, cu variantele S1

(masculin) şi S2 (feminin). Vârsta o vom nota cu V, având varianteleV1 (până la 25 ani), V2 (26-40 ani), V3 (41 ani de ani şi peste). Nivelul de studii îl vom nota cu G, cu variantele G1 (studii generale), G2 (studii medii) şi G3 (studii superioare). Specificul localităţii de

provenienţă îl vom nota cu P, având variantele P1 (urban) şi P2 ( rural). În continuare vom prezenta 2 tabele cu câte 36 de căsuţe fiecare (2·3·3·2=36). În tabelul din

stânga fiecare căsuţă va prezenta procentul din populaţia naţională (valorile sunt fictive) corespunzător unei anumite combinaţii a variantelor sau modalităţii variabilelor amintite. În căsuţele celui de-al doilea tabel vor fi trecute cifre reprezentând numărul proporţional de indivizi ai eşantionului.

Situaţia existentă în populaţie

(exprimată procentual) Situaţia în eşantion

(exprimată în valori absolute) P1 P2 P1 P2 G1 G2 G3 G1 G2 G3

G1 G2 G3 G1 G2 G3

V1 3,4 2,8 1,7 2,8 2,0 1,9 V1 41 31 20 34 24 23 V2 3,2 3,4 1,8 1,7 1,8 1,5 V2 38 41 22 20 22 18

S1

V3 4,8 1,9 2,7 3,8 4,2 1,9

S1

V3 58 23 32 46 50 23 V1 2,6 2,5 2,3 3,7 2,8 2,7 V1 31 30 28 44 34 32 V2 3,5 3,0 3,1 4,1 3,0 1,9 V2 42 36 37 49 36 22

S2

V3 4,3 3,1 1,4 4,0 3,4 1,5

S2

V3 52 37 17 48 41 18

Cum se obţin valorile numerice pentru eşantion. În tabelul din dreapta, cuprinzând valorile numerice ale eşantionului corespunzătoare procentelor existente în populaţie, celula S1V1P1G1

Page 8: Statistica Anul I Sem II

STATISTICĂ (II)

103

(conţinând numărul persoanelor din eşantion care sunt de sex masculin, au vârsta până la 25 de ani, provin din mediul urban şi au studii generale) conţine cifra 41. Celula corespunzătoare din tabelul cuprinzând situaţia procentuală din populaţie conţine valoarea 3,4 (exprimare procentuală). Valoarea 41 s-a obţinut prin înmulţirea valorii volumului eşantionului (1200) cu 0,034 (proporţia corespunzătoare din populaţie obţinută prin transformarea valorii procentuale). Deci 1200×0,034=40,8, aproximativ 41 (menţionăm că toate valorile au fost întregite, deformarea produsă fiind considerată neesenţială). 41 de subiecţi reprezintă 3,4% din volumul eşantionului. Se procedează similar pentru toate celulele tabelului. Procentele cu care noi am exemplificat sunt fictive, dar cele reale pot fi uşor de găsit în anuarele statistice.

Eşantionare prin unităţi tip. Acest fel de eşantionare se obţine prin divizarea populaţiei părinte în categorii cu ajutorul variabilelor care sunt considerate esenţiale pentru o anumită cercetare. Obiectivul este de a construi un eşantion ale cărui caracteristici fac din el un eşantion susceptibil de a furniza informaţii pertinente. Exemplul cel mai potrivit ar fi acela al unor eşantioane cuprinzând infractorii tineri, indicat atunci când un cercetător îşi propune să studieze delicvenţa juvenilă. Realizarea unor astfel de studii presupun depăşirea unor dificultăţi de natură organizatorică şi metodologică.

I.4. ANCHETELE DIACRONICE

În unele situaţii de cercetare (în care există interes ştiinţific pentru un proces evolutiv) este necesar de a se examina sau chestiona la date succesive acelaşi eşantion de subiecţi. În acest caz se constituie ceea ce se numeşte un panel. Această metodă a fost descrisă de Paul Lazarsfeld în anul 1938. Ea este utilizată, mai ales, pentru studiul evoluţiei comportamentelor electorale. Institutele de sondaje au create paneluri permanente pe subpopulaţii specifice: medici, avocaţi, auditori de radio şi televiziune, grupări religioase şi politice etc. Panelurile sunt utilizate şi în situaţii în care un cercetător este interesat de a controla experienţa sau competenţa persoanelor.

Această tehnică prezintă interes în reperarea indivizilor care îşi sucumbă opiniile şi atitudinile şi a celor care nu şi le schimbă, având drept finalitate aprecierea nivelului acestei stabilităţi sau evoluţii. Ea prezintă unele inconveniente, deoarece persoanele care acceptă de a face parte dintr-un panel au caracteristici particulare (disponibilitate, sociabilitate) şi este dificil de a discerne în privinţa variabilelor care influenţează, conduitele, opiniile sau atitudinile. Atitudinile se pot schimba prin faptul de a fi membru al unui panel (de exemplu tendinţa de a produce răspunsuri conformiste, de a rămâne coerent în timp). De asemenea, există un risc de obsolescenţă a panelului, datorat evoluţiei persoanelor (îmbătrânire, schimbarea profesiei, oprirea colaborării, schimbarea locuinţei).

I.5.MĂRIMEA EŞANTIONULUI Determinarea mărimii eşantionului ce urmează a fi constituit este o problemă foarte

importantă. Numărul persoanelor examinate sau chestionate trebuie să satisfacă: exigenţa de a fi destul de precis în estimarea populaţiei părinte şi pe aceea de a fi apt de a da informaţii fiabile, ţinând cont de caracteristicile care interesează. De exemplu, în cazul sondajului de opinii asupra intenţiilor de

Page 9: Statistica Anul I Sem II

AUREL STAN

104

vot între două alegeri este important ca persoanele să fie chestionate într-un interval temporal foarte scurt, deoarece se cunoaşte faptul că preferinţele electorale sunt foarte fluctuante şi că anticiparea rezultatului votului constituie interesul major al operaţiei. Numărul de persoane chestionate trebuie să fie optim limitat, din cauza costurilor sondajului şi a numărului de anchetatori specializaţi la care este posibil de a face apel într-un timp scurt. Pe de altă parte volumul eşantioanelor trebuie să fie suficient de mare, deoarece estimarea trebuie să fie suficient de precisă, cu atât mai mult cu cât candidaţii sunt numeroşi.

I.6. DEFORMĂRILE SISTEMATICE ALE REZULTATELOR În cazul în care unităţile de eşantionare sunt fiinţe umane există în mod necesar surse de

deformare sistematic a rezultatelor care intervin în apreciere. Un termen din ce în ce mai utilizat în literatura de specialitate străină pentru denumirea acestor deformări ce au un caracter sistematic este cel de biais. În fond, nimeni nu este obligat să furnizeze informaţii. Deformările informaţiilor oferite de eşantionare există indiferent de metodele folosite. Direcţiile din care poate veni deformare sunt: • în cazul unei eşantionări probabiliste, o parte din indivizii care fac parte din eşantionul prevăzut nu

răspund la chestionar; • în cazul unei eşantionări prin quote putem să avem o suprareprezentare a anumitor categorii de

persoane (este mai posibil de a întâlni mai multe femei decât bărbaţi, rurali trăind în oraş decât rurali izolaţi.

• chestionarea persoanelor prin telefon (acelea care nu au telefon nu sunt întrebate) sau în locuri frecventate în mod obişnuit de o anumită categorie de persoane.

Controlul acestor deformări, sau, mai bine spus, limitarea lor, se realizează prin impunerea de reguli privind chestionarea: a nu chestiona amici şi cunoştinţe, a varia locurile şi orele de chestionare, a nu chestiona mai multe persoane care aparţin la aceluiaşi grup (membrii aceleaşi familii) dacă aceasta nu este prevăzut în mod expres. Institutele de sondaje exercită un control permanent asupra celor ce se ocupă cu chestionare persoanelor, deoarece cunosc faptul că nivelul calităţii unei anchete depinde de respectarea regulilor de eşantionare, reguli care au fost concepute în funcţie de finalitatea studiului. În ciuda acestor controale, ţinând cont de diversitatea surselor de deformare, se estimează că metoda quotelor dă, în general, rezultate mai puţin satisfăcătoare decât alte metode. Atunci când este posibil de aprecia importanţa deformărilor se procedează la aplicarea unor procedee de corecţie a datelor obţinute. Această corecţie nu este posibilă decât dacă există o bună cunoaştere a populaţiei cuprinse în studiu şi a modelelor adecvate care permit redresarea lor.

Operaţia de redresare a eşantioanelor presupune o serie de riscuri. În sondaje se introduc adesea întrebări care vizează sinceritatea răspunsurilor. De exemplu, când se întreabă despre intenţia de vot, se întreabă şi de votul precedent. Dacă există nepotriviri mari se operează o redresare şi o ponderare.

Page 10: Statistica Anul I Sem II

STATISTICĂ (II)

105

II. PROBABILITATE ŞI DISTRIBUŢIA PROBABILITĂŢILOR

II.1 CONSIDERAŢII PRELIMINARE Acest domeniu aparţine statisticii inferenţiale, adică acelui domeniu care se foloseşte de datele

oferite de statistica descriptivă în scopul de a face prognoze. A înţelege statistica inferenţială înseamnă a înţelege metodele de a evalua probabilitatea teoretică de apariţie a unor fenomene cu caracter aleator. Inferenţa statistică este fondată pe evaluarea unei probabilităţi teoretice de apariţie a unui fenomen observat, probabilitate în funcţie de a cărei valoare statisticianul stabileşte decizia pe care o ia într-o anumită problemă. În fundamentarea deciziilor operează în multe situaţii teoria probabilităţilor, domeniu ştiinţific cercetat în principal de matematicieni specializaţi care-i asigură o abstractizare de înalt nivel. Pentru dimensiunea pe care şi-o propune cursul nostru, menţionăm că apropierea de acest domeniu al teoriei probabilităţilor este una empirică, adică bazată pe exemple concrete ce au o anumită valoare ilustrativă.

Evaluarea probabilităţii se bazează pe principiul urnei. Cele mai clare ilustrări ale probabilităţii rezultate din tragerea la sorţi sunt aruncarea unei monede în sus şi extragerea succesivă a 10 bile dintr-o urnă care conţine 50 de bile albe şi 50 de bile negre. Dacă aruncăm o moneda în sus în serii de câte 10 aruncări şi realizăm serii de ordinul miilor, probabilitatea de a rezulta anumite proporţii ale capului sau pajurei se distribuie conform exigenţelor unei distribuţii normale Gauss, care poate fi transpusă grafic în aşa-numita curbă normală Gauss. Numărul de posibilităţi este foarte mare, în situaţia în care se fac lansări în serie mare. Dacă s-ar face doar 2 lansări ale unei monede, am avea 4 posibilităţi teoretice diferite de succesiune a capului sau a pajurei:

Cap Cap Cap Pajură Pajură Cap Pajură Pajură

La un număr de două posibilităţi la fiecare aruncare a unei monede (în serii de câte 10 aruncări) avem 210 posibilităţi concrete de apariţie. Exemplu: pentru proporţia de ori 9 cap şi 1 pajura avem printre variante:

Nr.crt. 1 2 3 4 5 6 7 8 9 10 1 C C C C C C C C C C 2 C C C C C C C C C P 3 C C C C C C C C P C 4 C C C C C C C P C C

… … … … … … … … … … … … P P P P P P P P P P

În care cu C se notează apariţia capului şi cu P apariţia pajurei. Numărul diferitelor proporţii de apariţie poate fi estimat cu ajutorul formulei:

Page 11: Statistica Anul I Sem II

AUREL STAN

106

( )!!*!

NINTNINTNPI

−=

în care: NPI - numărul de proporţii identice; NT - numărul de trageri; NI - numărul de evenimente identice

NCNPIPAP =

în care: PAP - probabilitatea de apariţie a unei proporţii NPI - numărul de proporţii identice; NC - numărul de combinaţi.

Cu ajutorul unor astfel de formule se pot obţine toate probabilităţile de apariţie a proporţiilor posibile, oricare ar fi numărul de lansări succesive care s-ar practica. Probabilitatea de a obţine 2 pajuri succesive în cursul a 10 lansări succesive (din 1024 de serii de lansări) este:

45)12345678()!12(

12345678910)!210(!2

!10)2( ==−

=xxxxxxxxxxxxxxxxxx

xNPI

0439,01024

45==PAP , deci aproximativ 4,4%.

Se poate astfel obţine probabilitatea pentru fiecare din proporţii Nr.crt. Evenimentul căutat Numărul de apariţii Probabilitatea 1 0 1 0,10% 2 1 10 0,98% 3 2 45 4,59% 4 3 120 11,72% 5 4 210 20,51% 6 5 252 24,61% 7 6 210 20,51% 8 7 120 11,72% 9 8 45 4,59% 10 9 10 0,90% 11 10 1 0,10% Total 1024 100,00%

Cu un astfel de tabel se poate imediat evalua probabilitatea de apariţie a unei trageri conţinând o proporţie dată.

Observăm că probabilităţile extreme (de 10 ori pajura şi de 10 ori capul) se întâlnesc foarte rar, şi o repartiţie egală (de 5 ori pajura şi de 5 ori capul) are o mare frecvenţă. Dacă efectuăm o histogramă a frecvenţelor absolute de apariţie a diferitelor proporţii vizualizăm că anumite proporţii sunt mult mai frecvente decât altele. Pentru ca aceste frecvenţe de apariţie să poată lua forma curbei normale Gauss trebuie să avem un mare număr de aruncări. Deci, cu cât numărul de aruncări este mai mare cu atât putem să prognozăm mai bine numărul de apariţii a unei frecvenţe.

Page 12: Statistica Anul I Sem II

STATISTICĂ (II)

107

0 1045

120

210252

210

120

4510 0

0

50

100

150

200

250

300

1 2 3 4 5 6 7 8 9 10 11

Cazul când într-o urnă se afla 100 de bile dintre care 30 albe şi 70 negre. Formula este

următoarea: NENTNE xPxP

NENTxNENTPAP −

−= 2!

)!(!!

în care - PAP- probabilitatea de apariţie a unei proporţii: NT- numărul de trageri; NE - numărul de evenimente identice, P1 - probabilitatea primului element; P2 - probabilitatea celui de-al doilea element1. Ştiind că P1 poate caracteriza proporţia bilelor albe şi P2 proporţia bilelor negre şi că NT

caracterizează mărimea eşantionului se poate calcula probabilitatea exactă de a obţine nu importă ce proporţie de bile albe şi bile negre într-un eşantion de mărime definită.

EXEMPLU. Care este probabilitatea de a obţine 3 bile albe provenind din 8 trageri? P1=0,3 P2 = 0,7 (exprimate în scala de la 0 la 1). Se remarcă că 1- P1 = P2. NT=8. NE=3. Probabilitatea este următoarea:

2541,07,03,0)!38(!3

!8 383 =−

−xxx

Probabilitatea este de 0,2541 adică 25,41% şanse de a găsi 3 bile albe în eşantionul nostru. Probabilitatea de a găsi 7 bile albe va fi de:

8!7 8 7

0 3 0 7 0 0012257 8 7

! ( ), , ,

xx x

−=−

deci, există 0,12% şanse de a obţine un eşantion conţinând 7 bile albe.

Principiul urnei funcţionează asupra măsurătorilor de intervale continue şi discontinue.

1 Formulele au fost preluate din lucrarea lui Nicolas Gueguen «Manuel de statistique pour psychologues», Dunod, Paris, 1997, pag.72-73

Page 13: Statistica Anul I Sem II

AUREL STAN

108

Oferim în continuare un exemplu de conformitate la distribuţia normală Gauss-Laplace a rezultatelor extragerii de eşantioane dintr-o populaţie. Este un exemplu simplu, bazat pe o populaţie restrânsă2.

La o populaţie definită de 8 subiecţi se efectuează o sarcină de învăţare a unei listei de 20 de cuvinte concrete. Se obţin următoarele scoruri:

Subiect 1 2 3 4 5 6 7 8 Scorul de învăţare 6 8 7 10 9 11 12 5

Se poate considera că cei 8 subiecţi aparţin populaţiei părinte. Să presupunem că noi vom

extrage la întâmplare din această populaţie câte 2 subiecţi din această populaţie şi efectuăm media scorurilor lor. Mediile pe care le obţin trebuie obligatoriu să corespundă la una dintre mediile conţinute în tabloul următor. În total au putut fi constituite un număr de 28 de eşantioane.

5 6 7 8 9 10 11 12 5 6 5,5 7 6,0 6,5 8 6,5 7,0 7,5 9 7,0 7,5 8,0 8,5 10 7,5 8,0 8,5 9,0 9,5 11 8,0 8,5 9,0 9,5 10,0 10.5 12 8,5 9,0 9,5 10,0 10,5 11,0 11,5

Se prezintă tabelul cu efectivele fiecărei medii distinctive obţinute:

Valoare 5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0 10,5 11,0 11,5 Efectiv 1 1 2 2 3 3 4 3 3 2 2 1 1

Vom transpune grafic această distribuţie, prin intermediul unei histograme.

1 1

2 2

3 3

4

3 3

2 2

1 1

00,5

11,5

22,5

33,5

44,5

1 2 3 4 5 6 7 8 9 10 11 12 13

2 vezi Nicolas Gueguen, op.cit., pag. 74

Page 14: Statistica Anul I Sem II

STATISTICĂ (II)

109

Aspectul distribuţiei este foarte apropiat de cel teoretic elaborat de Gauss-Laplace. Distribuţia apare perfect simetrică. Se poate verifica această simetrie calculând media, mediana şi modulul acestei distribuţii a mediilor. Pentru toţi aceşti indicatori de tendinţă centrală se va obţine valoarea 8,5. Distribuţia normală se caracterizează printr-o medie corespunzând punctului cel mai înalt al curbei şi printr-o varianţă caracterizând modul general în care se dispersează valorile distribuţiei în jurul acestei medii. Din raţiuni practice valoarea acestor parametri a fost fixată odată pentru totdeauna prin legea normată centrată redusă. Am descris-o anterior, în capitolul destinat indicatorilor statistici, odată cu tratarea valorilor normate z. Este o variantă practică a distribuţiei normale Gauss-Laplace. Media distribuţiei centrate reduse este egală cu 0 şi abaterea standard este egală cu 1. Această curbă este normată prin valoarea celor doi parametri. Curba care caracterizează această lege este continuă. Cunoscând proprietăţile distribuţiei acestei curbe putem afla probabilitatea teoretică de apariţie a unui eveniment, adică a uneia din variantele posibile a unei distribuţii. Mai bine spus, într-o distribuţie centrată redusă putem să apreciem sau să estimăm probabilitatea de apariţie a intervalului mergând de la media distribuţiei până la valoarea corespunzând fenomenului studiat.

II.2. PRINCIPIUL ABATERII CENTRATE REDUSE

Formula abaterii centrate reduse este următoarea s

XXz −= , în care X este variabila brută

a distribuţiei, X media distribuţiei eşantionului şi s abaterea standard a distribuţiei eşantionului. Această transformare nu poate să se realizeze decât dacă distribuţia studiată prezintă o formă normală. Este necesar să facem o distincţie în privinţa notării indicatorilor populaţiei şi ai eşantioanelor. Pentru a nota media unei populaţii vom utiliza litera grecească µ. Pentru notarea abaterii standard a unei populaţii vom utiliza litera grecească σ. Pentru a nota volumul unei populaţii vom folosi litera n. Notarea mediei eşantionului se va face prin X . Prin s vom nota abaterea standard a unui eşantion şi prin N volumul eşantionului. Aceste convenţii de notare sunt respectate parţial, motiv pentru care trebuie să fim atenţi, atunci când analizăm o lucrare ştiinţifică de statistică, la convenţiile cu care se operează. Studiul principiilor de extragere a eşantioanelor în interiorul unei urne indică că mediile acestora şi proporţiile acestora tind să prezinte caracteristicile populaţiei din care au fost extrase. Se poate prevedea media şi proporţiile pe care le va avea un eşantion oarecare, dacă acesta este extras dintr-o populaţie ai cărei parametri sunt cunoscuţi şi invers (µ, σ şi n).

Obiectivul constă în a prevedea valorile anumitor parametri pornind de la indicatorii identificaţi într-un eşantion, şi invers, a prevedea valorile unor indicatori ai unui eşantion pornind de la parametrii unei populaţii. Specificăm că noţiunea de parametru o folosim numai pentru populaţie. Se va trece de la funcţia de descriere la funcţia de inferenţă. Regula care prezidează utilizarea tabelelor centrate reduse (prezentând o formă normală) trebuie să fie scrupulos respectată. Tabelele distribuţiei respective se găsesc în anexele cursului nostru. În statistica inferenţială un concept important este pragul de încredere. Intervalele de fluctuaţie ale mediilor şi proporţiilor sunt noţiuni esenţiale ale rezumatelor distribuţiilor de măsură. Aceste intervale sunt construite pentru a apropia cu cea mai mare certitudine posibilă media sau proporţia pe care o ia un eşantion extras dintr-o populaţie pentru care este cunoscută media, abaterea standard şi volumul.

Page 15: Statistica Anul I Sem II

AUREL STAN

110

A controla gradul de certitudine adoptat comportă un anumit risc de eroare de a nu vedea media sau proporţia de eşantion în intervalul astfel calculat. Pragul de încredere este riscul de eroare de a nu lua în calcul aceste două evenimente posibile. Astfel, există în cazul aruncării în sus a unei monede 99,8% din 100 de a avea un eşantion conţinând între 1 şi 9 pajurii. Intervalul 1-9 se poate reduce dar pragul de încredere se reduce. Astfel:

• între 2 şi 8 se găsesc 98,25% din cazuri; • între 3 şi 7 se găsesc 89,07% din cazuri. Aceste procentaje de interval se stabilesc prin adiţionarea procentajelor fiecărei variante

expuse anterior în tabel. Astfel pentru a rezulta 97,74% cazuri adunăm procentajele de la variantele 2,3,4,5,6,7,8, (4,59% +11,72% + 20,51% + 24,61% + 20,51% + 11,72% + 4,59%). Pentru a rezulta 89,07% cazuri adunăm procentajele de la variantele 3,4,5,6,7, (11,72% + 20,51% + 24,61% + 20,51% + 11,72%).

A stabili pragul de încredere înseamnă a ne pune următoarea întrebare: “Care va fi valoarea mediei populaţiei din care a fost extras un eşantionul, în aşa fel încât intervalul pe care îl calculez să nu ia în consideraţie probabilitatea extremă?”. Probabilităţile extreme sunt uşor localizabile şi sunt situate în suprafaţa care rămâne în suprafaţa curbei dincolo de a anumită valoare a abaterii de la medie. Ne servim de valoarea z ca de un coeficient de control a amplitudinii intervalului căutat. Această valoare va fixa riscul de a găsi media sau proporţia eşantionului dincolo de limita acestor abateri. Cu cât valoarea z este mai mare, cu atât riscul de a găsi o valoare exterioară apreciabilă va fi mai slab. Pragul de încredere este adaptarea celui mai bun compromis posibil.

Să vedem ce număr de valori ale unei distribuţii centrate reduse poate rămâne dincolo de valoarea z egală cu 0,74. Căutăm în tabelul anexă valoarea z indicată:

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,1 0,2 0.3 0,4 0,5 0,6

0,7 0,4593

După cum indică tabelul 45,93% din numărul valorilor variabilei (am făcut transformarea

procentuală prin înmulţire cu 100) se găsesc în afara intervalului –0,7z şi +0,7z, sau mai bine spus în intervalul X ±0,7z. Jumătate din valorile cuprinse în acest procent (45,93) valori aparţinând unei distribuţii care se conformează exigenţelor distribuţiei centrate reduse (adică 22,965%), sunt mai mici decât –0,7z şi jumătate mai mari decât +0,7z.

II.3. VALOAREA PRAGULUI DE ÎNCREDERE

Noţiunea cea mai dependentă de responsabilitatea celui care efectuează măsurători este nivelul de încredere pe care un cercetător doreşte să-l acorde estimării fluctuaţiei eşantionării. Marea majoritate a autorilor de specialitate par a fi de acord să plaseze nivelul de încredere acceptabil la

Page 16: Statistica Anul I Sem II

STATISTICĂ (II)

111

95%. Aceasta înseamnă că valoarea pe care o ia un indicator al eşantionului are 95 şanse din 100 de a aparţine la intervalul calculat (el nu are 5% şanse să aparţină acestui interval). 95% este un prag minim care are şanse să crească la 99% sau chiar 99,99%. Când dorim, cu orice preţ, să ne păzim de o eroare, există riscul de a cădea în alta. Dacă pragul trebuie să fie mai ridicat, aceasta depinde de o solidă reflexie teoretică pe conjunctura unei inferenţe statistice. Pentru efectuarea calculelor va trebui să aducem în atenţie o nouă noţiune, şi anume noţiunea de eroare standard a mediei. În vederea stabilirii intervalului de fluctuaţie a unei medii a populaţiei sau a eşantionului. Trebuie să adăugăm la mediile respective o marjă de eroare (ME). Marja de eroare este compusă dintr-o variabilă (z pentru un anumit prag de încredere) şi o constantă (eroarea standard). Când estimăm intervalul de fluctuaţie a

mediei unui eşantion de va folosi abaterea standard a populaţie în determinarea erorii standard (Nσ )

şi când estimăm intervalul de fluctuaţie a mediei unei populaţii se va folosi abaterea standard a

eşantionului în determinarea erorii standard (Ns ).

Astfel IFP = X ± ME sau IFP = NszX *±

în care: X = media eşantionului ME = marja de eroare z = variabila normată cu acelaşi nume N = volumul eşantionului IFP = intervalul de fluctuaţie a mediei populaţiei.

Pentru calculul intervalului de fluctuaţie a mediei unui eşantion în condiţiile în care cunoaştem media şi abaterea standard a populaţie, avem la dispoziţie următoarea formulă:

IFE = µ ± ME sau IFE = N

z σµ *± ;

în care: - σ = abaterea standard a populaţiei; - N = efectivul eşantionului; - µ = populaţiei; - N = volumul eşantionului; - z = variabila normată cu acelaşi nume; - ME = marja de eroare.

Intervalul de fluctuaţie a mediei la diverse praguri de încredere Exista o simetrie a valorii marjelor de fluctuaţie - limita superioară şi limita inferioară. EXEMPLU: Populaţie compusă din 12 indivizi cărora li s-a aplicat proba de dexteritate manuală O'Connor (exemplu fictiv, în practica profesională foarte rar se poate întâlni o populaţie de 12 indivizi).

Subiect 1 2 3 4 5 6 7 8 9 10 11 12 Valoare 16 6 9 12 7 13 8 10 17 15 14 11

Page 17: Statistica Anul I Sem II

AUREL STAN

112

Vom calcula media şi abaterea standard a acestei distribuţii a valorilor populaţiei:

Aplicăm formula pentru calcularea mediei

aritmetice: 5,1112138

=== ∑nX

µ . Simbolul utilizat

pentru desemnarea mediei este adaptat pentru populaţie. În continuare, aplicăm formula pentru calcularea abaterii standard. În primul rând vom calcula varianţa, după formula pentru date negrupate, apoi

abaterea standard: 91,11121432

2 === ∑nx

σ . Pentru

calcularea abaterii standard extragem rădăcină pătrată din varianţă: 45,391,11 ==ο .

Să presupunem că prelevăm la întâmplare un eşantion din doi subiecţi în această populaţie şi să încercăm de a prezice cu un prag de încredere de 95% (deci un risc de eroare de 5%) intervalul de fluctuaţie a mediei acestui eşantion. Tabelul legii normale centrate reduse ne furnizează pentru un risc de 5% o valoare z egală cu 1,96. Pentru a afla această valoare z = 1,96 căutăm în celulele tabelului legii normale reduse valoarea 0,05. Valoarea z corespunzătoare va fi 1,96.

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0, 0,1 ……. ………. ……. ……… ……… ……… ……..

…….. …….. ………. 1,90 0,0500

Deci, dincolo de intervalul valoric – 1,96z + 1,96z nu mai rămâne decât 5% din suprafaţa curbei.

Deci, intervalul de fluctuaţie a mediei unui eşantion extras la întâmplare din populaţie se poate afla

aplicând formula: 10.45,1124,396,15,11 ±=±= xIFE . Deci, cu un risc de eroare de 5% putem să

estimăm că media eşantionului poate oscila între 7.40 (11,5 - 4,10) şi 15.60 (11,5 + 4,10) Dacă privim tabloul datelor culese prin examinare observăm că marea majoritate a mediilor eşantioanelor se încadrează între aceste limite fixate de medie şi abaterile erorii standard (pentru a verifica acest lucru putem să facem media a câte două valori din populaţie pe care s-a exemplificat).

II.4. CONTROLUL PARAMETRILOR DE FLUCTUAŢIE

Marja de fluctuaţie depinde de 3 parametri care nu exercită acelaşi grad de influenţă asupra

amplitudinii intervalului. • Pragul de încredere. Creşterea amplitudinii intervalului de încredere are efect direct asupra

concluziilor care se pot trage. Se poate ajunge la două concluzii diferite (opuse în aparenţă) după nivelul de încredere ales. Este foarte important de a determina bine nivelul de încredere care se acordă estimaţiilor noastre, dacă nu dorim să ajungem la concluzii eronate.

Nr.crt. X x x2

1 16 4.50 20,25 2 6 - 5,50 30,25 3 9 - 2,50 6,25 4 12 0,50 0,25 5 7 - 4,50 20,25 6 13 1,50 2,25 7 8 - 3,50 12,25 8 10 - 1,50 2,25 9 17 5,50 30,25

10 15 3,50 12,25 11 14 2,50 6,25 12 11 - 0,50 0,25 Σ 138 143

Page 18: Statistica Anul I Sem II

STATISTICĂ (II)

113

• Varianţa este dificil controlabilă pentru că ea rezultă din măsurătorile efectuate în populaţie. Precizia este cu atât mai importantă (intervalul va fi mai îngust în jurul mediei) cu cât dispersia va fi mai mică, dar nu se poate întâlni situaţia în care varianţa să nu acţioneze asupra valorii. Micşorarea valorii varianţei într-o populaţie nu este posibilă decât dacă se identifică în populaţie indivizii care produc cea mai mare dispersie (şi de constatat dacă ei nu sunt bolnavi în momentul efectuării unei probe psihologice, dacă au înţeles ceea ce li se cere, dacă au mai făcut ceea ce li se cere pe când alţii nu au făcut). Pe scurt, trebuie să se verifice echivalenţa factorilor de variaţie pentru fiecare subiect.

• Mărimea eşantionului. A priori, nimic nu ne împiedică să folosim atâţia indivizi câţi dorim pentru cercetare. În schimb, se pune şi problema costului general care corespunde măririi numărului de indivizi. Mărirea eşantionului nu este proporţională valorii sale, ci rădăcinii pătrate a acestei valori. Dacă dorim o precizie de zece ori mai mare este nevoie de sute de ori mai mulţi indivizi. Câştigul obţinut în termeni de precizie nu este liniar. Populaţia părinte de mare dimensiune (de ordinul milioanelor) se poate examina sau chestiona în proporţie de 50%, 20% , 10%.5% sau 1 %. Este foarte probabil ca energia mobilizată să nu fie proporţională câştigului realizat. Institutele de sondaje recomandă cel mai bun compromis între gradul de precizie şi costul financiar al sondajului. Dacă avem

stabilite valorile celorlalte variabile ale marjei de fluctuaţie (MF = z*Nο ) putem să stabilim mărimea

efectivului eşantionului pentru un prag de încrederea dat). EXEMPLU Din aplicarea unui test de inteligenţă la o populaţie rezultă o medie egală cu 240 şi o abatere standard egală cu 22, în condiţiile în care distribuţia este normală. Se doreşte să se determine, la un risc de 2%, care va fi numărul de subiecţi necesari ai unui eşantion testat pentru a obţine o marja de fluctuaţie de 5,70. Deci, MF = 5,70. Pentru un prag de încredere de 98% sau pentru un risc de eroare de 2% valoarea lui z este egală cu 2,32.

81,78141,6

484?;?

484141,6;?

22478,2;?

22478,2;?

2232,270,5;

?22*32,270,5

22 =======

Putem trage concluzia că un eşantion care are 79 de indivizi corespunde riscului ales.

Determinarea altor parametri de fluctuaţie. Este inutil de a acţiona asupra mărimii celorlalţi doi parametri de fluctuaţie. Cineva nu poate schimba rezonabil valoarea dispersiei observate în populaţie. Aceasta înseamnă să reluăm măsurătorile asupra populaţiei. A lua un nivel de risc inferior lui 5% se dovedeşte se dovedeşte a fi o procedură inadecvată, deoarece există riscul de a elimina inutil anumite eşantioane care pot fi conservate.

II.5. INTERVALELE DE FLUCTUAŢIE A MEDIILOR PROVENIND DINTR-UN EŞANTION

Până acum s-au estimat intervalele de fluctuaţie a mediilor eşantioanelor plecând de la

caracteristicile cunoscute ale populaţiei. În cazul fluctuaţiei mediei eşantionului aveam cunoştinţă de media şi varianţa populaţiei părinte. În practica cercetărilor psihopedagogice se întâlnesc foarte rar astfel de cazuri. În majoritatea cazurilor nu cunoaştem parametrii caracterizând populaţia părinte din care s-a extras eşantionul studiat. Mai frecvent se întâlneşte situaţia în care se dispune de un eşantion despre care există aprecierea că este cel mai reprezentativ posibil din populaţie (deoarece s-au utilizat

Page 19: Statistica Anul I Sem II

AUREL STAN

114

toate mijloacele pentru ca el să fie aşa), şi nu se dispune de parametrii populaţiei permiţând un asemenea control. Prezintă interes, de asemenea, de a şti în ce măsură aceste medii pot să reprezinte populaţia sau populaţiile părinte din care au ieşit (a se vedea modelizarea principiului urnei.) De această dată obiectivul este de a găsi ceea ce conţine urna pornind de la informaţiile conţinute în eşantion. Această extrapolare nu se poate face decât luând informaţii de la eşantionul studiat.

II.6. INFERENŢA ASUPRA MEDIILOR POPULAŢIEI

Curba valorilor mediilor eşantioanelor extrase dintr-o populaţie este una normală, când se extrage un număr suficient de indivizi dintr-o populaţie în care distribuţia este normală (doar când mărimea eşantionului este suficient de importantă). În caz contrar curba de repartiţie a datelor eşantionului tinde sa ia o alură complet diferită. În cazul în care eşantionul este de mică mărime, deci când efectivul său este puţin important, curba de distribuţie nu mai urmează legea centrată redusă, ci o lege a lui Student. Mărimea de demarcaţie între eşantioanele mici şi eşantioanele mari este fixată de mulţi autori la cifra 30. Când mărimea este superioară cifrei 30 forma legii lui Student tinde a se confunda cu legea normala de distribuţie Gauss-Laplace. Legea lui Student ca şi legea centrată redusă permite de a determina probabilitatea de apariţie a abaterilor teoretice de la medie. Aceste abateri sunt desemnate prin litera t (ca z în legea normală centrată redusă). Ca şi distribuţia normală, distribuţia lui t este simetrică. Ea se caracterizează printr-o medie egală cu 0, dar abaterea sa standard depinde de un număr de grade de libertate (notate în anexa referitoare la legea t a lui Student prin f). Numărul gradelor de libertate depinde de mărimea eşantionului. Influenţa pe care o exercită mărimea eşantionului este proporţională cu rădăcina pătrată a valorii sale. Se ajunge la un moment în care mărimea are puţină influenţă asupra variaţiei mărimii studiat. A avea 10 indivizi mai mult sau mai puţin nu schimbă aproape cu nimic estimaţia când se lucrează cu mari eşantioane cuprinzând mai multe sute de indivizi. Nu acelaşi lucru se întâmplă când se lucrează cu eşantioane de mică mărime. Când mărimea eşantionului va fi inferioară sau egală cu 30 vorbim de mici eşantioane şi inferenţele pe care noi le producem se vor fonda pe legea t a lui Student. Când mărimea eşantionului va fi superioară la 30 vorbim de mari eşantioane şi inferenţele se fondează pe legea normala centrată redusă. Dacă utilizăm tabele ale lui t pentru eşantioane a căror mărime este superioară lui 30, aceasta nu constituie o eroare. La acest nivel valoarea lui t este apropiată de aceea a lui z încât acest fapt nu afectează decât zecimalele erorii standard a fluctuaţiei.

EXEMPLU FICTIV. Capacitatea de memorare de scurt termen. Se prezintă unui număr de 326 de elevi de liceu o lista cu 20 cuvinte pe display-ul unui monitor (un cuvânt la fiecare 2 secunde). Ulterior se verifică numărul de cuvinte pe care subiecţii le pot reproduce. Media numărului de cuvinte reamintite este de 8,40, în timp ce abaterea standard este egală cu 2.58. Obiectivul cercetării este de a estima cu un risc de eroare de 5% (sau cu un prag de încredere de 95%)

media populaţiei din care sunt extraşi elevii care compun eşantionul. Este vorba de un eşantion mare, deoarece efectivul eşantionului depăşeşte cifra 30.

În cazul acesta IFP =NszX *±

Page 20: Statistica Anul I Sem II

STATISTICĂ (II)

115

Deosebirea între formulele utilizate până acum constă în faptul că abaterea standard a populaţiei a devenit abaterea standard a eşantionului. Valoarea tabelară a lui z = 0,05 va fi 1,96. Pentru aplicaţie:

IFP = 8,40 27,040,805,1858,2*96,140,8

32658,2*96,1 ±=±=±

Limita inferioară a intervalului de fluctuaţie a mediei populaţiei va fi 8,13 (8,40-0,27), iar limita superioară 8,67 (8,40 + 0,27). Cu riscul de eroare de 5% se estimează ca media populaţiei părinte va fi cuprinsă în intervalul marcat de valorile 8,13 şi 8,67.

Intervalul de fluctuaţie pentru mici eşantioane. Menţionăm că pentru calcularea intervalului de fluctuaţie a mediei populaţiei pornind de la valorile cunoscute ale indicatorilor eşantionului nu există diferenţă în privinţa formulei. Este important ca datele să prezinte o curba de formă normală.

EXEMPLU. Eşantion de 17 copii care prezintă tulburări de comportament între 6 si 8 ani3. Se relevă cu ajutorul unei grile, comportamentele agresive provocate de copiii prezentând tulburări de comportament în diferite perioade ale jocului colectiv cu copii care nu prezintă astfel de tulburări. Din cele 60 de comportamente caracteristice ale agresivităţii în timpul jocului s-a obţinut o medie de 28,53 şi o abatere standard de 8.10. Obiectivul cercetării este de a realiza un studiu comparativ cu o cercetare identică în care toţi copiii manifestă respectivele tulburări

de comportament. Se doreşte a se determina intervalul de fluctuaţie a medie la un risc de 1%. În acest caz numărul de grade de libertate va fi de 17-1=16. Se găseşte valoarea 2.92. În condiţiile legii centrate reduse s-ar fi găsit valoarea de 2,58. Prezentăm schematic modul de detectare a valorii t din tabela legii lui t a lui Student, pentru un risc de eroare de 1%.

Valori ale pragului de risc p p f 0,20 0,10 0,05 0,02 0,01 0,001 0,0001 0,00001

1 2 …

16 2,92

Formula este următoarea: IFP = NstX *± . Din punerea în aplicare a formulei rezultă:

IFP = 28,53 =±1710,8*92,2 74,553,2896,1*92,253,28

12,410,8*92,253,28 ±=±=±

La un risc de 1% sau la un prag de încredere de 99% media populaţiei se va situa între 22.79 (28,53-5,74) şi 34,27(28,53 + 5,74).

Populaţii finite. În cazul în care se poate evalua cu o precizie corectă mărimea populaţiei în

interiorul căreia se prelevează un eşantion, se convine, în fapt, să se considere finită această populaţie. EXEMPLU: numărul de locuitori ai unei ţări. În acest caz se cunoaşte aproximativ numărul de indivizi care au calitatea cerută pentru a aparţine populaţiei definite. Gradul de precizie va fi funcţie de importanţa generală a populaţiei. Astfel, a omite câteva zeci de mii de muncitori din nu este prea grav dacă populaţia respectivă numără 50 de milioane într-o ţară. Situaţia se modifică dacă studiul se efectuează asupra cercetătorilor ştiinţifici dintr-o ţară.

3 Exemplu preluat din Nicolas Gueguen, op.cit.

Page 21: Statistica Anul I Sem II

AUREL STAN

116

Populaţii infinită. Populaţia infinită este o populaţie la care nu se poate determina numărul sau populaţia al cărei număr creşte fără încetare. Astfel, pentru utilitatea cercetătorilor psihologi nu se ştie numărul persoanelor care suferă de o anumită fobie, a persoanelor care iubesc animalele de casă. În unele cazuri, lucrurile au o evoluţie foarte rapidă înainte ca cineva să poată determina mărimea populaţiei. Astfel, în informatică populaţia aşa-zisă a "interneţilor" variază foarte rapid. În acest caz putem să cunoaştem indivizi din această populaţie, dar numărul lor exact nu-l putem afla.

Page 22: Statistica Anul I Sem II

STATISTICĂ (II)

117

III.TEORIA TESTELOR ÎN STATISTICĂ

III.1. CONSIDERAŢII PRELIMINARE În statistică testul este o procedură de calcul pentru verificarea unor ipoteze emise anterior.

Deci, testul statistic este util, mai ales, în condiţiile în care dorim să afirmăm sau să infirmăm o ipoteză. Pentru a afirma sau infirma validitatea ipotezelor în statistică se dispune de un număr mare de teste statistice. Astfel, există, teste care compară mediile între ele, teste care compară proporţiile între ele care compară varianţele, teste care studiază legăturile între variabile. Cea mai curentă clasificare este între teste statistice de diferenţiere (teste care compară mediile între ele, teste care compară proporţiile între ele) şi teste statistice de asociere (care studiază legăturile între variabile). Înainte de punerea în aplicare a unui test statistic trebuiesc formulate două ipoteze, în general opuse, care vor fi alternativ testate pentru a ajuta cercetătorul sau practicianul în ceea ce el îşi propune să realizeze.

Ipoteza de nulitate Această ipoteză statistică mai este denumită ipoteza de nul şi este, în general, notată cu H0. Ipoteza de nul presupune că diferenţele constatate între doi indicatori supuşi analizei sunt nesemnificative, legate de factori aleatori rezultând din variaţia eşantionajului şi nu din unul sau mai mulţi factori sistematici, explicând ceea ce un cercetător a observat. A formula ipoteza de nul înseamnă a afirma ca nu există nimic diferit, că toate măsurile sunt egale, că medii diferite sunt de fapt identice, că proporţii neechivalente sunt identice în semnificaţie. Înseamnă a spune că diferenţele observate depind de hazard şi nu de un alt factor.

Ipoteza alternativă. Este ipoteza pe care o formulează cercetătorul care a prelevat unul sau mai multe eşantioane dintr-o populaţie, care a manipulat sau studiat mai multe variabile şi care gândeşte că ceea ce el a observat nu este legat de fluctuaţii fireşti de eşantionare, ci de unul sau de mai mulţi factori determinanţi. Această ipoteză, notată în general cu H1, arată că hazardul nu poate să explice rezultatul care s-a obţinut.

După ce o anumită ipoteză a fost formulată, poate fi practicat testul care va putea susţine o astfel de ipoteză mai mult decât alta. Ipoteza nulă este cea care este totdeauna testată. În urma acestui demers sunt posibile două alternative: • ipoteza nulă este conservată şi, în acest caz, nu se poate adopta punctul de vedere al ipotezei

alternative; • ipoteza nulă este respinsă şi, în acest caz, se poate reţine ipoteza alternativă.

În realizarea testelor statistice se pot întâlni două tipuri de erori: erori de tip I şi erori de speţa II. În tabelul care urmează prezentăm schematic condiţiile de apariţie a acestor erori.

Decizia Ho adevărat Ho fals H0 acceptat Decizie corectă Eroare de tip II Ho respins Eroare de tip I Decizie corectă

Deci, există riscuri atât prin acceptarea H0, cât şi prin respingerea H0. Probabilitatea de a respinge ipoteza de nul, în timp ce aceasta este adevărată se numeşte, eroare de prima speţă sau

Page 23: Statistica Anul I Sem II

AUREL STAN

118

eroare de tip I. Această eroare se numeşte pragul de încredere sau de semnificaţie a unui test. Valoarea sa fixează riscul pe care cineva şi-l ia un cercetător spunând că ceea ce se observa este legat de un factor sistematic mai curând decât de fluctuaţiile normale ale eşantionării. Acest tip de risc se fixează la 5% sau 1% (se poate reduce dacă condiţii imperioase justifică acest lucru. Probabilitatea de a accepta ipoteza nulă, în timp ce aceasta este falsă este numită eroare de a doua speţă sau eroare de tip II. Este riscul pe care cineva îl ia de a spune că ceea ce s-a observat este legat de fluctuaţii normale ale eşantionării, pe când în realitate aceste observaţii sunt explicate printr-un alt factor sau prin alţi factori. În mod paradoxal, erorile de tip I si tip II sunt strâns legate. Diminuând eroarea de tip 1 creşte, în acelaşi timp, eroarea de tip II, şi mărind eroarea de tip 1 se diminuează eroarea de tip II. Deoarece este dificil; de a fixa un compromis între cele 2 riscuri de eroare, pragul fixat pentru fiecare din aceste riscuri va fi în funcţie de miza inferenţelor, voinţa sau lipsa voinţei de a detecta factorul activând variaţia (factorul sistematic) eşantionului pe care cineva îl utilizează, de caracterului novator sau lipsit de această caracteristică al rezultatelor. Se va putea reduce riscul de a doua speţă fără a modifica riscul primei speţe, optimizând metoda de eşantionare, prelevând indivizi suplimentari, utilizând anumite tipuri de teste sau optând pentru un test unilateral mai curând decât bilateral. Testul unilateral poate obţine doar rezultate pozitive, pe când cel bilateral poate obţine rezultate pozitive şi negative.

III.2. TESTE PARAMETRICE ŞI NEPARAMETRICE Folosirea unui anumit test depinde de tipul de scală de măsură utilizată pentru a culege

informaţia statistică. Uneori se poate folosi un test independent de scală pentru că distribuţia nu oferă caracteristici de formă şi de dispersie necesare pentru folosirea acestui test.

Se pot distinge două familii de teste statistice: teste parametrice, în care concluziile se sprijină pe legea probabilităţii care certifică că distribuţia

sau distribuţiile observate respectă anumite caracteristici; teste nonparametrice care nu necesită respectarea acestor caracteristici.

Testele parametrice prezintă următoarele exigenţe: ▪ datele distribuţiei trebuie să se repartizeze în maniera "normală", adică, în alţi termeni, curba

trebuie să aibă o formă apropiată aceleia a legii normale; ▪ datele de care se dispune să provin din scala de măsură de interval (cel puţin); ▪ varianţele acestora trebuie să fie omogene, adică nu trebuie să existe dezechilibre importante ale

dispersiilor, în cazul în care se cere compararea mediilor a două eşantioane. Aceste trei condiţii trebuie să fie verificate înaintea oricărei folosiri a unui test parametric. Dacă

condiţiile sunt îndeplinite cercetătorul sau practicianul are la dispoziţie un evantai de teste puternic, pentru că ele permit de a diminua riscul de a doua speţă. Dacă una din condiţii nu este îndeplinită (şi a fortiori toate trei) se riscă de a respinge pe nedrept ipoteza de nulitate, adică de a observa diferenţe şi relaţii acolo unde ele nu există.

Testele nonparametrice pot să se elibereze de această condiţie de normalitate sau de echivalenţă a dispersiilor. Ele sunt independente de un anumit tip de distribuţie sau, cum se mai spune, au o distribuţie liberă. Un alt mare avantaj al acestor teste este acela ca ele nu cer să se dispună de eşantioane de mare dimensiune. În schimb, prezintă inconvenientul de a fi mai puţin puternice ca

Page 24: Statistica Anul I Sem II

STATISTICĂ (II)

119

testele parametrice, adică informaţia pe care o oferă este mai puţin consistentă. Consecinţa acestei slăbiciuni poate să conducă la creşterea riscului de a doua speţă, la concluzia că nu există nimic diferenţiat, pe când în realitate există unele diferenţe.

III.3. COMPARAŢIA MEDIILOR Principalele test. Realizarea tipurilor de teste pentru compararea mediilor pleacă de la

premisa că eşantioanele care se obţin dintr-o populaţie se situează mult mai frecvent în intervalul de fluctuaţie al populaţiei studiate. Acest principiu poate fi înţeles la diferenţa dintre două medii provenind din eşantioane diferite. Se consideră că fluctuaţiile de eşantionare pot să conducă la diferenţe, dar că frecvenţele acestor diferenţe se repartizează de manieră neomogenă. Astfel probabilitatea de a obţine o diferenţă nulă (mediile să fie identice) este cazul cel mai frecvent, în timp ce probabilitatea de a obţine o diferenţă nenulă este teoretic mai puţin frecvent, cu atât mai mult cu cât amplitudinea acestor diferenţe este mai mare.

EXEMPLU: Se aplică unei populaţii de 8 subiecţi o probă de dexteritate manuală la care scorul maxim este 18. Scorurile obţinute sunt următoarele:

Se prelevează la întâmplare doi subiecţi (S1 şi S2) în această populaţie şi se face

diferenţa scorurilor lor (S1 – S2). Aceasta trebuie să corespundă uneia din diferenţele din cele două tabele.

Subiectul 2 Subiectul 1

8 9 10 11 12 13 14 15 16

8 9 10 11 12 13 14 15 16 8 8 9 1 9 -1 10 2 1 10 .2 -1 11 3 2 1 11 -3 -2 -1 12 4 3 2 1 12 .4 -3 -2 -1 13 5 4 3 2 1 13 -5 -4 -3 -2 -1 14 6 5 4 3 2 1 14 -6 -5 -4 -3 -2 -1 15 7 6 5 4 3 2 1 15 -7 -6 -5 -4 -3 -2 -1

Sub

iectul

1

16 8 7 6 5 4 3 2 1

Sub

iectul

2

16 -8 -7 -6 -5 -4 -3 -2 -1

Prezentăm, în continuare, un tabel cu efectivele diferenţelor posibile în valoare absolută. Observăm că cea mai mică diferenţă este egală cu 1 (în valoare absolută) şi cea mai mare diferenţă este egală cu 8.

Amplitudine diferenţei 1 2 3 4 5 6 7 8 Total Frecvenţe absolute(efective) 16 14 12 10 8 6 4 2 72 Frecvenţe relative ( în %) 22 19 17 14 11 8 6 3 100

Subiect 1 2 3 4 5 6 7 8 9 Scor 9 11 14 10 12 13 8 16 15

Page 25: Statistica Anul I Sem II

AUREL STAN

120

Cu cât amplitudinea diferenţelor este mai importantă cu atât probabilitatea unui subiect de a fi obţinut o astfel de diferenţă este mai slabă. Se pune următoarea întrebare la testul de comparare a mediilor: «Care este probabilitatea pe care o vom avea de a obţine o astfel de diferenţă prin hazardul eşantionării?». Testele de comparare a mediilor vor să răspundă cu precizie la această întrebare, evaluând probabilitatea de a obţine în manieră aleatorie toate diferenţele observate. Dacă aceasta probabilitate este superioară unui prag, fixat prin convenţie la 5%, atunci se estimează ca diferenţele sunt imputabile hazardului eşantionajului. Se va conserva atunci ipoteza nulă. Dacă această probabilitate va fi egală sau inferioară acestui prag, atunci se va respinge ipoteza de nul şi se va propune ipoteza alternativă. Atunci se va concluziona că diferenţa este statistic semnificativă şi că diferenţa este imputabilă efectului variabilei sau variabilelor pe care cineva a putut să le manipuleze. Există totdeauna, în schimb, un risc ca diferenţele să fie imputabile hazardului eşantionării.

Un test de comparaţie a mediilor nu trebuie să se efectueze decât plecând de la distribuţii de date provenind din scale de măsură de interval şi de raport. Testele de comparare a mediilor sunt teste parametrice şi, deci, la efectuarea lor, cercetătorul trebuie să verifice conformitatea caracteristicilor distribuţiei cu aşteptările statisticianului. Distribuţiile studiate trebuie să fie normale şi variantele lor trebuie să fie echivalente. Dacă lucrurile stau aşa, atunci se dispune de instrumente statistice care devin "parteneri" foarte fiabili în procesele de decizie care se pun în operă. În majoritatea cazurilor, aceasta se verifică grafic, comparând valorile parametrilor.

III.4. COMPARAREA UNEI MEDII LA O NORMĂ Norma poate să îmbrace diverse accepţiuni, funcţie de fenomenul studiat sau de câmpul de

studiu, chiar de disciplina ştiinţifică. Statisticienii impun aici o valoare, care reprezintă o valoare aşteptată a mediei, având foarte puţină importanţă dacă este o valoare întreagă sau fracţionară, dacă este pozitivă sau negativă. Este imperativ ca valoarea să se exprime sub formă numerică. Psihologul trebuie să se acomodeze la această constrângere, exprimând fenomenul psihologic sub forma unei valori numerice. Media nu poate să rămână la starea de definiţie conceptuală.

În psihologie, norma poate să fie un efect aşteptat (memorizarea medie a 7 elemente de informaţie) sau cunoaşterea prealabilă a unui fenomen psihologic pentru care se dispune de o normă provenind de la o populaţie (media QI-ul, media naţională a rezultatelor unui test şcolar). Ea poate, de asemenea, să se caracterizeze printr-o valoare aşteptată de către un cercetător sau un practician, care estimează că o poată justifica teoretic. De asemenea, norma poate să fie o valoare nulă într-o sarcină oarecare de polarizare. În toate cazurile, exploatarea sa va fi aceeaşi. Testul statistic va avea drept obiectiv de a verifica dacă diferenţa dintre media unui eşantion (media observată) şi valoarea numerică acordată normei poate fi atribuită la un factor aleator (factor legat de o eroare de eşantionare) sau de un factor sistematic (variabila independentă, manipulată sau determinată). Ipoteza unui factor sistematic (numita H1 ) este adoptată după ce s-a respins ipoteza unui factor aleator (numit H0).

Metoda de calcul. Obiectivul testului este de a răspunde la întrebarea următoare: Care este

probabilitatea ca diferenţa observată între media unui eşantion şi media normei să poată fi atribuită fluctuaţiilor normale de eşantionare? Există mai multe metode de a răspunde, dar a fost aleasă aceea care permite de a evalua cu exactitate probabilitatea de a obţine prin hazard de eşantionaj o astfel de

Page 26: Statistica Anul I Sem II

STATISTICĂ (II)

121

diferenţă. Formula pentru diferenţă dintre o medie de eşantion şi o normă este asemănătoare cu formulele găsite anterior.

Ns

normaXz)(

)(ο

µ−=

în care: z = variabila normată redusă

X = media eşantionului µ = media populaţiei s = abaterea standard a eşantionului N = efectivul eşantionului σ = abaterea standard a populaţiei. În paranteză au fost trecute simboluri alternative. Formula este un raport între diferenţa a două medii cu eroarea standard asociată acestei

diferenţe. Norma este numită în acest caz media populaţiei, pentru că funcţia principală a testului este de a spune dacă se poate considera sau nu eşantionul ca fiind prelevat din populaţia părinte din care este extrasă. Fluctuaţia eşantionării face posibilă apariţia unei infinităţi de medii de eşantion. Rămâne de ştiut care poate fi probabilitatea de a obţine în această populaţie, un eşantion de aceeaşi medie ca aceea care s-a observat practic. Examinând formula se poate observa că indicele obţinut nu este nimic altceva decât o abatere pe care cineva o va putea situa în spaţiu unei legi de distribuţie, aşa cum s-a făcut cu valoarea unui subiect. S-a substituit, deci, valorii unui subiect valoarea unei diferenţe. O astfel de evaluare presupune luarea în considerare simultană a mai multor elemente:

amplitudinea abaterii între medii: cu cât amplitudinea se măreşte, cu atât mai puţin are ea şanse de a se întâlni prin hazardul eşantionării;

varianţa asociată acestei abateri: cu cât aceasta este mai slabă cu atât abaterea redusă este mai mare. Formula ia în calcul două cazuri: primul este acela în care varianţa populaţiei (varianţa asociată normei) este cunoscută, în acest caz se ia în calcul varianţa populaţiei. Al doilea caz, în general mai frecvent, este acela în care varianţa populaţiei este necunoscută şi, în această situaţie, aceasta este estimată prin varianţa eşantionului (estimaţie fără contorsionări);

mărimea eşantionului: cu cât mai mult diferenţele se observă la marile eşantioane, cu atât mai mult factorii susceptibili de a exprima diferenţa pot să se exprime. Influenţa mărimii eşantionului este proporţională rădăcinii sale pătrate. Abaterea dintre două medii este deci ponderată de valoarea numitorului care, odată mai mult, depinde de două variabile: dispersia (sau varianţa) şi mărimea eşantionului. Cu cât variabilitatea este mai redusă cu atât mai mult indicele final (abaterea redusă) are şanse de a fi mare şi deci ipoteza de nulitate are mai multe şanse de fi respinsă.

În cazul în care varianţa populaţiei este cunoscută formula suferă o uşoară modificare, sugerată de noi în formula precedentă. Prin varianţa populaţiei se înţelege varianţa asociată mediei populaţiei (aceea care corespunde normei). Abaterea redusă se obţine făcând raportul următor:

N

Xzοµ−

=

Page 27: Statistica Anul I Sem II

AUREL STAN

122

Semnificaţia simbolurilor utilizate în formulă este cunoscută. Cazurile în care cercetătorul posedă o informaţie asupra varianţei populaţiei (populaţie din care eşantionul comparat a fost extras) sunt puţin frecvente în cercetarea psihopedagogică. În majoritatea situaţiilor de cercetare, varianţa populaţiei nu este cunoscută cu certitudine, şi se consideră ca atare. Este cazul în care cercetătorul dispune de măsuri anterioare făcute cu un eşantion de foarte mare mărime, extras cu cel mai mare respect faţa de regulile eşantionării. Este, de asemenea, cazul în care măsura a fost repetată în multiple circumstanţe (cu multiple eşantioane), situaţie în care ea oferă un indice de variabilitate particular constant. Varianţa ca valoare a normei poate fi determinata fără ca să existe, în mod necesar, o măsură prealabilă a acesteia. Ea poate să se justifice printr-un model teoretic, independent de toate măsurătorile efectuate.

Aplicaţie. NUMĂRUL MAGIC. Cercetările destinate evaluării memoriei de scurt termen arată că

aptitudinea de memorizare imediată pentru diferite informaţii este de 7 ± 2. În scopul de a verifica dacă această limită o posedă şi liceenii, doi cercetători au prezentat o serie de 18 cuvinte comune la 193 elevi. Cuvintele apar pe display-ul, un cuvânt la două secunde.

Imediat după proiecţia listei, subiecţii trebuie să-şi amintească, cât mai repede posibil, cuvintele prezentate pe display. Media amintirii liceenilor este de 7,13. Cercetătorii se întrebă dacă, adoptând riscul de 5%, scorul mediu al rezultatului asupra liceenilor este diferit de acela în general observat în lucrările anterioare. În acest caz valoarea 7 este considerată o normă, iar 2 abaterea standard. Formula de calcul este următoarea:

z =

1932

00,713,7 − 909,0143,013,0

89,13213,0

===

z teoretic, dat de legea normală centrată redusă, este de 1.96 la riscul de 5% (fixarea acestei valori a fost făcută anterior). Valoarea z calculată de noi este mult inferioară valorii tabelare. La riscul de 5% nu se aduce proba unei diferenţe între cele două probe comparate. Ipoteza de nulitate trebuie să fie conservată. Eşantionul liceenilor poate fi considerat ca aparţinând populaţiei din care a fost extras. Diferenţa de reamintire de 0.13 poate fi atribuită fluctuaţiilor normale de eşantionare. Se poate, deci, considera că această diferenţă nu are nimic excepţional.

III.5. CAZUL ÎN CARE VARIANŢA POPULAŢIEI ESTE NECUNOSCUTĂ În cercetarea psihopedagogică este rară situaţia în care se dispune de elemente de informaţie

cantitativă precisă asupra populaţiei, plecând de la care este extras eşantionul studiat. În situaţia în care varianţa populaţiei nu este cunoscută se ia în consideraţie varianţa eşantionului pentru estimarea erorii standard. Va fi o estimaţie fără deformare. Indiferent dacă este vorba de mici sau mari eşantioane, formula de comparaţie a unei medii la o normă este totdeauna aceeaşi.

t sau z =

NsnormaX )(µ− .

Alegerea acestora depinde esenţial de mărimea eşantionului. Dacă mărimea eşantionului este inferioară sau egală cu 30 indicele, ales este t-ul a lui Student. Tabela consultată va fi tabela t a lui

Page 28: Statistica Anul I Sem II

STATISTICĂ (II)

123

Student. Dacă această mărime este superioară lui 30, atunci indicele ales va fi z. Tabele de referinţă va fi, deci, legea normală centrată redusă.

III.6. COMPARAREA A DOUĂ MEDII OBSERVATE Situaţia în care se dispune de o normă numerică sau de o medie a populaţiei nu este cea mai

frecventă în psihologie şi în alte disciplinele ştiinţifice şi experimentale. În majoritatea cazurilor se compară între ele distribuţii ale datelor provenind din două eşantioane. Faptul că nu se dispune de norme sau de medii ale populaţiei (în psihologie şi alte discipline) este legat de două particularităţi:

amplitudinea rezultatelor din domeniul psihologiei; specificitatea metodologică a studiului acestor rezultate.

Când se concepe un plan de studiu original, cu instrumente de măsură şi ipoteze originale, cercetătorul nu este în măsură de a avea la dispoziţia sa o medie a populaţiei sau chiar o anumită idee a valorii pe care aceasta trebuie să o ia. Originalitatea unui câmp de cercetare, originalitatea unei variabile independente manipulate sau originalitatea unei ipoteze teoretice propuse provin în majoritatea timpului din faptul că nimic nu a fost studiat, făcut sau propus anterior. Un cercetător nu-şi pierde timpul reluând cercetări la care concluziile se cunosc foarte bine. În situaţia în care nici o informaţie nu este disponibilă cercetătorul se vede obligat de a recurge la compararea a două eşantioane. Chiar situaţiile experimentale cele mai simple, care compară un grup de control cu un grup supus la aceleaşi condiţii experimentale ca şi grupul de control, dar afectat printr-o variabilă suplimentară, trebuie adesea să facă apel la două grupe de subiecţi, apoi de a le compara pentru a "aprecia" efectul variabilei suplimentare. Obiectivul principal este de preciza dacă două eşantioane observate pot fi considerate ca fiind extrase din aceeaşi populaţie. Testele de comparare a două medii ne dau probabilitatea de a obţine a astfel de abatere între medii, prelevând din aceeaşi populaţie două eşantioane de subiecţi. Dacă această probabilitate este rară, în general inferioară lui 5% , se consideră că eşantioanele nu provin din aceeaşi populaţie.

III.7. COMPARAREA A DOUĂ MEDII PROVENIND DIN EŞANTIOANE INDEPENDENTE Eşantioanele independente sunt eşantioanele în care indivizii care le compun (indivizi luaţi în

sens larg pentru că poate să fie vorba de persoane, de grupuri, instituţii) sunt totdeauna diferiţi sau în care alegerea unui individ într-un eşantion nu influenţează alegerea altui individ în alt eşantion. Deci, indivizi care nu pot fi afectaţi decât în unul sau altul din eşantioanele comparate.

Cazul în care varianţa populaţiei este cunoscută. Situaţie puţin frecventă în psihologie, întâlnită, totuşi în cazul replicării experienţelor sau în cazul în care se dispune de informaţii numerice provenind din precedentele studii. De asemenea, se poate estima că varianţa fiecăruia din eşantioane trebuie să aibă o asemenea valoare (provenind din studii anterioare). De asemenea, se poate estima că varianţa este constantă (aceeaşi pentru cele două eşantioane). Desigur, se presupune că aceasta se justifică teoretic şi doar responsabilitatea aceluia care face această estimaţie poate fi angajată. Formula este următoarea:

Page 29: Statistica Anul I Sem II

AUREL STAN

124

2

22

1

12

21

NN

XXz

οο+

−=

Există puţine diferenţe în comparaţie cu metoda de determinare a abaterii reduse folosite

anterior. Cazul în care varianţa populaţiei este necunoscută. În cazul în care varianţa populaţiei nu

este cunoscută sau, cel puţin, una din ele nu este cunoscută, se ia în consideraţie varianţa eşantioanelor pentru estimarea erorii standard. În acest caz trebuie să se ţină seama de mărimea eşantionului. Metoda de determinare a abaterii reduse variază după mărimea fiecărui eşantion şi tabela de probabilităţi care se aplică pentru a aprecia probabilitatea abaterii.

III.7.1. Cazul eşantioanelor mari Condiţia este ca mărimea eşantioanelor să fie mai mare de 30 şi distribuţiile acestora să se

conformeze legii normale. În acest caz se poate utiliza legea normală centrată redusă pentru a testa probabilitatea de apariţie a abaterii reduse obţinute. Indicatorul de diferenţe va fi, deci, binecunoscutul z.

z =

2

22

2

21

21

Ns

Ns

XX

+

Există puţine diferenţe între această formulă şi cea utilizată anterior. Varianţa eşantionului ia locul varianţei populaţiei.

III.7.2. Cazul eşantioanelor mici În cazul în care mărimea eşantioanelor este egală sau mai mică decât 30 şi când varianţa

populaţiei este necunoscută se estimează că repartiţia eşantioanelor diferenţelor mediilor nu mai urmează o lege normală, ci o lege t a lui Student. Concluziile se vor baza pe legea t a lui Student, funcţie de numărul gradelor de libertate care se aplică. Formula de determinare a abaterii reduse va fi în acest caz:

( ) ( )2

11*2

1*1*

121

22

212

1

21

NNNNNsNs

XXt

+−+

−+−

−=

Gradul de libertate este egal cu N1+N2-2. Să presupunem că avem două eşantioane mici independente cu următorii indicatori cunoscuţi :

1X =22, s21=3,2, N1 = 24 şi 2X =19,s22=2,6, N2=19. Vom aplica formula pentru efectuarea testului t.

T=( ) ( )

=+

=

+−+

−+−

0523,0*041,0*39

18*76,621*24,113

191

221*

219221196,2122*2,3

192222

26,392,03

304,0*05,33

304,0*94,93

304,0*39

08,3643

093,0*39

44,12804,2363

=====+

Page 30: Statistica Anul I Sem II

STATISTICĂ (II)

125

Valoarea lui t egală cu 3,26 o vom compara cu valoarea tabelară a lui t pentru un prag de risc de 0,05 pentru 39 de grade de libertate. În tabel nu vom găsi valoarea 39, ci o valoare apropiată, valoarea 40 a gradului de libertate. Observăm că valoarea tabelară găsită de noi (2,02) este mai mică decât cea calculată în testul t. Observăm, de asemenea, că valorile tabelare mai mari corespund unor praguri de risc mai mici. Concluzia: vom respinge ipoteza de nul, deci, diferenţele dintre mediile celor două eşantioane nu sunt întâmplătoare, ci se datorează intervenţiei unor factori sistematici. Formularea concluziei este următoarea: «Dacă vom respinge în mod constant ipoteza de nul în mai puţin de 5% din cazuri o respingem pe nedrept», deci, în peste 95% din cazuri respingem pe drept ipoteza de nul.

p f 0,20 0,10 0,05 0,02 0,01 0,001 0,0001 0,00001

1 2 3

……

40 2,02 2,43 2,71 3,55 4,32 5,05

III.8. COMPARAŢIA A DOUĂ MEDII PROVENIND DIN DOUĂ EŞANTIOANE ÎMPERECHIATE SAU CORELATE

În cazul acestui gen de eşantioane indivizii care le compun sunt aceeaşi în diferite etape ale prelevării măsurărilor sau posedă similitudini care se pot considera, după regruparea prin cupluri, ca echivalente (vârstă, aptitudini cognitive, funcţii ocupate). Măsurile distribuţiilor împerechiate sunt adesea calificate ca "măsuri repetate". Din acest motiv calculul diferenţelor mediilor şi a variaţiei se realizează "în interiorul" indivizilor şi nu între indivizi. Operaţiile se fac, deci, prin cupluri. După caz cuplurile se compun din aceeaşi indivizi cu două măsurători, din indivizi "asemănători", având fiecare o măsură distinctă. Se presupune că indivizii sunt extraşi în respectul tehnicii de eşantionare şi că distribuţiile diferenţelor în interiorul fiecărui cuplu se face într-un mod normal.

Cazul micilor eşantioane. Legea lui Student. Deoarece analiza se face în interiorul cuplurilor, pentru a obţine indicele (aici t) corespunzând diferenţei dintre cupluri, este suficient de a aplica formula următoare:

NsDtD

=

în care: D - media diferenţelor cuplurilor de date (suma diferenţelor între fiecare cuplu de date împărţită la numărul de cupluri de date);

Ds = 22

DND

−∑ - abaterea standard a diferenţelor.

Nu există nimic fundamental diferit cu cea ce s-a văzut în cazul comparării mediilor rezultate din eşantioane independente. Se face totdeauna raportul între abaterea mediilor şi eroarea standard asociată acestei abaterii. În cazul eşantioanelor perechi abaterea între două distribuţii nu se aplică la media distribuţiilor, ci pentru fiecare cuplu de date. Aici calculul abaterii între medii şi mai ales acela al

Page 31: Statistica Anul I Sem II

AUREL STAN

126

abaterii standard se face de la diferenţele conţinute în fiecare cuplu de date. Pentru determinarea abaterii standard, numărătorul raportului nu este altul decât suma pătratelor abaterilor tuturor diferenţelor observate în fiecare din cupluri prin raport la media acestor diferenţe.

Să presupunem că la acelaşi eşantion mic de 14 de subiecţi am aplicat un test de atenţie concentrată, înainte şi după efectuarea unei activităţi obositoare care a durat mai multe ore. Rezultatele obţinute înaintea efectuării unei sarcini foarte obositoare le vom nota cu X şi pe cele obţinute după efectuarea unei sarcini foarte obositoare le vom nota cu Y.

Ceea ce prezintă importanţă este faptul că ele provin de la aceeaşi subiecţi. Vom avea 4 etape de calcul:

1. Calcularea mediei diferenţelor:

857,31454

=== ∑N

DD

2. Calculul varianţei diferenţelor:

s2= 22

DND

−∑ = 87,1471.16857,314234 2 −=− .

s2 = 1,84 ⇒ s=1,36. 3. Calculul erorii standard a mediei diferenţelor:

s D = ===− 6,3

36,11336,1

1Ns 0,37.

4. Calculul valorii t: t =37,0

857,3=

DsD =10,42.

După ce am aflat valoarea lui t, vom compara valoarea lui t tabelar cu cea calculată de noi la un anumit prag de

risc. În cazul nostru concret pragul de risc adoptat este de 0,05 sau, exprimat procentual, 5%. Gradele de libertate se calculează după formula: f = N-1, deci f = 14–1= 13. Valoarea tabelară comparată este valoarea aflată la intersecţia liniei egală cu 13 şi a coloanei 0,05.

p f 0,20 0,10 0,05 0,02 0,01 0,001 0,0001 0,00001

1 2 3

……

13 2,16 2,65 3,01 4,22 5,51 6,96

Observăm cu uşurinţă că valoarea tabelară (2,16) este mult mai mică decât valoarea calculată de noi (10,42). Drept urmare, respingem ipoteza de nul şi adoptăm ipoteza alternativă care susţine că diferenţa dintre medii este semnificativă. În concluzie considerăm diferenţele ca fiind expresia intervenţiei unui factor sistematic.

Cazul marilor eşantioane. Număr superior lui 30 .z =

..cuplnrsDD

Nr.crt. X Y D D2

1 72 70 5 25 2 64 60 4 16 3 81 80 1 1 4 87 83 4 16 5 65 62 3 9 6 69 63 6 36 7 70 65 5 25 8 89 86 3 9 9 76 71 5 25 10 64 61 3 9 11 55 52 3 9 12 68 63 5 25 13 65 60 5 25 14 74 72 2 4

Σ 54 234

Page 32: Statistica Anul I Sem II

STATISTICĂ (II)

127

III.9. TEST CU O IEŞIRE, TEST CU DOUĂ IEŞIRI

Cunoaştem faptul că ipoteza nulă susţine faptul că mediile eşantioanelor sunt identice. Ipoteza alternativă susţine faptul că mediile sunt diferite. În fapt, se pot propune 3 ipoteze alternative:

mediile sunt diferite (ipoteza 1); media 1 este superioară mediei 2 (ipoteza 2); media 2 este superioara mediei 1 (ipoteza 3).

Principiul primului caz este acela pe care noi l-am studiat în exemplele noastre. În statistică el poarta numele de test bilateral sau test cu două ieşiri. În cazul ipotezelor 2 şi 3 se poate testa direct sensul unei diferenţe. Când există ipoteza cu un sens se spune ca este vorba de un test unilateral sau test cu o singură ieşire. Probabilitatea asociată acestui tip de test se găseşte modificată prin raport la aceea care însoţeşte un test bilateral. Testul bilateral a fost cel studiat până în prezent.

E X E R C I Ţ I I

1. Daţi exemple de populaţii statistice cu care se operează în domeniul psihopedagogic, altele

decât cele date în curs. 2. Examinarea unei populaţii de subiecţi cu un anumit test a oferit următorii parametri: µ=78,

σ=12. Calculaţi intervalul de fluctuaţie a mediei unui eşantion ce numără 45 de subiecţi, pentru pragurile de risc de 0,01; 0,05; 0,10.

3. Indicatorii unui eşantion în urma prelucrării datelor unei examinări, sunt următorii: X =49, s=8,4, N=39. Stabiliţi intervalul de fluctuaţie a mediei populaţiei din care s-a prelevat eşantionul la pragurile de încredere de 0,90; 0,95; 0,99.

4. Indivizii aceluiaşi eşantion de subiecţi au obţinut următoarele rezultate la o probă de atenţie înainte şi după o solicitare psihică intensă (X - rezultate înainte de solicitare, Y - rezultate după solicitare). Stabiliţi dacă diferenţa dintre mediile celor două serii de rezultate este semnificativă sau nu este semnificativă. Folosiţi pragul de 0,05 ca prag de risc. Precizaţi dacă infirmaţi sau confirmaţi ipoteza de nul. Cu ce fel de eşantioane lucrăm în acest caz ?

Nr.crt. X Y 1 88 83 2 73 72 3 69 68 4 82 82 5 95 93 6 77 72 7 63 62 8 67 65 9 85 79 10 73 70 11 86 84

Page 33: Statistica Anul I Sem II

AUREL STAN

128

IV. RELAŢIILE DE ASOCIERE DINTRE VARIABILE

Noţiunea de relaţie este foarte comună şi îşi găseşte întrebuinţare ori de câte ori este vorba de stabilit o legătură între două serii de fapte, seria A şi seria B. Chiar în cazul în care între cele două serii de date există o legătură accentuată nu poate fi vorba de a realiza o previziune certă în privinţa valorilor unei variabile plecând de la valorile celeilalte. Dar pot există mari şanse ca după A să apară B. Legătura dintre variabile nu se face simţită doar printr-o succesiune temporală, ci şi printr-o apariţie simultană a lui A şi B.

Descrierea relaţiilor este foarte importantă în psihologie, deoarece permite de a pune ordine în observaţiile care pot fi făcute într-o mare diversitate a domeniilor de interes ştiinţific. Exemplu, în domeniul clinic este deosebit de importantă relaţia dintre boală şi simptom. În domeniul psihologiei şcolare poate fi făcută legătura între rezultatele la două probe verbale. De asemenea, provenienţa dintr-un anumit mediu familiar (ce prezintă un specific în ceea ce priveşte nivelul cultural şi metode educative) poate fi asociată cu anumite caracteristici individuale ale copilului. De asemenea, se poate constata că, în medie, coeficientul de inteligenţă al copiilor provenind din mediile favorizate poate fi mai mare decât al celor care provin din medii defavorizate. Constatarea este valabilă doar referitor la medie, deoarece pot fi indicate cazuri în care copiii din mediile defavorizate au un coeficient de inteligenţă mai mare decât cei din mediile favorizate.

Relaţiile dintre variabile sugerează ipoteze asupra surselor de variaţie, deci, se pot constitui în suport pentru verificarea unor ipoteze cauzale. Exemplu, A poate fi una dintre cauzele lui B, şi invers, B poate fi una dintre cauzele lui A.

Statistica are un rol indispensabil, atunci când există necesitatea de a stabili când variabilele A şi B sunt ambele prezente, ambele absente, sau, când este prezentă doar una dintre ele. În absenţa unei astfel de stabiliri se riscă de a nu se raţiona decât asupra cazurilor excepţionale care vor reţine mult mai pronunţat atenţia. Exemplu, cazurile de eşec şcolar – cazuri de reuşită excepţională. Un alt aspect este cel al coincidenţei apariţiei în comun a două variabile. Exemplu, şarlatanul care pretinde a “descoperi” sexul copilului după ziua de naştere a mamei şi care în 50% din cazuri poate avea dreptate. Statistica ajută psihologul să nu se comporte ca un şarlatan. Cu ajutorul statisticii se poate stabili cât de mult observaţiile sale reale se îndepărtează de observaţiile aşteptate şi se poate verifica dacă relaţia între două variabile este slabă sau neglijabilă.

Cuvinte similare pentru relaţie sunt nonindependenţă, asociaţie, legătură stohastică, corelaţie. Nu există reguli stricte care să reglementeze folosirea acestui termen.

În majoritatea situaţiilor practice de prelucrare nu suntem în prezenţa unei singure variabile, ci a mai multora care variază împreună. Abordarea relaţiei dintre două sau mai multe variabile se face diferenţiat, în funcţie de specificul acestora şi de specificul demersului experimental. Pornind de la cele mai simple scale existente, scalele nominale, ne confruntăm cu variabile calitative, adică variabile exprimate sub forma unor atribute. Aceste atribute pot avea anumite frecvenţe în studiul pe grupuri, care accepta un anumit tratament matematic, adaptat puterii informaţionale a acestui tip de scale. În

Page 34: Statistica Anul I Sem II

STATISTICĂ (II)

129

studiul relaţiilor dintre variabilele care satisfac exigenţele scalelor ordinale şi de interval ne vom ocupa de corelaţiile simple, deoarece tratarea corelaţiilor multiple depăşeşte cadrul acestei lucrări. De fiecare dată când se studiază relaţiile dintre variabile se urmăreşte punerea în evidenţă unor legături cu stabilitate variabilă, funcţie de valoarea unor indici sau coeficienţi. Atunci când stabilim o corespondenţă dintre două variabile observăm modul în care transformarea sau modificarea unei variabile dintr-o serie are legătură cu schimbarea survenită în cealaltă serie.

IV.1. RELAŢIA ÎNTRE DOUĂ VARIABILE NOMINALE

În privinţa variabilelor care satisfac exigenţele scalelor nominale se utilizează foarte frecvent în cercetarea psihopedagogică testul 2χ (se citeşte hi pătrat). Acest test statistic poate fi utilizat şi în cazul variabilelor de interval, dar, din momentul folosirii, intervalele valorice îşi pierd caracterul ordonat crescător, devenind simple clase de partiţie.

Testul 2χ este un test introdus de Karl Pearson în anul 1904, deci are o utilizare relativ îndelungată, dacă ţinem seama de perioada temporală în care s-a acordat psihologiei statutul de ştiinţă. Variabila nominală este o variabilă calitativă care poate prezenta cel puţin două modalităţi sau categorii distincte. De exemplu, variabila sex este o variabilă calitativă care prezintă două modalităţi, masculin şi feminin. Variabila anotimp are patru modalităţi: primăvara, vara, iarna, toamna obţinute printr-o oarecare metoda de investigaţie.

Există doua feluri distincte de a folosi testul 2χ , care corespund unui anumit specific a modului de prezentare a datelor, şi anume 2χ de ajustare şi 2χ t de independenţă.

În cazul testului 2χ de ajustare suntem în prezenţa efectivelor observate ale unei singure variabile. Aceste efective sunt comparate fie cu alte efective observate, fie cu efectivele teoretice care se pot calcula în urma emiterii unei ipoteze, de obicei ipoteza de nul. În acest prim caz un cercetător poate să verifice dacă un grup de persoane (selecţionate pentru o cercetare sau un studiu) posedă aceleaşi caracteristici generale cunoscute în rândul populaţiei (cu date cunoscute în privinţa claselor de vârsta, categoriilor de sex sau provenienţei sociale etc.). Se foloseşte de asemenea când dorim să cunoaştem dacă o distribuţie de efective observate se conformează unei legi în care toate modalităţile variabilei au teoretic aceeaşi probabilitate de apariţie (echipartiţia probabilă a modalităţilor).

Formula generală de calcul pentru testul 2χ este următoarea:

χ2 = ( )∑ −ft

ftfo 2

în care cu fo s-au notat efectivele observate, cu ft efectivele teoretice sau alte efective observate.

Abaterea dintre efectivele observate sau reale şi cele teoretice (fo-ft) este ridicată la pătrat pentru a evita situaţia de anulare a sumei algebrice. Deci 2χ nu poate avea decât o valoare pozitivă, fapt care-l plasează în rândul testelor cu o singură ieşire (care presupune o singură alternativă de comparare). Avem două ipoteze la îndemână:

Page 35: Statistica Anul I Sem II

AUREL STAN

130

• Ipoteza nulă, notată cu H0. În cazul testului 2χ de ajustare această ipoteză presupune că între cele doua repartiţii de date (repartiţia empirică şi repartiţia teoretică sau între două repartiţii empirice) nu există nici o deosebire (acestea sunt identice sau nesemnificativ depărtate).

• Ipoteza alternativă H1. Susţine existenţa unei diferenţe semnificative între cele două repartiţii. Exprimarea rezultatului se face în formă probabilistică. În cazul în care se adoptă ipoteza nulă,

cea alternativă se respinge (şi invers). Valoarea numerică obţinută în urma efectuării testului 2χ se compară cu valorile unui tabel specific, care conţine valori teoretice, funcţie de gradele de libertate. Aşa cum am spus anterior, se acceptă un risc de eroare. Deci, într-un anumit număr de cazuri putem să ne înşelăm. În general, riscul de eroare acceptat este de 0,05, sau, exprimat procentual 5%, dar, în unele cazuri speciale, exigenţele pot fi mai mari sau mai mici. În cazul în care valoarea numerică obţinută în urma aplicării testului 2χ este mai mică decât cea aflată la intersecţia gradului de libertate corespunzător (vom preciza modul de calcul a acestor grade) şi pragul convenit de acceptare a ipotezei de nul (0,05) (valoare prag), atunci vom accepta ipoteza de nul şi, în consecinţă, vom accepta faptul că între cele două distribuţii de valori nu există o diferenţă semnificativă. Dacă valoarea calculată este mai mare decât valoarea prag, atunci respingem ipoteza de nul. Formularea este următoarea: „Dacă respingem în mod constant ipoteza de nul, în mai puţin de 5% din cazuri o respingem pe nedrept”. Tabelul cu valorile teoretice ale repartiţiei 2χ se află printre anexele lucrării noastre.

Cel mai ilustrativ exemplu pentru distribuţiile de efective teoretice uniforme este cel cu faţetele unui zar sau ale unei monede.

EXEMPLU PENTRU 2χ DE REPARTIŢIE. După aruncarea unei monede în sus şi căderea acesteia pe o suprafaţă plană pot rezulta două modalităţi: cap sau coroană. Dacă aruncăm în sus moneda de un număr de 60 de ori putem obţine următoarea repartiţie empirică:

Cap Coroană 28 32

Din punct de vedere teoretic fiecare din faţete are şanse egale de a fi obţinută. Ca atare, distribuţia teoretică va arăta în felul următor:

Cap Coroană 30 30

În cazul aruncării efective a zarului de 900 de ori, putem avea următoarea repartiţie empirică a faţetelor:

Faţeta 1 Faţeta 2 Faţeta 3 Faţeta 4 Faţeta 5 Faţeta 6 121 162 135 174 182 124

Distribuţia teoretică se obţine după emiterea ipotezei că fiecare faţetă are şanse egale de a apărea. Aceasta se prezintă în felul următor:

Faţeta 1 Faţeta 2 Faţeta 3 Faţeta 4 Faţeta 5 Faţeta 6 150 150 150 150 150 150

Atât în primul cât şi în al doilea exemplu observăm diferenţe între distribuţiile empirice (cele

rezultate din acţiuni practice de aruncare a unei monede sau a unui zar) şi cele teoretice (rezultate în

Page 36: Statistica Anul I Sem II

STATISTICĂ (II)

131

urma emiterii unei ipoteze privind modul de distribuire a faţetelor). În cazul primei repartiţii aplicarea formulei 2χ ne dă următorul rezultat:

( ) ( ) 26,013,013,030

303230

3028 222 =+=

−+

−=χ .

Semnificaţia rezultatului de 0,26 o vom afla prin consultarea tabelei lui Fisher pentru valori 2χ , tabelă calculată conform unor legităţi de distribuţie4. Numărul gradelor de libertate se calculează prin intermediul formulei:

f = m - 1 = 2 - 1 = 1 În această formulă f reprezintă este numărul gradelor de libertate şi m numărul de modalităţi

ale variabilei.

f P = 0,99 0,98 0,95 0,90 0,10 0,05 0,02 0,01 1 0,00016 0,00063 0,0039 0,0158 2,706 3,841 5,412 6,635

La intersecţia liniei 1 (care semnifică “un grad de libertate”) şi a coloanei 0,05 (“prag de risc

0,05”) găsim valoarea 3,84. Valoarea 2χ rezultată din calculul nostru este 0,26, valoare mult mai mică decât 3,84. În concluzie, acceptăm ipoteza de nul (între repartiţia empirică şi cea teoretică nu este o deosebire semnificativă).

Oferim, în continuare un exemplu fictiv din domeniul psihopatologic. Să presupunem că un cercetător îşi propune să analizeze relaţia dintre anotimpuri şi puseele depresive survenite în rândul unor pacienţi psihiatrici. Pentru a pune în evidenţă respectiva relaţie, cercetătorul a analizat situaţia internărilor celor cu simptome depresive la un spital de psihiatrie în funcţie de anotimp. Registrele de internare relevă următoarea situaţie în funcţie de anotimp:

Primăvara Vara Toamna Iarna 190 170 270 220

Ipotezele enunţate în studiul respectiv sunt: • H0 – ipoteza nulă susţine că nu există nici o legătură dintre anotimp şi numărul de internări a

pacienţilor depresivi. Deci, crizele depresive intervin în proporţii egale în fiecare anotimp; • H1 – Ipoteza alternativă susţine că există o legătură între anotimp şi puseele depresive. Ca atare,

în anumite anotimpuri acestea survin mai frecvent decât în altele. Dacă am da curs primei ipoteze, pe care trebuie să o confirmăm sau să o infirmăm, ar trebui

să avem următoarea situaţie în registrele de internare (această distribuţie este teoretică, deoarece rezultă în urma aplicării unei ipoteze).

Primăvara Vara Toamna Iarna 212,5 212,5 212,5 212,5

Efectivul teoretic de 212,5 din fiecare celulă rezultă din împărţirea numărului total de internări

sau a efectivului total (850) la 4 (numărul de anotimpuri existente într-un an). Un asemenea efectiv nu poate fi observat, deoarece este absurd să spunem că la un spital s-au internat 212,5 oameni.

4 Tabela lui Fisher este preluată din lucrarea lui G. Milton Smith “Ghid simplificat de statistică”, Editura Didactică şi Pedagogică, Bucureşti,1973, pag.168

Page 37: Statistica Anul I Sem II

AUREL STAN

132

Aplicăm, în continuare, formula 2χ :

( ) ( ) ( ) ( ) ( )∑ −+

−+

−+

−=

−=

5,2125,212220

5,2125,212270

5,2125,212170

5,2125,212190 22222

2

ftftfoχ

= 4,66 + 13,00 + 15,5 + 0,25 = 32,25 Având în vedere faptul că avem 4 modalităţi ale variabilei calitative anotimp vom avea 3 grade

de libertate (f=m-1). Pentru comparaţia valorii calculate căutăm valoarea tabelară 2χ , aflată la intersecţia linei 3 (deoarece avem 3 grade de libertate) şi a coloanei 0,05 (pragul de risc).

f P = 0,99 0,98 0,95 0,90 0,10 0,05 0,02 0,01 1 …….. 2 ………

3 0,297 0,429 0,711 1,0647.779 7,779 9,488 11,889 18,277 Observăm că valoarea tabelară este de 9,488, deci o valoare mai mică decât cea calculată de

noi. Observăm, de asemenea, că valoarea calculată este superioară valorilor tabelare de la coloanele 0,02 şi chiar 0,01. Concluzia statistică se exprimă în felul următor: “Dacă respingem în mod constant ipoteza de nul în mai puţin de 5% din cazuri o respingem pe nedrept şi chiar în mai puţin de 1%”. Valoarea P, în cazul nostru, este mai mică de 0,05; 0,02 şi 0,01 Graniţa dintre admiterea şi respingerea ipotezei de nul este fixată prin convenţie la 0,05.

Pentru valori P mai mici de 0,05 se respinge ipoteza de nul, pentru valori P mai mari decât 0,05 se acceptă ipoteza de nul. Exprimat altfel, putem spune că dacă valoarea calculată de noi pentru

2

χ (32,25) este mai mare decât valoarea tabelară găsită la pragul de siguranţă 0,05 (9,488) putem respinge ipoteza de nul. În caz contrar am fi acceptat ipoteza de nul. Respingerea ipotezei de nul duce automat la acceptarea ipotezei alternative. Ca atare putem să afirmăm că între anotimp şi frecvenţa de apariţie a puseelor depresive există o legătură, adică în unele anotimpuri acestea sunt mai frecvente decât în altele.

Aplicarea testului 2χ de ajustare permite o concluzie globală şi nu o analiză amănunţită a frecvenţelor modalităţilor variabilei. În cazul în care numărul de categorii se măreşte considerabil acest test statistic îşi dovedeşte limitele (printr-o apreciere prea globală). Se impune, în acest caz, de a realiza o serie de grupări ale modalităţilor variabilei sau de a le analiza două câte două.

Distribuţiile teoretice independente. Distribuţiile pentru care fiecare modalitate a variabilei posedă o probabilitate teoretică independentă de alte modalităţi se numeşte distribuţie de frecvenţe teoretice independente. Cele mai frecvente cazuri de aplicare în cercetarea psihopedagogică a testului 2χ sunt cele în care o probabilitate de apariţie este mai importantă decât alta.

EXEMPLU. Să presupunem că un cercetător este interesat de influenţa fenomenului destrămării familiale asupra eşecului adaptare a copilului la mediul şcolar. El se confruntă cu următoarea situaţie aparţinând şcolilor unui oraş.

Provenienţa copiilor Familii dezorganizate Alte situaţii Total 174 5825 5999

Page 38: Statistica Anul I Sem II

STATISTICĂ (II)

133

În derularea efortului ştiinţific cercetătorul trebuie în primul rând să ştie dacă proporţia sau procentul copiilor provenind din familii dezorganizate este aceeaşi cu aceea de la nivel naţional. Dacă la nivel naţional statisticile indică faptul că 0,05 sau 5% din copii provin din familii dezorganizate (procent imaginat) se procedează la calcularea efectivelor teoretice. Pentru alte situaţii vom avea 0,95. Pentru exprimarea procentuală înmulţim expresia procentuală cu 100. Se porneşte de la ipoteza că proporţia sau procentajul copiilor care provin din familii dezorganizate din şcolile respectivului oraş trebuie să fie aceeaşi ca la nivel naţional.

Efectiv teoretic pentru copiii provenind din familii dezorganizate: 5999×0,05=299,95. Deci, dacă s-ar respecta proporţia situaţiei de la nivel naţional efectivul teoretic al copiilor provenind din familii dezorganizate ar trebui să fie 299,25 (se va ţine cont de faptul că este un efectiv teoretic, deoarece în practică este absurd să afirmăm că există 299,25 copii în această situaţie). Pentru alte situaţii efectuăm următorul calcul: 5999×0,95=5699,05. Am mai putea să procedăm astfel: 5999-299,95=5699,05. Efectivul teoretic pentru alte situaţii va fi 5699,05.

Aplicăm formula pentru 2χ : ( ) ( ) 08,5578,230,5205,5699

05,5699582595,299

95,299174 22

=+=−

+− .

Gradele de libertate în acest caz este egal cu 1 (2-1). La pragul de 0,05 găsim valoarea tabelară egală cu 3,841, iar la pragul de risc de 0,01 găsim valoarea tabelară de 6,635. Valoarea calculată pentru 2χ este mai mare decât cele două valori tabelare. Practic putem spune că respingem ipoteza de nul şi adoptăm ipoteza alternativă. Concluzia este aceea că efectivele de copii care provin din familii dezorganizate sunt diferite semnificativ de cele care se găsesc la nivel naţionale.

În multe situaţii variabila poate avea mai mult de două modalităţi. Să presupunem că un manager doreşte să cunoască dacă situaţia studiilor muncitorilor angajaţi la firma pe care o conduce este conformă proporţiilor existente pe plan naţional. Să presupunem că situaţia studiilor muncitorilor din întreprindere s-ar prezenta astfel:

Nr.crt. Modalităţi ale variabilei studii Efectiv Proporţie naţională 1 Fără nici o diplomă 10 0,04 (4%) 2 Diplomă de şcoală generală 17 0,09 (9%) 3 Şcoală generală +calificare de 6 luni. 164 0,40 (40%) 4 Şcoală generală + şcoală prof. de 2 ani 129 0,29 (29%) 5 Diplomă de liceu + scoală prof. de 2 ani 70 0,12 (12%) 6 Studii superioare + şcoală prof. de 2 ani 10 0,06 (6%)

Total 400 1,00 (100%)

Pentru a afla efectivele teoretice în vederea comparării celor doua serii de date înmulţim efectivul real din întreprindere cu proporţia existentă la nivel naţional. Obţinem următorul tabel:

Nr.crt. Modalităţi ale variabilei studii Efectiv observat Efectiv teoretic

1 Fără nici o diplomă 10 16 (400×0,04) 2 Diplomă de şcoală generală 17 36 (400×0,09) 3 Şcoală generală +calificare de 6 luni. 164 160 (400×0,40) 4 Şcoală generală + şcoală prof. de 2 ani 116 129 (400×0,29) 5 Diplomă de liceu + scoală prof. de 2 ani 70 48 (400×0,12) 6 Studii superioare + şcoală prof. de 2 ani 10 24 (400×0,06)

Total 400 400

Page 39: Statistica Anul I Sem II

AUREL STAN

134

În paranteză, la rubrica Efectiv teoretic este trecută procedura de obţinere a acestora.

Din calculul2χ pătrat rezultă:

( ) ( ) ( ) ( ) ( ) ( )=

−+

−+

−+

−+

−+

−24

241048

4870116

116129160

16016436

361716

1610 222222

= 3,6 + 10 + 0,1 + 1,45 + 10 +8,16 =33,31. Pentru pragul de semnificaţie 0,05 şi pentru 5 grade de libertate (f = 6–1) găsim o valoare

tabelară egală cu 18,19. Deoarece valoarea de 31,31 obţinută prin calcul nostru este mai mare decât valoarea tabelară vom respinge ipoteza de nul şi vom conchide că distanţa dintre cele două serii de valori este una semnificativă. Distribuţia empirică nu se ajustează cu cea teoretică.

Testul 2χ de independenţă 2χ de independenţă stabileşte, în cazul confirmării ipotezei nule, independenţa între două variabile studiate. În cazul contrar, ipoteza alternativă afirmă existenţa unei legături între modalităţile celor două variabile. Practic se testează faptul dacă variaţiile repartiţiilor provin de la un factor sistematic sau nu. Tabelul încrucişat al celor două variabile poartă numele de tabel de contingenţă.

Să luăm cazul unor variabile cu statut diferit. Să presupunem că dorim să verificăm ipoteza influenţei sexului asupra preferinţelor şcolare ale adolescenţilor. Un număr de 192 de adolescenţi (90 de băieţi şi 102 fete) sunt chestionaţi în privinţa preferinţei pentru un anumit gen de discipline. Rezultatele sunt expuse în tabelul următor:

Băieţi Fete Total Discipline umaniste 42 58 100 Discipline exacte 48 44 92 Total 90 102 192

De această dată avem în studiu două variabile, cu câte două modalităţi fiecare. Variabila sex are modalităţile băieţi şi fete şi variabila preferinţa pentru un anumit gen de discipline are modalităţile discipline umaniste şi discipline exacte.

Cu un risc de 0,05 se doreşte de a se şti dacă există o legătură între sexul adolescenţilor şi preferinţa pentru anumite categorii de discipline. În acest caz avem 6 distribuţii: 2 distribuţii marginale şi 4 distribuţii parţiale.

Distribuţiile marginale sau totale sunt: • distribuţia marginală a sexului adolescenţilor: 90 de băieţi şi 102 fete; • distribuţia marginală a preferinţelor pentru discipline: 100 de preferinţe pentru discipline

umaniste şi 92 de preferinţe pentru discipline exacte. Distribuţiile parţiale sunt:

• distribuţia parţială băieţilor în funcţie de preferinţe: 42 de preferinţe pentru discipline umaniste şi 48 de preferinţe pentru discipline exacte;

• distribuţia parţială a fetelor în funcţie de preferinţe: 58 de preferinţe pentru discipline umaniste şi 44 preferinţe pentru discipline exacte;

• distribuţia parţială a preferinţei pentru disciplinele umaniste în funcţie de sex (42 băieţi şi 58 de fete);

• distribuţia parţială a preferinţei pentru disciplinele tehnice în funcţie de sex (48 de băieţi si 44 de fete).

Page 40: Statistica Anul I Sem II

STATISTICĂ (II)

135

Dacă băieţii şi fetele ar avea preferinţe egale pentru disciplinele umaniste şi tehnice am avea următoarea repartiţie teoretică, în cazul emiterii ipotezei de nul:

Băieţi Fete Total Discipline umaniste 46,87 53,13 100 Discipline exacte 43,13 48,87 92 Total 90,00 102 192

Dacă comparăm efectivele marginale de la tabelul efectivelor observate şi a celor teoretice observăm că acestea sunt identice. Modul de raţionament în cadrul emiterii ipotezei de nul este următorul: „În total avem 192 subiecţi dintre care 90 de băieţi şi 102 fete. Exprimându-ne sub formă

procentuală putem spune că din totalul subiecţilor chestionaţi băieţii reprezintă 46,87% ( 10019290

× ) şi

fetele 53,13% (putem face acelaşi fel de calcul sau putem să efectuăm scăderea 100% - 46,87%). Înseamnă că dacă preferinţele băieţilor nu diferă de cele ale fetelor, disciplinele respective vor fi preferate în funcţie de aceste procente”.

Efectivele teoretice se pot obţine la linia Discipline umaniste prin înmulţirea valorii marginale egală cu 100 cu 0,4687, respectiv cu 0,5313. Efectivele teoretice de la linia Discipline exacte se pot obţine prin înmulţirea valorii marginale egală cu 92 cu 0,4687, respectiv cu 0,5313.

După ce am calculat efectivele teoretice putem aplica formula pentru 2χ :

( ) ( ) ( ) ( ) 48,055,044,050,088,48

88,484412,43

12,434813,53

13,535887,46

87,4642 2222

+++=−

+−

+−

+− =1,97

Formula pentru gradele de libertate în pentru testul 2χ de independenţă este: f = (c-1)*(l-1), în care prin c desemnăm numărul de coloane ale tabelelor (în număr de două) şi prin l numărul de linii (de asemenea, în număr de două). Din aplicarea formulei privind gradele de libertate rezultă:

f = (2 – 1)*(2 – 1) = 1 Valoarea de 1,97 o comparăm cu valoarea tabelară găsită la intersecţia liniei cuprinzând un

grad de libertate şi coloanei pentru pragul de semnificaţie egal cu 0,05. Valoarea de la această intersecţie este egală cu 3,84 deci o valoare mai mare decât cea

calculată de noi pentru 2χ , egală cu 1,97. În acest caz acceptăm ipoteza de nul, deci, diferenţele de preferinţe în privinţa disciplinelor şcolare nu sunt semnificative. Efectivele teoretice se pot calcula şi în alt mod. Reluăm exemplele date de noi anterior.

Distribuţie observată Distribuţie teoretică

Băieţi Fete Total Băieţi Fete Total Discipline umaniste 42 58 100 Discipline umaniste 46,87 53,13 100

Discipline exacte 48 44 92 Discipline exacte 43,13 48,87 92 Total 90 102 192

Total 90 102 192

Efectivul corespunzător unei celule din tabelul teoretic de contingenţe se calculează mult mai uşor prin împărţirea produsului dintre efectivele marginale ale unei celule la efectivul total al unei celule (în cazul nostru 192). O celulă are două efective marginale: unul în linie şi altul în coloană. Pentru

celula din stânga sus (valoare observată=42) facem următorul calcul: 87,46192

90100=

×

Page 41: Statistica Anul I Sem II

AUREL STAN

136

Distribuţie teoretică Băieţi Fete Total Discipline umaniste 46,87 → 100 Discipline exacte ↓ Total 90 192

Pentru celula din dreapta sus (valoare observata 58) calculăm astfel:

13,53192

102100=

x ; pentru celula din stânga jos (valoare observată 48) facem următorul calcul:

;12,43192

9290=

x pentru celula din dreapta jos (valoare observată 44) facem următorul calcul:

88,48192

10292=

x . S-a oferit ca exemplu cel mai simplu model care poate exista în testul 2χ de

independenţă. Se pot construi tablouri de genul: • 2x3 (o variabilă cu 2 modalităţi şi o alta cu 3 modalităţi); • 3x4 (o variabilă cu 3 modalităţi şi o alta cu 4 modalităţi).

Când numărul de modalităţi creşte apar dificultăţi rezultate din globalizare. Existenţa unei legături nu înseamnă că această legătură se regăseşte în fiecare pereche.

IV.2. RELAŢIA DINTRE DOUĂ VARIABILE ORDINALE În privinţa şirurilor de valori ordonate ale unei variabile ordinale sunt folosite în principal două

procedee de relaţionare statistică prin intermediul coeficienţilor. Există un coeficient de concordanţă creat de Kendall şi un coeficientul de corelaţie introdus la începutul secolului XX de Spearman.

Coeficientul lui Kendall se obţine prin aplicarea următoarei formule: K=)1(

2−nnT . El se bazează pe

sistemul diferenţei rangurilor în cazul a două clasificări. Este evident faptul că acest coeficient intervine atunci când se operează cu clasificări făcute de doi evaluatori în procesul de observare a unor aspecte comportamentale sau de altă natură.

EXEMPLU. Să presupunem că doi evaluatori (specialişti care întocmesc locul în cadrul unor clasificări) sunt în situaţia de a evalua un număr de 10 comportamente indezirabile social (exemplu de astfel de comportamente: comportament A – aşezarea în faţa unei cozi la un anumit magazin; comportament B – manifestare zgomotoasă la o adunare pioasă etc.). Se cere celor doi evaluatori să ordoneze comportamentele notate cu A,B,C,D,E,F,G,H,I,J, în privinţa intensităţii dezapreciative resimţite pentru astfel de comportamente. Numărul 1 îl va primi comportamentul considerat cel mai negativ.

K= 42,09038

90192

)110(10)3213(2

)1(2

===−+−

=−

xnnT

În formulă K desemnează coeficientul Kendall, T suma algebrică de la rubricile notate ci “–” şi “+”, n numărul cazurilor care se cer apreciate, în cazul nostru numărul comportamentelor.

Page 42: Statistica Anul I Sem II

STATISTICĂ (II)

137

Comportamentul Evaluator X Evaluator Y – + A B C D E H 1 4 3 6 B 2 2 1 7 G 3 1 0 7 J 4 7 3 3 I 5 3 0 5 C 6 8 2 2 D 7 10 3 0 A 8 6 1 1 E 9 5 0 1 F 10 9 0 0

Total -13 +32

Prima coloană cuprinde codificările comportamentelor indezirabile social, în funcţie de ordonarea primului evaluator. Această ordonare, în ordinea naturală a numerelor, este trecută în coloana B. În coloana C sunt trecute rangurile atribuite de către cel de-al doilea evaluator comportamentelor notate cu A,B,C,D,E,F,G,H,I,J. Coloanele D şi E cuprind cifre notate cu “–”, respectiv “+”. Să vedem în ce condiţii se acordă punctaj pentru rubrica “–” şi în ce condiţii se acordă punctaj pentru “+”. Vom da explicaţii pentru coloana C în care valorile nu sunt trecute în ordine naturală. Comportamentul notat cu H ocupa în clasamentul întocmit de evaluatorul X locul 1 şi în cel întocmit de evaluatorul Y locul 4. Cu cifre mai mici pe coloana C se găsesc notate comportamentele G,B si I (notate cu 1,2,3), pentru care se primeşte punctajul -3, câte un punct negativ pentru fiecare numerotare inferioară valorii 4. Notări superioare valorii 4 au comportamentele J,C,D,A,E,F, deci punctajul +6 provine din acordarea a câte unui punct pentru fiecare numerotare mai mare decât 4. Comportamentul B are rangul 2, deci are o valoare mai mică decât el, motiv pentru care a fost notat cu –1 şi 7 valori mai mari decât el, motiv pentru care i se acordă punctajul +7. Pentru a nu exista nelămuriri în privinţa acordării punctajului + 7 (deoarece diferenţa între 10 şi 2 este egală cu 8), menţionăm că valorile alocate nu se mai consideră în calcule. Astfel, valoarea 4 a fost alocată odată. Pentru calculul valorilor “+” ale comportamentului G, care a primit rangul 1 (se mai foloseşte expresia “rangat cu 1”) nu se mai consideră comportamentele H şi B, rangate cu 4, respectiv 2.

După ce epuizăm toate variantele posibile cu astfel de stabiliri, efectuăm suma algebrică a valorilor “+” şi “–” În cazul nostru, T= –13+32 = +19. Aplicarea formulei ne dă rezultatul:

K= 42,09038

)110(10192

==−

x . Coeficientul K a lui Kendall poate lua valori între –1 (când seriile de valori

sunt complet inversate, deci cel mai bun într-un clasament este cel mai slab în celălalt clasament) şi +1 (când există concordanţă deplină între cele două clasamente).

Cu această formulă intrăm practic în domeniul corelaţiilor. O corelaţie exprimă gradul relaţiei între două sau mai multe variabile. În experimentele psihologice, mai ales, aceste proceduri statistice sunt destul de des întâlnite. Tot la fel de des se întâlneşte şi o serie de confuzii şi neclarităţi în privinţa valorii lor. Pe parcursul lucrării de faţă vom prezenta informaţii detaliate despre valoarea şi limitele corelaţiilor, dar acum ne vom opri asupra corelaţiei în cazul a două serii de valori aparţinând la două variabile ordinale. Formula a fost elaborată de cunoscutul teoretician Charles Spearman:

ρ = )1(

*61 2

2

−− ∑

nnd

Page 43: Statistica Anul I Sem II

AUREL STAN

138

în care d reprezintă diferenţa dintre rangurile rezultatelor la cele două variabile diferite şi n reprezintă numărul total de cazuri. Formula se poate aplica şi pentru două variabile de interval la care a intervenit o operaţie de rangare.

Oferim un exemplu în privinţa modului de calcul a coeficientului de corelaţie Spearman. Să presupunem că avem la dispoziţie rezultatele unui număr de 15 subiecţi la o proba de atenţie (AD-Praga) şi la o probă de dexteritate manuala (O'Connor). Prin X vom nota rezultatele la proba de atenţie şi prin Y rezultatele la proba de dexteritate manuală.

Nr.crt. X Y RX RY d d2

1 47 6 13.5 14,5 - 1 1 2 52 9 11 12 - 1 1 3 75 17 2 1,5 0,50 0,25 4 81 10 1 10,5 - 9,50 90,25 5 66 11 5,5 8,5 - 3 9 6 39 7 16 13 2 4 7 47 6 13,5 14,5 - 1 1 8 55 11 10 8,5 1,50 2,25 9 61 17 6 1,5 6,50 42,25 10 70 13 3 5 - 2 4 11 66 12 5,5 6,5 - 1 1 12 49 14 12 4 8 64 13 59 10 9 10,5 - 1,5 2,25 14 63 12 7 6,5 0,50 0,25 15 69 15 4 3 1 1 Σ 223,50

Coloana notată cu X conţine valorile variabilei X, coloana notată cu Y valorile variabilei Y.

Coloanele notate cu RX şi RY conţin rangurile acordate celor 15 valori ale variabilelor X şi Y. Cum se acordă aceste ranguri? Vom exemplifica pe valorile variabilei X. În coloana RX rangul 1 îl va avea cea mai mare valoare a variabilei. Dacă privim în coloana notată cu X observăm că această valoarea este 81. Rangul 2 este acordat valorii 75, a doua valoare în ordine descrescătoare. Se continuă în acest fel până când se ajunge la rangul 15. În cazul când avem 2 valori identice se trece în dreptul fiecăreia media rangurilor crescătoare pe care le-am fi atribuit dacă valorile nu ar fi fost egale. De exemplu, cele două valorile 66 ar fi avut rangurile 5 şi 6. Fiecare valoare 66 a variabilei X primeşte rangul 5,5. Dacă am fi avut 3 valori identice media r fi fost efectuată din trei ranguri. Rangul următor care se alocă după 5,5 este 7 şi nu 6 (deoarece se consideră că rangul 6 a fost acordat odată).

Coloana notată cu d conţine diferenţa algebrică dintre valorile coloanelor RX şi RY (d = RX – RY). Coloana d2 conţine pătratele valorilor din coloana d. Suma valorilor din coloana d2 este egală cu 223,50. După calcularea acestei sume putem calcula coeficientul de corelaţie ρ a lui Spearman.

Din aplicarea formulei rezultă:

ρ = 1- 601,0399,01336013411

)115(1550,223*6

2 =−=−=−

.

Acest gen de corelaţii se foloseşte mai ales atunci când numărul de subiecţi este mic (sub 50 de perechi de valori). Coeficientul de corelaţie Spearman poate lua valori între –1 şi +1, trecând prin valoarea 0,00. Semnificaţiile vor fi explicate la tratarea coeficientului de corelaţie Bravais-Pearson.

Page 44: Statistica Anul I Sem II

STATISTICĂ (II)

139

IV.3. RELAŢIA ÎNTRE DOUĂ VARIABILE DE INTERVAL

Acest gen de corelaţii se întâlnesc frecvent în cercetarea psihopedagogică, atunci când dorim să ştim dacă rezultatele a două teste variază împreună într-un anumit gradient sau când dorim să ştim acelaşi lucru în privinţa a două serii de date, dintre care una reprezintă rezultatele unui test, iar alta rezultatele unui criteriu (care reprezintă rezultatele şcolare sau rezultatele randamentului cuantificat într-o profesie pentru care s-au folosit teste psihologice în procesul de selecţie profesională). În cazul unei corelaţii de valoare înaltă putem prevedea performanţele profesionale ale subiecţilor sprijinindu-ne pe rezultatele de la teste.

Să luăm, de exemplu, rezultatele folosite de noi la calculul coeficientului de corelaţie bazat de diferenţa de rang, presupunând, de această dată, că ele ar satisface exigenţele unei scale de interval:

Nr.crt. X Y x y x2 y2 xy 1 47 6 - 12,93 - 5,93 167,18 24,81 68,92 2 52 9 - 7,93 - 2,39 62,88 5,43 18,48 3 75 17 15,07 5,67 227,10 32,15 85,45 4 81 10 21,07 - 1,33 443,94 1,77 - 28,02 5 66 11 6,07 - 0,33 36,84 0,11 - 2,00 6 39 7 - 20,93 - 4,33 438,06 18,75 90,63 7 47 6 - 12,93 - 5,33 167,18 24,41 68,92 8 55 11 - 4,93 - 0,33 24,30 0,11 1,63 9 61 17 1,07 5,67 1,14 32,15 6,07 10 70 13 10.07 1,67 101,40 2,79 16,82 11 66 12 6,07 0,67 36,84 0,45 4,07 12 49 14 - 10,93 2,67 119,46 7,13 - 29,18 13 59 10 - 0,93 - 1,33 0,86 1,77 1,24 14 63 12 3,07 0,67 9,42 0,45 2,06 15 69 15 9,07 3,67 82,26 13,47 33,29 Σ 899 170 1918,93 173,39 338,33

Formula de calcul pentru coeficientul de corelaţie Bravais-Pearson este următoarea:

rxy = ∑ ∑∑

22 * yx

xy

în care cu rxy se notează coeficientul de corelaţie prin momentul produselor, cu x şi y se notează variabilele de deviaţie. O altă formă în care se poate exprima această formulă este:

rxy = yx ssn

xy**

La această formulă cu n se notează numărul total de pereche de rezultate luate în consideraţie, cu sx şi sy se notează abaterile standard ale distribuţiilor valorilor variabilei X, respectiv Y.

Pentru a putea realiza un tabel în vederea calculării coeficientului de corelaţie prin momentul produselor sau coeficientul Bravais–Pearson trebuie, în primul rând să calculăm mediile celor două distribuţii de valori.

Astfel, 93,5915899

=== ∑N

XX şi 33,11

15170

=== ∑N

YY . Rubricile x şi y, conţinând aşa

numitele valori de deviaţie, sunt realizate prin scăderea din variabilele originale X şi Y a valorii mediilor

Page 45: Statistica Anul I Sem II

AUREL STAN

140

distribuţiilor respective. Rubricile x2 şi y2 sunt realizate prin ridicarea la pătrat a valorilor de deviaţie x şi y, iar rubrica xy prin înmulţirea valorilor de deviaţie ale celor două variabile. Ultima linie a tabelului conţine valorile sumelor necesare pentru calcularea coeficientului de corelaţie Bravais-Pearson. Coeficientul de corelaţie Bravais Pearson este notat, de obicei, cu r, dar în multe cazuri găsim notaţia rxy, pentru a preciza denumirea variabilelor aflate în corelaţie.

rxy = 587,021,5763,338

27,3327233,338

39,173*93,19183,338

===

Observăm că valoarea corelaţiei este foarte apropiată de cea calculată prin procedeul Spearman. Menţionăm că procedeul Bravais–Pearson prezintă mai multă încredere în privinţa preciziei.

Pentru date negrupate există încă o formulă uzuală care foloseşte valorile brute ale variabilelor

şi are următoarea formă: rxy=( )[ ] ( )[ ]∑ ∑∑ ∑∑ ∑ ∑

−−

−2222 * YYNXXN

YXXYN.

Aplicarea acestei formule presupune un necesar de calcule mai mare.

Corelaţiile între valorile a două variabile pot lua valori între –1,00 si +1,00 trecând, firesc, prin 0. Valorile corelaţiile egale +1 şi –1 indică corelaţii perfecte şi sunt foarte rar întâlnite în cadrul distribuţiilor empirice. Valoarea unui coeficient de corelaţie egală cu 0 indică o lipsă a legăturii de asociere între valorile celor două variabile. 1,00 indică o consonanţa perfectă între două serii de valori provenind de la aceiaşi subiecţi. Tendinţei de creştere valorică dintr-o serie îi corespunde o creştere strict proporţională în cealaltă serie Valoarea coeficientului de corelaţie egală cu –1 indică, de asemenea, o consonanţă perfectă, dar care se manifestă în sens invers; cu cât valorile unei serii cresc, cu atât valorile celeilalte serii scad în aceeaşi proporţie. Corelaţia nulă, adică egală cu 0, nu ne spune nimic despre tendinţele existente între cele două serii de valori (pur si simplu pentru că nu este nimic de spus). Valorile imediat superioare sau inferioare valorii 0 a coeficientului de corelaţie conturează o tendinţă vagă între cele două serii de date. În cazul unor studii care-şi propun doar conturarea slabă a unor tendinţe de asociere a valorilor şirurilor de date, astfel de corelaţii pot avea o anumită importanţă. Dar, în majoritatea situaţiilor funcţionează exigenţe de semnificaţie a indicelui de corelaţie. Semnificaţia

poate fi calculată prin intermediul tabelelor t ale lui Student (t=212

rnr−

− ) sau prin intermediul tabelelor

legii r a lui Bravais Pearson. În ambele tabele se caută semnificaţia în limita gradelor de liberate (f=n-2). Vom calcula valoarea t pentru ultima valoarea obţinută a coeficientului de corelaţie.

t =22 587,01

215*587,01

2*−

−=

rnr 61,2

809,011,2

656,06,3*587,0

344,0113*587,0

===−

=

Vom stabili semnificaţia acestei valori a lui t prin apelarea la tabela lui Student, adoptând pragul de risc de 0,05 şi 13 grade de libertate.

p f 0,20 0,10 0,05 0,02 0,01 0,001 0,001 0,0001

1 2

……..

13 2,16 2,65 3,01 4,22 5,51 6,96

Page 46: Statistica Anul I Sem II

STATISTICĂ (II)

141

Valoarea calculată de noi este mai mare decât valoarea tabelară aflată la intersecţia liniei care desemnează 13 grade de liberate şi coloanei care indică pragul de risc egal cu 0,05. Această constatare ne indică faptul că ne aflăm în faţa unei corelaţii semnificative şi deci p<0,05. Dacă valoarea calculată ar fi fost mai mică de 2,16 atunci am fi avut p>0,05 şi corelaţia ar fi fost considerată nesemnificativă. Ce înseamnă faptul declarării unei corelaţii drept semnificative. Înseamnă că în legătura acestor două variabile intervine un factor sistematic, înseamnă că legătura lor nu este întâmplătoare. Fireşte ne asumăm un risc de 5%, adică putem greşi în aprecierea noastră în 5 cazuri din 100.

Există în rândul anumitor cercetători tendinţa de entuziasmare în faţa unor coeficienţi de corelaţie de bun nivel. Desigur, studiile de stabilire a indicelui (sau coeficientului) de corelaţie au raţiuni clare şi un folos de netăgăduit. Dar, nu trebuie să uităm faptul că un coeficient de corelaţie nu reprezintă altceva decât proporţia varianţei comune existente la cele două serii de date.

De asemenea, merită de amintit faptul că indicii de corelaţie nu pot fi apreciaţi direct în privinţa proporţionalităţii. După aparenţe, o corelaţie de 0.40 este de două ori mai mică decât o corelaţie de 0.80. Pentru a ne putea face o impresie adecvată va trebui să comparăm pătratele valorilor respectivilor coeficienţi, care sunt 0.16 si 0.64. Aceste pătrate traduc o disproporţie de 1 la 4, şi nu de 1 la 2, cum apărea iniţial.

În cazul stabilirii unui coeficient de corelaţie nu putem să stabilim clar relaţii de cauzalitate între variabila X şi variabila Y. Dacă seriile de date X şi Y au un coeficient de corelaţie înalt nu putem preciza dacă X este cauza lui Y, dacă Y este cauza lui X, sau dacă atât X cât şi Y sunt influenţate de o a treia variabilă, Z.

IV.4. ECUAŢIILE DE REGRESIE Domeniul regresiei este unul vast în domeniul statisticii. Noi vom trata elementar acest

concept. Este util să facem o precizare, şi anume că acest termen de regresie nu are un sens negativ de retrograd, înapoiat, ci desemnează doar o serie de tehnici de prognoză în domeniul statisticii. Cunoscând valoarea unui coeficient de corelaţie între seriile de valori ale variabilelor X şi Y se poate realiza o prognoză asupra valorii unei variabile pornind de valoarea corespunzătoare cunoscută a celeilalte variabile (necunoscută). Această prognoză se poate realiza cu ajutorul ecuaţiei de regresie a lui X în Y şi a ecuaţiei de regresie a lui Y în X. Linia de regresie sau linia maximei ajustări a norului de puncte din diagrama unei corelaţii este o linie care trebuie să îndeplinească o condiţie esenţială, şi anume ca suma pătratelor distanţei dintre linie şi punctele norului să fie un minim. Ecuaţiile de regresie ale respectivelor drepte sunt următoarele:

Page 47: Statistica Anul I Sem II

AUREL STAN

142

1. ECUAŢIA DREPTEI DE REGRESIE A LUI X CĂTRE Y: ybx x *~ =

În această ecuaţie (exprimată în variabile de deviaţie) XXx −= ~~ şi YYy −= . Dacă ţinem seama de aceste ultime egalităţi putem să scriem ecuaţia dreptei de regresie a lui X către Y în felul următor:

( ) XYYbX x +−= *~ , în care X~ este estimarea variabilei X şi bx este coeficientul de regresie a lui X

în raport cu Y. Acest coeficient are următoarea formulă: bx = rxy*y

x

ss , în care sx este abaterea standard

a valorilor seriei X şi sy este abaterea standard a seriei de valori Y. şi rxy este coeficientul de corelaţie între valorile variabilei X şi valorile variabilei Y. Notaţiile X, YX ,

r sunt cunoscute din explicaţiile noastre

anterioare. 2. ECUAŢIA DREPTEI DE REGRESIE A LUI Y ÎN RAPORT CU X: xby y *~ =

în care YYy −= ~~ , YYy −= . Făcând înlocuirile necesare obţinem: ( ) YXXbY y +−=~

Coeficientul de regresie a lui Y în raport cu X este:x

yxyy s

srb *=

Vom exemplifica bazându-ne pe datele ultimului tabel realizat pentru calcularea coeficientului de corelaţie prin momentul produselor. Pentru calcularea coeficienţilor de regresie avem nevoie de valorile

abaterilor standard ale distribuţiilor. Formula abaterii standard a seriei de date x este: sx =Nx∑ 2

.

Folosind valorile de la tabelul amintit vom avea: sx = 31,1192,12715

93,1918== . Pentru datele

seriei Y valoarea abaterii standard se calculează astfel: 39,359,1115

39,1732

==== ∑Nx

sy .

Deoarece cunoaştem valoarea coeficientului de corelaţie prin momentul produselor (0,587), putem trece la calcularea coeficienţilor de regresie.

bx = ==39,331,11*587,0*

y

xxy s

sr 95,133,3*587,0 =

by = 175,029,0*587,031,1139,3*587,0* ===

x

yxy s

sr

Să presupunem că dorim să estimăm valoarea pe care un subiect ar obţine-o un subiect la variabila Y în momentul în care ştim că valoarea variabilei X este egală cu 64. Facem precizarea că ne referim la datele trecute în tabelul pentru calcularea coeficientului de corelaţie prin momentul produselor). Calculele de efectuat sunt următoarele:

( ) ( ) 14,1233,11712,033,1107,4*175,033,1193,5964175,0~ =+=+=+−=+−= YXXbY y . Deci, atunci când un subiect ar obţine la variabila X rezultatul de 64 se estimează pentru Y un rezultat de aproximativ 12.

Să presupunem că dorim să estimăm valoarea pe care un subiect ar obţine-o un subiect la variabila X în momentul în care ştim că valoarea variabilei Y este egală cu 8. Calculele de efectuat sunt următoarele:

( ) ( ) ( ) 43,5393,5949,693.5933,3*95,193,5933,11895,1~ =+−=+−=+−=+−= XYYbX x . Deci, ne vom aştepta ca la variabila X subiectul să obţină aproximativ 54.

Page 48: Statistica Anul I Sem II

STATISTICĂ (II)

143

O situaţie particulară în calcularea coeficientului de corelaţie avem atunci când ne aflăm în prezenta a două şiruri de date, din care unul este compus din variabile continue sau discrete polihotomice, iar altul din variabile binare (valori 0 şi 1). O astfel de situaţie o întâlnim atunci când dorim să calculăm coeficientul de corelaţie între rezultatele globale obţinute de subiecţi la un test şi rezultatele aceloraşi subiecţi la un item exprimat dihotomic.

În tabelul care urmează redăm un exemplu de acest specific. Tabelul cuprinde rubrici necesare calculării indicatorilor existenţi în formulă:

Nr.crt. X (rezultat global la test) x x2 Y (rezultat item) 1 15 - 0,33 0,11 1 2 19 - 3,67 13,47 0 3 17 - 1,67 2,79 1 4 13 - 2,33 5,43 0 5 21 5,67 31,15 1 6 20 4,67 21,81 0 7 12 - 3,33 11,09 1 8 10 - 5,33 21,41 0 9 11 - 4,33 18,75 0 10 17 1,67 2,79 1 11 13 - 2,33 5,43 1 12 16 0,67 0,45 1 13 12 - 3,33 11,09 0 14 15 - 0,33 0,11 1 15 19 3,67 13,47 1 Σ 230 167,30 9

Coeficientul de corelaţie realizat între aceste două serii de date se numeşte coeficient de

corelaţie biserial punctat. Facem o menţiune în privinţa celei de-a doua serii de date, adică cea exprimată sub forma de 0 si 1. În cazul în care ne aflăm în prezenţa unui item aparţinând unui test de randament valoarea 1 reprezintă rezolvarea corectă a unei sarcini şi valoarea 0 nerezolvarea acestei sarcini. În cazul chestionarelor de personalitate valoarea 1 reprezintă răspunsul care pune în evidenţă trăsătura specificată în manualul chestionarului sau în titlul chestionarului, iar nota 0 lipsa acestei trăsături. Aceeaşi întrebare poate fi punctată diferit în funcţie de scopul testului sau mai bine zis de destinaţia sa psihodiagnostică.

EXEMPLU la întrebarea: „Îţi este frică să traversezi o piaţă imensă?” se poate acorda nota 1 la răspunsul "da" în cazul în care chestionarul îşi propune să diagnosticheze anxietatea şi nota 0 în cazul în care chestionarul îşi propune să stabilească echilibrul emotiv şi stabilitatea comportamentală. Formula coeficientului de corelaţiei biserial punctat este următoarea:

pqs

XXr

x

qppbis *

−=

în care pX este media aritmetică a variabilei continue a subiecţilor care au primit la item valoarea 1, iar

qX este media aritmetică a variabilei continue a subiecţilor care au obţinut la item nota 0; sx este abaterea standard a întregii serii de date continue; p este proporţia acelor subiecţi care au rezolvat corect itemul sau care au răspuns în sensul evidenţierii trăsăturii specificate în titlul testului; q = 1 - p, deci proporţia acelor subiecţi care nu au rezolvat corect itemul sau care nu au răspuns în sensul specificat în titlul chestionarului de personalitate.

Page 49: Statistica Anul I Sem II

AUREL STAN

144

1.169

191516131712211715=

++++++++=pX

1.146

121110201319=

+++++=qX

p = 9/15 = 0.6; q = 1–p = 1–0.60 = 0.40; 33.1515230

==X ;

sx = 33,315,1115

30,1672

===∑Nx

.

După ce avem toate datele la dispoziţie putem trece la calcularea coeficientului de corelaţie biserial punctat.

29,049,0*60,040,0*60,0*33,3

1,141,16** ==−

=−

= qps

XXr

x

qppbis .

Valoarea de 0,29 a unei corelaţii i indică o slabă asociere între valorile itemului şi rezultatele de ansamblu ale testului.

În analiza de itemi suntem puşi în situaţia de a efectua corelaţii între itemii unui test pentru a indica gradul de omogenitate a acestora. Desigur, dacă corelaţia dintre doi itemi este egală cu 1,00 ne putem pune întrebarea dacă îi putem menţine pe ambii în cadrul unui test psihologic. Raţiunile relaţionării itemilor sunt mult mai extinse şi formează domeniul de interes a teoriei testului psihologic sau, pentru o mai mare claritate, a unei părţi a teoriei testului, şi anume a analizei de itemi. Formula pentru calcularea coeficientului ϕ sau a coeficientului celor 4 câmpuri (pentru itemii i şi j cu exprimarea

dihotomică a rezultatelor) este următoarea: ϕ =qjpqp

ppp

jii

jiij

*−

.

O altă variantă este:

φ = jjii

jiij

pppp

ppp22 *

*

−−

−.

Formula se referă la doi itemi: itemul i şi itemul j. În această formulă pij reprezintă proporţia răspunsurilor punctate cu 1 comune itemilor i si j, pi proporţia itemilor punctaţi cu 1 la itemul i şi pj proporţia itemilor punctaţi cu 1 la itemul j. qi = 1- pi şi qj = 1 – pj.

Să presupunem că la un test de inteligenţă aplicat pe 15 subiecţi avem următoarea repartiţie a răspunsurilor la itemii i şi j, itemi cu punctare dihotomică (vezi tabelul alăturat).

Avem toate datele la dispoziţie pentru aplicarea formulei de calcul a coeficientului φ.

Φ = 21,0239,0052,0

499,0*48,0052,0

53,0*47,0*40,0*60,053,0*6,0266,0

****

−=−=−

=−

=−

jjii

jiij

qpqpppp

Corelaţia obţinută este o corelaţie mică, cu valoare negativă. Semnifică o uşoară inversiune a tendinţelor de creştere valorile a celor doi itemi.

Nr.crt. Item i Item j Concordanţă 1 1 0 2 1 1 + 3 1 0 4 0 1 5 0 0 6 1 1 + 7 1 0 8 1 0 9 0 1 10 0 1 11 1 0 12 0 0 13 1 1 + 14 0 1 15 1 1 + Σ 9 8 4 P pI = 0,60 pj = 0,53 pij = 0,266 Q qI = 0,40 qI = 0,47

Page 50: Statistica Anul I Sem II

STATISTICĂ (II)

145

E X E R C I Ţ I I

1. Să presupunem că la absolvire elevii unui liceu au fost întrebaţi asupra preferinţei pentru anumite tipuri de

învăţământ universitar pe care ar dori să le urmeze. Răspunsurile au fost înregistrate separat pentru fete şi băieţi. Rezultatele sunt trecute în următorul tabel:

Se cer următoarele răspunsuri: Precizaţi variabilele; Precizaţi modalităţile variabilelor; Precizaţi distribuţiile parţiale şi distribuţiile marginalele; Stabiliţi efectivele teoretice; Precizaţi dacă aceste variabilele sunt dependente sau independente prin folosirea procedeului χ2.

2. Se dau următoarele serii de valori constituite din rezultatele la două teste psihologice.

Să se stabilească coeficienţii de corelaţie prin procedeele elaborate de Bravais-Pearson şi Charles Spearman. Precizaţi semnificaţia acestui coeficient de corelaţie!

Fete Băieţi Total Învăţământ artistic 45 27 72 Învăţământ medical 50 53 103 Învăţământ politehnic 21 63 84 Învăţământ umanist 45 29 74 Învăţământ agronomic 15 25 40 Total 176 197 373

Nr.crt. X Y 1 14 56 2 17 60 3 27 72 4 35 69 5 22 73 6 28 80 7 30 78 8 19 65 9 26 76 10 19 72 11 33 81

BIBLIOGRAFIE

▪ Andrei ,T., Stancu, S., Statistică - Teorie şi aplicaţii, Editura All, Bucureşti, 1995 ▪ Clocotici, V., Stan, A., Statistică aplicată în psihologie, Editura Polirom, Iaşi, 2000 ▪ Gueguen, N., Manuel de statistique pour psychologues, Dunod, Paris, 1997 ▪ Milton-Smith, G., Ghid simplificat de statistică pentru psihologie şi pedagogie, Editura didactică şi

pedagogică, Bucureşti, 1971 ▪ Nowak, A., Metode cantitative în psihologie şi sociologie, Oscar Print, Bucureşti, 1998 ▪ Porojan, D., Statistica şi teoria sondajului, Casa de editură “Şansa” SRL, Bucureşti 1993 ▪ Reuchlin, M., Precis de statistique, Presses Universitaires de France, Paris, 1975 ▪ Rotariu,T., Metode statistice aplicate în ştiinţele sociale, Polirom, Iaşi, 1999 ▪ Ţarcă, M., Tratat de statistică aplicată, Editura didactică şi pedagogică, R.A. Bucureşti, 1998 ▪ Vasilescu, I.P., Statistică informatizată pentru ştiinţe despre om, Editura Militară, Bucureşti, 1991

Page 51: Statistica Anul I Sem II

AUREL STAN

146

TABELUL LUI FISHER DE VALORI χ2

f P = 0,99 0,98 0,95 0,90 0,10 0,05 0,02 0,01 1 0,00016 0,00063 0,0039 0,0158 2,706 3,841 5,412 6,635 2 0,0201 0,0404 0,103 0211 4,605 5,991 7,824 9,210 3 0,115 0,185 0,352 0,584 6,251 7,815 9,837 11,345 4 0,297 0,429 0,711 1,064 7,779 9,488 11,668 13,277 5 0,554 0,752 1,145 1,610 9,236 11,070 13,388 15,086 6 0,872 0,134 1,635 2,204 10,645 12,592 16,622 16,812 7 1,239 0,564 2,167 2,833 12,017 14,067 16,622 18,475 8 1,646 2,032 2,733 3,490 13,362 15,507 18,168 20,090 9 2,088 2,532 3,325 4,168 14,684 16,919 19,679 21,666 10 2,558 3,059 3,940 4,865 15,987 18,307 21,161 23,209 11 3,053 3,609 4,575 5,578 17,275 19,675 22,618 24,725 12 3,571 4,178 5,226 6,304 18,549 21,026 24,054 26,217 13 4,107 4,765 5,892 7,042 19,812 22,362 25,472 27,688 14 4,660 5,368 6,571 7,790 21,064 23,685 26,873 29,141 15 5,229 5,985 7,261 8,547 22,307 24,996 28,259 30,578 16 5,812 6,614 7,962 9,312 23,542 26,296 29,633 32,000 17 6,408 7,255 8,672 10,085 24,769 27,587 30,985 33,409 18 7,015 7,906 9,390 10,875 25,989 28,869 32,346 34,805 19 7,633 8,567 10,117 11,651 27,204 30,144 33,687 36,191 20 8,260 9,237 10,851 12,448 28,412 31,410 35,020 37,566 21 8,897 9,915 11,591 13,240 29,615 32,671 36,343 38,932 22 9,542 10.600 12,338 14,041 30,813 33,924 37,659 40,289 23 10,196 11,293 13,091 14,848 32,007 35,172 38,968 41,638 24 10,856 11,992 13,848 15,659 33,196 36,415 40,270 42,980 25 11,524 12,697 14,611 16,473 34,382 37,652 41,566 44,314 26 12,198 13,409 15,379 17,292 35,563 38,885 42,856 45,642 27 12,879 14,125 16,151 18,114 36,741 40,113 44,140 46,263 28 13,565 14,847 16,928 18,839 37,916 41,337 45,419 48,278 29 14,256 15,574 17,708 19,768 39,087 42,557 46,693 49,588 30 14,953 16,306 18,493 20,599 40,256 43,773 46,962 50,892 F P=0,99 0,98 0,95 0,90 0,10 0,05 0,02 0,01

Page 52: Statistica Anul I Sem II

STATISTICĂ (II)

147

TABELUL t A LUI STUDENT

p f

0,20 0,10 0,05 0,02 0,01 0,001 0,0001 0,00001

1 3,08 6,31 12,71 31,82 63,66 636,63 63663,8 62725,7 2 1,89 2,92 4,30 6,97 9,93 31,60 100,00 316,39 3 1,64 2,36 3,18 4,54 5,84 12,93 28,00 60,42 4 1,54 2,13 2,78 3,75 4,61 8,61 15,55 27,78 5 1,48 2.02 2,57 3,37 4,03 6,87 11,18 17,90 6 1,44 1,95 2,45 3,14 3,71 5,96 9,08 13,56 7 1,42 1,90 2,37 3,00 3,50 5,41 7,89 11,22 8 1,40 1,86 2,31 2,90 3,36 5,04 7,12 9,78 9 1,39 1,84 2,26 2,82 3,25 4,78 6,59 8,83 10 1,37 1,81 2,23 2,77 3,17 4,59 6,21 8,15 11 1,37 1,80 2,20 2,72 3,11 4,44 5,92 7,65 12 1,36 1,78 2,18 2,68 3,06 4,32 5,51 7,26 13 1,35 1,77 2,16 2,65 3,01 4,22 5,36 6,96 14 1,35 1,76 2,15 2,63 2,98 4,14 5,24 6,71 15 1,34 1,76 2,13 2,60 2,95 4,07 5,13 6,50 16 1,34 1,75 2,12 2,58 2,92 4,02 5,04 6,33 17 1,34 1,74 2,11 2,57 2,90 3,97 4,97 6,19 18 1,33 1,74 2,10 2,55 2,88 3,92 4,90 6,06 19 1,33 1,73 2,10 2,54 2,85 3,89 4,84 5,95 20 1,33 1,73 2,09 2,53 2,83 3,85 4,78 5,86 21 1,33 1,72 2,08 2,52 2,82 3,82 4,74 5,77 22 1,32 1,72 2,08 2,51 2,81 3,79 4,74 5,70 23 1,32 1,72 2,07 2,50 2,80 3,77 4,69 5,63 24 1,32 1,71 2,07 2,49 2,80 3,75 4,66 5,57 25 1,32 1,71 2,06 2,49 2,70 3,73 4,62 5,51 26 1,32 1,71 2,06 2,48 2,78 3,71 4,59 5,46 27 1,32 1,71 2,05 2,47 2,77 3,69 4,56 5,42 28 1,31 1,70 2,05 2,47 2,77 3,68 4,53 5,37 29 1,31 1,70 2,05 2,46 2,76 3,66 4,51 5,34 30 1,31 1,70 2,04 2,46 2,75 3,65 4,48 5,30 31 1,31 1,70 2,04 2,45 2,75 3,64 4,46 5,27 32 1,31 1,70 2,04 2,45 2,74 3,62 4,44 5,24 33 1,31 1,69 2,04 2,45 2,74 3,61 4,42 5,21 34 1,31 1,69 2,03 2,44 2,73 3,60 4,41 5,18 35 1,31 1,69 2,03 2,44 2,73 3,59 4,39 5,16 36 1,31 1,69 2,03 2,44 2,72 3,58 4,37 5,13 37 1,31 1,69 2,03 2,43 2,72 3,58 4,36 5,11 38 1,31 1,69 2,03 2,43 2,71 3,57 4,35 5,09 39 1,31 1,69 2,02 2,43 2,71 3,56 4,33 5,07 40 1,31 1,69 2,02 2,43 2,71 3,55 4,32 5,06

Page 53: Statistica Anul I Sem II

AUREL STAN

148

TABELA LEGII NORMALE REDUSE (PROBABILITĂŢI BILATERALE)

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 1,00000 0,99202 0,98404 0,97607 0,96809 0,96012 0,95216 0,94419 0,93624 0,92829 0,1 0,92034 0,91241 0,90448 0,89657 0,88866 0,88076 0,87288 0,86501 0,85715 0,84931 0.2 0,84148 0,83367 0,82587 0,81809 0,81033 0,80259 0,79486 0,78716 0,77948 0,71182 0,3 0,76418 0,75656 0,74897 0,74140 0,73386 0,72634 0,71885 0,71138 0,70395 0,69654 0,4 0,68916 0,68181 0,67449 0,66720 0,65994 0,65271 0,64552 0,63836 0,63123 0,62413 0,5 0,61708 0,61005 0,60306 0,59611 0,59920 0,58232 0,57548 0,56868 0,59191 0,55519 0,6 0,54851 0,54186 0,53526 0,52869 0,52217 0,51569 0,50925 0,50286 0,49650 0,49019 0,7 0,48393 0,7770 0,47152 0,46539 0,45930 0,45325 0,44725 0,44130 0,43539 0,42953 0,8 0,42371 0,4]794 0,41222 0,40654 0,40091 0,39532 0,38979 0,38430 0,37886 0,37347 0,9 0,36812 0,36282 0,35757 0,35237 0,34722 0,34211 0,33706 0,33205 0,32709 0,32217 1,0 0,31731 0,31250 0,30773 0,30301 0,29834 0,29372 0,29914 0,28462 0.28014 0,27571 1,1 0,27133 0,26700 0,26271 0,25848 0,25429 0,25014 0,24605 0,24200 0,23800 0,23405 1,2 0,23014 0,22628 0,22247 0,21870 0,21498 0,21130 0,20767 0,20408 0,20055 0,19705 1,3 0,19360 0,19020 0,18684 0,18352 0,18025 0,17702 0,17383 0,17069 0,16759 0,16453 1,4 0,16151 0,15854 0,15561 0,15272 0,14987 0,14706 0,14429 0,14156 0,13887 0,13662 1,5 0,13361 0,13104 0,12851 0,12602 0,12356 0,12114 0,18876 0,11642 0,11411 0,11183 1,6 0,10960 0,10740 0,10523 0,10310 0,10101 0,09894 0,09691 0,09492 0,09296 0,09103 1,7 0,08913 0,08727 0,08543 0,0363 0,08186 0,08012 0,07841 0,07673 0,07508 0,07345 1,8 0,07186 0,07030 0,06876 0,06725 0,06577 0,06431 0,06289 0,06148 0,06011 0,05876 1,9 0,05743 0,05613 0,05486 0,05361 0,05238 0,05118 0,05000 0,04884 0,04770 0,4659 2.0 0,00450 0,04443 0,04338 0,04236 0,04135 0,4036 0,03940 0,03845 0,03753 0,03662 2,1 0,03573 0,03486 0,03401 0,03317 0,03235 0,03156 0,03077 0,03001 0,02926 0,02852 2,2 0,02781 0,02711 0,2034 0,02575 0,02509 0,02445 0,02382 0,02321 0,02261 0,02202 2,3 0,02145 0,02089 0,02034 0,01981 0,01928 0,01877 0,01827 0,01779 0,01731 0,01685 2,4 0,01640 0,01595 0,01552 0,01510 0,01469 0,01429 0,01389 0,01351 0,01314 0,01277 2,5 0,01242 0,01207 0,01174 0,01141 0,01109 0,01077 0,01047 0,01017 0,00988 0,00960 2,6 0,00932 0,00905 0,00879 0,00854 0,00829 0,00805 0,00781 0,00759 0,00736 0,00716 2,7 0,00693 0,00673 0,00653 0,00653 0,00614 0,00596 0,00578 0,00561 0,00544 0,00527 2,8 0,00511 0,00495 0,00480 0,00465 0,00451 0,00437 0,00424 0,00410 0,00398 0,00385 2,9 0,00373 0,00361 0,00350 0,00339 0,00328 0,0318 0,00308 0,00298 0,00288 0,00279 3,0 0,00270 0,00261 0,00253 0,00245 0,00237 0,00269 0,0221 0,00214 0,00207 0,00200 3,1 0,00194 0,00187 0,00181 0,00175 0.00169 0,00163 0,00158 0,00152 0,00147 0,00142 3,2 0,00137 0,00133 0,00128 0,00124 0,00120 0,00115 0,00111 0,00108 0,00108 0,00100 3,3 0,00097 0,00093 0,00090 0,00087 0,00084 0,00081 0,00078 0,00075 0,00072 0,00070 3,4 0,00067 0,00065 0,00063 0,00060 0,00058 0,00056 0,00054 0,00052 0,00050 0,00048 3,5 0,00047 0,00045 0,00043 0,00042 0,00040 0,00039 0,00037 0,00036 0,00034 0,00033 3,6 0,00032 0,00031 0,00029 0,00028 0,00027 0,00026 0,00025 0,00024 0,00023 0,00022 3,7 0,00022 0,00021 0,00020 0,00019 0,00018 0,00018 0,00017 0,00016 0,00016 0,00015 3,8 0,00014 0,00014 0,00013 0,00013 0,00012 0,00012 0,00011 0,00011 0,00010 0,00010 3,9 0,00010 0,00009 0,00009 0,00008 0,00008 0,00008 0,0007 0,00007 0,00007 0.00007 4,0 0,0006 0,0006 0,0006 0,00006 0,00005 0,00005 0,00005 0,00005 0,00005 0,00004