statisticĂ__În__psiholpgie-s_ii
TRANSCRIPT
1
STATISTICĂ ÎN PSIHOLPGIE
1. Obiectul disciplinei
Prezentarea, cunoaşterea şi utilizarea pachetului de programe SPSS pentru prelucrarea datelor experimentale. Prezentarea şi utilizarea unor teste statistice.
2. Desfăşurarea disciplinei
Curs 2 ore / săptămână Laborator 1 oră laborator / săptămână
3. Programa analitică a cursului
Prezentarea pachetului de programe SPSS---------------------------------------------8 ore Funcţii, ferestre, meniuri, etape ------------------------------------------2 ore Baze de date. Crearea unei baze de date SPSS-------------------------2 ore Operaţii de transformare a variabilelor----------------------------------1 ore Organizarea datelor pentru analiză---------------------------------------1 ore Statistici descriptive şi teste statistice cu SPSS-------------------------2 ore
Statistică inferenţială--------------------------------------------------------------------10 ore Elmente de teoria sondajelor-----------------------------------------------2 ore Elemente de teoria estimaţiei----------------------------------------------2 ore Ipoteze statistice-------------------------------------------------------------2 ore Distribuţia (repartiţia) normală (curba lui Gauss) ----------------------2 ore Distribuţiile t (Student), HI patrat, Fisher-Snedecor--------------------2 ore
Testarea ipotezelor statistice------------------------------------------------------------8 ore
Teste statistice-------------------------------------------------------------2 ore Testarea valorilor de sondaj aberante----------------------------------2 ore Teste de concordanţă-----------------------------------------------------2 ore Teste de comparare-------------------------------------------------------2 ore
Analiză dispersională ----------------------------------------------------------------2 ore
2
4. Programa analitică a laboratorului în semestrul II Testarea ipotezelor statistice în SPSS: prezentare generală -----------------2 ore
Testele de comparare a mediilor în SPSS (testele t)--------------------------4 ore
Testele de comparare a proporţiilor în SPSS (testul Chi-pătrat)------------2 ore
Analiza de corelaţie SPSS-ul. Coeficienţi de corelaţie ----------------------2 ore
Analiza de varianţă în SPSS -----------------------------------------------------2 ore
Prezentarea proiectului de cercetare --------------------------------------------2 ore
5. Evaluare Prezenţă la curs-------------------------------------------------------------------------10 % Activitate la laborator------------------------------------------------------------------10 % Proiect------------------------------------------------------------------------------------20 % Verificare pe parcursul semestrului--------------------------------------------------30 % Examen final----------------------------------------------------------------------------30 %
6. Bibliografie Drăghicescu I., Probabilităţi – Statistică – Psihologie - Investigaţie, Editura
I.N.I., Bucureşti, 2000. Gheorghiu D, Statistică pentru Psihologi,Editura Trei, Bucureşti, 2004. Popa M., Statistică pentru Psihologie. Teorie şi aplicaţii SPSS, Editura
Polirom, Bucureşti, 2008. Pachetul de programe SPSS.
3
Cursul nr. 1 Statistică în psihologie
Prezentarea generală a pachetului de programe SPSS
Introducere
SPSS (Statistical Package for the Social Sciences) este unul dintre cele mai
performante pachete de programe având ca destinaţie prelucrări şi analize statistice în
ştiinţe sociale.
Deşi mai există şi alte pachete de programe cu aceeaşi destinaţie, SPSS-ul se
detaşează ca structură şi performanţe.
SPSS-ul a fost conceput în anul 1965 la Universitatea din Stanford, California, SUA.
De-a lungul timpului a cunoscut numeroase îmbunătăţiri, în prezent ajungându-se la
versiunea 16.0. Anual sau cel mult la doi ani apare o nouă versiune.
Toate versiunile sub Windows oferă, în general, aceleaşi funcţii de bază.
Structural, SPSS-ul se aseamănă cu cu sistemele de gestionare a datelor de tip Excel,
Acces etc.
SPSS-ul este un program a cărui funcţionalitate este asigurată de modulele sale, cele
mai importante fiind:
Base System
Tables
Advanced Models
Complex Samples
Classification Trees
Regression Models Categories
Trends
Conjoint
Missing Values Analysis
Exact Tests etc.
4
De mare importanţă este programul SPSS Text Analysis for Surveys pentru analiza
răspunsurilor la chestionare.
Cunoaşterea operării în Windows constituie o bază importantă pentru operarea în
SPSS.
Pentru crearea şi prelucrarea datelor, utilizarea testelor parametrice şi neparametrice,
SPSS-ul pune la dispoziţia utilizatorului modulul Base System.
Variabilitate şi variabile în psihologie
Variabilele sunt mărimi ale căror valori se schimbă sub influenţa
diferiţilor factori.
Definiţie. Se numeşte variabilă, orice caracteristică a uni subiect sau
fenomen care poate lua două sau mai multe valori, în funcţie de diferiţi
factori.
Studiul conduitelor psihologice constituie un domeniu de mare
variabilitate.
În domeniul psihologic, variabilitatea poate fi :
intraindividuală, ceaa ce înseamnă că aceeaşi persoană, în acelaşi
context, reacţionează diferit.
interindividuală, ceea ce înseamnă că persoane diferite, în aceiaşi
situaţie, reacţionează diferit.
5
Prin extensie, se poate vorbi de variabilitate:
intragrup
intergrup
Pentru a studia comportamentul uman putem folosi conceptele:
variabilă
măsurare
Pentru prelucrarea datelor se pot utiliza metode statistice.
În psihologie, pentru a studia un subiect sau un grup de subiecţi se
utilizează
explorări sistematice
explorări specifice.
Datele pe care le prelucrează un psiholog provin din metode de
investigaţie specifice:
experiment
test
observaţie
chestionar
convorbire psihologică
anchetă psihologică etc.
6
Exemple de variabile în psihologie:
inteligenţa
atenţia
reflexele
timpul de reacţie
anxietatea
vârsta
înălţimea
greutatea etc.
Cercetarea psihologică are ca obiectiv studierea variabilelor, cu scopul
de a explica diferitele caracteristici ale realităţii psihice şi
comportamentului uman.
Din punct de vedere al observării, în psihologie, avem:
variabile observate, care pot fi măsurate, cuantificate. De
exemplu, vârsta.
variabile latente, care nu pot fi măsurate direct. Pentru a realiza
o cuantificare se utilizează anumiţi indicatori, ca de exemplu
chestionare cu diferite întrebări. Răspunsurilor la întrebări li se
atribuie puncte. De exemplu inteligenţa.
7
Din punct de vedere al legăturilor, avem:
variabile dependente, măsurate cu scopul fundamentării unei
decizii.
variabile independente, utilizate pentru a studia influenţa şi
efectele asupra variabilelor dependente.
Exemple:
1. Verificarea ipotezei că bărbaţii nefumători trăiesc mai mult decât
fumătorii. În acest exemplu, variabila dependentă este vârsta, iar
variabila independentă este statutul de fumător sau nefumător.
2. Ooboseala şi atenţia în conducerea unui automobil. Ţinând seama
că oboseala influenţează atenţia, atunci atenţia este variabila
dependentă, iar oboseala este variabila independentă.
Un alt tip este acela de variabilă categorială, atunci când valorile
acesteia descriu categorii.
Variabile categoriale pot fi:
de tip nominal, sunt acele variabile care realizează o descriere,
de exemplu, genul (masculin, feminin), temperamentul etc.
de tip ordinal, sunt acele variabile care indică o măsurare
ordonată, ca de exemplu, categoria 1 de vârstă (1-7 ani), 2 (8-15 ani)
etc.
8
Din punct de vedere al valorilor pe care le poate lua:
variabile continue, ceea ce înseamnă că pot lua un număr infinit
de valori, exprimat prin numere reale.
Exempu: greutatea.
variabile discrete, ceea ce înseamnă că pot lua un număr finit de
valori, de regulă exprmat prin numere întregi.
Exemplu: numărul persoanelor dintr-o comunitate.
Măsurarea în psihologie
Stevens, în anul 1946, în lucrarea „On the theory of scale of
measurement” definea măsurarea ca fiind „atribuirea de valori
numerice obiectelor şi fenomenelor, în conformitate cu anumite
reguli”.
Problema care se pune este că nu toate măsurările au caracter numeric.
Psihicul uman nu este de natură cantitativă, dar manifestările sale pot
fi cuantificate pentru a fi utilizate metode ştiinţifice care să permită o
analiză a comportamentului.
Pentru prelucrări statistice este nevoie de abordări cantitative în ceea
ce priveşte abilităţile şi caracteristicile psihologice: trăsături de
personalitate, opinii, atitudini, motivaţii, stări emoţionale etc.
9
Dacă se măsoară greutatea şi înălţimea unui grup de sportivi se vor
atribui nişte numere care înseamnă Kg şi respectiv centimetri.
Dacă se evaluează alte caracteristici precum culoarea ochilor,
apartenenţa religioasă etc. atunci putem asocia valori convenţionale
pentru fiecare: 1 pentu negru, 2 pentru căprui, 3 pentru albastru etc.
În cazul în care se studiază alte caracteristici precum inteligenţa,
viteza de recţie, stări emoţionale etc. este nevoie de alte unităţi de
măsură şi de o altă modalitate de atribuire a numerelor.
În timp ce înălţimea, greutatea etc sunt caracteristici fizice care se pot
măsura, trăsăturile de natură psihică precum inteligenţa, viteza de
reacţie, sociabilitatea etc. sunt constructe abstracte care descriu
caracteristici ale conduitei umane pentru care trebuie să găsim
instrumente de măsură.
Caracteristicile de natură fizică pot fi măsurate direct, în timp ce
constructele de natură psihică nu pot fi măsurate decât prin
manifestările lor particulare.
Prin urmare, în ceea ce priveşte studierea comportamentului uman,
măsurarea este considerată ca un proces prin care varietatea infinită a
observaţiilor umane este redusă la o descriere sub formă numerică sau
simbolică, ceea ce presupune că reprezintă anumite regularităţi
semnificative la nivelul entităţilor observate.
10
În psihologie, entităţile supuse măsurării pot fi:
cantitative, de natură fizică : indicatori fiziologici (înălţimea,
greutata etc.), vârsta, timpul de reacţie etc.
calitative, constructe psihice (de exemplu: inteligenţa, opinia,
atitudini, motivaţia, stări emoţionale, sociabilitatea etc.
Constructele psihice nu pot fi măsurate direct, ci numai prin
manifestările lor particulare.
De exemplu, sociabilitatea se manifestă prin numărul contactelor
sociale într-o anumită perioadă, prin disponibilitatea de a comunica,
prin numărul prietenilor, prin numărul convorbirilor telefonice etc.
Se observă că un construct psihic are mai mulţi indicatori, ceea ce
înseamnă că o evaluare cantitativă se poate realiza numai prin
identificarea indicatorilor care-l compun, urmată de cuantificarea
gradului de intensitate a acestora la nivelul persoanelor evaluate.
Considerăm exemplul constructului psihic sociabilitatea, care nu poate
fi măsurat direct; ca variabilă este latentă, iar indicatorii care o
definesc sunt variabile observate.
În cazul în care pentru evaluarea sociabilităţii se utilizează
chestionarul, variabilele observate sunt întrebările, iar variabila latentă
este numărul obţinut prin însumarea răspunsurilor.
11
Scale sau niveluri de măsurare
În funcţie de cantitaea de informaţie pe care o reprezintă valorile
obţinute în urma procesului de măsurare, se disting patru niveluri sau
scale, ordonate ierarhic, de la nivelul de măsurare cel mai redus până
la nivelul de măsurare cel mai ridicat.
Nivelul superior include criteriile nivelelor ierarhice inferioare.
Scala de tip nominal. Măsurarea pe scală nominală constă în
organizarea obiectelor supuse cercetării în diferite clase sau categorii.
Valorile sau simbolurile dintro clasă diferă între ele dar nu se compară
dacă sunt mai mici sau mai mari.
De exemplu, oamenii, după culoarea pielii pot fi clasificaţi în patru
categorii: albi, galbeni, mulatri şi negri. Culorile pot fi codificate cu A,
G, M, N sau cu numerle 1,2,3 şi respectiv 4. În această situaţie,
valorile respective sunt simboluri ale caracteristicii culoarea pielii, iar
numărul 4 nu reprezintă nici mai mult nici mai puţin decât numărul 1.
Codificările de mai sus sun arbitrare, iar prin convenţie pot fi înlocuite
cu altele.
Variabilele măsurate pe scale nominale pun în evidenţă diferenţele
calitative şi nu pe cele cantitative.
12
Valorile de pe scala nominală pot fi:
de identificare, utilizate pentru codificarea, culegerea,
organizarea şi prelucrarea datelor. Nu prezintă interes din punct de
vedere statistic. De exemplu, codul numeric personal se utilizează
pentu identificarea persoanei.
categoriale, utilizate în repartizarea obiectelor supuse cercetării
în clase sau categorii în funcţie de caracteristici. De exemplu, genul
(masculin, feminin), pregătirea profesională (analfabet, şcoală
generală, liceu, licenţă, masterat, doctorat etc.), tipuri temperamentale
etc. sunt valori categoriale.
Valorile măsurate pe scala nominală sunt calitative, descriind
categorii, ceea ce înseamnă că nu li se pot aplica operaţii numerice.
Cu aceste valori pot efectua:
operaţii descriptive, ca de exemplu numărare, procente etc.
transformări privind gruparea sau rafinarea categoriilor pe care
le descriu.
De exemplu, apartenenţa religioasă cu patru categorii( catolic, ortodox,
musulman şi budist) poate fi fi grupată în două pe criteriul
creştinismului.
De asemenea, cele patru categorii temperamentale(sanguin, coleric,
flegmatic, melancolic) pot fi grupate în două, pe criteriul extraverte
13
(persoanele sanguine şi colerice) şi introverte (persoanele flegmatice
şi melancolice).
Reducerea sau rafinarea numărului de categori nominale se utilizează
în situaţia în care numărul categoriilor este foarte mare , fiind greu de
analizat sau cînd numărul de cazuri pentru unele categorii ete foarte
mic sau zero.
Scală de tip ordinal. Valorile de pe această scală pot fi comparate din
punct de vedere al locului pe care-l ocupă. Din acest punct de vedere
au o semnificaţie cantitativă, dar, în esenţă, ele sunt calitative.
De exemplu, dacă vorbim de seriozitatea unor persoane, codificată de
la 1 la 5 (5 fiind nivelul celmai ridicat), valorile 1, 2, 3, 4, 5 exprimă
doar ordinea aprecierii şi nu măsura, Nu se poate spune că persoanele
de pe locul 5 sunt de cinci ori mai serioase decît cele de pe locul 1.
Scala de tip ordinal indică faptul că persoanele de pe locul 5 sunt mai
serioase decât persoanele de pe locul 4, fără a şti cu cât. Nu ştim dacă
diferenţa între 5 şi 4 este egală cu cea dintre 2 şi 1din punct de vedere
al seriozităţii.
În concluzie, valorile de tip ordinal ne indică o ierarhizare a valorilor
unor caracteristici sau preferinţe, fără a preciza care este „diferenţa de
cantitate” a caracteristicii măsurate.
Codificarea valorilor de tip ordinal trebuie să perimită ierarhizarea.
14
Valorile de tip ordinal au semnificaţie calitativă şi nu cantitativă.
Scală de tip interval. Variabilele de pe această scală, pe lângă
informaţii privind ordinea, oferă şi informaţii privind mărimea
caracteristicii măsurate.
Valorile de tip interval sunt cantitative, reprezentate pe un interval cu
diviziuni egale.
De exemplu, temperatura măsurată într-un număr de zile se exprimă în
grade reprezentate pe un interval, având subdiviziuni egale, din grad
în grad. Se poate aprecia că întro zi a fost mai cald sau mai frig decât
în cealaltă.
Un alt exemplu, coeficientul de inteligenţă măsurat în funcţie de
numărul de răspunsuri corecte la întrebările dintr-un chestionar: 30 de
răspunsuri corecte, 20, 15 ş.a.m.d.
Nu se poate emite ipoteza că persoanele care au dat 30 de răspunsuri
corecte sunt de două ori mai inteligente decât cele care au dat 15,
deoarece nu avem o valoare de referinţă faţă de care să facem
comparaţia.
Pentru persoanele care se ţin de mână intrun parc 20 de minute,
respectiv 30 de minute, diferenţa de iubire nu este aceeaşi cu diferenţa
între 30 şi 20 de minute.
15
Scală de tip raport. Valorile exprimate pe o asemenea scală, pe lângă
egalitatea intervalelor, se raportează la o valoare zero absolută. Nu se
admit valori mai mici decât zero.
Exemple: timpul, vîrsta, numărul de răspunsuri corecte sau greşite la
un chestionar etc.
Observaţie. Diferenţa între variabilă şi scală constă în aceea că
variabila se referă la o caracteristică supusă măsurării, iar scala la
modalităţi de măsurare şi reprezentare. În unele cazuri, aceeaşi
caracteriszică poate fi măsurată pe orice tip de scală.
De exemplu, atenţia poate fi exprimată pe o scală nominală(atent,
neatent), pe o scală ordinală (atenţie scăzută, medie, mare şi foarte
mare) sau pe o scală interval (intervale de timp corespunzătoare
gradului de atenţie).
Analog se poate exemplifica şi timpul de reacţie.
Când se vorbeşte de măsurarea unor caracteristici sau de valorile unei
variabile trebuie precizată şi scala.
16
Funcţiile de bază în SPSS
Pachetul de programe SPSS dispune de următoarele funcţii:
Funcţii pentru editarea datelor:
- construirea bazelor de date
- transformări ale variabilelor
Funcţii pentru prelucrarea statistică a datelor
- statistici descriptive
- teste de semnificaţie
Funcţii pentru prezentarea rezultatelor sub formă numerică sau grafică
Funcţii pentru realizarea unor proceduri proprii de prelucrare sau de
modificare a procedurilor standard SPSS.
Ferestre/domenii de lucru în SPSS
Interfaţa SPSS rezervă fiecărei funcţii o fereastră. La lansarea programului se deschid
automat două ferestre:
Fereastra Data Editor, rezervată editării datelor
Fereastra Viewer, rezervată afişării rezultatelor.
Trecerea de la o fereastră la alta se face astfel:
din meniul SPSS/Window, prin alegerea ferestrei dorite
utilizând butoanele din bara de comenzi directe a ferestrei SPSS
utilizând butoanele barei din partea de jos a ecranului.
Fereastra de editare a datelor Data Editor
La lansarea programului SPSS se deschide automat fereastra de editare a datelor
Data Editor, care permite afişarea datelor stocate.
17
Data Editor permite vizualizarea datelor, introducerea unora noi sau modificarea
acestora.
Fereastra Data Editor are două componente: Data View şi Variabile View.
Fereastra Data View are caracteristicile unei ferestre Window obişnuite, cu structura:
pe coloane sunt variabilele, de exemplu datele despre subiecţii respectivi
pe linii sunt cazurile, de exemplu subiecţii.
Fereastra Variable View este utilizată pentru crearea şi editarea variabilelor.
Trecerea în această fereastră se face prin acţonarea tab-ului corespunzător din colţul
stânga jos al ferestrei SPSS.
Se afişează un tabel cu mai multe coloane având următoarea semnificaţie:
prima coloană conţine numărul cazului
Name –numele variabilelor
Type – tipul variabilelor
Width – numărul total de cifre
Decimals – numărul de cifre pentru partea zecimală
Label – eticheta variabilelor
Values – valorile pe care le poate lua variabila – numai pentru cele categoriale
Missing –valori care pot fi ignorate de SPSS
Columns – lăţimea coloanei
Align -alinierea valorilor în coloană
Measure – scala de măsurare a valorii.
Caracteristici ale SPSS:
Poate deschide mai multe baze de date.
Procedurile statistice SPSS pot lucra in interiorul unei singure baze de
date.
18
Dacă se doreşte prelucrarea de date aflate în baze de date (fişiere)
diferite, acest lucru este posibil numai prin aducerea lor în aceeaşi bază
de date.
Baza de date SPSS poate fi creată cu ajutorul ferestrei Data Editor şi
poate fi deschisă cu comenzile File/Open.
Fişierele SPSS au extensia .sav.
Fereastra Viewer (Output Viewer)
Această fereastră asigură vizualizarea rezultatelor: tabele şi diagrame rezultate în
urma procesării datelor statistice. Ea se deschide în mod automat de către program o
dată cu terminarea prelucrării datelor supuse analizei.
Fereastra Output Viewer conţine:
bara de titlu a documentului;
zona de navigare (situată în partea stângă), unde se afişează numele
procedurilor utilizate şi ale diferitelor componente ale rezultatelor;
zona de afişare a rezultatelor (în partea dreaptă).
Observaţii.
1. Fişierul obţinut prin salvarea acestei ferestre are extensia .spo.
2. Un fişier cu rezltate SPSS poate fi deschis numai de un program SPSS.
3. Transferul datelor în afara SPSS se poate face în documente de tip Word, Power
Point, PDF, HTML etc. cu procedura corespunzătoare File/Export sau cu
Select/Copy Paste.
19
Meniurile SPSS
Meniurile din SPSS se aseamănă cu cele din Windows. Meniul Funcţii principale Observaţii
File Deschiderea, salvarea şi editarea unor fişiere Permite introducerea de noi date în baza de date Deschiderea şi vizualizarea unor baze de date SPSS create anterior Modificarea sau transferarea datelor stocate Citirea datelor în cod ASCII
Edit Undo/Copy/Paste/Cut/Find/Options Options pentru selectarea caracteristicilor de lucru ale SPSS
View Permite modificarea structurii barei prin ataşarea sau excluderea unor căsuţe de dialog în funcţie de ce se doreşte În fereastra Data Editor setează modul de afişare: cu sau fără bara de butoane, cu sau fără liniile de separare ale celulelor Se poate modifica structura de tip grilă a liniilor şi a etichetelor pentru variabilele incluse în baza de date
Data Funcţii de operare cu variabile: definire, înserare, ştergere, selectare, sortare, adăugare de fişiere etc.
Pregătirea datelor pentru prelucrare
Transform Funcţii de modificarea datelor prin calcul, recodificare etc.
Analyze Grupează procedurile de calcul statistic
Graph Grupează procedurile de reprezentare grafică
Utilities Informaţii despre variabile, structurare pe seturi de variabile
Window ferestrelor deschise, cu posibilitate de selecţieLista
Help Informaţii ajutătoare Alegerea procedurii de de prelucrarestatistică
20
Casetele de dialog
Casetele de dialogă permit declararea şi setarea procedurilor de calcul cu SPSS. Ele
se deschid după lansarea în execuţie a unei comenzi din meniu.
În unele situaţii, din meniu se deschide o casetă principală, iar din ea se deschid alte
casete secundare. Revenirea la caseta principală dintr-o castă secundară se face
numai prin finalizarea şi închiderea casetei secundare.
Casetele de dialog păstrează setările stabilite la ultima utilizare, ceea ce înseamnă că
la următoarea utilizare vor avea aceeaşi setare.
In caseteled de dialog se află diferite butoane de comenzi, ca de exemplu:
OK execută procedura şi închide caseta de dialog principală.
Paste copiază comenzile procedurii în fereastra Syntax, de unde poate fi editată
şi lansată în execuţie.
Reset resetează caseta de dialog, aducînd-o la setările implicite ale sistemului.
Cancel anulează setările efectuate după deschidera casetei.
Help pentru obţinerea unor informaţii privind procedura definită în caseta
respectivă.
Options deschide o casetă secundară.
21
Etapele prelucrării datelor cu SPSS
Introducerea datelor
Se poate face astfel: introducerea directă a datelor în Data Editor deschiderea unui fişier de date SPSS (extensia .sav) importarea unui fişier (File open/File of type)
Pregătirea datelor Corecţia erorilor, selecţii, recodificări,transformarea variabilelor prin calcule, declararea valorilor lipsă, combinarea datelor din două fişiere diferite (meniurile Data, Transform)
Selectarea procedurii statistice
Meniurile Analyze şi Graphs
Selectarea variabilelor ce urmează a fi supuse prelucrării
În conformitate cu cerinţele casetei de dialog afişată la procedura respectivă
Rularea procedurii Se acţionează butonul OK din caseta de dialog a procedurii
Analiza rezultatelor Se afişează rezultatele prelucrării(text sau grafic) întro fereastră specifică, SPSS Viewer
Editarea rezultatelor Se editează rezultatele afişate în Viewer, aducându-le la forma dorită sub aspect grafic Editarea se realizează prin dublu clic pe un element din Viewer
Înserarea datelor întrun document
Rezultatele din SPSS Viewer se preiau cu Select/Copy şi se Înserează cu Paste în orice tipde editor de documente
22
Cursul nr. 2 Statistică în psihologie
Baze de date Informaţia este o formulă care poate fi scrisă sau simbolizată, susceptibilă de a
aduce o cunoştinţă: încercând să o descriem sau să o explicăm, putem spune că
informaţia este un „ mesaj despre anumite lucruri sau evenimente care au avut, au
sau vor avea loc ”. Datele sunt elemente constitutive ale informaţiei. Ele desemnează evenimente
primare, provenind din diferite surse, într-o formă care nu permite luarea unor decizii.
În prelucrarea automată ne interesează datele din punct de vedere sintactic, adică din punct de vedere al reprezentării şi organizării lor. Din acest punct de vedere, datele apar ca o succesiune de simboluri sau caractere. Distingem trei categorii de caractere:
caractere alfabetice (literele alfabetului latin) caractere numerice (cifrele sistemului de numeraţie zecimal) caractere speciale (semne de punctuaţie etc.)
In funcţie de caracterele utilizate, datele pot fi: alfabetice, numerice alfanumerice.
Datele au şi aspect semantic, ceea ce le conferă valoare cognitivă, o valoare de mesaj care se transmite. Observaţie. Între date şi informaţii există diferenţe:
datele privesc evenimente primare, fiind colectate din
diferite situaţii sau diverse locuri, neorganizate şi/sau neprelucrate într-o formă care să stea la baza luării unor decizii;
informaţiile sunt mesaje obţinute prin prelucrarea
datelor; aceste mesaje trebuie să fie concise, actuale, complete şi clare, astfel încât să răspundă cerinţelor informaţionale în scopul cărora au fost preluate datele.
Cu alte cuvinte, pentru a deveni informaţii, datele trebuie prelucrate în conformitate cu cerinţele informaţionale.
23
Datele se pot prelucra manual sau cu echipamente electronice de calcul, de unde şi denumirea de prelucrare automată. În vederea prelucrării, datele sunt codificate.
Cod: o combinaţie de simboluri. Codul, în funcţie de natura simbolurilor care-1 compun, poate fi:
numeric alfabetic alfanumeric.
Prelucrarea datelor, numită şi procesare, presupune totalitatea transformărilor, ca formă şi conţinut a datelor. Transformările se realizează în următoarele etape:
1. Identificarea surselor de unde se pot obţine datele primare. 2. Culegerea şi pregătirea datelor primare, care presupune:
Selectarea, care constă în alegerea acelor date care prezintă interes. Organizarea/pregătirea datelor selectate. Codificarea, care constă în asocierea unor simboluri
numite cod. 3. Transmiterae/conversia, care constă în introducerea datelor pe
un suport de informaţie. Verificarea datelor din punct de vedere al formei,
conţinutului şi corectitudinii, folosind anumite chei de control. Eliminarea eventualelor erori datorate culegerii,
pregătirii şi transmiterii lor. Stocarea datelor în vederea prelucărilor care urmează.
4. Prelucrarea datelor în vederea obţinerii rezultatelor necesare: Analiza, care constă în examinarea datelor în vederea
grupării lor în procesul de prelucrare. Sortarea, care constă ordonarea lor după anumite criterii. Clasificarea, care constă în gruparea datelor după
caracteristici comune. Compararea, care constă în stabilirea
asemănărilor/deosebirilor dintre diferite grupuri de date. Sinteza, care constă în combinarea anumitor grupări care
să conducă la structuri noi organizate după diferite caracteristici comune necesare prelucrării. Prelucrarea efectivă, care constă în efectuarea operaţiilor
aritmetice şi logice necesare obţinerii rezultatelor.
24
5. Obţinerea rezultatelor, care trebuie să fie sub forma cerută, direct utilizabilă.
6. Păstrarea datelor şi rezultatelor în vederea unor prelucrări/utilizări ulterioare.
Baza de date (database) reprezintă o colecţie de date organizate după anumite
criterii, care serveşte unui anumit scop.
Baza de date este organizată în sensul că ea conţine date care sunt stocate,
reprezentate şi accesate după criterii bine stabilite.
Baza de date serveşte unui anumit scop, în sensul că ea nu conţine date care nu sunt
relevante pentru aceasta.
De exemplu, o agendă telefonică constituie o bază de date. Ea conţine informaţii
relevante pentru o anumită persoană (nume, adresa, număr telefon). Culoarea
telefonului unei persoane este o informaţie irelevantă şi ea nu este conţinută în baza
de date. Arhitectura unui sistem de baze de date. Un sistem de baze de date poate fi privit din patru puncte de vedere: conceptual, extern, logic, fizic.
Nivelul conceptual Acest nivel este considerat fundamental, deoarece descrie sistemul ce urmează a fi
realizat. Se elaborează schema conceptuală, care de fapt este o schemă internă ce
reprezintă design-ul intern general al sistemului. Nivelul conceptual este atributul
celui care proiectează baza de date.
Schema conceptuală este creată pentru a reprezenta sistemul întrun mod cât mai clar
şi a comunica cu exteriorul.
25
Nivelul extern
La acest nivel se specifică design-ul bazei de date (o schemă globală externă) din
punctul de vedere al unui utilizator sau grup de utilizatori şi legătura cu schema
conceptuală de la nivelul precedent.
Schema externă constă în specificarea informaţiilor care pot fi văzute de către un
utilizator şi modul în care acestea sunt prezentate. În cele mai multe cazuri un
utilizator poate accesa doar o parte din informaţii.
De exemplu, în cazul mai multor utilizatori, fiecare este interesat numai de anumite
informaţii sau din motive de securitate nu au acces la toate informaţiile.
Schema externă este gândită astfel încât grupuri diferite de utilizatori să acceseze
numai anumite părţi ale schemei globale.
Utilizatori diferiţi pot dori ca aceeaşi informaţie să fie reprezentată în moduri
diferite: tabele, grafice etc.
La acest nivel se pot proiecta diferite interfeţe cu utilizatorul.
Nivelul logic
La acest nivel, schema conceptuală este transformată întro schemă logică exprimată
cu ajutorul unor structuri abstracte de date şi operaţii. Nivelul fizic
După realizarea scemei logice, aceasta trebuie proiectată prin intermediul unei
scheme interne întrun anumit SGBD(Sistem de Gestiune a Bazelor de Date).
Schema logică poate fi implementată în Access, Oracle etc.
26
Sistem de Gestiune a Bazelor de Date(SGBD)
Un Sistem de Gestiune a Bazelor de Date(SGBD, Data Base Management System)
este un sistem software care gestionează o bază de date şi care permite utilizatorului
să interacţioneze cu aceasta. El acţionează ca un depozit pentru toate datele şi
realizează următoarele:
stocarea datelor
definirea structurilor de date
manipularea datelor
interogarea (extragerea şi prelucrarea) datelor
asigurarea securităţii datelor
păstrarea integrităţii datelor
accesul concurent la date cu păstrarea consistenţei acestora
asigurarea unui mecanism de recuperarea datelor
asigurarea unui mecanism de indexare care să permită accesul rapid la date.
Modul de organizare a datelor
Modelul de date folosit de un SGBD descrie modul de organizare a datelor în baza de
date.
Modelul de date reprezintă un tipar după care este organizată din punct de vedere
logic baza de date.
Modelul de date nu specifică datele, implementarea sau organizarea lor fizică, ci doar
modul lor de organizare logică.
După modelul folosit, există mai multe categorii de sgbd-uri:
SGBD ierarhic, care stochează datele în structuri de tip arbore. Acest model se
bazează pe principiul că între date există o relaţie de tip părinte – copil.
Nivelul cel mai de sus al arborelui, cunoscut sub numele de rădăcină, poate avea
orice număr de descendenţi. La rândul lor, aceştia pot avea descendenţii lor şi aşa
mai departe. Acest model este depăşit.
27
SGBD reţea, care stochează datele sub formă de înregistrări şi legături între
acestea. Acest model constituie o extensie a celui ierarhic, diferenţa între cele două
fiind că, în timp ce în cel ierarhic o înregistrare copil are exact un părinte, în modelul
reţea ea poate avea mai mulţi părinţi sau nici unul. Acest model permite
reprezentarea unor structuri de date complexe, nu este flexibil şi necesită un design
foarte complicat. În prezent este puţin folosit.
SGBD relaţional, reprezintă cea mai simplă structură a unei baze de date.
Întrun SGBD relaţional, datele sunt organizate în tabele. Tabelele sunt formate din
înregistrări care, la rândul lor sunt formate din câmpuri. Două sau mai multe tabele
pot fi legate prin intermediul unia sau mai multe câmpuri. Bazele de date relaţionale
sunt foarte flexibile şi uşor de folosit, fiind cele mai răspândite. De exemplu Oracle,
SQL, DB2 etc.
SGBD orientat pe obiect este cel mai nou tip, care integrează principiile
programării pe obiecte cu cu cele ale bazelor de date. Acest tip de baze de date
permite gestionarea obiectelor complexe (texte, grafice, hărţi, imagini, sunete) şi a
obiectelor dinamice(programe, simulări) care nu pot fi realizate cu ajutorul sistemelor
relaţionale.
Comunicarea cu baza de date
Un SGBD nu este util dacă nu se poate comunica cu el. Comunicarea cu baza de date
presupune următoarele patru funcţiuni:
Definirea structurilor de date. Un SGBD trebuie să dispună de un limbaj care
permite definirea (crearea, modificare şi ştergera) structurilor de date folosite şi
legăturile dintre acestea. Pentru aceasta este necesar un limbaj de definire a datelor.
Manipularea datelor. Odată create structurile din baza de date, trebuie să
permită încărcarea datelor în aceste structuri, actualizarea sau ştergerea acestora.
Aceste operaţii sunt efectuate de un limbaj de manipulare a datelor.
28
Interogarea datelor. Un SGBD trebuie să permită extragerea, vizualizarea şi
prelucrarea datelor existente. Aceste operaţii se realizează cu cu un limbaj de
interogare sau de acces.
Controlul datelor. Această funcţiune presupune asigurarea securităţii şi
confidenţialităşii datelor. Pentru aceasta trebuie să existe un limbaj de control al
datelor.
Observaţie. În Oracle, comunicarea cu baza de date se face prin intermediul
limbajului SQL (Structured Query Language), care realizează toate cele patru funcţii.
Securitatea datelor
Securitatea este o problemă constantă în proiectarea şi dezvoltarea bazelor de date.
Un SGBD are mai multe nivele de securitate, pe lângă cele oferite de sistemul de
operare sau de reţea.
De regulă, un SGBD deţine conturi pentu utilizatori, care necesită o parolă de
conectare ce trebuie autentificată pentu accesul la date.
De exemplu, întrun sistem electronic banking o companie îşi poate deschide un cont
la o bancă, iar accesul persoanelor din cadrul companiei pentru consultarea contului
va fi autorizat printr-un nume şi cel puţin o parolă. În plus, accesul poate fi diferenţiat
pentru diferiţi membri ai companiei, numai unii dintre aceştia fiindu-le permis să facă
tranzacţii asupra contului.
Tipuri de utilizatori ai bazei de date
În general, o bază de date este accesată de mai mulţi utilizatori, care se diferenţiază
după operaţiile pe care aceştia le efectuează asupra bazei de date. Menţionăm:
Administratorul bazei de date, care defineşte baza de date şi este responsabil
pentru buna funcţionare a acesteia. Sarcinile administratorului bazei de date:
- optimizarea stocării datelor şi a accesului la baza de date
- asigurarea integrităţii şi securităţii datelor
29
- asigurarea de măsuri pentru recuperarea datelor în caz de defecţiuni
Programatorul (dezvoltatorul de aplicaţii), care creează programe ce
manipulează şi interoghează datele din baza de date. Programatorul trebuie să
exploateze facilităţile privind accesul concurent la date pentru a asigura integritatea şi
consistenţa acestora. El trebuie să fie preocupat de performanţă şi mentenanţă.
Utilizatorul, care poate interoga şi manipula datele, fără a fi necesară
cunoaşterea modului de organizare a acestora sau a problemelor privind integritatea
sau accesul concurent la acestea.
Asigurarea accesului concurent la date
În cazul existenţei mai multor utilizatori, un SGBD trebuie să gestioneze accesul
concurent al acestora, menţinând în acelaşi timp integritatea bazei de date.
Concurenţa este definită ca simultaneitate în sensul că doi sau mai mulţi utilizatori
accesează aceleaşi date în aceeaşi perioadă de timp. Pe de altă parte SGBD-ul trebuie
să stopeze modificări incorecte ale datelor, care ar compromite integritatea acestora.
Concurenţa şi integritatea sunt foarte importante pentru o bază de date.
Utilizatorul care a efectuat primul modificarea datelor îi blochează pe ceilalţi care
doresc să efectueze acelaşi lucru.
Baze de date distribuite
O bază de date distribuită este o mulţime de date corelate logic, dar distribuite pe mai
multe calculatoare interconectate printro reţea de comunicaţie.
Din puct de vedere al utilizatorului, o bază de date distribuită reprezintă o singură
bază de date.
Programul de aplicaţie care manipulează baza de date distribuită poate avea acces la
datele rezidente pe mai multe calculatoare, fără ca programatorul să cunoască
localizarea lor fizică.
30
Bazele de date distribuite oferă utilizatorului o flexibilitate şi o securitate sporită faţă
de o singură bază de date.
De exemplu, o companie care are sedii în mai multe oraşe ale lumii, poate opta
pentru o bază de date distribuită. Fiecare locaţie îşi administrează propria bază de
date, pe care o accesează în mod frecvent, putând să aibă în acelaşi timp acces şi la
bazele de date ale celorlalte locaţii. În acest mod, exploatarea bazei de date devine
este mai eficientă şi uşurează administrarea acesteia care se face local. În plus,
defectarea unei baze de date locale nu afectează celelalte baze de date din reţea, fiind
protejate împotriva defecţiunilor din celelalte noduri ale reţelei.
31
Cursul nr. 3 Statistică în psihologie
Crearea unei baze de date SPSS
O bază de date în SPSS este o structură formată din linii şi coloane, la intersecţia
cărora se găsesc celulele care conţin informaţii.
O bază de date SPSS se obţine în unul din următoarele moduri:
1. Crearea prin operaţiunea de definire a variabilelor şi introducerea datelor de la
tastatură
2. Deschiderea unei baze de date SPSS existente
3. Importarea unei baze de date din alt format decât SPSS.
Pentru crearea unei baze de date proprii SPSS, în fereastra deschisă Data Editor, se
procedează astfel:
Se definesc variabilele bazei de date în fereastra Data Editor
Se introduc datele pentru fiecare subiect
Se salvează baza de date întrun fişier având extensia .sav.
Definirea variabilelor
Pentru a crea variabile noi sau pentru editarea (modificarea, ştergerea) variabilelor
existente, se trece în zona Variabile View prin acţionarea tab-ului corespunzător aflat
în colţul din stânga jos al ferestrei SPSS.
Definirea unei variabile presupune completarea informaţiilor şi setarea parametrilor
de pe fiecare coloană a editorului de variabile, astfel:
1. Name: definirea numelui variabile
Orice variabilă trebuie să aibă un nume. Se poziţionează moue-ul pe linia de definire
a variabilei, clic, după care se tastează numele variabilei.
La definirea variabilelor trebuie să ţinem seama de următoarele:
32
Numele trebuie să fie format din minimum unul şi maximum opt caractere,
primul caracter fiind o literă; versiunile SPSS noi admit lungimi mai mari;.
Numele nu conţine caractere speciale: spaţiul, semne de punctuaţie etc.
Numele variabilei poate conţine liniuţa de subliniere (underscore), nu ca ultim
caracter; există variabile create de SPSS care care au această terminaţie şi se produce
confuzie;
Numele poate fi sugestiv, exprimînd conţinutul variabilei;
Nu pot exista două variabile cu acelaşi nume intro bază de date;
Nu se accetă ca nume de variabile cuvintele rezervate precum ALL, AND, BY,
EQ, GE, GT, LE, LT,NE, NOT, OR, THRU, TO, WITH.
2. Type: definirea tipului variabilei
Tipul variabilei se referă la natura informaţiei pe care o reprezintă variabila
respectivă. În acest sens se poziţonează mouse-ul pe Type, clic şi, din caseta de
dialog care se deschide, se selectează una din opţiuni, prin bifarea acesteia, după
cum urmează:
Numeric: dacă valorile variabilei sunt numere cu sau fără zecimale:
- Width : numărul de cifre necesare părţii întregi
- Decimal Places: numărul de zecimale
String: dacă valorile variabilei sunt exprimate sub formă de caractere
alfanumerice (litere sau cifre) - text sau şir de caractere;
Comma: separarea cifrelor se poate face cu virgulă;
Dollar: în faţa numărului respectiv se pune semnul $;
Scientific notation 2*5 ceea ce înseamnă 2x105 ;
Date: pentru unităţi de timp, ca de exemplu:
dd-mmm-yy 12-MAR-2009 unde luna are 3 caractere din limba engleză,
mm/dd/yyyy sau mm/dd/yy sau dd.mm.yyyy sau dd.mm.yy sau yyyy/mm/dd
sau yy/mm/dd.
33
3. Label: etichetarea variabilelor
Se mută cursorul pe Label, clic şi se introduce eticeta respectivă. Eticheta
respectivă va fi asociată numelui variabilei respective. Etichetarea poate fi folosită
atât la nivelul variabilei, dar şi la valorile pe care le conţine, în cazul variabilelor
de tip nomonal sau ordinal.
4. Values: etichetarea valorilor variabilelor
În cazul variabilelor categoriale, ale căror valori exprimă apartenenţa la un grup
sau categorie, este util şi necesar ca valorile să fie etichetate.
De exemplu, dacă pentru variabila gen utilizăm valorile 1 şi respectiv 2, valoarea
1 poate primi eticheta „feminin”, iar valoarea 2 eticheta „masculin”.
Se selectează Values şi apoi se completează etichetele în caseta Value Labels
astfel:
- se plasează valoarea etichetei în caseta Value
- se introduce eticheta corespunzătoare în zona Label
- se acţionează butonul Add
- se reia operaţiunea pentru toate valorile pe care dorim să le etichetăm.
De exemplu: Value Labels
Value 1
Label feminin
Add
Observaţii.
Aplicarea unor etichete variabilelor şi valorilor nu este obligatorie, dar este
utilă;
Etichetele sunt utile la citirea rezultatelor (apare 1 feminin);
34
5. Missing: declararea valorilor lipsă
Valorile lipsă se referă la informaţiile inexistente sau pe care dorim ca aplicaţia
SPSS să nu le ia în considerare în cursul prelucrărilor.
Se selectează Missing Values, cu două opţiuni:
- system missing values, pentru valori care lipsesc din baza de date, nefiind
introduse;
- using missing values, pentru valorile care există în baza de date, nu sunt
şterse, dar nu se utilizează în calcule.
6. Meaure: declararea scalei de măsurare
Din punct de vedere al măsurării avem trei categorii de variabile: cantitative
(interval sau raport), ordinale şi nominale.
În funcţie de scala de măsurare, variabilele sunt incluse în anumite proceduri
statistice.
Declararea nivelului de măsurare se face prin selectarea tipului de scală din lista
care se deschide la acţionarea butonului din celua Measure. Opţiunile sunt:
Scale, pentru variabile cantitative (interval/raport);
Ordinal, pentru variabile ordinale;
Nominal, pentru variabile nominale.
În concluzie, crearea unei variabile SPSS are următoarele etape:
Atribuirea numelui
Definirea tipului(numeric, caracter, data)
Atribuirea etichetei variabilei;
Atribuirea etichetei valorilor (pentru variabile măsurate pe scale
nominale sau ordinale);
Declararea valorilor lipsă;
Declararea nivelului de măsurare.
35
Ştergerea şi înserarea variabilelor
Ştergerea unei variabile:
În fereastra Data View se selectează variabila (clic pe antetul variabilei) şi
acţionarea tastei Delete;
În fereastra Variabile View se selectează linia corespunzătoare variabilei şi
se acţionează tasta Delete.
Înserarea unei variabile:
În frerastra Data View se fixează cursorul pe antetul corespunzător
coloanei, se acţionează clic-dreapta şi se alege opţiunea Insert Variabile.
În fereastra Variabile View, fie se creează o variabilă sub ultima existentă,
fie se înserează între două variabile existente.
Ştergerea şi înserarea unor subiecţi
Ştergerea unor subiecţi:
Se selectează subiectul (clic pe antetul liniei) şi acţionarea tastei Delete;
Se pot selecta mai multe cazuri prin tragere cu mouse-ul pe antetul liniilor;
Înserarea unor cazuri:
Se plasează cursorul pe linia deasupra căreia dorim să înserăm un caz nou,
după care se acţionează meniul Data Insert Case.
Exemplu. Să presupunem că se aplică un test care vizează următoarele
caracteristici de personalitate: extraversiunea, nevrozismul şi introversiunea.
Pentru analiza datelor suntem interesaţi să raportăm reultatele la o serie de
caracteristici demografice ale subiecţilor precum sexul şi vârsta. Da asemenea,
dorim să înregistrăm identitatea subiecţilor.
Pentru fiecare informaţie introdusă în baza de date vom crea câte o variabilă.
36
Variabila Numele
variabilei Tipul variabilei Eticheta
variabilei Eticheta valorilor
Identitaea subiecţilor
Cod numeric sau numele subieţilor
Numeric, Width 2 Decimal Places 0
Identitate Nu se aplică la variabile numerice
Sexul Sex Numeric, Width 1, Decimal Places 0
Sex 1=feminin 2=masculin
Vârsta vârsta Numeric, Width 2, Decimat Places 0
Vârsta
Extraversiune extrav Numeric, Width 2, Decimat Places 0
Extraversiune
Nevrozism nevro Numeric, Width 2, Decimat Places 0
Nevrozism
Introversiune introv Numeric, Width 1, Decimat Places 0
Introversiune
Observaţii.
1. Numele variabilelor se scrie cu litere mici; cele mari nu sunt
recunoscute de SPSS.
2. Numele variabilei fiind semnificativ, se poate utiliza şi pentru etichetă.
3. Numele variabilelor sunt utilizate de SPSS, iar etichetele sunt necesare
utilizatorului pentru a înţelege semnificaţia variabilei, al cărei nume
poate fi mai scurt.
Dacă vom introduce cinci subiecţi, imaginea din Data Editor se prezintă astfel:
Cod sex vârsta extrav nevro introv
1 1 20 12 8 3
2 2 35 15 16 8
3 2 18 25 11 9
4 1 58 10 21 5
5 2 47 14 6 6
37
Observaţii.
1. Se recomandă declararea numerică a variabilelor, deoarece SPSS-ul este un
program statistic şi presupune date numerice. De exemplu, variabila sex poate
fi declarată de tip caracter, cu valorile F şi M, dar ea poate fi declarată şi
numeric cu valorile 1 şi 2. Pentruexplicitarea valorilor se vor folosi etichetele
de valoare.
2. Introducerea unei variabile care să conţină numele subiecţilor poate fi necesară
numai în situaţia în care se doresc liste cu numele subiecţilor din baza de date.
3. În situaţia întrebărilor cu răspuns multiplu se crează mai multe variabile, câte
una pentru fiecare variantă de răspuns.
Salvarea bazei de datedin Data Editor
Comanda File/Save as care deschide o casetă de dialog:
Se alege locaţia de salvare (Save in)
Se alege un nume pentru fişier (File name)
Se dă clic pe Save.
Deschiderea unei baze de date SPSS
Comanda File-Open deschide o casetă de dialog:
Se alege locaţia de citire (Look in)
Se indică fişierul respectiv în fereastra de căutare
Se acţionează Open.
Importul unei baze de date în SPSS
Importul unei baze de date din alt format decât SPSS se face din meniul
File/Open/Data.
38
Cursul nr. 4 Statistică în psihologie
Operaţii de transformarea variabilelor
Din punct de vedere al modului în care au fost create, se disting două
categorii de variabile:
variabile primare, care defnesc valorile obţinute direct din cercetare,
introduse de la tastatură;
variabile secundare, obţinute prin transformările aplicate
variabilelor primare.
De exemplu, o variabilă primară poate fi data naşterii, iar pe baza ei se
poate calcula vârsta, obţinându-se o variabilă secundară.
Pentru transformarea variabilelor primare în variabile secundare se
utilizează procedura Transform.
Procedura Transform realizează următoarele operaţii:
1. Însumarea variabilelor
Se crează mai multe variabile, de exemplu var1, var2, var3. Se poate crea
si variabila toatal, ce reprezintă suma celor trei variabile create.
Se apelează procedura Transform-Compute, ce deschide o casetă, după
care se parcurg următorii paşi:
- în linia Target variabile se introduce numele variabilei în care va
fi scris rezultatul operaţiei. Dacă variabila nu există, ea va fi creată
automat.
39
- din lista Function group se alege grupulde funcţii Statistical.
- din lista Function and Special Variables se alege funcţia Sum.
- se transferă funcţia Sum în zona de editare a expresiei numerice
- se alege prima variabilă din lista de variabile şi se mută în
expresia Sum;
- se tastează To şi apoi se selectează şi se mută în expresie ultima
variabilă din seria respectivă (se introduce prima şi ultima, considerarea
celorlalte fiind implicita).
După editarea funcţiei de calcul se acţionează butonul Ok.
Observaţii.
1. Respectarea sintaxei este obligatorie. De exemplu, dacă expresia
calculată de program a fost total = SUM (prima_variabila TO
ultima_variabila ) se lasă un spaţiu între TO, prima şi ultima
variabilă.
2. O altă modalitate de însumare este total = SUM(var_1,var_2,var_3)
sau în zona de editare a expresiei se scrie var_1+var_2+var_3.
40
2. Calcularea mediei a două sau mai multe variabile
Pentru calculul mediei a două sau mai multe variabile se lansează
procedura Transform/Compute, care deschide caseta Compute
Variabile.
Se procedează satfel:
- se declară numele variabilei în care va fi depus rezultatul
operaţiei ( de exemplu media);
- din Function group se alege Statistical.
- din Function and Special Variables se alege Mean.
- se mută funcţia Mean în zona de editare.
- se introduc între paranteze numele variabilelor pentru care se
calculează media.
- se acţionează butonul OK.
Observaţie. În mod asemănător se pot utiliza şi alte funcţii din lisă.
Pentru informaţii se poate acţiona butonul Help al casetei Compute
Variabile.
3. Extragerea anului dintr-o variabilă de tip cronologic.
SPSS conţine funcţii de transformare pentru variabile de tip cronologic.
De exemplu, se poate crea o variabilă care conţine anul naşterii, extras
dintr-o variabilă ce stochează data naşterii.
41
Pentru aceasta se procedează astfel:
- în câmpul Target Variabile se introduce numele variabilei în
care va fi depus rezultatul (de exemplu, vîrsta);
- în zona Numeric Expression se va construi expresia de calcul
anul curent minus anul cuprins în variabila data_nasterii.
- se selectează funcţia Data Extraction din lista Function group;
- se alege funcţia Xdate.Year din lista Function and Special
Variables.
- se mută funcţia în zona de editare Numeric Expression.
- se completează expresia de calcul anul curent( de exemplu 2010)
– Xdate.Year introducând variabila data_naşterii din lista de variabile.
4. Recodificarea variabilelor
Recodificarea unei variabile înseamnă convertirea valorilor acesteia, cu
scopul obţinerii unei distribuţii bazate pe frecvenţe cumulate. Limitele
claselor de grupare se stabilesc de utilizator.
Se procedează astfel:
- se face diferenţa între valoarea cea mai mare şi cea mai mică a
unei distribuţii;
- se împarte valoarea obţinută la mărimea estimată a intervalului;
42
- se selectează mărimea intervalului care conduce la un număr de
clase cuprins între 5 şi 15;
- se determină limita inferioară şi superioară a fiecărei clase;
De exemplu, în cazul unei distribuţii de vârstă exprimate în ani este
indicat să se opteze pentru clase de 5 sau 10 ani.
Se parcurg următoarele etape:
- din meniul Transform se selectează Recode into Different
Variables;
- se mută variabila ( de exemplu vârsta ) în zona Numeric
Variabile ---Output Variabile;
- numele variabilei recodificate secrie în zona Name;
- se introduce o etichetă în zona Label pentru variabila nou creată;
- se acţionează butonul Change;
- se acţionează butonul Old and New Values pentru declararea
limitelor de vârstă.
5. Transformarea de rang a variabilelor
Se utilizează în cazul care rangul variabilelor nu corespunde unei anumite
situaţii, ca de exemplu 1 2 3 4 5 6 7 scor 25 37 12 75 21 120 95
43
Se procedează astfel:
- variabila scor se trece în lista Variabiles;
- în zona Assign Rank 1 to am setat atribuirea rangului 1 valorii
celei mai mari;
- se acţionează butonul OK. Se pot fixa parametri de transformare
cu ajutorul butoanelor Rank şi Ties;
Opţiunea Rank are ca efect atribuirea rangului corespunzător fiecărei
valori.
Opţiunea Mean atribuie rangul mediu. Dacă valorile 25, 25, 25 sunt pe
locurile 3, 4, 5 atunci valoarea 25 va primi rangul 4, adică media celor 3
ranguri.
Procedura se finalizează prin crearea unei noi variabile, care conţine
poziţia de rang a fiecărei valori din variabila sor, în raport cu celelalte
valori ale distribuţiei. 1 2 3 4 5 6 7 scor 25 37 12 75 21 120 95 rscor 5 4 7 3 6 1 2
44
Cursul nr. 5 Statistică în psihologie
Elemente de teoria sondajelor
Şansele ca un studiu statistic să reflecte cât mai bine realitatea sunt cu
atât mai mari cu cât studiul respectiv tinde să cuprindă întreaga
populaţie. Acest lucru este dificil şi uneori chiar imposibil.
Evenimente, procese, fenomene şi activităţi din natură şi societate care
necesită studii statistice sunt de cele mai multe ori aşa de numeroase
şi/sau complexe încât nu pot fi studiate prin examinarea fiecărei
unităţi statistice.
Henry Poincare spunea: Slăbiciunea noastră nu ne permite să
îmbrăţişăm tot universal şi suntem obligaţi să-l descompunem în
bucăţi.
De aici rezultă că într-o mulţime de situaţii, studiul lor statistic nu este
posibil decât pentru o parte a acestora, iar pe baza rezultatelor obţinute
să putem trage concluzii pentru tot întregul.
Procedeele prin care pornind de la studierea unui număr restrâns de
unităţi ale unei populaţii statistice se pot obţine rezultate privind
întreaga populaţie se numesc procedee inferenţiale.
Definiţie. Se numeşte eşantion, un număr restrâns de unităţi statistice
supuse analizei statistice.
45
Definiţie. Se numeşte sondaj, operaţia prin care se obţine un eşantion
din populaţia statistică.
Rezultatele obţinute prin analizarea sondajului respectiv sunt
extrapolate la întreaga populaţie, cu condiţia ca eşantionul să fie
reprezentativ.
Un eşantion este reprezentativ pentru o populaţie statistică dacă:
reprezintă la scară redusă structura populaţiei respective ;
păstrează caracteristicile populaţiei din care a fost extras ;
sugerează legea de repartiţie ce caracterizează populaţia ;
poate fi utilizat pentru estimarea sau determinarea
diferiţilor parametri ai legiii respective.
Reprezentativitatea unui eşantion este acceptabilă dacă faţă de valorile
reale în determinarea indicatorilor de structură ai populaţiei se
înregistrează abateri de cel mult 5%.
În general, eşantioane diferite conduc la rezultate diferite, ceea ce
înseamnă o fluctuaţie a reprezentativităţii lor.
Definiţie. Se numeşte volum de selecţie, numărul unităţilor dintr-un
eşantion.
Mărimea eşantionului (volumul de selecţie) constituie o problemă
importantă.
46
Este evident faptul că extrapolarea informaţiilor furnizate de un
eşantion la întreaga populaţie reflectă cu atât mai bine realitatea cu cât
eşantionul este mai mare.
Din punct de vedere al mărimii, se disting două tipuri de eşantioane:
eşantioane mici, cu un volum de selecţe de maximum 30 până la
50 de unităţi;
eşantioane mari, cu un volum de selecţie de peste 50 de unităţi.
Observaţie. Acestă clasificare este importantă deoarece unele
proceduri de analiză sunt specifice unui anumit tip de eşantion din
punct de vedere al volumului de selecţie.
Tratarea unui eşantion mic ca pe unul mare poate conduce la erori
importante, pe când invers nu ridică probleme deosebite.
O altă clasificarea poate fi făcută după modul de selectare a unităţilor :
eşantioane independente, ceea ce înseamnă că selectarea unei
unităţi statistice (individ) într-un eşantion nu depende de selectarea
altor elemente (indivizi) în alt eşantion. De exemplu, în psihologie,
indivizii selectaţi în eşantioane diferite nu sunt aceeaşi. Concudent în
acest sens sunt eşantioanele separate : femei şi bărbaţi.
eşantioane dependente formate din perechi sau grupuri de unităţi
statistice (indivizi), ceea ce înseamnă că selectarea unei unităţi
statistice într-un eşantion atrage de al sine selectarea altei unităţi în
47
celălalt eşantion. De exemplu, utilizarea aceloraşi indivizi pentru o
cercetare pe o perioadă de timp. Studiul anumitor caracteristici comune
pe eşantioane formate din aceeaşi indivizi din populaţii diferite.
Tipuri de sondaje
Se disting următoarele tipuri de sondaje:
sondaje aleatoare, situaţie în care constituirea eşantionului se
face la întâmplare, prin extragerea la întâmplare a unităţilor din
populaţia respectivă. Fiecare din unităţile populaţiei are aceeaşi şansă
de a aparţine eşantionului. Se utilizează în situaţiile în care populaţiile
au un grad ridicat de omogenitate.
Eşantioanele aleatoare trebuie să respecte următoarele cerinţe:
oricare úntate statistică să fie obţinută la întâmplare;
eşantioanele de acelaşi volum să aibe aceleaşi şanse de a fi
prelevate din populaţia respectivă;
unităţile populaţiei respective să aibe aceeaşi şansă de a
aparţine oricărui eşantion.
numărul de unităţi ce compun eşantionul să fie suficient de
mare pentru ca el să fie reprezentativ.
Un exemplu în acest sens este o analiză de apă, sânge etc.
În cazul sondajelor aleatoare distingem tri categorii de eşantioane:
48
- eşantioane în trepte (multi stage sampling), ceea ce înseamnă
că dintr-o populaţie se extrage la întâmplare un eşantion pe baza unui
anumit criteriu, şi apoi, din acest eşantion se extrag succesiv alte
eşantioane, de fiecare dată pe baza altui criteriu.
De exemplu, dintr-o populaţie se extrage la întâmplare, după criteriul
temperamentului, un eşantion. Din acest eşantion se extrag la
întâmplare alte eşantioane, criteriul considerat fiind sexul, apoi
profesia, vârsta etc.
- eşantioane grupate (grappes sau cluster sampling) se referă la
eşantioane între ale căror unităţi există anumite legături sau se
aseamănă între ele din anumite puncte de vedere. Un asemenea
eşantion poate fi considerat o etapă a unui eşantion în trepte.
De exemplu, pentru un studiu, se selectează la întâmplare o
universitate ( prima treaptă ), în cadrul universităţii o facultate ( a doua
treaptă ), în cadrul facultăţii o specializare ( a treia treaptă) etc.
Legătura comună este că pe toate treptele avem studenţi.
- eşantioane stratificate, se utilizează în cazurile în care
populaţia se poate organiza în subpopulaţii denumite straturi, fiecare
având anumite caracteristici distincte. Din interiorul fiecărui strat se
extrage un eşantion. Eşantionul care va fi studiat este constituit din
eşantioanele extrase.
49
De exemplu, dacă populaţia unei localităţi constitue un obiect de
studiu, atunci se pot forma eşantioane pe categorii de vârstă, profesie,
apartenenţă religioasă etc.
sondaje nealeatoare se utilizează atunci când se cunoaşte
structura populaţiei, iar caracteristica studiată necesită un eşantion a
cărui structură este apropiată de cea a populaţiei. Din această categorie
fac parte:
- eşantioane proporţionale, care sunt constituite proporţonal cu
numărul unităţilor care compun populaţia din care au fost extrase.
De exemplu, dacă populaţia este formată din femei şi bărbaţi, proporţia
de femei şi bărbaţi din eşantion trebuie să păstreze structura populaţiei.
- eşantioane tipice, ceea ce înseamnă că eşantionul conţine
numai un anumit tip de unităţi din populaţia respectivă.
De exemplu, personele cu deviaţii comportamentale dintr-o anumită
localitate fac obiectul unui studiu statistic. Se studiază un eşantion
format numai din rândul acestor persoane.
sondaje dirijate, se utilizează atunci când se au în vedere
anumite criterii prestabilite privind modalităţile de selectare a unităţilor
statistice care compun eşantionul. Pentru anumite populaţii, un
eşantion aleatoriu nu ar fi reprezentativ datorită neomogenităţii
caracteristicii studiate.
50
Un exemplu în acest sens este sondajul de opinie în care pentru
asigurarea unei reprezentativităţi corespunzătoare este necesar să fie
incluse toate categoriile sociale.
sondaje mixte reprezintă o combinaţie a caracteristicilor
celor două tipuri de sondaje, ceea ce înseamnă că eşantionul se
constituie prin alegerea aleatoare a diferitelor unităţi statistice din părţi
ale populaţiei formate după criterii prestabilite.
Se utilizează în studiul unei populaţii în care anterior alegerii unităţilor
statistice trebuie avută în vedere o împărţire a acesteia după anumite
criterii.
Un exemplu îl constituie studiul nivelului intelectual dint-o comunitate
în care anterior alegerii persoanelor trebuie realizată o împărţire după
studii, profesie etc.
O altă clasificare a sondajelor poate fi făcută astfel :
sondaje nerepetate, ceea ce înseamnă că selecţia unei
unităţi statistice se poate face o singură dată, fără a repune unitatea
statistică respectivă înapoi în populaţia de unde a fost extrasă;
De exemlu, o analiză de sânge.
sondaje repetate, ceea ce înseamnă că unităţile statistice
care au aparţinut unui eşantion se repun în populaţia respectivă şi pot
face parte dintr-un alt eşantion.
51
De exemplu, sondajele de opinie.
Din punct de vedere matematic, o populaţie statistică este o mulţime A,
iar un eşantion este o submulţime a sa B.
O unitate statistică aparţine mulţimii A, dar poate să aparţină şi
mulţimii B dacă a fost selectată în eşantionul respectiv.
Unui eşantion (selecţii) i se poate ataşa seria statistică şi variabila
statistică corespunzătoare, o repartiţie care poate fi una din legile
clasice de probabilitate sau apropiată de ele, pentru care se pot calcula
diferite caracteristici numerice precum media, dispersia etc.
Caracteristicile numerice care se calculează relativ la un eşantion
(submulţimea B) reprezintă media, dispersia etc. empirice sau de
selecţie.
Caracteristicile numerice care se calculează relativ la întreaga
populaţie (mulţimea A) reprezintă media, dispersia etc. teoretice.
Erori de sondaj
Diferenţele între valorile teoretice şi cele empirice sunt erori produse în
procesal de selecţie al eşantioanelor.
Distingem următoarele tipuri de erori:
erori grosolane, care se datorează neprofesionalismului
sau unor mari greşeli de observare, măsurare, determinare etc.
52
erori sistematice, apar în cele mai multe situaţii datorită
instrumentelor utilizate, precum şi a gradului de precizie a acestora.
Ele se produc repetat şi pot fi identificate şi înlăturate revizuirea
procedeelor de sondaj şi/sau instrumentelor de măsură.
erori întâmplătoare (aleatoare) se datorează neatenţiei sau
subiectivismului celui care efectuează observarea sau măsurarea,
precum şi a unor influenţe necontrolabile care pot să apară în timpul
acestei activităţi.
Observaţie. Influenţele necontrolabile nu pot fi eliminate.
În studiul care se efectuează asupra uneia sau mai multor caracteristici
ale unei populaţii prin inferenţa statistică sunt implicate trei distribuţii:
distribuţia caracteristicii populaţiei studiate, care nu este
cunoscută, ea fiind obiectul studiului;
distribuţia de sondaj, adică distribuţia pe care oare o anumită
caracteristică în mulţimea eşantioanelor de volum dat. Numărul
eşantioanelor posibile de volum dat poate să depăşească numărul
elementelor mulţimii respective.
distribuţia de eşantionare. Cercetările psihologice se bazează pe
studierea unuia sau mai multor eşantioane, fie pentru extrapolarea
53
concluziilor la nivelul întregii populaţii, fie pentru verificarea anumitor
ipoteze privind populaţia din care acestea au fost obţinute.
Aşa cum s-a mai precizat, extrapolarea rezultatelor la nivelul populaţiei
se poate face numai în condiţiile în care eşantionul sau eşantioanele au
fost reprezentative.
De exemplu, dacă se studiază temperamentul unei colectivităţi şi
eşantionul este format numai din tineri, nu se poate extrapola rezultatul
la întreaga colectivitate în care există persoane de toate vârstele.
Definiţie. Se numeşte distribuţia mediei de eşantionare sau distribuţie
de eşantionare, distribuţia valorilor mediilor eşantioanelor extrase
dintr-o populaţie.
Definiţie. Se numeşte medie de eşantionare (în cazul mai multor
eşantioane obţinute din aceeaşi populaţie), media mediilor de
eşantionare.
Fie mediile a k eşantioane, notate cu kxxx ,...,, 21 , iar media
populaţiei din care au fost extrase, atunci k
xxx k
....21 este media
de eşantionare.
Observaţie. Media fiecărui eşantion are o valoare apropiată de media
populaţiei din care provine, iar diferenţa se numeşte eroare de estimare.
54
Apropierea sau depărtarea mediei unui eşantion de media populaţiei
depinde de mărimea eşantionului. Media unui eşantion mai mare este
mai apropiată de media populaţiei.
In situaţia în care dintr-o populaţie s-ar extrage toate eşantioanele
posibile, atunci media de eşantionare este egală cu media populaţiei.
Distribuţia de eşantionare are o împrăştiere mai mică decât cea
existentă la nivelul populaţiei.
Dacă notăm cu N volumul eşantionului, cu abaterea standard, atunci
abaterea standard a mediei de eşantionare se calculează astfel:N
sm
.
Definiţie. Se numeşte eroare standard a mediei de eşantionare,
numărul ms .
Observaţie. De regulă, nu se cunoaşte abaterea standard a populaţiei şi
atunci eroarea standard a mediei de eşantionare se calculează utilizând
abaterea standard a eşantionului, care o aproximează pe cea a
populaţiei.
55
Cursul nr. 6 Statistică în psihologie
Elemente de teoria estimaţiei
Se ştie că statistica are ca obiect:
studierea caracteristicilor unei populaţii
calcularea diferitelor valori ale acestora.
În cazul populaţiilor mici se poate face o investigare cercetând/studiind
fiecare unitate statistică în parte.
În cazul populaţiilor mari acest lucru nu este posibil sau dacă este
posibil ar fi foarte costisitor şi se pune problema estimării
caracteristicilor statistice ale distribuţiei populaţiei (medie, abatere
standard etc.) folosind eşantioane.
Valorile caracteristicilor statistice calculate pentru unul sau mai multe
eşantioane aproximează, prin extrapolare, valorile caracteristicilor
statistice ale populaţiei studiate.
Definiţie. Se numeşte estimator, orice entitate a cărei valoare poate fi
utilizată pentru a înlocui o altă entitate.
În general, un estimator este o valoare aproximativă a entităţii
respective.
Statistica inferenţială foloseşte informaţiile obţinute prin studierea unui
eşantion pentru a trage concluzii privind întreaga populaţie.
56
Un rol important îl are teorema limită centrală, care stabileşte două
rezultate fundamentale:
cu cât numărul eşantioanelor dintr-o populaţie este mai mare, cu
atât mai mult media de eşantionare se apropie (aproximează) media
populaţiei.
cu cât volumul eşantioanelor este mai mare, cu atât mai mult
distribuţia mediei de eşantionare se apropie de distribuţie Gauss şi în
situaţiile în care distribuţia variabilei statistice a populaţiei studiate nu
urmează legea normală.
Teorema limită centrală este valabilă în următoarele situaţii:
eşantioanele să fie aleatorii;
unităţile statistice care compun eşantioanele sunt independente
unele de altele;
eşantioanele au acelaşi volum de selecţie.
Observaţie. Teorema limită centrală prezintă importanţă prin faptul că
în studiile statistice nu trebuie să mai fim prea mult preocupaţi de
distribuţiile statistice ale populaţiilor studiate, deoarece în cazul unui
sau unor eşantioane mari, distribuţiile mediilor de eşantionare sunt
aproximate de distribuţii normale.
Problema care se pune este legată de volumul eşantionului şi de
numărul acestora.
57
De regulă, eşantioanele sunt considerate mari dacă volumul de selecţie
depăşeşte 30 unităţi statistice.
Definiţie. Se numeşte estimaţie valoarea estimatorului.
De aici se desprinde conclizia că estimaţiile valorilor caracteristicilor
unei populaţii se obţin prin calcularea acestora la nivelul eşantioanelor.
Definiţie. Se numeşte estimaţie statistică valoarea care aproximează pe
baza datelor de sondaj valoarea necunoscută a unui parametru al
populaţiei.
De exemplu, media aritmetică x este estimator pentru media populaţiei
, iar abaterea standard s este estimator pentru abaterea standard a
populaţiei etc.
Se utilizează două proceduri de estimare:
punctuale
intervale.
Definiţie. Se numeşte estimaţie punctuală o valoare calculată pe baza
unui eşantion şi utilizată pentru a estima un parametru al populaţiei din
care provine.
De exemplu, media aritmetică a unui eşantion este o estimaţie
punctuală a mediei din care a fost extras eşantionul respectiv.
Definiţie. Se numeşte interval de încredere sau interval estimat, un
interval în care se află valoarea unui parametru al populaţiei studiate.
58
Definiţie. Se numeşte eroare de estimare, valoarea absolută a
diferenţei dintre estimaţia punctuală şi valoarea reală a parametrului
respectiv, nn ee * , unde *ne este estimaţia punctuală obţinută dintr-un
eşantion de volum n , iar ne valoarea parametrulu corespunzător
populaţiei respective.
Calculul erorilor de estimare este dificil datorită necunoaşterii valorii
parametrului estimat al populaţiei respective.
În această situaţie se determină un interval care să cuprindă parametrul
populaţiei respective.
Fie P o populaţie a cărei distribuţie depinde de un parametru .
Se pune problema ca pornind de la un sondaj, prin care s-a obţinut un
eşantion de volum n, să se determine un interval care să conţină, cu o
anumită probabilitate, valoarea parametrului respectiv.
Estimarea parametrilor
Caracteristicile unei populaţii pot conţine unul sau mai mulţi parametri
necunoscuţi, iar pe baza unei selecţii se pune problema estimării
acestora.
Estimarea unui parametru constă fie în a obţine o mărime care este
apropiată de valoarea reală a parametrului necunoscut, fie în a obţine
nişte limite (internal de încredere) în interiorul cărora, cu o anumită
probabilitate, se află mărimea reală a parametrului necunoscut.
59
Fie X o variabilă aleatoare care are funcţia de repartiţie ),( xF . Forma
funcţională a funcţiei de repartiţie ),( xF este specificată, însă este un
parametru real a cărui valoare adevărată 0 este necunoscută. Valoarea
0 aparţine unei mulţimi de valori reale , numit spaţiul parametrilor.
Pentru a găsi o valoare care să aproximeze pe , folosim o selecţie de
forma: nn xXxXxX ,.....,, 2211
Se pune problema găsirii unei funcţii ),....,,( 21 nxxx care să poată fi luată
ca valoare a parametrului .
Definiţie. Funcţia ),....,,( 21 nxxx se numeşte funcţie de estimaţie sau
estimator.
Definiţie. Se spune că ),....,,( 21 nxxx este un estimator consistent al lui
, dacă ),....,,( 21 nxxx converge în probabilitate la , adică
1)|),....,,((|lim 21
nnxxxP
Stabilirea faptului că o funcţie converge în probabilitate către o
constantă poate crea dificultăţi, motiv pentru care s-a recurs la condiţii
mai simple.
Definiţie. Se spune că ),....,,( 21 nxxx este un estimaţie corectă a lui
dacă:
0)(lim),()],.....,,([ 21
nnxxxMnn
0)],.....,,([lim 212
nnxxxD
60
Definiţie. Se spune că ),....,,( 21 nxxx este o estimaţie absolut corectă a
lui , dacă )],.....,,([ 21 nxxxM
0)],.....,,([lim 212
nnxxxD
Definiţie. Se spune că ),....,,( 21 nxxx este o estimaţie nedeplasată a lui ,
dacă )],.....,,([ 21 nxxxM .
În caz contrar avem o estimaţie deplasată.
Media de selecţie
n
iix
nxm
1
1 este o estimaţie consistentă şi
nedeplasată a mediei teoretice .
Dispersia de selecţie
n
ii xx
ns
1
22 )(1 este oestimaţie consistentă şi
nedeplasată a dispersiei teoretice 2 .
Intervale de încredere
Definiţie. O pereche de funcţii ),....,,( 2111 nxxx , ),....,,( 2122 nxxx este
interval de încredere pentru , dacă:
1) ],[),,....,,(),....,,( 21212211 nn xxxxxx pentru orice selecţie nxxx ,....,, 21
2) ][ 21P
Observaţie. Condiţia 2 indică faptul că intervalul cu limitele 1 şi 2
acoperă valorile adevărate ale lui cu probabilitatea . Cu cât
intervalul ],[ 21 este mai mic (tinde la zero) şi se apropie de 1, cu
atât mai mult intervalul dă o aproximaţie mai bună despre .
61
Definiţie. Intervalul ],[ 21 se numeşte interval de încredere, iar se
numeşte prag de încredere.
62
Cursul nr. 7 Statistică în psihologie
Ipoteze statistice
În ştiinţă, dar şi în alte domenii se foloseşte frecvent cuvântul ipoteză,
care este sinonim cu presupunere.
O ipoteză este o afirmaţie sub semnul incertitudinii, conţinînd o doză
de încredere, dar şi de neîncredere.
Definiţie. O ipoteză este o presupunere privind existenţa sau
producerea unui anumit fenomen, proces etc. şi care trebuie verficată
sau demonstrată.
Presupunerea se cheamă ipoteză deoarece se referă la o situaţie care
poate fi adevărată sau nu.
Definiţie. Se numeşte ipoteză statistică acea ipoteză care se face asupra
distribuţiilor sau parametrilor acestora privind diferite populaţii.
Observaţie. Ipoteza statistică este o presupunere asupra populaţiei şi nu
asupra selecţiei.
În statistică, ipoteza este una din cele mai utilizate tehnici. De regulă se
studiază un eşantion şi concluziile, prin extapolare, pot fi extinse la
întreaga populaţie.
Exemple.
1. Rezultatele fetelor la disciplina statistică sunt mai bune decât ale
băieţilor.
63
Ipoteză: randamentul studenţilor la statistică depinde de sex .
2. Un sondaj de opinie realizat în rândul tinerilor arată preferinţa
acestora pentru manele.
Ipoteză: această constatare este adevărată.
3. Performanţele a două grupe de atleţi, una formată din negri, iar alta
din albi sunt diferite, rezultatele grupului de negrii fiind mai bune.
Ipoteza: performanţele atleţilor depind de rasă.
4. Calculând media unui eşantion se obţine x .
Ipoteză: media teoretică a populaţiei din care provine eşantionul
poate fi aproximată prin x .
5. Rezultatele studenţilor din mediul rural sunt mai bune decât ale
celor din mediul urban.
Ipoteză: situaţia şcolară este specifică mediului.
Din aceste exemple şi din multe altele se poate observa că ipotezele
apar fie pe baza unor informaţii incomplete, fie pe baza experienţei,
intuiţiei sau preferinţei (poate chiar subiectivismului) celui care
efectuează cercetarea. Este evident că s-ar putea formula şi alte
ipoteze, fie prin negarea acestora fie prin formularea altora.
Putem concluziona că de fiecare dată avem cel puţin două sau mai
multe ipoteze:
),( 0 HH sau ),...,,,( 210 nHHHH
64
unde 0H este ipoteza admisă iniţial şi se numeşte ipoteza nulă, iar H
este o negare a ipotezei nule sau o ipoteză alternativă .
Observaţii.
1. Ipotezele HH ,0 nu pot fi simultan adevărate.
2. Ipoteza 0H este unică, dar ea poate avea mai multe ipoteze
alternative nHHH ,...,, 21 .
3. Ipoteza 0H nu poate fi simultan adevărată cu niciuna din
alternativele sale.
4. Ipoteza nulă împreună cu ipotezele alternative nHHH ,...,, 21
constituie mulţimea tuturor ipotezelor care se pot face privind
experimentul respectiv.
5. Dacă ipoteza 0H are o singură alternativă H , iar ipoteza H se
infirmă, nu avem certitudinea că se confirmă ipotezei 0H ; ea este
adevărată cu un anumit risc.
Definiţie. Se numeşte prag de semnificaţie riscul asumat în cazul
admiterii ipotezei nule 0H , când ipoteza H se infirmată.
Observaţie. De regulă pragul de semnificaţie este de 5% , iar peste
acesta ipoteza 0H se respinge.
Exemplu.
Un psiholog îşi pune problema dacă informaticenii au un coeficient de
inteligenţă superior populaţiei din care provin.
65
Ipoteză: informaticienii sunt mai inteligenţi decât media populaţiei
generale.
Dacă în acest exemplu considerăm 0H ipoteza nulă, putem scrie :
piH :0
unde i este media inteligenţei informaticienilor, iar p este media
inteligenţei populaţiei din care provin informaticienii.
Pentru a răspunde la întrebarea de mai sus se extrage un eşantion de cel
puţin 30 informaticieni, cărora li se dă un test de inteligenţă.
Să considerăm o distribuţie care depinde de un parametru şi să
verificăm ipoteza conform căreia are valoarea 0 .
Notăm această ipoteză astfel: 00 : H .
Să presupunem că în afară de valoarea 0 , parametrul mai poate avea
şi una din valorile 1 , 2 ,..., n atunci ipotezele
nnHHH :,...,:,: 2211 se numesc ipoteze alternative.
Definiţie. Ipotezele 00 : H , 11 : H ,... nnH :, se numesc ipoteze
admisibile, iar orice altă ipoteză admisibilă se numeşte ipoteză
alternativă.
Observaţie. Ipoteza 0H se numeşte ipoteză nulă deoarece se poate scrie
0: 00 H , verificând dacă diferenţa celor doi parametri este egală cu
zero.
66
Definiţie. Metodele pentru verificarea ipotezelor statistice se numesc
teste statistice.
Definiţie. Un test statistic pentru o ipoteză H sau o ipoteză alternativă
NH este o regulă ce divide spaţiul de selecţie R n în două regiuni W şi
W = R n -W astfel că dacă vectorul de selecţie WXXXX n ),....,,( 21
atunci se respinge ipoteza H (adică se acceptă NH ); dacă WX , atunci
se acceptă H .
Definiţie. Regiunea W se numeşte regiune critică.
Testarea ipotezelor poate să conducă la respingerea lui H când ea este
adevărată (eroare de gradul I) sau la acceptarea lui H când ea este falsă
(eroare de gradul II).
Decizia luată
0H adevărată
1H adevărată
0H respinsă
Decizie greşită ( eroare de tipul I )
Decizie bună
0H se acceptată
Decizie bună
Decizie greşită ( eroare de tipul II )
Probabilităţile acestor erori se notează astfel:
)/()/()/()/(
NHWXPNHHPHWXPHNHP
67
Definiţie. Se numeşte puterea testului, probabilitatea
)/()/()/(1 NHWXPNHWXPNHNHP
Altfel scris:
P(se acceptă 00 / HH fiind adevărată)= 1 decizie corectă
P(se respinge 00 / HH fiind adevărată)= eroare de gradul I
P(se acceptă 00 / HH fiind falsă)= eroare de gradul II
P(se respinge 00 / HH fiind falsă)= 1 decizie corectă
Fiind dată o eroarea este posibil să găsim multe regiuni critice astfel
ca )/( HWXP .
În general, prezintă interes acea regiune critică pentru care eroarea de
gradul doi este cea mai mică.
Exemplu .Să presupunem că avem un lac de acumulare (populaţia) care
alimentează cu apă o localitate. Se zvoneşte că apa acestui lac ar
conţine o substanţă interzisă. Pentru a dovedi existenţa ei se ia o probă
(un eşantion) dintr-o zonă a lacului aleasă întâmplător.
Ipoteza nulă este că apa nu conţine substanţa respectivă într-o
concentraţie mai mare decât cea permisă.
În urma analizei efectuate se determină concentraţia din eşantionul
respectiv.
Problema care se pune constă în a decide dacă această concentaţie din
eşantion se găseşte indiferent de locul de unde se extrage eşantionul.
68
Dacă nivelul concentraţiei din eşantion este mai mare decât cel al
concentraţiei admise în cel mult 5% din eşantioanele luate la
întâmplare din oricare zonă a lacului, atunci putem concluziona, cu un
prag de încredere de 95% că substanţa respectivă se găseşte în
concentraţie mai mare decât cea admisibilă.
Pragul de încredere de 95% nu ne absolvă de faptul că putem fi absolut
siguri că tot lacul are o concentraţie mai mare decât cea admisibilă.
Respingerea ipotezei pe baza cercetării statistice când, în realitate ea
este adevărată constituie eroare de gradul I.
Acceptarea ipotezei cînd ea este falsă este eroare de gradul II.
Testarea ipotezei nule presupune un anumit risc privind acceptarea sau
respingerea ei în raport cu unprag de semnificaţie.
69
Cursul nr. 8 Statistică în psihologie
Distribuţia (repartiţia ) normală [ ]
Scoruri standard
În psihologie, în unele cazuri, măsurarea anumitor caracteristici
(coeficientul de inteligenţă, timpul de reacţie etc.) ale unor subiecţi are ca
scop realizarea diferitelor comparaţii între subiecţi din aceeaşi populaţie
sau din populaţii diferite.
De exemplu, la un test o persoană obţine un număr de 75 puncte. Această
cifră este lipsită de importanţă dacă nu se cunosc câteva elemente
importante privind testul respectiv.
Pentru a putea face aprecieri asupra numărului de puncte obţinut de
persoana respectivă, este necesar să cunoaştem numărul minim şi maxim
de puncte ale testului respectiv, numărul mediu de puncte obţinut de
ceilalţi subiecţi care au făcut obiectul testării, precum şi împrăştierea faţă
de numărul mediu de puncte.
Facem presupunerea că numărul minim de puncte este 0, numărul maxim
este 100, media este 55, iar îmrăştierea este 30.
În acest caz, graficul se prezintă astfel:
70
Se numeşte scor standard sau scor z , modalitatea prin care se exprimă
semnificaţia unei anumite valori a unei distribuţii prin raportarea la
parametrii săi: medie şi abatere standard.
Scorul standard sau scorul z măsoară distanţa dintre o anumită valoare şi
media distribuţiei, folosind ca unitate de măsură abaterea medie standard.
Scorul z se expimă prin expresia:
xz
unde este media teoretică, este abaterea standard, iar x este oricare
dintre valorile distribuţiei.
Formula de mai sus transformă orice scor x în scor z . Numărătorul x
indică distanţa scorului x faţă de media . Prin împărţirea acestei distanţe
la se obţine distanţa scorului x faţă de media , exprimată în abateri
standard.
În cazul unui eşantion, scorul z este dat de
s
mxz
unde m şi s sunt media şi respectiv abaterea standard calculate pe baza
eşantionului.
Exemple. Fie un eşantion având media m =50 şi abaterea standard s =20.
Se obţin următoarele scoruri corespunzătoare valorilor 40,60, 80 din
eşantion:
5,020
504040
z , 5,0
205060
60
z , 5,120
508080
z
71
Scorul negativ indică o valoare mai mică decât media, ceea ce înseamnă
0,5 abateri standard sub medie, iar celelalte indică valori standard peste
medie, respectiv 0,5 şi 1,5.
Observaţii.
1. Scorul z se mai numeşte şi scor standard deoarece exprimă, în unităţi
ale abaterii standard, distanţa unei valori faţă de media distribuţiei din
care face parte.
2. Media distribuţiei scorurilor z este 0, indiferent de media distribuţiei
din care provin valorile lui x .
3. Abaterea standard a distribuţiei scorurilor este 1, indiferent de
abaterea standard a distribuţiei din care provin valorile lui x .
4. Din faptul că raportarea se face la medie şi la abaterea standard, scorul
z poate fi utilizat pentru compararea unor valori ce provin din
distribuţii diferite, indiferent de unitatea de măsură a fiecăreia.
5. Scorurile z prezintă avantajul că permit compararea valorilor care
provin din distribuţii diferite, datorită faptului că folosesc aceeaşi
unitate de măsură şi anume abaterea standard. De exemplu, dacă un
student obţine un scor de 0,3 la un test de statistică şi un scor de 0,5 la
un test de psihologie, atunci putem afirma că performanţa studentului
respectiv este mai bună la psihologie decât la statistică.
72
6. În cazul unor distribuţii care au forme grafice total diferite,
comparaţiile scorurilor z trebuie privite cu mai multă atenţie.
De cele mai multe ori rezultatele scorurilor z sunt reprezentate prin
numere mici, negative sau pozitive, cu multe zecimale, fiind mai greu de
utilizat.
Pentru a înlătura acest inconvenient se fac unele transformări, care
conduc la alte scoruri standard, după cum urmează:
Tipul scorului Formula de calcul Media Abaterea standard Scor z
smxz
0
1
Scor T z*1050 50 10 Scor H (Hull) z*1450 50 14 Scor QI (Binet) z*16100 100 16 Scor QI (Wechsler) z*15100 100 15 Scor SAT z*100500 500 100
Observaţii.
1. Scorurile de mai sus se obţin în urma unor transformări ale scorului z .
2. În unele cazuri, formulele trebuie aplicate cu semnul minus.
De exmplu, să considerăm că o persoană (subiect) participă la două teste:
unul de statistică în psihologie şi altul de rectivitate.
La testul de statistică, cu 70m şi 20s obţine un număr de 85 de puncte
iar testul de reactivitate cu 15,0m şi 10,0s obţine un timp de reacţie de
0,20 secunde. Aplicăm testul T în fiecare caz şi se obţine:
73
5,5520/)7085(*1050 sT
5510,0/)15,020,0(*1050 rT
Se observă că ambele valori sunt peste media testului care este 50.
La primul test rezultatul este normal deoarece 85 este mai mare decât 70,
iar la al doilea test rezultatul nu corespunde realităţii deoarece 0,20 este
un rezultat mai slab decât media 0,15.
În această situaţie se aplică testul cu semnul minus:
4510,0/)15,020,0(*1050 rT
Şi se obţine o valoare mai mică decât medai testului.
Distribuţia (repartiţia) normală
Rezultatele observaţiilor sau măsurătorilor efectuate asupra unor unităţi
statistice (subiecţi) aparţinând unei populaţii statistice pot fi reprezentate
grafic, curbele respective având diverse forme: simetrice sau asimetrice,
înalte sau aplatizate, unimodale sau multimodale etc.
În cele mai multe cazuri, observaţiile şi măsurătorile urmează o
distribuţie normală, având o curbă de forma unui clopot, numită curba lui
Gauss.
Prin definiţie, o variabilă continuă X are repartiţie normală de parametri
şi , cu 0 şi x R ( X ~ ),( 2N ) dacă funcţia de densitate este de
forma:
)(xf = 2
2
2)(
21
x
e , 0 , x R
74
unde )(XM , iar )(22 XD .
Funcţia de repartiţie are forma:
dtexXPxFx t
2
2
2)(
21)()(
, 0 , x R
Pentru 0 şi 1 se spune că variabila aleatoare urmează legea
normală redusă )1,0(N , având densitatea de repartiţie
2
2
21)(
x
ex
, x R
16 22 28 34 40
=28, 6 =28, 12
75
Graficul distribuţiei normale reduse se numeşte curbă normală
standardizată, valorile de pe această curbă fiind exprimate în scoruri z .
Graficul repartiţiei normale reduse are următoarele proprietăţi:
are formă de clopot;
este simetric faţă de axa ordonatelor;
cea mai mare parte a valorilor se concentrează în zona
centrală;
concav în intervalul )1,1( şi convex în afară;
este asimptotic la axa Ox;
-3 -2 -1 0 1 2 3 Scoruri z
34 %
14 %
2
76
de fiecare parte a mediei se află jumătate dintre valorile
distribuţiei;
aria cuprinsă între grafic şi axa Ox este 1.
Funcţia de repartiţie a variabilei aleatoare normale reduse este
dtedttxx
tx
2
21)()(
Pentru fiecare x , valoarea lui )(x este egală cu aria cuprinsă între axa
Ox, graficul lui )(x şi dreapta xy .
Repartiţia normală prezintă importanţă din următoarele motive:
cele mai multe măsurători sunt repartizate aproximativ
normal;
variabilele care un sunt repartizate normal pot fi supuse
unor transformări care conduc la variabile repartizate exact sau
aproximativ normal;
în condiţii generale, sume de variabile repartizate sau nu
normal sunt aproximativ normal repartizate;
legea normală reprezintă cazul limită al multor legi de
probabilitate.
Repartizarea rezultatelor măsurătotorilor care urmează repartiţie
normală redusă )1,0(N se prezintă astfel:
77
aproximativ 34% dintre scorurile distribuţiei normale sunt
mai mari decât media şi se află între medie şi abaterea
medie standard, 1z .
aproximativ 34% dintre scorurile distribuţiei normale sunt
mai mici decât media şi se află între medie şi abaterea
medie standard, 1z .
aproximativ 48% dintre scorurile distribuţiei normale sunt
mai mari decât media şi se află între medie şi abaterea
medie standard, 2z .
aproximativ 48% dintre scorurile distribuţiei normale sunt
mai mici decât media şi se află între medie şi abaterea
medie standard, 2z .
Distribuţia scorurilor z pe o curbă normală standardizată se utilizează
pentru a cunoaşte:
care este procentul valorilor mai mari sau mai mici decât un
anumit scor;
care este procentajul valorilor cuprinse între două scoruri;
care este procentajul valorilor cuprinse între medie şi un anumit
scor;
care este scorul corespunzător unui anumit procentaj etc.
78
Exemplu. La un test de cunoştinţe, media răspunsurilor corecte este de
70 puncte din 100 posibile, iar abaterea standard este 15.
Care este procentul celor care au obţinut peste 90 de puncte ?
În acest caz, scorul 33,115
7090
smxz
Din tabelul cu valorile funcţiei de repartiţie obţinem 4082,0)33,1( ,
ceea ce în procente înseamnă 40,82%.
Procentajul peste medie este de 50%, ceea ce înseamnă că numărul
celor care au obţinut peste 90 de puncte este 50-40,82=9,18 adică
9,18%.
Care este procentajul celor care au obţinut între 70 şi 85 puncte ?
În acest caz, scorul 115
7085
smxz
Din tabelul cu valorile funcţiei de repartiţie obţinem 3423,0)1( , ceea
ce în procente înseamnă 34,23%.
Care este numărul de puncte pentru a fi în primii 5% ?
Calculăm 50% - 5% = 45% , se caută în tabel valoarea 0,45 şi se obţine
z =1,64.
Calculăm szmx * şi se obţine x =70+1,64.15=70+24,60=96,60
puncte.
79
Cursul nr. 9 Statistică în psihologie
Distribuţiile (repartiţiile) HI- patrat, t (Student), Fisher-Snedecor
Distribuţia χ 2
O variabilă aleatoare X are repartiţie sau distribuţie χ 2 cu n grade de
libertate, dacă densitatea ei de repartiţie este de forma:
0,)
2(2
10,0
)( 21
2
2
xexn
x
xfxn
n
având media nXM )( şi dispersia nXD 2)(2 .
Repartiţia χ 2 este considerată ca fiind distribuţia unei variabile
aleatoare care se obţine ca suma pătratelor unor variabile aleatoare
independente cu repartiţie normală redusă (standard), ceea ce înseamnă
că dacă variabilele aleatoare nXXX ,...,, 21 sunt variabile aleatoare
independente )1,0(N , fiecare având distribuţie normală redusă
(standard), atunci variabila aleatoare nXXXZ ....21 are repartiţie
χ 2 cu n grade de libertate.
Observaţii.
Cuvântul libertate se referă la posibilitatea unei măsurători de de a
varia în cadrul unei serii de date, iar cuvântul grad la limitele acestei
variaţii.
80
Prin numărul gradelor de libertate asociate unei entităţi se înţelege
numărul variabilelor independente care definesc entitatea respectivă şi
a căror variaţie nu este supusă unor restricţii.
Testul 2 (hi-pătrat)
Testul 2 se bazează pe repartiţia 2 şi are multiple aplicaţii.
În psihologie, testul 2 se utilizează ca test de independenţă, pentru a
testa dacă două caracteristici ale unei anumite populaţii sunt
dependente sau independente, formulând următoarele ipoteze:
:0H caracteristicile care se compară sunt independente;
:1H caracteristicile care se compară sunt dependente.
Fie X o variabilă aleatoare şi ),( xF funcţia sa repartitie caracteristică
în ipoteza nespecificată H ( în sensul că este un parametru
necunoscut).
Fie o partiţie a mulţimii valorilor luin X :
i ...21 , ji , ji , li 1
şi o selecţie nXXX ,....,, 21 asupra lui X.
Notăm cu )/( HXPp ii şi i numărul de valori de selecţie aparţinând
lui i .
Presupunem că n este un număr suficient de mare astfel încât
tconsnpi tan)( , li 1 .
Notăm cu ̂ estimaţia lui determinată de condiţia:
81
min)(
))((1
22
l
i i
ii
npnp
cu
i
xdFpp ii )ˆ,()ˆ(ˆ
Dacă 21,
2 cl atunci se acceptă ipoteza H ; în caz contrar se respinge
ipoteza H ( c este dimensiunea parametrului vectorial ).
Testul 2 este util pentru a verifica ipoteza H că funcţia de repartiţie a
variabilei X este ),( xF , cu parametrul necunoscut.
Testul 2 are o formă simplă când ipoteza H este complet specificată în
sensul că nu există parametrul de estimat.
În acest caz, construcţia testului 2 se face în mod asemănător:
i
xdFpi )( ,
l
i i
ii
npnp
1
22 )(
În esenţă, testul 2 constă în următoarele:
Să presupunem că X reprezintă caracteristica unui subiect al cărui
comportament îl studiem. Efectuăm măsurători asupra acestei
caracteristici. Înregistrăm datele precum şi frecvenţele lor de apariţie şi
construim histograma. Aceasta ne sugerează un anumit tip de
distribuţie având funcţia de repartiţie );( xF , fiind un parametru
necunoscut.
Ne propunem să verificăm ipoteza statistică ),(:0 xFXH cu
alternativa ),(:1 xFXH .
82
Presupunem că s-au făcut n măsurători nxxx ,....,, 21 asupra caracteristicii
X . Intervalul valorilor posibile ale lui X îl împărţim în k intervale
disjuncte lDDD ,...,, 21 , ),( 1 kkk xxD , lk 1 .
Notăm cu
|{ kk DXPp dacă 0H este adevărată }
Această probabilitate se mai scrie
),();()( 11 kkkkk xFxFxXxPp
Să presupunem că în intervalul kD au fost observate kn valori, adică
l
kknn
1.
Repartiţia presupusă conţine un parametru necunoscut care trebuie
estimat din datele eşantionului nxxx ,...,, 21 , motiv pentru care kp nu pot fi
cunoscute exact, ci numai estimaţii ale lor.
Dacă numărul de parametri necunoscuţi este r , atunci se demonstrează
că
l
i i
iicalculat np
npn1
22 )(
urmează la limită o repartiţie 2 cu 1 rl grade libertate.
Dacă 21
2 rlc ( extras din tabele) se acceptă ipoteza 0H , altfel se
acceptă ipoteza 1H .
În practică, aplicarea testului 2 se relizează astfel: caracteristicile
datelor de observaţie se scriu într-un tabel de contigenţă care conţine m
83
lini mlll ,...,, 21 şi n coloane nkkk ,...,, 21 , corespunzătoare numărului
posibilităţilor de care sunt susceptibile caracteristicile cărora li se aplică
testul.
X Y
1k 2k nk
1l 11f 12f . . . . . . nf1
n
jjf
11
2l 21f 22f . . . . . . nf 2
n
jjf
12
. . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ml 1mf 2mf . . . . . . mnf
n
jmjf
1
m
iif
11
m
iif
12 . . . . . .
m
iinf
1
m
i
n
jijfN
1 1)(
Prin ijf am notat frecvenţele observate ale datelor din eşantionul
respectiv.
Cu ajutorul acestor frecvenţe se calculează frcvenţele teoretice tijf ,
astfel: N
fff
m
i
n
jljik
tlk
1 1
iar numărul gradelor de libertate este )1)(1( nmr .
Testul se calculează cu formula:
m
i
n
jt
ij
tijij
calculat fff
1 1
22 )(
84
Dacă 22tabelcalculat pentru r grade de libertate, atunci se acceptă ipoteza
0H , altfel se respinge 0H şi se acceptă 1H .
Acceptarea se face cu mai mică sau mai mare precizie, în funcţie de
valorile pragului de semnificaţie, care pot fi: 0.01 pentru mare precizie
şi 0,05 pentru o bună precizie. Un prag mai mare decât 0.05 este
considerat nesemnificativ.
Exemplu. La un examen s-au prezentat un număr 170 persoane: 80
fete şi 90 băieţi, obţinând următoarele rezultate:
fetele: 38 note mai mici decât 5
24 note de 5 şi 6
18 note de 7, 8, 9, 10.
băieţii: 32 note mai mici decât 5
36 note de 5 şi 6
22 note de 7, 8, 9, 10.
Diferenţele existente privind rezultatele sunt în raport de sex ?
Se pot face ipotezele:
0H diferenţele care apar între rezultatele fetelor şi cele ale
băieţilor sunt întâmplătoare.
1H diferenţele existente sunt dependente de sex.
85
Datele de observaţie sunt consemnate într-un tabel cu trei linii şi două
coloane. Deasupra diagonalei fiecărui dreptunghi se scriu frecvenţele
observate, iar sub diagonala frecvenţele calculate.
Pentru note considerăm caracteristica X, cu trei posibilităţi: note slabe ,
note satisfăcătoare şi note bune + foarte bune.
Pentru sex considerăm caracteristica Y cu două variante: sex feminin,
sex masculin.
X Y
fete Băieţi
n1
38 32,9
32 37,1
70
n2
24 28,2
36 31,8
60
n3
18 18,8
22 21,2
40
80 90 170
Frecvenţele teoretice se calculează astfel:
(70x80)/170=32,9 ; (70x90)/170=37,1
Se obţine:
73,22,21
8,08,18
8,08,31
2,42,28
2,41,37
1,59,32
1,5 2222222
86
Se caută valoarea în tabel în funcţie de numărul gradelor de libertate.
Dacă tabelul are m linii şi n coloane, atunci numărul gradelor de
libertate este (m-1)x(n-1).
În cazul de faţă numărul gradelor de libertate este 2 şi valoarea
corespunzătoare din tabel este 4,60.
Deoarece 2 =2,73<4,60 se acceptă ipoteza nulă 0H , ceea ce înseamnă
că rezultatele obţinute nu sunt dependente de sex.
Distribuţia (repartiţia t) Student
O variabilă aleatoare X are repartiţie t sau distribuţie Student cu n
grade de libertate, dacă densitatea ei de repartiţie este de forma:
212
)1()
2(
)2
1()(
n
nx
nn
n
xf
, x R
având media 0)( XM şi dispersia 2,2
)(2
nn
nXD .
Observaţie.
Pentru 30n , )(2 XD se apropie de valoarea 1, iar densitatea de
probabilitate a repartiţiei Student se apropie de densitatea de repartiţie
a variabilei normale reduse )1,0(N , ceea ce înseamnă că pentru
eşantioane mari, repartiţia Student poate fi aproximată printr-o
repartiţie normală )1,0(N .
Testul Student
87
Testul Student (introdus de R. Fisher) se bazează pe repartiţia Student
cu 1n grade de libertate şi se utilizează pentru compararea valorilor
diferiţilor parametri.
Testul Student este un test de comparare a mediilor şi se aplică unor
eşantioane independente, de volum mic, obţinute aleatoriu din
populaţii având distribuţie normală.
În psihologie, testul Student poate fi aplicat pentru compararea mediei
performanţelor unui subiect în situaţii diferite sau a două grupuri de
subiecţi aflate în aceeaşi situaţie.
Se pot face următoarele ipoteze asupra mediei unei populaţii având
distribuţie normală ),( N :
:0H 0 , 01 : H
în cazul în care dispersia este necunoscută.
Student (pseudonimul lui William Gosset 1876-1937) a studiat
repartiţia statisticii
ns
xt/
cunoscută sub numele de repartsau t sau repartiţia Student.
Pentru un număr mic de selecţii ( 50n ), densitatea ei de repartiţie se
apropie cea normală.
Testul t bilateral
Să presupunem că vrem să verificăm ipotezele statistice:
88
:0H 0
cu alternativa
01 : H ,
pe baza unui eşantion de volum n : nxxx ,...,, 21 efectuat dintr-o populaţie a
cărei caracteristică X (variabilă aleatoare) urmează o distribuţie
normală ),( N , având dispersia 2 este necunoscută ( fiind abaterea
standard).
Pe baza eşantionului se calculează:
media de selecţie
n
iix
nx
1
1
dispersia de selecţie
n
ii xx
ns
1
22 )(1
1 , unde nxxx ,....,, 21 sunt
măsurări asupra caracteristicii X ;
se calculează statistica testului ns
xtcalculat /
0 , care urmează
o distribuţie Student cu 1n grade de libertate.
Ipoteza 0H se acceptă dacă 2
1,1
ntabelcalculat ttt .
Dacă fixăm un prag de semnificaţie , ipoteza 0H se acceptă dacă
t
nsx
/0
ceea ce se mai poate scrie :
nstmx
nstm 00
reprezentând limitele de semnificaţie pentru media de selecţie .
89
Observaţie.
Valoarea pragului de semnificaţie se alege în funcţie de domeniul în
care se face cercetarea şi de precizia cu care se doreşte luarea deciziei.
De regulă, în toate cazurile, nivelul pragului de semnificaţie nu
depăşeşte valoarea 05.0 .
Valorile cele mai uzuale ale nivelului de semnificaţie sunt 01.0 , 02.0 şi
05.0 .
Se calculează statistica t cu ajutorul formulei
nsmx
tcalculat0
unde x şi s se calculează pe baza datelor de selecţie de volum n , iar 0m
este valoarea mediei pentru care se verifică ipoteza.
Se compară calculatt cu t din tabele, corespunzător pragului de
semnificaţie considerat.
Algoritmul de calcul:
1. Se extrage un eşantion de volum n din populaţia care
face obiectul studiului: nxxx ,...,, 21 .
2. Se calculează media de selecţie x şi abaterea standard
s , pe baza datelor eşantionului, cu formulele:
n
iix
nx
1
1 ,
n
ii xx
ns
1
22 )(1
1
3. Se calculează limitele intervalului de încredere
90
n
stmn
stm 00 ,
Dacă ),( 00 nstm
nstmx se acceptă ipoteza 0H . În caz contrar se
respinge ipoteza 0H şi se acceptă ipoteza 1H .
Exemplu.
Pentru ca o persoană să corespundă unui unui anumit loc de muncă
trebuie să obţină la un chestionar un număr de 50 puncte. Pentru a
verifica persoanele respective se ia un eşantion de 20 de subiecţi.
Rezultatele celor testaţi sunt următoarele:
Trebuie să verificăm ipoteza:
50:0 mH
ceea ce înseamnă că numărul mediu de puncte obţinut la chestionar
este de 50 puncte, la un nivel de semnificaţie 02.0 .
Calculăm:
20
1201
iixx ,
220
1
2 )(120
1 xxsi
i
Pentru 02.0 , din tabel pentru distribuţia Student cu 191 n grade de
libertate, 53.202.0 t .
Număr puncte 46 48 50 52 54 Număr persoane 2 4 9 3 2
91
nstm 0 ,
nstm 0
Se observă că ()x ceea ce înseamnă că ipoteza mH :0 50 se acceptă,
iar persoanele respective corespund locului de muncă.
Testul t unilateral
Testul t unilateral se aplică în situaţiile în care nu prezintă interes
faptul că 0mm sau 0mm .
Considerăm că avem o populaţie normală ),( mN , cu ambii parameti
necunoscuţi, şi vrem să verificăm ipoteza:
0: mmH
cu alternativele
01 : mmH
sau
02 : mmH
Algoritmul de calcul:
1. Se extrage un eşantion de volum n din populaţia care
face obiectul studiului: nxxx ,...,, 21 .
2. Se calculează media de selecţie x şi abaterea standard
s , pe baza datelor eşantionului, cu formulele:
n
iix
nx
1
1 ,
n
ii xx
ns
1
22 )(1
1
3. Se calculează
92
,0 nstm
Dacă
nstmx 10
atunci se acceptă ipoteza 0H .
Exemplu.
Distribuţia Fisher-Snedecor
Repartiţia Fisher-Snedecor, cunoscută şi sub numele F este utilă în
testarea ipotezelor statistice privind compararea a două dispersii.
Repartiţia F depinde de doi parametri 21 ,nn reprezentând grade de
libertate şi se notează 21 ,nnF .
Quantilele repartiţiei F , notate cu 21 ,, nnF se găsesc în tabele pentru
diferite valori ale lui şi grade de libertate.
Dacă X şi Y sunt două variabile aleatoare independente, având
repartiţie 2 , cu 1n şi respectiv 2n grade de libertate, atunci variabila
aleatoare YnXnX
1
2 are repartiţie F cu 1n şi respectiv 2n grade de
libertate.
93
Cursul nr. 10 Statistică în psihologie
Teste statistice
Definiţie.Se numeşte test statistic, un procedeu inferenţial prin care, pe
baza datelor furnizate de un eşantion, se stabileşte credibiltatea ipotezei
pentru întreaga populaţie din care provine acesta.
Un test statistic este o metodă sau un procedeu de verificare a
ipotezelor statistice.
Distingem două categorii de teste statistice:
teste parametrice, prin care se verifică dacă valoarea unui
parametru calculată pe baza unui eşantion obţinut dintr-un sondaj
poate estima valoarea teoretică (la nivelul întregii populaţii) a
parametrului respectiv.
De exemplu, media empirică (calculată pe sondaj), poate estima
media (teoretică) a populaţiei respective.
teste de concordanţă, prin care se verifică dacă există
concordanţă între distribuţia teoretică a unei populaţii şi cea empirică.
Testarea ipotezelor despre o singură populaţie
În cele ce urmează vor fi prezentate modalităţi de testare a ipotezelor
statistice privind o singură populaţie.
94
Pe baza unei statistici calculate pentru un eşantion, se trage o concluzie
privind parametrul corespunzător al populaţiei din care a fost extras
eşantionul.
Cercetarea psihologică vizează diferenţa dintre valoarea unei statistici
(medie aritmetică sau proporţie) calculată pentru un eşantion şi
valoarea presupusă a parametrului corespunzător al populaţiei din care
a fost extras eşantionul.
De regulă, între cele două valori există diferenţe, iar testarea
ipotezelor statistice are menirea să decidă dacă diferenţa este suficient
de mare astfel încât să se justifice respingerea presupunerii făcute.
Definiţie. Se numesc teste parametrice, testele pentru verificarea
ipotezelor statistice privind parametrii unei populaţii.
Testul scorurilor Z pentru medii aritmetice când este cunoscut
Pentru media aritmetică, în cazul în care se cunoaşte sau se poate
aproxima valoarea lui , se aplică următoarea formulă:
n
xz P
/
Ipoteza nulă pH :0 , unde este media teoretică (media aritmetică
reală) a populaţiei, p este media presupusă (media care aproximează
pe cea reală), x media eşantionului, abaterea standard, iarn este
volumul de selecţie.
95
Ipoteza alternativă paH : , cu variantele paH : sau paH : .
Dacă se respinge 0H ca neadevărată, atunci se poate accepta Ha .
Exemplu. Considerăm un test de inteligenţă aplicat studenţilor
universităţii.
Ipoteză nulă 0H : media punctelor obţinute de studenţi la acest test este
800 (dacă ar fi chestionaţi toţi studenţii).
Ipoteza alternativă aH : există o diferenţă semnificativă între valoarea
efectivă a parametrului respectiv şi valoarea presupusă: media reală a
punctelor studenţilor şi media presupusă.
Pentru a verifica această ipoteză se ia un eşantion de 130 de studenţi,
se testează şi se obţine o medie de 755 puncte.
Să presupunem că se cunoaşte abaterea medie standard a populaţiei, ca
fiind 152.
Se pune problema dacă diferenţa dintre media eşantionului şi cea a
populaţiei este sau nu semnificativă. Dacă este semnificativă, atunci
ipoteza se respinge.
În acest caz, avem:
800:0 H , iar 800: aH
36,3130/152800755
/
n
xZ p
Ipoteza nulă este respinsă dacă rezultatul testului Z este peste sau sub
un nivel de încredere, ceea ce înseamnă în regiunea critică.
96
Considerând pragul de semnificaţie , atunci aria de sub 2/Z plus
aria de peste 2/Z reprezintă regiunea critică.
Dacă Z se află în regiunea critică, ipoteza nulă se respinge, ceea ce
înseamnă că diferenţa între media aritmetică a eşantionului şi media
aritmetică a populaţiei este semnificativă. Eşantionul respectiv diferă
semnificativ de populaţia din care a fost extras, ceea ce conduce la
respingerea ipotezei.
În cazul exemplului de mai sus, pentru 05.0 avem 96,12/ Z , ceea
ce înseamnă că – 3,36 este mai mic decât – 1,96, deci se află în zona
critică.
În acest caz se respinge ipoteza nulă 0H .
2/ 2/
2/z + 2/z
97
De aici rezultă că probabilitatea de a lua o decizie greşită este de 5%,
ceea ce înseamnă că dacă repetăm acest test de 100 de ori (extragerea a
100 eşantioane) se respinge greşit ipoteza 0H doar în 5 caziuri.
Cu alte cuvinte, diferenţa dintre media populaţiei şi media eşantionului
este diferită în 95% din cazuri.
Testarea ipotezelor pentru medii aritmetice când este necunoscut
De regulă, în practica cercetării statistice, valoarea abaterii standard a
populaţiei nu se cunoaşte.
În funcţie de eşantion, distingem două cazuri:
eşantioane mari, volumul de selecţie n este mai mare decât 30. În
acest caz, se poate estima prin s şi se utilizează următoarea
formulă:
1/
nsXZ P
eşantioane mici, volumul de selecţie n este mai mic decât 30. În
acest caz, se utilizează o distribuţie Studentt :
1/
nsXt P
Exemplu. Să presupunem că la nivelul conducerii universităţii se
primeşte informaţia (neverificată) că media aritmetică a coeficientului
98
de inteligenţă a studenţilor, care au mediile anuale peste 9, din cele 11
facultăţi ale universităţii este de aproximativ 125.
Pentru a testa această ipoteză se ia un eşantion aleatoriu de 20 studenţi
din cele 11 facultăţi, a cărui medie aritmetică 123X , iar abaterea
standard .8s
Ne interesează dacă la un nivel de încredere de 99% media aritmetică a
coeficientului de inteligenţă a studenţilor cu rezultate anuale peste 9
este mai mare decât 125.
Datele problemei: 125P , 123X , 8s , 20n .
Ipotezele: 125:0 H , 125: aH
Din tabelul cu valorile distribuţiei Studentt , se obţine:
01.0 , nr. grade de libertate 191201 n , ,
Statistica testului 09,1198123125
1
nsXt P .
Ţinînd seama de faptul că t nu cade în zona critică, 53,209,1 , nu se
poate respinge ipoteza nulă.
De aici rezultă că pe baza mediei aritmetice a eşantionului nu se poate
trage concluzia la un nivel de încredere de 99% că media
coeficientului de inteligenţă a studenţilor cu rezultate anuale de peste 9
este mai mare de 125.
În cazul testului Studentt , regulile de acceptare-respingere sunt astfel:
dacă 2/tt sau 2/ tt se respinge ipoteza 0H .
99
dacă tt se respinge ipoteza HH :0 .
dacă tt se respinge ipoteza HH :0 .
Testul scorurilor z pentru proporţii
În anumite cercetări, prezintă interes proporţia eşantionului în
populaţia respectivă şi nu media aritmetică.
În aceste situaţii se utilizează un test al ipotezelor pentru proporţii,
care se aplică eşantioanelor pentru care 5np , utilizând următoarea
formulă:
npp
PpZ H
/)1(
unde p este proporţia eşantionului, HP este ipoteza privind proporţia,
iar n este volumul de selecţie.
Exemplu. Se spune că 10% din angajaţii unei mari companii suferă de
depresii, din cauza spectrului şomajului.
Pentru testarea acestei ipoteze se obţine un eşantion aleatoriu de 200
angajaţi ai companiei respective şi se constată că 24 dintre ei suferă de
depresii.
Pornind de la această constatare, se poate trage concluzia la un nivel
de încredere de 95% că mai mult de 10% dintre angajaţii companiei
suferă depresii ?
În acest exemplu 10,0HP , 12,0p , 200n .
Ipoteza nulă : 10,0:0 PH .
100
Ipoteza alternativă : 10,0: PH a .
Pentru 05,0 din tabele se obţine 65,1Z .
Calculând statistica testului se obţine
06,10188,002,0
300/)12,01(12,010,012,0
/)1(
nppPpZ H .
Având în vedere că 65,106,1 Z rezultă că Z calculat nu cade în
regiunea critică, ceea ce înseamnă că ipoteza nulă nu poate fi respinsă.
În concluzie, la un nivel de încredere de 95% nu se poate afirma că
mai mult de 10% dintre angajaţii firmei au depresie.
101
Cursul nr. 11 Statistică în psihologie
Testarea ipotezelor despre diferenţele dintre două populaţii
În unele cazuri cercetarea psihologică urmăreşte testarea ipotezelor
privind diferenţele dintre mediile aritmetice a două populaţii sau dintre
proporţiile a două populaţii.
Se obţin două eşantioane aleatoare şi independente din două populaţii
diferite. Diferenţa dintre cele două eşantioane privind statistca de
interes este suficient de mare pentru a concluziona, cu o anumită
eroare, că populaţiile din care au fost extrase eşantioanele sunt diferite
sub aspectul statisticii respective ?
Testul scorurilor Z pentru diferenţa dintre două medii aritmetice
Testul Z se aplică pentru volume de selecţie (eşantioane) mari ( 30n ).
Notăm cu 1 media aritmetică (teoretică/reală) a primei mulţimi, iar cu
2 media aritmetică a celei de a doua mulţimi.
Ipoteza nulă 210 : H .
Ipoteza alternativă 21: aH .
Testul Z se calculează după formula:
2
22
1
21
21 ||
nn
XXZ
unde
102
n
Xxi
i
2
2)(
, n
xX i
i
iar 1n şi 2n reprezintă volumele de selecţie ale celor două eşantioane.
Testul Z se aplică pentru compararea mediilor aritmetice a două
populaţii formate din două eşantioane de volume mai mari decât 30,
adică pentru eşantioane mari.
Exemplu. Considerăm două populaţii formate din două grupuri de
sportivi care se pregătesc pentru proba privind săritura în lungime.
Se iau două eşantioane aleatoare şi independente (obţinerea unuia nu
influenţează obţinerea celuilalt) de volume 70 şi respectiv 65.
Calculăm mediile aritmetice şi abaterile medii standard ale celor două
eşantioane privind săritura în lungime.
Se obţine:
82,61 X , 17,121 , 12,72 X , 16,22
2
34,1
6516,2
7017,1
|6562|
Z
La un prag de 0,05 , din tabel se obţine 1,96 , ceea ce înseamnă că
96,134,1 ceea ce înseamnă că se acceptă ipoteza nulă, diferenţa celor
două medii nu este semnificativă.
103
Decizia de acceptare a ipotezei nule are o probabilitate de 95%, ceea
ce înseamnă că în 95% din cazuri mediile celor două populaţii nu
diferă semnificativ.
Dacă 331 n , 342 n , 7,71 X , 15,321 , 7,62 X , 5,32
2 se obţine
33,2Z care este mai mare decât Z din tabel a cărui valoare este 96,1 ,
ceea ce înseamnă că ipoteza nulă se respinge.
Testul scorurilor t pentru diferenţa dintre două medii aritmetice
Testul t se aplică pentru volume de selecţie (eşantioane) mici ( 30n ).
Fie două eşantioane:
},....,,{121 nxxx şi },....,,{
221 nyyy
atunci numărul t se determină cu ajutorul formulei:
)11(21
2
nns
yxt
,
2
)()(
21
1 1
22
2
1 2
nn
yyxxs
n
i
n
jji
,
1
11
1 n
iix
nx ,
2
12
1 n
jjy
ny
Exemplu. Nr ix
xxi 2)( xxi Nr jy
yy j 2)( yy j
1 6 0,23 0,05 1 6 0,82 0,67 2 7 1,51 2 5 0,03 3 7 1,51 3 5 0,03 4 6 0,05 4 3 4,75 5 4 3,13 5 4 1,39 6 5 0,59 6 6 0,67 7 6 0,23 7 5 0.03 8 5 -0,77 8 7 3,31 9 5 -0,77 9 4 1,39
104
10 6 0,23 10 6 0,67 11 6 0,23 11 6 0,67 12 7 1,23 13 5 -0,77 75 10,27 57 13,61
77,51375
x , 18,51157
y , 08,11113
61,1327,10
s , 40,1)
111
131(08,1
18,577,5
t
Numărul gradelor de libertate este n=13+11+2=22, la un prag 0,05 ,
din tabele găsm 2,07 mai mare decât 1,40.
Se admite ipoteza nulă conform căreia diferenţa dintre cele două medii
nu este statistic semnificativă, diferenţele fiind întâmplătoare.
Testul scorurilor z pentu diferenţa dintre două proporţii
Testul se aplică pentru eşantioane mari ( )30,30 21 nn .
21
21**
21
)1(nn
nnPP
ppz
,
21
2211*
nnpnpnP
unde 1p şi respectiv 2p sunt proporţiile eşantioanelor, iar 1n şi respectiv
2n reprezintă volumele de selecţie al celor două eşantioane.
Exemplu.
Se zvoneşte că salariaţii din două fabrici ale unei companii au opinii
diferite privind politica salarială promovată de conducere.
Problema care preocupă conducerea: există o diferenţă semnificativă
între opiniile salariaţilor celor două fabrici privind politica salarială
105
promovată de conducere ?
Pentru aceasta se alcătuiesc două eşantioane de 85 de salariaţi de la
prima fabrică şi 103 de la cea de a doua fabrică.
Răspunsurile sunt: de acord, împotrivă, nedecis.
Proporţia salariaţilor care au răspuns că sunt de acord cu politica de
personal promovată de conducere este de 0,34 în primul eşantion şi
0,25 în al doilea eşantion.
Date: 831 n , 34,01 p , 1032 n , 25,02 p
Ipoteze: 210 : PPH , 21: PPH a
Calculul statisticii testului:
29,0186
97,53186
75,2522,2810383
)25,0(103)34,0(83*21
2211
nn
pnpnP
29,107,009,0
103.8310383
1)29,01(29,0
25,034,01)1(
21
21**
21
nnnnPP
ppZ
Distribuţia de eşantionare Z pentru un prag 05,0 , 96,12/ Z .
Decizia: 69,129,12/
ZZ calculat nu suntem în zona critică, ceea ce
înseamnă că nu se poate respinge ipoteza nulă.
Rezultă că opiniile salariaţiilor de la cele două fabrici pivind politica
salarială nu diferă semnificativ.
106
Cursul nr. 12 Statistică în psihologie
Testarea valorilor de sondaj aberante
În multe cercetări experimentale se întâlnesc situaţii în care anumite
valori sunt mult diferite de majoritatea celorlalte; ele pot fi mult mai
mici sau mult mai mari.
Aceste valori „singulare” sau discordante în raport cu celelalte se
numesc valori aberante sau valori de excepţie şi se pot datora
următoarelor cauze:
eşantioane nereprezentative;
erori de observare sau măsurare;
erori privind obţinerea eşantioanelor
condiţii nefavorabile pentru prelevarea de probe etc.
Exemplu. Un student obţine întrun an la examene următoarele
rezultate: 9, 10, 9, 10, 9, 9, 3, 8, 9, 10.
Se pune întrebarea dacă nota 3 este aberantă (în discordanţă cu
celelalte), fără ca prin aceasta să se înţeleagă că studentul nu trebuia să
primească această notă, că notarea nu a fost obiectivă etc.
În ceea ce priveşte valorile aberante trebuie analizate două aspecte:
detectarea acestor valori ?
107
dacă există, se înlătură sau se păstrează în mulţimea datelor care
se analizează ?
În statistică au fost dezvoltate tehnici privind primul aspect.
În ceea ce priveşte al doilea aspect, doar experimentul poate să decidă.
În unele situaţii este posibil ca tocmai valoarea aberantă să prezinte
interes.
De exemplu, un astronom observă că întro mulţime de stele apare o
cometă şi ar decide că aceea este aberantă.
În practică, în absenţa unui test se aplică regula care spune că între cel
puţin 10 valori,este aberantă valoarea care nu se înscrie între sx 2 şi
sx 2 .
Textul Dixon
Pentru detectarea unor valori aberante întrun eşantion de volum mic,
25n , datele de sondaj se ordonează, crescător sau descrescător, astfel
încât valoarea care se testează să fie prima în şir, adică )1(x .
Ipotezele testului Dixon sunt:
.:;:
)1(1
)1(0
taesteaberanvaloareaxHantanuesteabervaloareaxH
Se calculează statistica testului:
)1()1(
)2()1(
nxxxx
D
108
Statistica notată cu D este calculată în funcţie de valoarea lui n , fiind
prezentată în cele ce urmează.
Tabelul cu valorile critice pentru testul Dixon Valorile critice D 1,n N 05,0 01,0
Statistica D
3 4 5 6 7
0,941 0,765 0,642 0,560 0,507
0,988 0,889 0,780 0,698 0,637
)()1(
)2()1(
nxxxx
8 9 10
0,554 0,512 0,477
0,683 0,635 0,597
)1()1(
)2()1(
nxxxx
11 12 13
0,576 0,546 0,521
0,679 0,642 0,615
)1()1(
)3()1(
nxxxx
14 15 16 17 18 19 20 21 22 23 24 25
0,546 0,525 0,507 0,490 0,475 0,462 0,450 0,440 0,430 0,421 0,413 0,406
0,641 0,616 0,595 0,577 0,561 0,547 0,535 0,524 0,514 0,505 0,497 0,489
)2()1(
)3()1(
nxxxx
109
Decizia:
se respinge 0H în favoarea lui 1H dacă 1, nDD ;
se acceptă 0H dacă 1, nDD .
În cazul respingerii ipotezei nule, valoarea )1(x poate fi considerată
valoare aberantă şi poate fi eliminată dintre datele ce urmează a fi
procesate.
Procedeul se poate repeta până când nu se mai respinge ipoteza nulă.
Exemplu. Se selectează un lot de 10 studenţi având următoarele medii
anuale:
6,25 , 6,42 , 6,70 , 6,85 , 7,10 , 7,35 , 7,50 , 8,33 , 8,75 , 9,50
Se ordonează descrescător:
9,50 , 8,75 , 8,33 , 7,35 , 7,50 , 7,10 , 6,85 , 6,70 , 6,42 , 6,25
Se observă că 477,0243,0 tabelcalculat DD ceea ce înseamnă că nu se
poate respinge ipoteza nulă şi prin urmare 9,50 nu poate fi considerată
valoare aberantă şi nu poate fi exclusă din eşantion.
110
Testul Grubbs
Pentru detectarea unor valori aberante întrun eşantion de volum mai
mare, 25n , extrase dintr-o populaţie normală, cu parametri
necunoscuţi.
Testul se bazează pe abaterea dintre medie şi valoarea extremă testată.
Datele de sondaj se ordonează, astfel încât valoarea )1(x care se testează
să fie prima în şir, iar )(nx este valoarea maximă.
Ipotezele testului Grubbs sunt:
.:;:
)1(1
)1(0
taesteaberanvaloareaxHantanuesteabervaloareaxH
Se calculează statistica testului:
pentru valoarea de sondaj maximă, )(nx
sxx
g n )(
pentru valoarea de sondaj minimă, )1(x
sxx
g )1(
Unde x şi s reprezintă media şi respectiv abaterea medie standard de
sondaj.
Ipoteza nulă 0H se respinge dacă valoarea calculată g este mai mare
decât valoarea tabelată a testului Grubbs.
111
Tabelul cu valorile critice pentru testul Grubbs N 05,0 01,0 n 05,0 01,0 25 2,55 2,884 85 3,151 3,543 30 2,683 3,009 90 3,171 3,563 35 2,745 3,103 95 3,189 3,582 40 2,811 3,178 100 3,207 3,600 45 2,914 3,292 105 3,224 3,617 50 2,956 3,336 110 3,239 3,632 55 2,992 3,376 115 3,254 3,647 60 3,025 3,411 120 3,267 3662, 65 3,055 3,442 125 3,281 3,675 70 3,082 3,471 130 3,294 6883, 75 1073, 3,496 135 3,306 3,700 80 3,130 3,521 140 3,318 3,723
Ipoteza nulă 0H se respinge dacă valoarea calculată g este mai mare
decât valoarea critică (valoarea din tabel) 1,ng .
Exemplu. Să presupunem că avem un eşantion de 30 de persoane
dintr-o populaţie, caracteristica studiată est înălţimea.
Valorile eşantionului sunt:
1,73m, 1,58m, 1,60,...,1,85m, 1,99m
Ordonăm crescător valorile obţinute şi avem:
1,58m, 160m,....,1,85m, 1,99m.
Calculăm media eşantionului şi se obţine 70,1x , iar abaterea standard
105,0s .
În eşantionul respectiv există o persoană cu înălţimea de 1,99m; se
pune problema dacă această valoare este sau nu una de excepţie, care
ar trebui să fie, eventual, eliminată din studiu.
112
Valoarea testată este cea maximă şi avem:
76,2105,029,0
105,070,199,1)30(
sxx
g
Se observă că 68,276,2 grubbscalculat gg şi ipoteza 0H se respinge, ceea
ce înseramnă că valoarea 1,99m este de excepţie şi trebuie eliminată.
Cursul nr. 13 Statistică în ecologie
Corelaţie şi regresie
113
Studiul unor fenomene şi procese presupune luarea în
consideraţie a două sau mai multe caracteristici.
Exemplu.Repartiţia a 25 studenţi după notele la informatică şi la
statistică este prezentată în tabelul următor: Nr. student Nota la informatică Nota la statistică 1 8 9 2 6 7 3 5 7 4 8 8 5 3 4 6 10 9 7 6 7 8 9 8 9 4 5 10 8 8 11 4 5 12 7 7 13 9 10 14 3 4 15 10 9 16 7 8 17 8 8 18 3 4 19 7 8 20 5 6 21 9 10 22 6 6 23 7 8 24 7 6 25 10 10 26 6 7 27 7 5 28 8 8 29 4 6
114
30 9 8
Considerăm separat pe cele două caracteristici şi avem seriile
statistice următoare: Nota la informatică 3 4 5 6 7 8 9 10 Frecvenţa 3 3 2 4 7 5 3 3
Nota la statistică 4 5 6 7 8 9 10 Frecvenţa 3 3 9 4 5 3 3
Folosind aceste serii statistice se pot introduce variabilele
statistice corespunzătoare notate cu X şi respectiv Y , astfel:
Cele două variabile statistice considerate simultan constituie
componentele unui vector bidimensional ),( YXV .
3 4 5 6 7 8 9 10 X: 3/30 3/30 2/30 4/30 7/30 5/30 3/30 3/30 4 5 6 7 8 9 10 Y: 3/30 3/30 9/30 4/30 5/30 3/30 3/30
115
Se poate scrie:
mipxX
i
i ,....,2,1,:
njqy
Yj
j ,....,2,1,:
De exemplu, gruparea datelor de mai sus după cele două
caracteristici conduce la un tabel cu două intrări. Nota la informatica Nota la statistică
10
9
8
7
6
5
4
3
2
1
Total
10 9 8 7 6 5 4 3 2 1
1 2 0 0 0 0 0 0 0 0
2 1 0 0 0 0 0 0 0 0
0 0 5 0 0 0 0 0 0 0
0 0 3 4 0 0 0 0 0 0
0 0 1 0 3 0 0 0 0 0
0 0 0 0 2 0 0 0 0 0
0 0 0 0 0 2 1 0 0 0
0 0 0 0 0 1 2 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
3 3 9 4 5 3 3 0 0 0
Total 3 3 5 7 4 2 3 3 0 0 30
Se observă că 3 studenţi au obţinut nota 7 la informatică şi 8 la
statistică, 2 studenţi au obţinut nota 5 la informatică şi 6 la
statistică, nici-un student nu a obţinut 10 la statistică şi 8 la
informatică.
În cazul unui studiu statistic după mai multe caracteristici, se
utilizează vectori aleatori multidimensionali ),.....,,( 21 nXXXV în
116
care fiecare componentă niX i ,...,2,1, este o variabilă statistică
având repartiţia:
nipX
Xk
k
i
ii ,...,2,1,:
lmk ,...,2,1 cu condiţia 11
l
k
m
kip
Reluând exemplul de mai sus, datele se pot grupa într-un tabel
având pe orizontală notele de la informatică, iar pe verticală
notele la statistică. Se vor marca celulele unde există cupluri de
note la informatică şi statistică. X y
3
4
5
6
7
8
9
10
4 2* 2* 5 2* * 3* 6 * * * * 4* 7 * 2* * * 5* 8 3* 5* 2* 10* 9 * 2* 3* 10 * 2* 3* 2* 3* 2* 3* 6* 7* 3* 4*
Analiza unei populaţii se realizează studiind una sau mai multe
caracteristici. Se pune problema dacă între aceste caracteristici
există sau nu vreo legătură.
Analiza de regresie şi corelaţie realizează studiul
existenţei/inexistenţei unei relaţii de dependenţă între diferitele
caracteristici.
117
Regresia indică existenţa şi tipul dependenţei între două sau mai
multe caracteristici ale unei populaţii.
Regresia. Noţiunea de regresie a fost introdusă de statisticianul
englez Galton, care studiind relaţia dintre înălţimea părinţilor şi
cea a copiilor a constatat că părinţii foarte înalţi au copii înalţi,
în timp ce părinţii scunzi au copii scunzi dar mai puţin scunzi
decât părinţii.
Corelaţia exprimă gradul de dependenţă dintre caracteristicile
considerate, evaluându-l printr-un număr care se numeşte
coeficient de corelaţie.
Covarianţa exprimă variaţia simultană a datelor studiate.
Regresia liniară
Fie ),....,,( 21 nxxxX şi ),....,,( 21 nyyyY două caracteristici după care
se studiază o populaţie. Punctele de coordonate nkyx kk ,...,2,1),,(
se reprezintă într-un sistem de cartezian. În cazul în care între
cele două caracteristici există o corelaţie, poziţia punctelor poate
sugera o figură geometrică cunoscută (o dreaptă, o curbă etc.)
care constituie imaginea grafică a unei funcţii. Problema care se
pune este să determinăm funcţia respectivă astfel încât ea să
aproximeze cât mai bine punctele reprezentate. Curba obţinută
se numeşte curbă de regresie. În cazul când curba respectivă ia
118
forma unei drepte avem o dreaptă de regresie sau regresie
liniară.
Determinarea funcţiei liniare care se reprezintă printr-o dreaptă
de regresie, se poate realiza prin metoda celor mai mici pătrate.
Metoda celor mai mici pătrate.
Considerăm caracteristicile reprezentate prin punctele de
coordonate nkyx kk ,...,2,1),,( .
Metoda celor mai mici pătrate constă în a determina funcţia
RRf : astfel încât suma
2
1])([ k
n
kk yxf
să fie minimă.
În cazul regresiei liniare, funcţia RRf : este baxxf )( , ceea
ce înseamnă că trebuie să determinăm coeficienţii a şi b astfel
încât
min][ 2
1
k
n
kk ybax
Pentru aceasta considerăm funcţia RRF 2: definită prin
2
1
)(),( k
n
kk ybaxbaF
şi rezolvăm sistemul:
119
0
0
bFaF
n
kkk
n
kkkk
ybax
xybax
1
1
0)(
0)(
echivalent cu
n
k
n
kkk
n
k
n
k
n
kkkkk
ynbxa
yxxbxa
1 1
1 1 1
2
Pentru rezolvarea sistemului se notează xxd kk , nk ,....,2,1 şi
se obţine soluţia:
n
kk
n
kkk dyda
1
2
1/ , nyb
n
kk /)(
1
, nk ,.....,2,1
unde nxxn
kk /)(
1
este media aritmetică.
Exemplu.
Coeficientul de corelaţie.
Calculul coeficientului de corelaţie se face în cazul populaţiilor
în care se studiază două caracteristici. Fie ),....,,( 21 nxxxX şi
),....,,( 21 nyyyY două caracteristici după care se studiază o
populaţie.
Coeficientul de corelaţie se calculeatuză astfel:
n
k
n
kkkkk
n
kyyxxyyxxr
1 1
22
1)()(/)])(([
unde
n
kkx
nx
1
1 ,
n
kky
ny
1
1 .
120
Cu cât coeficientul de corelaţie este mai apropiat de valoarea 1,
cu atât dependenţa este mai mare. Dacă r se apropie de 0
înseamnă că dependenţa este foarte mică.
Exemplu. Cursul nr. 14 Statistică în ecologie
121
Analiză dispersională sau analiză de varianţă ANOVA(ANalysis Of VAriance)
Noţiunea de dispersie sau varianţă a fost introdusă de Robert
Fisher. Parametrul dispersie caracterizează de regulă
împrăştierea valorilor unei variabile aleatoare.
Fisher a folosit dispersia pentru a determina efectele unor factori
aleatori, cantitativi sau calitativi, asupra unei variabile aleatoare.
Conform unei teoreme, dacă estimăm dispersia unei variabile
aleatoare în două moduri şi anume ţinând seama de influenţa
factorului şi apoi înlăturând influenţa factorului, prin
compararea celor două dispersii se pot obţine informaţii
referitoare la efectul factorului; dacă prima dispersie este mai
mare, atunci factorul exercită o influenţă asupra variabilei
aleatoare.
Analiza varianţei sau analiza dispersională este o metodă
statistică de analiză a datelor de observaţie care depind de mai
mulţi factori cu acţiune concomitentă, cu scopul de a stabili pe
cei mai importanţi şi de a estima influenţa lor.
Prin aplicarea testului t au fost obţinute observaţii privind
diferenţa dintre două medii. În multe situaţii se pune problema
comparării a trei sau mai multe medii.
122
Soluţia aplicării testului t pentru compararea mediilor două câte
două nu se dovedeşte eficientă datorită creşterii volumului de
calcul, dar, mai ales prin cumularea erorilor generate de precizia
de calcul 0.05 cu fiecare pereche comparată, ceea ce conduce la
depăşirea nivelul admis.
Din aceste motive se utilizează analiza de varianţă ANOVA,
care, de fapt, constituie o generalizare a testului t pentru
situaţiile în care este nevoie să comparăm mai multe medii
independente.
ANOVA, deşi este un procedeu de comparare a mediilor
eşantioanelor (grupurilor) dintr-o populaţie, ea nu compară
diferenţele între medii, ci dispersia (împrăştierea) lor.
Analiza dispersională ANOVA poate fi utilizată în două variante:
ANOVA unifactorială, care se aplică în situaţiile în care
avem o variabilă dependentă şi o variabilă independentă.
Variabila dependentă este măsurată pe o scală de tip
interval/raport pentru trei sau mai multe valori ale
variabilei independente. Variabila independentă se
numeşte factor, iar valorile acesteia se numesc niveluri.
Exemple:
123
1. viteza de reacţie în raport cu trei categorii de vârstă
(20 - 40 ani, 40 – 60 ani, 60 – 80 ani)
2. scorul la un test de inteligenţă aplicat studenţilor de
la psihologie, filosofie, istorie şi jurnalism.
ANOVA multifactorială, care se aplică o variabilă
dependentă şi două sau mai multe variabile independente,
fiecare cu două sau mai multe valori, măsurate pe o scală
de tip nominal sau ordinal.
Exemple:
1. viteza de reacţie în raport trei categorii de vârstă (20
- 40 ani, 40 – 60 ani, 60 – 80 ani) şi genul (masculin,
feminin).
2. scorul la un test de inteligenţă aplicat studenţilor, în
funcţie de programul de studii pe care-l urmează( de
la psihologie, filosofie, istorie şi jurnalism) di de gen
(masculin, feminin).
În cele ce urmează se vor face referiri numai la ANOVA
unifactorială.
Procedura de calcul ANOVA se bazează pe două modalităţi
diferite de estimare a dispersiei:
124
1. Estimarea dispersiei populaţiei ( 2 fiind necunoscut) pe
baza mediei dispersiei (grupurilor) eşantioanelor care
provin din populaţia respectivă.
Prin calcularea mediei dispersiilor eşantioanelor (grupurilor) se
obţine o valoare care estimează dispersia populaţiei din care
provin eşantioanele.
Datorită faptului că valoarea obţinută se bazează pe calculul
dispersiei din fiecare eşantion (grup), se numeşte dispersie
intragrup.
Fie k eşantioane de volum knnn ,....,, 21 , având un număr total
(subiecţi) persoane:
knnnp ......21 .
kp
snsnsns kkragrup
2222
2112
int)1(......)1()1(
Dacă knnn ....21 atunci
k
ssss k
ragrup
222
212
int.....
2. Estimarea dispersiei populaţiei ( 2 fiind necunoscut) pe
baza dispersiei mediilor eşantioanelor (grupurilor) care
provin din populaţia respectivă.
125
Prin calcularea dispersiei mediilor eşantioanelor (grupurilor) se
obţine o valoare care estimează dispersia populaţiei din care
provin eşantioanele.
Datorită faptului că valoarea obţinută se bazează pe calculul
mediei din fiecare eşantion (grup), se numeşte dispersie
intergrup.
Fie k eşantioane de volum knnn ,....,, 21 , având un număr total de
subiecţi knnnp ......21 .
1
)(......)()( 22
221
212
int
k
nmmnmmnmms kk
ergrup
Unde kmmm ,.....,, 21 reprezintă mediile corespunzătoare fiecărui
grup, iar m reprezintă media grupurilor.
Dacă eşantioanele au acelaşi volum n , se obţine:
nk
mmmmmms k
ergrup 1)(......)()( 22
22
12int
Observaţii.
a. Dispersia intragrup, ca medie a dispersiilor grupurilor,
constituie o estimare directă a dispersiei populaţiei din care
provin grupurile. Ea reprezintă variabilitatea din interiorul
grupului respectiv privind caracteristica cercetată.
Variabilitatea respectivă se poate datora mai multor cauze:
i. diferenţelor existente între subiecţi
126
ii. unor erori de măsurare
b. Dispersia intergrup, ca dispersie a mediilor grupurilor,
constituie o estimare indirectă a dispersiei populaţiei din
care provin grupurile.
Ipoteze:
Ipoteza nulă: diferenţele dintre mediile caracteristicii
eşantioanelor (grupurile) care se compară, provinind dintr-o
populaţie unică, sunt nesemnificative, ele reprezentând variaţii
fireşti ale distribuţiei de eşantionare.
Ipoteza de cercetare: diferenţele dintre mediile caracteristicii
esantioanelor care se compară sunt semnificative.
Testul Fisher constă în raportul:
2int
2int
ragrup
ergrup
ss
F
Observaţii:
Exemplu.
Să presupunem că se cere efectuarea unei cercetări având ca
ipoteză existenţa unei relaţii între performanţele studenţilor şi
trei metode de pregătire (asistat, în grup, individual).
127
Considerăm trei grupuri de studenţi: primul format din 7
studenţi, al doilea din 8 studenţi şi al treilea format din 6
studenţi. Fiecare grup este pregătit printr-o altă metodă.
Ipoteza cercetării: Performanţele studenţilor sun dependente de
metoda de pregătire.
Ipoteza nulă: Nu există legătură între performanţele studenţilor
şi metoda de pregătire.
nr. notele 2)( medianota
notele 2)( medianota notele
2)( medianota
1 8 1 8 4 5 1
2 9 0 6 0 6 4
3 10 1 5 1 4 0
4 8 1 6 0 3 1
5 10 1 7 1 2 4
6 9 0 5 1 4 0
7 9 0 6 0
8 5 1
Σ 63 4 48 8 24 10
n 7 8 6
m 91 m
62 m
43 m
3/)469( m
33.6m
imm
-2.67 0.33 2.33
Asistat Grup Individual
128
2)(
imm
7.12 0.1 5.42
Calculăm 58.412
642.581.0712.72int
xxxs ergrup
7.018
8.1502.0518.162int
oxxxs ragrup
4.597.058.41
F