statisticÄ‚ÃŽnpsiholpgie-s_ii

1

STATISTICĂ ÎN PSIHOLPGIE

1. Obiectul disciplinei

Prezentarea, cunoaşterea şi utilizarea pachetului de programe SPSS pentru prelucrarea datelor experimentale. Prezentarea şi utilizarea unor teste statistice.

2. Desfăşurarea disciplinei

Curs 2 ore / săptămână Laborator 1 oră laborator / săptămână

3. Programa analitică a cursului

Prezentarea pachetului de programe SPSS---------------------------------------------8 ore Funcţii, ferestre, meniuri, etape ------------------------------------------2 ore Baze de date. Crearea unei baze de date SPSS-------------------------2 ore Operaţii de transformare a variabilelor----------------------------------1 ore Organizarea datelor pentru analiză---------------------------------------1 ore Statistici descriptive şi teste statistice cu SPSS-------------------------2 ore

Statistică inferenţială--------------------------------------------------------------------10 ore Elmente de teoria sondajelor-----------------------------------------------2 ore Elemente de teoria estimaţiei----------------------------------------------2 ore Ipoteze statistice-------------------------------------------------------------2 ore Distribuţia (repartiţia) normală (curba lui Gauss) ----------------------2 ore Distribuţiile t (Student), HI patrat, Fisher-Snedecor--------------------2 ore

Testarea ipotezelor statistice------------------------------------------------------------8 ore

Teste statistice-------------------------------------------------------------2 ore Testarea valorilor de sondaj aberante----------------------------------2 ore Teste de concordanţă-----------------------------------------------------2 ore Teste de comparare-------------------------------------------------------2 ore

Analiză dispersională ----------------------------------------------------------------2 ore

2

4. Programa analitică a laboratorului în semestrul II Testarea ipotezelor statistice în SPSS: prezentare generală -----------------2 ore

Testele de comparare a mediilor în SPSS (testele t)--------------------------4 ore

Testele de comparare a proporţiilor în SPSS (testul Chi-pătrat)------------2 ore

Analiza de corelaţie SPSS-ul. Coeficienţi de corelaţie ----------------------2 ore

Analiza de varianţă în SPSS -----------------------------------------------------2 ore

Prezentarea proiectului de cercetare --------------------------------------------2 ore

5. Evaluare Prezenţă la curs-------------------------------------------------------------------------10 % Activitate la laborator------------------------------------------------------------------10 % Proiect------------------------------------------------------------------------------------20 % Verificare pe parcursul semestrului--------------------------------------------------30 % Examen final----------------------------------------------------------------------------30 %

6. Bibliografie Drăghicescu I., Probabilităţi – Statistică – Psihologie - Investigaţie, Editura

I.N.I., Bucureşti, 2000. Gheorghiu D, Statistică pentru Psihologi,Editura Trei, Bucureşti, 2004. Popa M., Statistică pentru Psihologie. Teorie şi aplicaţii SPSS, Editura

Polirom, Bucureşti, 2008. Pachetul de programe SPSS.

3

Cursul nr. 1 Statistică în psihologie

Prezentarea generală a pachetului de programe SPSS

Introducere

SPSS (Statistical Package for the Social Sciences) este unul dintre cele mai

performante pachete de programe având ca destinaţie prelucrări şi analize statistice în

ştiinţe sociale.

Deşi mai există şi alte pachete de programe cu aceeaşi destinaţie, SPSS-ul se

detaşează ca structură şi performanţe.

SPSS-ul a fost conceput în anul 1965 la Universitatea din Stanford, California, SUA.

De-a lungul timpului a cunoscut numeroase îmbunătăţiri, în prezent ajungându-se la

versiunea 16.0. Anual sau cel mult la doi ani apare o nouă versiune.

Toate versiunile sub Windows oferă, în general, aceleaşi funcţii de bază.

Structural, SPSS-ul se aseamănă cu cu sistemele de gestionare a datelor de tip Excel,

Acces etc.

SPSS-ul este un program a cărui funcţionalitate este asigurată de modulele sale, cele

mai importante fiind:

Base System

Tables

Advanced Models

Complex Samples

Classification Trees

Regression Models Categories

Trends

Conjoint

Missing Values Analysis

Exact Tests etc.

4

De mare importanţă este programul SPSS Text Analysis for Surveys pentru analiza

răspunsurilor la chestionare.

Cunoaşterea operării în Windows constituie o bază importantă pentru operarea în

SPSS.

Pentru crearea şi prelucrarea datelor, utilizarea testelor parametrice şi neparametrice,

SPSS-ul pune la dispoziţia utilizatorului modulul Base System.

Variabilitate şi variabile în psihologie

Variabilele sunt mărimi ale căror valori se schimbă sub influenţa

diferiţilor factori.

Definiţie. Se numeşte variabilă, orice caracteristică a uni subiect sau

fenomen care poate lua două sau mai multe valori, în funcţie de diferiţi

factori.

Studiul conduitelor psihologice constituie un domeniu de mare

variabilitate.

În domeniul psihologic, variabilitatea poate fi :

intraindividuală, ceaa ce înseamnă că aceeaşi persoană, în acelaşi

context, reacţionează diferit.

interindividuală, ceea ce înseamnă că persoane diferite, în aceiaşi

situaţie, reacţionează diferit.

5

Prin extensie, se poate vorbi de variabilitate:

intragrup

intergrup

Pentru a studia comportamentul uman putem folosi conceptele:

variabilă

măsurare

Pentru prelucrarea datelor se pot utiliza metode statistice.

În psihologie, pentru a studia un subiect sau un grup de subiecţi se

utilizează

explorări sistematice

explorări specifice.

Datele pe care le prelucrează un psiholog provin din metode de

investigaţie specifice:

experiment

test

observaţie

chestionar

convorbire psihologică

anchetă psihologică etc.

6

Exemple de variabile în psihologie:

inteligenţa

atenţia

reflexele

timpul de reacţie

anxietatea

vârsta

înălţimea

greutatea etc.

Cercetarea psihologică are ca obiectiv studierea variabilelor, cu scopul

de a explica diferitele caracteristici ale realităţii psihice şi

comportamentului uman.

Din punct de vedere al observării, în psihologie, avem:

variabile observate, care pot fi măsurate, cuantificate. De

exemplu, vârsta.

variabile latente, care nu pot fi măsurate direct. Pentru a realiza

o cuantificare se utilizează anumiţi indicatori, ca de exemplu

chestionare cu diferite întrebări. Răspunsurilor la întrebări li se

atribuie puncte. De exemplu inteligenţa.

7

Din punct de vedere al legăturilor, avem:

variabile dependente, măsurate cu scopul fundamentării unei

decizii.

variabile independente, utilizate pentru a studia influenţa şi

efectele asupra variabilelor dependente.

Exemple:

1. Verificarea ipotezei că bărbaţii nefumători trăiesc mai mult decât

fumătorii. În acest exemplu, variabila dependentă este vârsta, iar

variabila independentă este statutul de fumător sau nefumător.

2. Ooboseala şi atenţia în conducerea unui automobil. Ţinând seama

că oboseala influenţează atenţia, atunci atenţia este variabila

dependentă, iar oboseala este variabila independentă.

Un alt tip este acela de variabilă categorială, atunci când valorile

acesteia descriu categorii.

Variabile categoriale pot fi:

de tip nominal, sunt acele variabile care realizează o descriere,

de exemplu, genul (masculin, feminin), temperamentul etc.

de tip ordinal, sunt acele variabile care indică o măsurare

ordonată, ca de exemplu, categoria 1 de vârstă (1-7 ani), 2 (8-15 ani)

etc.

8

Din punct de vedere al valorilor pe care le poate lua:

variabile continue, ceea ce înseamnă că pot lua un număr infinit

de valori, exprimat prin numere reale.

Exempu: greutatea.

variabile discrete, ceea ce înseamnă că pot lua un număr finit de

valori, de regulă exprmat prin numere întregi.

Exemplu: numărul persoanelor dintr-o comunitate.

Măsurarea în psihologie

Stevens, în anul 1946, în lucrarea „On the theory of scale of

measurement” definea măsurarea ca fiind „atribuirea de valori

numerice obiectelor şi fenomenelor, în conformitate cu anumite

reguli”.

Problema care se pune este că nu toate măsurările au caracter numeric.

Psihicul uman nu este de natură cantitativă, dar manifestările sale pot

fi cuantificate pentru a fi utilizate metode ştiinţifice care să permită o

analiză a comportamentului.

Pentru prelucrări statistice este nevoie de abordări cantitative în ceea

ce priveşte abilităţile şi caracteristicile psihologice: trăsături de

personalitate, opinii, atitudini, motivaţii, stări emoţionale etc.

9

Dacă se măsoară greutatea şi înălţimea unui grup de sportivi se vor

atribui nişte numere care înseamnă Kg şi respectiv centimetri.

Dacă se evaluează alte caracteristici precum culoarea ochilor,

apartenenţa religioasă etc. atunci putem asocia valori convenţionale

pentru fiecare: 1 pentu negru, 2 pentru căprui, 3 pentru albastru etc.

În cazul în care se studiază alte caracteristici precum inteligenţa,

viteza de recţie, stări emoţionale etc. este nevoie de alte unităţi de

măsură şi de o altă modalitate de atribuire a numerelor.

În timp ce înălţimea, greutatea etc sunt caracteristici fizice care se pot

măsura, trăsăturile de natură psihică precum inteligenţa, viteza de

reacţie, sociabilitatea etc. sunt constructe abstracte care descriu

caracteristici ale conduitei umane pentru care trebuie să găsim

instrumente de măsură.

Caracteristicile de natură fizică pot fi măsurate direct, în timp ce

constructele de natură psihică nu pot fi măsurate decât prin

manifestările lor particulare.

Prin urmare, în ceea ce priveşte studierea comportamentului uman,

măsurarea este considerată ca un proces prin care varietatea infinită a

observaţiilor umane este redusă la o descriere sub formă numerică sau

simbolică, ceea ce presupune că reprezintă anumite regularităţi

semnificative la nivelul entităţilor observate.

10

În psihologie, entităţile supuse măsurării pot fi:

cantitative, de natură fizică : indicatori fiziologici (înălţimea,

greutata etc.), vârsta, timpul de reacţie etc.

calitative, constructe psihice (de exemplu: inteligenţa, opinia,

atitudini, motivaţia, stări emoţionale, sociabilitatea etc.

Constructele psihice nu pot fi măsurate direct, ci numai prin

manifestările lor particulare.

De exemplu, sociabilitatea se manifestă prin numărul contactelor

sociale într-o anumită perioadă, prin disponibilitatea de a comunica,

prin numărul prietenilor, prin numărul convorbirilor telefonice etc.

Se observă că un construct psihic are mai mulţi indicatori, ceea ce

înseamnă că o evaluare cantitativă se poate realiza numai prin

identificarea indicatorilor care-l compun, urmată de cuantificarea

gradului de intensitate a acestora la nivelul persoanelor evaluate.

Considerăm exemplul constructului psihic sociabilitatea, care nu poate

fi măsurat direct; ca variabilă este latentă, iar indicatorii care o

definesc sunt variabile observate.

În cazul în care pentru evaluarea sociabilităţii se utilizează

chestionarul, variabilele observate sunt întrebările, iar variabila latentă

este numărul obţinut prin însumarea răspunsurilor.

11

Scale sau niveluri de măsurare

În funcţie de cantitaea de informaţie pe care o reprezintă valorile

obţinute în urma procesului de măsurare, se disting patru niveluri sau

scale, ordonate ierarhic, de la nivelul de măsurare cel mai redus până

la nivelul de măsurare cel mai ridicat.

Nivelul superior include criteriile nivelelor ierarhice inferioare.

Scala de tip nominal. Măsurarea pe scală nominală constă în

organizarea obiectelor supuse cercetării în diferite clase sau categorii.

Valorile sau simbolurile dintro clasă diferă între ele dar nu se compară

dacă sunt mai mici sau mai mari.

De exemplu, oamenii, după culoarea pielii pot fi clasificaţi în patru

categorii: albi, galbeni, mulatri şi negri. Culorile pot fi codificate cu A,

G, M, N sau cu numerle 1,2,3 şi respectiv 4. În această situaţie,

valorile respective sunt simboluri ale caracteristicii culoarea pielii, iar

numărul 4 nu reprezintă nici mai mult nici mai puţin decât numărul 1.

Codificările de mai sus sun arbitrare, iar prin convenţie pot fi înlocuite

cu altele.

Variabilele măsurate pe scale nominale pun în evidenţă diferenţele

calitative şi nu pe cele cantitative.

12

Valorile de pe scala nominală pot fi:

de identificare, utilizate pentru codificarea, culegerea,

organizarea şi prelucrarea datelor. Nu prezintă interes din punct de

vedere statistic. De exemplu, codul numeric personal se utilizează

pentu identificarea persoanei.

categoriale, utilizate în repartizarea obiectelor supuse cercetării

în clase sau categorii în funcţie de caracteristici. De exemplu, genul

(masculin, feminin), pregătirea profesională (analfabet, şcoală

generală, liceu, licenţă, masterat, doctorat etc.), tipuri temperamentale

etc. sunt valori categoriale.

Valorile măsurate pe scala nominală sunt calitative, descriind

categorii, ceea ce înseamnă că nu li se pot aplica operaţii numerice.

Cu aceste valori pot efectua:

operaţii descriptive, ca de exemplu numărare, procente etc.

transformări privind gruparea sau rafinarea categoriilor pe care

le descriu.

De exemplu, apartenenţa religioasă cu patru categorii( catolic, ortodox,

musulman şi budist) poate fi fi grupată în două pe criteriul

creştinismului.

De asemenea, cele patru categorii temperamentale(sanguin, coleric,

flegmatic, melancolic) pot fi grupate în două, pe criteriul extraverte

13

(persoanele sanguine şi colerice) şi introverte (persoanele flegmatice

şi melancolice).

Reducerea sau rafinarea numărului de categori nominale se utilizează

în situaţia în care numărul categoriilor este foarte mare , fiind greu de

analizat sau cînd numărul de cazuri pentru unele categorii ete foarte

mic sau zero.

Scală de tip ordinal. Valorile de pe această scală pot fi comparate din

punct de vedere al locului pe care-l ocupă. Din acest punct de vedere

au o semnificaţie cantitativă, dar, în esenţă, ele sunt calitative.

De exemplu, dacă vorbim de seriozitatea unor persoane, codificată de

la 1 la 5 (5 fiind nivelul celmai ridicat), valorile 1, 2, 3, 4, 5 exprimă

doar ordinea aprecierii şi nu măsura, Nu se poate spune că persoanele

de pe locul 5 sunt de cinci ori mai serioase decît cele de pe locul 1.

Scala de tip ordinal indică faptul că persoanele de pe locul 5 sunt mai

serioase decât persoanele de pe locul 4, fără a şti cu cât. Nu ştim dacă

diferenţa între 5 şi 4 este egală cu cea dintre 2 şi 1din punct de vedere

al seriozităţii.

În concluzie, valorile de tip ordinal ne indică o ierarhizare a valorilor

unor caracteristici sau preferinţe, fără a preciza care este „diferenţa de

cantitate” a caracteristicii măsurate.

Codificarea valorilor de tip ordinal trebuie să perimită ierarhizarea.

14

Valorile de tip ordinal au semnificaţie calitativă şi nu cantitativă.

Scală de tip interval. Variabilele de pe această scală, pe lângă

informaţii privind ordinea, oferă şi informaţii privind mărimea

caracteristicii măsurate.

Valorile de tip interval sunt cantitative, reprezentate pe un interval cu

diviziuni egale.

De exemplu, temperatura măsurată într-un număr de zile se exprimă în

grade reprezentate pe un interval, având subdiviziuni egale, din grad

în grad. Se poate aprecia că întro zi a fost mai cald sau mai frig decât

în cealaltă.

Un alt exemplu, coeficientul de inteligenţă măsurat în funcţie de

numărul de răspunsuri corecte la întrebările dintr-un chestionar: 30 de

răspunsuri corecte, 20, 15 ş.a.m.d.

Nu se poate emite ipoteza că persoanele care au dat 30 de răspunsuri

corecte sunt de două ori mai inteligente decât cele care au dat 15,

deoarece nu avem o valoare de referinţă faţă de care să facem

comparaţia.

Pentru persoanele care se ţin de mână intrun parc 20 de minute,

respectiv 30 de minute, diferenţa de iubire nu este aceeaşi cu diferenţa

între 30 şi 20 de minute.

15

Scală de tip raport. Valorile exprimate pe o asemenea scală, pe lângă

egalitatea intervalelor, se raportează la o valoare zero absolută. Nu se

admit valori mai mici decât zero.

Exemple: timpul, vîrsta, numărul de răspunsuri corecte sau greşite la

un chestionar etc.

Observaţie. Diferenţa între variabilă şi scală constă în aceea că

variabila se referă la o caracteristică supusă măsurării, iar scala la

modalităţi de măsurare şi reprezentare. În unele cazuri, aceeaşi

caracteriszică poate fi măsurată pe orice tip de scală.

De exemplu, atenţia poate fi exprimată pe o scală nominală(atent,

neatent), pe o scală ordinală (atenţie scăzută, medie, mare şi foarte

mare) sau pe o scală interval (intervale de timp corespunzătoare

gradului de atenţie).

Analog se poate exemplifica şi timpul de reacţie.

Când se vorbeşte de măsurarea unor caracteristici sau de valorile unei

variabile trebuie precizată şi scala.

16

Funcţiile de bază în SPSS

Pachetul de programe SPSS dispune de următoarele funcţii:

Funcţii pentru editarea datelor:

- construirea bazelor de date

- transformări ale variabilelor

Funcţii pentru prelucrarea statistică a datelor

- statistici descriptive

- teste de semnificaţie

Funcţii pentru prezentarea rezultatelor sub formă numerică sau grafică

Funcţii pentru realizarea unor proceduri proprii de prelucrare sau de

modificare a procedurilor standard SPSS.

Ferestre/domenii de lucru în SPSS

Interfaţa SPSS rezervă fiecărei funcţii o fereastră. La lansarea programului se deschid

automat două ferestre:

Fereastra Data Editor, rezervată editării datelor

Fereastra Viewer, rezervată afişării rezultatelor.

Trecerea de la o fereastră la alta se face astfel:

din meniul SPSS/Window, prin alegerea ferestrei dorite

utilizând butoanele din bara de comenzi directe a ferestrei SPSS

utilizând butoanele barei din partea de jos a ecranului.

Fereastra de editare a datelor Data Editor

La lansarea programului SPSS se deschide automat fereastra de editare a datelor

Data Editor, care permite afişarea datelor stocate.

17

Data Editor permite vizualizarea datelor, introducerea unora noi sau modificarea

acestora.

Fereastra Data Editor are două componente: Data View şi Variabile View.

Fereastra Data View are caracteristicile unei ferestre Window obişnuite, cu structura:

pe coloane sunt variabilele, de exemplu datele despre subiecţii respectivi

pe linii sunt cazurile, de exemplu subiecţii.

Fereastra Variable View este utilizată pentru crearea şi editarea variabilelor.

Trecerea în această fereastră se face prin acţonarea tab-ului corespunzător din colţul

stânga jos al ferestrei SPSS.

Se afişează un tabel cu mai multe coloane având următoarea semnificaţie:

prima coloană conţine numărul cazului

Name –numele variabilelor

Type – tipul variabilelor

Width – numărul total de cifre

Decimals – numărul de cifre pentru partea zecimală

Label – eticheta variabilelor

Values – valorile pe care le poate lua variabila – numai pentru cele categoriale

Missing –valori care pot fi ignorate de SPSS

Columns – lăţimea coloanei

Align -alinierea valorilor în coloană

Measure – scala de măsurare a valorii.

Caracteristici ale SPSS:

Poate deschide mai multe baze de date.

Procedurile statistice SPSS pot lucra in interiorul unei singure baze de

date.

18

Dacă se doreşte prelucrarea de date aflate în baze de date (fişiere)

diferite, acest lucru este posibil numai prin aducerea lor în aceeaşi bază

de date.

Baza de date SPSS poate fi creată cu ajutorul ferestrei Data Editor şi

poate fi deschisă cu comenzile File/Open.

Fişierele SPSS au extensia .sav.

Fereastra Viewer (Output Viewer)

Această fereastră asigură vizualizarea rezultatelor: tabele şi diagrame rezultate în

urma procesării datelor statistice. Ea se deschide în mod automat de către program o

dată cu terminarea prelucrării datelor supuse analizei.

Fereastra Output Viewer conţine:

bara de titlu a documentului;

zona de navigare (situată în partea stângă), unde se afişează numele

procedurilor utilizate şi ale diferitelor componente ale rezultatelor;

zona de afişare a rezultatelor (în partea dreaptă).

Observaţii.

1. Fişierul obţinut prin salvarea acestei ferestre are extensia .spo.

2. Un fişier cu rezltate SPSS poate fi deschis numai de un program SPSS.

3. Transferul datelor în afara SPSS se poate face în documente de tip Word, Power

Point, PDF, HTML etc. cu procedura corespunzătoare File/Export sau cu

Select/Copy Paste.

19

Meniurile SPSS

Meniurile din SPSS se aseamănă cu cele din Windows. Meniul Funcţii principale Observaţii

File Deschiderea, salvarea şi editarea unor fişiere Permite introducerea de noi date în baza de date Deschiderea şi vizualizarea unor baze de date SPSS create anterior Modificarea sau transferarea datelor stocate Citirea datelor în cod ASCII

Edit Undo/Copy/Paste/Cut/Find/Options Options pentru selectarea caracteristicilor de lucru ale SPSS

View Permite modificarea structurii barei prin ataşarea sau excluderea unor căsuţe de dialog în funcţie de ce se doreşte În fereastra Data Editor setează modul de afişare: cu sau fără bara de butoane, cu sau fără liniile de separare ale celulelor Se poate modifica structura de tip grilă a liniilor şi a etichetelor pentru variabilele incluse în baza de date

Data Funcţii de operare cu variabile: definire, înserare, ştergere, selectare, sortare, adăugare de fişiere etc.

Pregătirea datelor pentru prelucrare

Transform Funcţii de modificarea datelor prin calcul, recodificare etc.

Analyze Grupează procedurile de calcul statistic

Graph Grupează procedurile de reprezentare grafică

Utilities Informaţii despre variabile, structurare pe seturi de variabile

Window ferestrelor deschise, cu posibilitate de selecţieLista

Help Informaţii ajutătoare Alegerea procedurii de de prelucrarestatistică

20

Casetele de dialog

Casetele de dialogă permit declararea şi setarea procedurilor de calcul cu SPSS. Ele

se deschid după lansarea în execuţie a unei comenzi din meniu.

În unele situaţii, din meniu se deschide o casetă principală, iar din ea se deschid alte

casete secundare. Revenirea la caseta principală dintr-o castă secundară se face

numai prin finalizarea şi închiderea casetei secundare.

Casetele de dialog păstrează setările stabilite la ultima utilizare, ceea ce înseamnă că

la următoarea utilizare vor avea aceeaşi setare.

In caseteled de dialog se află diferite butoane de comenzi, ca de exemplu:

OK execută procedura şi închide caseta de dialog principală.

Paste copiază comenzile procedurii în fereastra Syntax, de unde poate fi editată

şi lansată în execuţie.

Reset resetează caseta de dialog, aducînd-o la setările implicite ale sistemului.

Cancel anulează setările efectuate după deschidera casetei.

Help pentru obţinerea unor informaţii privind procedura definită în caseta

respectivă.

Options deschide o casetă secundară.

21

Etapele prelucrării datelor cu SPSS

Introducerea datelor

Se poate face astfel: introducerea directă a datelor în Data Editor deschiderea unui fişier de date SPSS (extensia .sav) importarea unui fişier (File open/File of type)

Pregătirea datelor Corecţia erorilor, selecţii, recodificări,transformarea variabilelor prin calcule, declararea valorilor lipsă, combinarea datelor din două fişiere diferite (meniurile Data, Transform)

Selectarea procedurii statistice

Meniurile Analyze şi Graphs

Selectarea variabilelor ce urmează a fi supuse prelucrării

În conformitate cu cerinţele casetei de dialog afişată la procedura respectivă

Rularea procedurii Se acţionează butonul OK din caseta de dialog a procedurii

Analiza rezultatelor Se afişează rezultatele prelucrării(text sau grafic) întro fereastră specifică, SPSS Viewer

Editarea rezultatelor Se editează rezultatele afişate în Viewer, aducându-le la forma dorită sub aspect grafic Editarea se realizează prin dublu clic pe un element din Viewer

Înserarea datelor întrun document

Rezultatele din SPSS Viewer se preiau cu Select/Copy şi se Înserează cu Paste în orice tipde editor de documente

22


Baze de date Informaţia este o formulă care poate fi scrisă sau simbolizată, susceptibilă de a

aduce o cunoştinţă: încercând să o descriem sau să o explicăm, putem spune că

informaţia este un „ mesaj despre anumite lucruri sau evenimente care au avut, au

sau vor avea loc ”. Datele sunt elemente constitutive ale informaţiei. Ele desemnează evenimente

primare, provenind din diferite surse, într-o formă care nu permite luarea unor decizii.

În prelucrarea automată ne interesează datele din punct de vedere sintactic, adică din punct de vedere al reprezentării şi organizării lor. Din acest punct de vedere, datele apar ca o succesiune de simboluri sau caractere. Distingem trei categorii de caractere:

caractere alfabetice (literele alfabetului latin) caractere numerice (cifrele sistemului de numeraţie zecimal) caractere speciale (semne de punctuaţie etc.)

In funcţie de caracterele utilizate, datele pot fi: alfabetice, numerice alfanumerice.

Datele au şi aspect semantic, ceea ce le conferă valoare cognitivă, o valoare de mesaj care se transmite. Observaţie. Între date şi informaţii există diferenţe:

datele privesc evenimente primare, fiind colectate din

diferite situaţii sau diverse locuri, neorganizate şi/sau neprelucrate într-o formă care să stea la baza luării unor decizii;

informaţiile sunt mesaje obţinute prin prelucrarea

datelor; aceste mesaje trebuie să fie concise, actuale, complete şi clare, astfel încât să răspundă cerinţelor informaţionale în scopul cărora au fost preluate datele.

Cu alte cuvinte, pentru a deveni informaţii, datele trebuie prelucrate în conformitate cu cerinţele informaţionale.

23

Datele se pot prelucra manual sau cu echipamente electronice de calcul, de unde şi denumirea de prelucrare automată. În vederea prelucrării, datele sunt codificate.

Cod: o combinaţie de simboluri. Codul, în funcţie de natura simbolurilor care-1 compun, poate fi:

numeric alfabetic alfanumeric.

Prelucrarea datelor, numită şi procesare, presupune totalitatea transformărilor, ca formă şi conţinut a datelor. Transformările se realizează în următoarele etape:

1. Identificarea surselor de unde se pot obţine datele primare. 2. Culegerea şi pregătirea datelor primare, care presupune:

Selectarea, care constă în alegerea acelor date care prezintă interes. Organizarea/pregătirea datelor selectate. Codificarea, care constă în asocierea unor simboluri

numite cod. 3. Transmiterae/conversia, care constă în introducerea datelor pe

un suport de informaţie. Verificarea datelor din punct de vedere al formei,

conţinutului şi corectitudinii, folosind anumite chei de control. Eliminarea eventualelor erori datorate culegerii,

pregătirii şi transmiterii lor. Stocarea datelor în vederea prelucărilor care urmează.

4. Prelucrarea datelor în vederea obţinerii rezultatelor necesare: Analiza, care constă în examinarea datelor în vederea

grupării lor în procesul de prelucrare. Sortarea, care constă ordonarea lor după anumite criterii. Clasificarea, care constă în gruparea datelor după

caracteristici comune. Compararea, care constă în stabilirea

asemănărilor/deosebirilor dintre diferite grupuri de date. Sinteza, care constă în combinarea anumitor grupări care

să conducă la structuri noi organizate după diferite caracteristici comune necesare prelucrării. Prelucrarea efectivă, care constă în efectuarea operaţiilor

aritmetice şi logice necesare obţinerii rezultatelor.

24

5. Obţinerea rezultatelor, care trebuie să fie sub forma cerută, direct utilizabilă.

6. Păstrarea datelor şi rezultatelor în vederea unor prelucrări/utilizări ulterioare.

Baza de date (database) reprezintă o colecţie de date organizate după anumite

criterii, care serveşte unui anumit scop.

Baza de date este organizată în sensul că ea conţine date care sunt stocate,

reprezentate şi accesate după criterii bine stabilite.

Baza de date serveşte unui anumit scop, în sensul că ea nu conţine date care nu sunt

relevante pentru aceasta.

De exemplu, o agendă telefonică constituie o bază de date. Ea conţine informaţii

relevante pentru o anumită persoană (nume, adresa, număr telefon). Culoarea

telefonului unei persoane este o informaţie irelevantă şi ea nu este conţinută în baza

de date. Arhitectura unui sistem de baze de date. Un sistem de baze de date poate fi privit din patru puncte de vedere: conceptual, extern, logic, fizic.

Nivelul conceptual Acest nivel este considerat fundamental, deoarece descrie sistemul ce urmează a fi

realizat. Se elaborează schema conceptuală, care de fapt este o schemă internă ce

reprezintă design-ul intern general al sistemului. Nivelul conceptual este atributul

celui care proiectează baza de date.

Schema conceptuală este creată pentru a reprezenta sistemul întrun mod cât mai clar

şi a comunica cu exteriorul.

25

Nivelul extern

La acest nivel se specifică design-ul bazei de date (o schemă globală externă) din

punctul de vedere al unui utilizator sau grup de utilizatori şi legătura cu schema

conceptuală de la nivelul precedent.

Schema externă constă în specificarea informaţiilor care pot fi văzute de către un

utilizator şi modul în care acestea sunt prezentate. În cele mai multe cazuri un

utilizator poate accesa doar o parte din informaţii.

De exemplu, în cazul mai multor utilizatori, fiecare este interesat numai de anumite

informaţii sau din motive de securitate nu au acces la toate informaţiile.

Schema externă este gândită astfel încât grupuri diferite de utilizatori să acceseze

numai anumite părţi ale schemei globale.

Utilizatori diferiţi pot dori ca aceeaşi informaţie să fie reprezentată în moduri

diferite: tabele, grafice etc.

La acest nivel se pot proiecta diferite interfeţe cu utilizatorul.

Nivelul logic

La acest nivel, schema conceptuală este transformată întro schemă logică exprimată

cu ajutorul unor structuri abstracte de date şi operaţii. Nivelul fizic

După realizarea scemei logice, aceasta trebuie proiectată prin intermediul unei

scheme interne întrun anumit SGBD(Sistem de Gestiune a Bazelor de Date).

Schema logică poate fi implementată în Access, Oracle etc.

26

Sistem de Gestiune a Bazelor de Date(SGBD)

Un Sistem de Gestiune a Bazelor de Date(SGBD, Data Base Management System)

este un sistem software care gestionează o bază de date şi care permite utilizatorului

să interacţioneze cu aceasta. El acţionează ca un depozit pentru toate datele şi

realizează următoarele:

stocarea datelor

definirea structurilor de date

manipularea datelor

interogarea (extragerea şi prelucrarea) datelor

asigurarea securităţii datelor

păstrarea integrităţii datelor

accesul concurent la date cu păstrarea consistenţei acestora

asigurarea unui mecanism de recuperarea datelor

asigurarea unui mecanism de indexare care să permită accesul rapid la date.

Modul de organizare a datelor

Modelul de date folosit de un SGBD descrie modul de organizare a datelor în baza de

date.

Modelul de date reprezintă un tipar după care este organizată din punct de vedere

logic baza de date.

Modelul de date nu specifică datele, implementarea sau organizarea lor fizică, ci doar

modul lor de organizare logică.

După modelul folosit, există mai multe categorii de sgbd-uri:

SGBD ierarhic, care stochează datele în structuri de tip arbore. Acest model se

bazează pe principiul că între date există o relaţie de tip părinte – copil.

Nivelul cel mai de sus al arborelui, cunoscut sub numele de rădăcină, poate avea

orice număr de descendenţi. La rândul lor, aceştia pot avea descendenţii lor şi aşa

mai departe. Acest model este depăşit.

27

SGBD reţea, care stochează datele sub formă de înregistrări şi legături între

acestea. Acest model constituie o extensie a celui ierarhic, diferenţa între cele două

fiind că, în timp ce în cel ierarhic o înregistrare copil are exact un părinte, în modelul

reţea ea poate avea mai mulţi părinţi sau nici unul. Acest model permite

reprezentarea unor structuri de date complexe, nu este flexibil şi necesită un design

foarte complicat. În prezent este puţin folosit.

SGBD relaţional, reprezintă cea mai simplă structură a unei baze de date.

Întrun SGBD relaţional, datele sunt organizate în tabele. Tabelele sunt formate din

înregistrări care, la rândul lor sunt formate din câmpuri. Două sau mai multe tabele

pot fi legate prin intermediul unia sau mai multe câmpuri. Bazele de date relaţionale

sunt foarte flexibile şi uşor de folosit, fiind cele mai răspândite. De exemplu Oracle,

SQL, DB2 etc.

SGBD orientat pe obiect este cel mai nou tip, care integrează principiile

programării pe obiecte cu cu cele ale bazelor de date. Acest tip de baze de date

permite gestionarea obiectelor complexe (texte, grafice, hărţi, imagini, sunete) şi a

obiectelor dinamice(programe, simulări) care nu pot fi realizate cu ajutorul sistemelor

relaţionale.

Comunicarea cu baza de date

Un SGBD nu este util dacă nu se poate comunica cu el. Comunicarea cu baza de date

presupune următoarele patru funcţiuni:

Definirea structurilor de date. Un SGBD trebuie să dispună de un limbaj care

permite definirea (crearea, modificare şi ştergera) structurilor de date folosite şi

legăturile dintre acestea. Pentru aceasta este necesar un limbaj de definire a datelor.

Manipularea datelor. Odată create structurile din baza de date, trebuie să

permită încărcarea datelor în aceste structuri, actualizarea sau ştergerea acestora.

Aceste operaţii sunt efectuate de un limbaj de manipulare a datelor.

28

Interogarea datelor. Un SGBD trebuie să permită extragerea, vizualizarea şi

prelucrarea datelor existente. Aceste operaţii se realizează cu cu un limbaj de

interogare sau de acces.

Controlul datelor. Această funcţiune presupune asigurarea securităţii şi

confidenţialităşii datelor. Pentru aceasta trebuie să existe un limbaj de control al

datelor.

Observaţie. În Oracle, comunicarea cu baza de date se face prin intermediul

limbajului SQL (Structured Query Language), care realizează toate cele patru funcţii.

Securitatea datelor

Securitatea este o problemă constantă în proiectarea şi dezvoltarea bazelor de date.

Un SGBD are mai multe nivele de securitate, pe lângă cele oferite de sistemul de

operare sau de reţea.

De regulă, un SGBD deţine conturi pentu utilizatori, care necesită o parolă de

conectare ce trebuie autentificată pentu accesul la date.

De exemplu, întrun sistem electronic banking o companie îşi poate deschide un cont

la o bancă, iar accesul persoanelor din cadrul companiei pentru consultarea contului

va fi autorizat printr-un nume şi cel puţin o parolă. În plus, accesul poate fi diferenţiat

pentru diferiţi membri ai companiei, numai unii dintre aceştia fiindu-le permis să facă

tranzacţii asupra contului.

Tipuri de utilizatori ai bazei de date

În general, o bază de date este accesată de mai mulţi utilizatori, care se diferenţiază

după operaţiile pe care aceştia le efectuează asupra bazei de date. Menţionăm:

Administratorul bazei de date, care defineşte baza de date şi este responsabil

pentru buna funcţionare a acesteia. Sarcinile administratorului bazei de date:

- optimizarea stocării datelor şi a accesului la baza de date

- asigurarea integrităţii şi securităţii datelor

29

- asigurarea de măsuri pentru recuperarea datelor în caz de defecţiuni

Programatorul (dezvoltatorul de aplicaţii), care creează programe ce

manipulează şi interoghează datele din baza de date. Programatorul trebuie să

exploateze facilităţile privind accesul concurent la date pentru a asigura integritatea şi

consistenţa acestora. El trebuie să fie preocupat de performanţă şi mentenanţă.

Utilizatorul, care poate interoga şi manipula datele, fără a fi necesară

cunoaşterea modului de organizare a acestora sau a problemelor privind integritatea

sau accesul concurent la acestea.

Asigurarea accesului concurent la date

În cazul existenţei mai multor utilizatori, un SGBD trebuie să gestioneze accesul

concurent al acestora, menţinând în acelaşi timp integritatea bazei de date.

Concurenţa este definită ca simultaneitate în sensul că doi sau mai mulţi utilizatori

accesează aceleaşi date în aceeaşi perioadă de timp. Pe de altă parte SGBD-ul trebuie

să stopeze modificări incorecte ale datelor, care ar compromite integritatea acestora.

Concurenţa şi integritatea sunt foarte importante pentru o bază de date.

Utilizatorul care a efectuat primul modificarea datelor îi blochează pe ceilalţi care

doresc să efectueze acelaşi lucru.

Baze de date distribuite

O bază de date distribuită este o mulţime de date corelate logic, dar distribuite pe mai

multe calculatoare interconectate printro reţea de comunicaţie.

Din puct de vedere al utilizatorului, o bază de date distribuită reprezintă o singură

bază de date.

Programul de aplicaţie care manipulează baza de date distribuită poate avea acces la

datele rezidente pe mai multe calculatoare, fără ca programatorul să cunoască

localizarea lor fizică.

30

Bazele de date distribuite oferă utilizatorului o flexibilitate şi o securitate sporită faţă

de o singură bază de date.

De exemplu, o companie care are sedii în mai multe oraşe ale lumii, poate opta

pentru o bază de date distribuită. Fiecare locaţie îşi administrează propria bază de

date, pe care o accesează în mod frecvent, putând să aibă în acelaşi timp acces şi la

bazele de date ale celorlalte locaţii. În acest mod, exploatarea bazei de date devine

este mai eficientă şi uşurează administrarea acesteia care se face local. În plus,

defectarea unei baze de date locale nu afectează celelalte baze de date din reţea, fiind

protejate împotriva defecţiunilor din celelalte noduri ale reţelei.

31


Crearea unei baze de date SPSS

O bază de date în SPSS este o structură formată din linii şi coloane, la intersecţia

cărora se găsesc celulele care conţin informaţii.

O bază de date SPSS se obţine în unul din următoarele moduri:

1. Crearea prin operaţiunea de definire a variabilelor şi introducerea datelor de la

tastatură

2. Deschiderea unei baze de date SPSS existente

3. Importarea unei baze de date din alt format decât SPSS.

Pentru crearea unei baze de date proprii SPSS, în fereastra deschisă Data Editor, se

procedează astfel:

Se definesc variabilele bazei de date în fereastra Data Editor

Se introduc datele pentru fiecare subiect

Se salvează baza de date întrun fişier având extensia .sav.

Definirea variabilelor

Pentru a crea variabile noi sau pentru editarea (modificarea, ştergerea) variabilelor

existente, se trece în zona Variabile View prin acţionarea tab-ului corespunzător aflat

în colţul din stânga jos al ferestrei SPSS.

Definirea unei variabile presupune completarea informaţiilor şi setarea parametrilor

de pe fiecare coloană a editorului de variabile, astfel:

1. Name: definirea numelui variabile

Orice variabilă trebuie să aibă un nume. Se poziţionează moue-ul pe linia de definire

a variabilei, clic, după care se tastează numele variabilei.

La definirea variabilelor trebuie să ţinem seama de următoarele:

32

Numele trebuie să fie format din minimum unul şi maximum opt caractere,

primul caracter fiind o literă; versiunile SPSS noi admit lungimi mai mari;.

Numele nu conţine caractere speciale: spaţiul, semne de punctuaţie etc.

Numele variabilei poate conţine liniuţa de subliniere (underscore), nu ca ultim

caracter; există variabile create de SPSS care care au această terminaţie şi se produce

confuzie;

Numele poate fi sugestiv, exprimînd conţinutul variabilei;

Nu pot exista două variabile cu acelaşi nume intro bază de date;

Nu se accetă ca nume de variabile cuvintele rezervate precum ALL, AND, BY,

EQ, GE, GT, LE, LT,NE, NOT, OR, THRU, TO, WITH.

2. Type: definirea tipului variabilei

Tipul variabilei se referă la natura informaţiei pe care o reprezintă variabila

respectivă. În acest sens se poziţonează mouse-ul pe Type, clic şi, din caseta de

dialog care se deschide, se selectează una din opţiuni, prin bifarea acesteia, după

cum urmează:

Numeric: dacă valorile variabilei sunt numere cu sau fără zecimale:

- Width : numărul de cifre necesare părţii întregi

- Decimal Places: numărul de zecimale

String: dacă valorile variabilei sunt exprimate sub formă de caractere

alfanumerice (litere sau cifre) - text sau şir de caractere;

Comma: separarea cifrelor se poate face cu virgulă;

Dollar: în faţa numărului respectiv se pune semnul $;

Scientific notation 2*5 ceea ce înseamnă 2x105 ;

Date: pentru unităţi de timp, ca de exemplu:

dd-mmm-yy 12-MAR-2009 unde luna are 3 caractere din limba engleză,

mm/dd/yyyy sau mm/dd/yy sau dd.mm.yyyy sau dd.mm.yy sau yyyy/mm/dd

sau yy/mm/dd.

33

3. Label: etichetarea variabilelor

Se mută cursorul pe Label, clic şi se introduce eticeta respectivă. Eticheta

respectivă va fi asociată numelui variabilei respective. Etichetarea poate fi folosită

atât la nivelul variabilei, dar şi la valorile pe care le conţine, în cazul variabilelor

de tip nomonal sau ordinal.

4. Values: etichetarea valorilor variabilelor

În cazul variabilelor categoriale, ale căror valori exprimă apartenenţa la un grup

sau categorie, este util şi necesar ca valorile să fie etichetate.

De exemplu, dacă pentru variabila gen utilizăm valorile 1 şi respectiv 2, valoarea

1 poate primi eticheta „feminin”, iar valoarea 2 eticheta „masculin”.

Se selectează Values şi apoi se completează etichetele în caseta Value Labels

astfel:

- se plasează valoarea etichetei în caseta Value

- se introduce eticheta corespunzătoare în zona Label

- se acţionează butonul Add

- se reia operaţiunea pentru toate valorile pe care dorim să le etichetăm.

De exemplu: Value Labels

Value 1

Label feminin

Add

Observaţii.

Aplicarea unor etichete variabilelor şi valorilor nu este obligatorie, dar este

utilă;

Etichetele sunt utile la citirea rezultatelor (apare 1 feminin);

34

5. Missing: declararea valorilor lipsă

Valorile lipsă se referă la informaţiile inexistente sau pe care dorim ca aplicaţia

SPSS să nu le ia în considerare în cursul prelucrărilor.

Se selectează Missing Values, cu două opţiuni:

- system missing values, pentru valori care lipsesc din baza de date, nefiind

introduse;

- using missing values, pentru valorile care există în baza de date, nu sunt

şterse, dar nu se utilizează în calcule.

6. Meaure: declararea scalei de măsurare

Din punct de vedere al măsurării avem trei categorii de variabile: cantitative

(interval sau raport), ordinale şi nominale.

În funcţie de scala de măsurare, variabilele sunt incluse în anumite proceduri

statistice.

Declararea nivelului de măsurare se face prin selectarea tipului de scală din lista

care se deschide la acţionarea butonului din celua Measure. Opţiunile sunt:

Scale, pentru variabile cantitative (interval/raport);

Ordinal, pentru variabile ordinale;

Nominal, pentru variabile nominale.

În concluzie, crearea unei variabile SPSS are următoarele etape:

Atribuirea numelui

Definirea tipului(numeric, caracter, data)

Atribuirea etichetei variabilei;

Atribuirea etichetei valorilor (pentru variabile măsurate pe scale

nominale sau ordinale);

Declararea valorilor lipsă;

Declararea nivelului de măsurare.

35

Ştergerea şi înserarea variabilelor

Ştergerea unei variabile:

În fereastra Data View se selectează variabila (clic pe antetul variabilei) şi

acţionarea tastei Delete;

În fereastra Variabile View se selectează linia corespunzătoare variabilei şi

se acţionează tasta Delete.

Înserarea unei variabile:

În frerastra Data View se fixează cursorul pe antetul corespunzător

coloanei, se acţionează clic-dreapta şi se alege opţiunea Insert Variabile.

În fereastra Variabile View, fie se creează o variabilă sub ultima existentă,

fie se înserează între două variabile existente.

Ştergerea şi înserarea unor subiecţi

Ştergerea unor subiecţi:

Se selectează subiectul (clic pe antetul liniei) şi acţionarea tastei Delete;

Se pot selecta mai multe cazuri prin tragere cu mouse-ul pe antetul liniilor;

Înserarea unor cazuri:

Se plasează cursorul pe linia deasupra căreia dorim să înserăm un caz nou,

după care se acţionează meniul Data Insert Case.

Exemplu. Să presupunem că se aplică un test care vizează următoarele

caracteristici de personalitate: extraversiunea, nevrozismul şi introversiunea.

Pentru analiza datelor suntem interesaţi să raportăm reultatele la o serie de

caracteristici demografice ale subiecţilor precum sexul şi vârsta. Da asemenea,

dorim să înregistrăm identitatea subiecţilor.

Pentru fiecare informaţie introdusă în baza de date vom crea câte o variabilă.

36

Variabila Numele

variabilei Tipul variabilei Eticheta

variabilei Eticheta valorilor

Identitaea subiecţilor

Cod numeric sau numele subieţilor

Numeric, Width 2 Decimal Places 0

Identitate Nu se aplică la variabile numerice

Sexul Sex Numeric, Width 1, Decimal Places 0

Sex 1=feminin 2=masculin

Vârsta vârsta Numeric, Width 2, Decimat Places 0

Vârsta

Extraversiune extrav Numeric, Width 2, Decimat Places 0

Extraversiune

Nevrozism nevro Numeric, Width 2, Decimat Places 0

Nevrozism

Introversiune introv Numeric, Width 1, Decimat Places 0

Introversiune

Observaţii.

1. Numele variabilelor se scrie cu litere mici; cele mari nu sunt

recunoscute de SPSS.

2. Numele variabilei fiind semnificativ, se poate utiliza şi pentru etichetă.

3. Numele variabilelor sunt utilizate de SPSS, iar etichetele sunt necesare

utilizatorului pentru a înţelege semnificaţia variabilei, al cărei nume

poate fi mai scurt.

Dacă vom introduce cinci subiecţi, imaginea din Data Editor se prezintă astfel:

Cod sex vârsta extrav nevro introv

1 1 20 12 8 3

2 2 35 15 16 8

3 2 18 25 11 9

4 1 58 10 21 5

5 2 47 14 6 6

37

Observaţii.

1. Se recomandă declararea numerică a variabilelor, deoarece SPSS-ul este un

program statistic şi presupune date numerice. De exemplu, variabila sex poate

fi declarată de tip caracter, cu valorile F şi M, dar ea poate fi declarată şi

numeric cu valorile 1 şi 2. Pentruexplicitarea valorilor se vor folosi etichetele

de valoare.

2. Introducerea unei variabile care să conţină numele subiecţilor poate fi necesară

numai în situaţia în care se doresc liste cu numele subiecţilor din baza de date.

3. În situaţia întrebărilor cu răspuns multiplu se crează mai multe variabile, câte

una pentru fiecare variantă de răspuns.

Salvarea bazei de datedin Data Editor

Comanda File/Save as care deschide o casetă de dialog:

Se alege locaţia de salvare (Save in)

Se alege un nume pentru fişier (File name)

Se dă clic pe Save.

Deschiderea unei baze de date SPSS

Comanda File-Open deschide o casetă de dialog:

Se alege locaţia de citire (Look in)

Se indică fişierul respectiv în fereastra de căutare

Se acţionează Open.

Importul unei baze de date în SPSS

Importul unei baze de date din alt format decât SPSS se face din meniul

File/Open/Data.

38


Operaţii de transformarea variabilelor

Din punct de vedere al modului în care au fost create, se disting două

categorii de variabile:

variabile primare, care defnesc valorile obţinute direct din cercetare,

introduse de la tastatură;

variabile secundare, obţinute prin transformările aplicate

variabilelor primare.

De exemplu, o variabilă primară poate fi data naşterii, iar pe baza ei se

poate calcula vârsta, obţinându-se o variabilă secundară.

Pentru transformarea variabilelor primare în variabile secundare se

utilizează procedura Transform.

Procedura Transform realizează următoarele operaţii:

1. Însumarea variabilelor

Se crează mai multe variabile, de exemplu var1, var2, var3. Se poate crea

si variabila toatal, ce reprezintă suma celor trei variabile create.

Se apelează procedura Transform-Compute, ce deschide o casetă, după

care se parcurg următorii paşi:

- în linia Target variabile se introduce numele variabilei în care va

fi scris rezultatul operaţiei. Dacă variabila nu există, ea va fi creată

automat.

39

- din lista Function group se alege grupulde funcţii Statistical.

- din lista Function and Special Variables se alege funcţia Sum.

- se transferă funcţia Sum în zona de editare a expresiei numerice

- se alege prima variabilă din lista de variabile şi se mută în

expresia Sum;

- se tastează To şi apoi se selectează şi se mută în expresie ultima

variabilă din seria respectivă (se introduce prima şi ultima, considerarea

celorlalte fiind implicita).

După editarea funcţiei de calcul se acţionează butonul Ok.

Observaţii.

1. Respectarea sintaxei este obligatorie. De exemplu, dacă expresia

calculată de program a fost total = SUM (prima_variabila TO

ultima_variabila ) se lasă un spaţiu între TO, prima şi ultima

variabilă.

2. O altă modalitate de însumare este total = SUM(var_1,var_2,var_3)

sau în zona de editare a expresiei se scrie var_1+var_2+var_3.

40

2. Calcularea mediei a două sau mai multe variabile

Pentru calculul mediei a două sau mai multe variabile se lansează

procedura Transform/Compute, care deschide caseta Compute

Variabile.

Se procedează satfel:

- se declară numele variabilei în care va fi depus rezultatul

operaţiei ( de exemplu media);

- din Function group se alege Statistical.

- din Function and Special Variables se alege Mean.

- se mută funcţia Mean în zona de editare.

- se introduc între paranteze numele variabilelor pentru care se

calculează media.

- se acţionează butonul OK.

Observaţie. În mod asemănător se pot utiliza şi alte funcţii din lisă.

Pentru informaţii se poate acţiona butonul Help al casetei Compute

Variabile.

3. Extragerea anului dintr-o variabilă de tip cronologic.

SPSS conţine funcţii de transformare pentru variabile de tip cronologic.

De exemplu, se poate crea o variabilă care conţine anul naşterii, extras

dintr-o variabilă ce stochează data naşterii.

41

Pentru aceasta se procedează astfel:

- în câmpul Target Variabile se introduce numele variabilei în

care va fi depus rezultatul (de exemplu, vîrsta);

- în zona Numeric Expression se va construi expresia de calcul

anul curent minus anul cuprins în variabila data_nasterii.

- se selectează funcţia Data Extraction din lista Function group;

- se alege funcţia Xdate.Year din lista Function and Special

Variables.

- se mută funcţia în zona de editare Numeric Expression.

- se completează expresia de calcul anul curent( de exemplu 2010)

– Xdate.Year introducând variabila data_naşterii din lista de variabile.

4. Recodificarea variabilelor

Recodificarea unei variabile înseamnă convertirea valorilor acesteia, cu

scopul obţinerii unei distribuţii bazate pe frecvenţe cumulate. Limitele

claselor de grupare se stabilesc de utilizator.

Se procedează astfel:

- se face diferenţa între valoarea cea mai mare şi cea mai mică a

unei distribuţii;

- se împarte valoarea obţinută la mărimea estimată a intervalului;

42

- se selectează mărimea intervalului care conduce la un număr de

clase cuprins între 5 şi 15;

- se determină limita inferioară şi superioară a fiecărei clase;

De exemplu, în cazul unei distribuţii de vârstă exprimate în ani este

indicat să se opteze pentru clase de 5 sau 10 ani.

Se parcurg următoarele etape:

- din meniul Transform se selectează Recode into Different

Variables;

- se mută variabila ( de exemplu vârsta ) în zona Numeric

Variabile ---Output Variabile;

- numele variabilei recodificate secrie în zona Name;

- se introduce o etichetă în zona Label pentru variabila nou creată;

- se acţionează butonul Change;

- se acţionează butonul Old and New Values pentru declararea

limitelor de vârstă.

5. Transformarea de rang a variabilelor

Se utilizează în cazul care rangul variabilelor nu corespunde unei anumite

situaţii, ca de exemplu 1 2 3 4 5 6 7 scor 25 37 12 75 21 120 95

43

Se procedează astfel:

- variabila scor se trece în lista Variabiles;

- în zona Assign Rank 1 to am setat atribuirea rangului 1 valorii

celei mai mari;

- se acţionează butonul OK. Se pot fixa parametri de transformare

cu ajutorul butoanelor Rank şi Ties;

Opţiunea Rank are ca efect atribuirea rangului corespunzător fiecărei

valori.

Opţiunea Mean atribuie rangul mediu. Dacă valorile 25, 25, 25 sunt pe

locurile 3, 4, 5 atunci valoarea 25 va primi rangul 4, adică media celor 3

ranguri.

Procedura se finalizează prin crearea unei noi variabile, care conţine

poziţia de rang a fiecărei valori din variabila sor, în raport cu celelalte

valori ale distribuţiei. 1 2 3 4 5 6 7 scor 25 37 12 75 21 120 95 rscor 5 4 7 3 6 1 2

44


Elemente de teoria sondajelor

Şansele ca un studiu statistic să reflecte cât mai bine realitatea sunt cu

atât mai mari cu cât studiul respectiv tinde să cuprindă întreaga

populaţie. Acest lucru este dificil şi uneori chiar imposibil.

Evenimente, procese, fenomene şi activităţi din natură şi societate care

necesită studii statistice sunt de cele mai multe ori aşa de numeroase

şi/sau complexe încât nu pot fi studiate prin examinarea fiecărei

unităţi statistice.

Henry Poincare spunea: Slăbiciunea noastră nu ne permite să

îmbrăţişăm tot universal şi suntem obligaţi să-l descompunem în

bucăţi.

De aici rezultă că într-o mulţime de situaţii, studiul lor statistic nu este

posibil decât pentru o parte a acestora, iar pe baza rezultatelor obţinute

să putem trage concluzii pentru tot întregul.

Procedeele prin care pornind de la studierea unui număr restrâns de

unităţi ale unei populaţii statistice se pot obţine rezultate privind

întreaga populaţie se numesc procedee inferenţiale.

Definiţie. Se numeşte eşantion, un număr restrâns de unităţi statistice

supuse analizei statistice.

45

Definiţie. Se numeşte sondaj, operaţia prin care se obţine un eşantion

din populaţia statistică.

Rezultatele obţinute prin analizarea sondajului respectiv sunt

extrapolate la întreaga populaţie, cu condiţia ca eşantionul să fie

reprezentativ.

Un eşantion este reprezentativ pentru o populaţie statistică dacă:

reprezintă la scară redusă structura populaţiei respective ;

păstrează caracteristicile populaţiei din care a fost extras ;

sugerează legea de repartiţie ce caracterizează populaţia ;

poate fi utilizat pentru estimarea sau determinarea

diferiţilor parametri ai legiii respective.

Reprezentativitatea unui eşantion este acceptabilă dacă faţă de valorile

reale în determinarea indicatorilor de structură ai populaţiei se

înregistrează abateri de cel mult 5%.

În general, eşantioane diferite conduc la rezultate diferite, ceea ce

înseamnă o fluctuaţie a reprezentativităţii lor.

Definiţie. Se numeşte volum de selecţie, numărul unităţilor dintr-un

eşantion.

Mărimea eşantionului (volumul de selecţie) constituie o problemă

importantă.

46

Este evident faptul că extrapolarea informaţiilor furnizate de un

eşantion la întreaga populaţie reflectă cu atât mai bine realitatea cu cât

eşantionul este mai mare.

Din punct de vedere al mărimii, se disting două tipuri de eşantioane:

eşantioane mici, cu un volum de selecţe de maximum 30 până la

50 de unităţi;

eşantioane mari, cu un volum de selecţie de peste 50 de unităţi.

Observaţie. Acestă clasificare este importantă deoarece unele

proceduri de analiză sunt specifice unui anumit tip de eşantion din

punct de vedere al volumului de selecţie.

Tratarea unui eşantion mic ca pe unul mare poate conduce la erori

importante, pe când invers nu ridică probleme deosebite.

O altă clasificarea poate fi făcută după modul de selectare a unităţilor :

eşantioane independente, ceea ce înseamnă că selectarea unei

unităţi statistice (individ) într-un eşantion nu depende de selectarea

altor elemente (indivizi) în alt eşantion. De exemplu, în psihologie,

indivizii selectaţi în eşantioane diferite nu sunt aceeaşi. Concudent în

acest sens sunt eşantioanele separate : femei şi bărbaţi.

eşantioane dependente formate din perechi sau grupuri de unităţi

statistice (indivizi), ceea ce înseamnă că selectarea unei unităţi

statistice într-un eşantion atrage de al sine selectarea altei unităţi în

47

celălalt eşantion. De exemplu, utilizarea aceloraşi indivizi pentru o

cercetare pe o perioadă de timp. Studiul anumitor caracteristici comune

pe eşantioane formate din aceeaşi indivizi din populaţii diferite.

Tipuri de sondaje

Se disting următoarele tipuri de sondaje:

sondaje aleatoare, situaţie în care constituirea eşantionului se

face la întâmplare, prin extragerea la întâmplare a unităţilor din

populaţia respectivă. Fiecare din unităţile populaţiei are aceeaşi şansă

de a aparţine eşantionului. Se utilizează în situaţiile în care populaţiile

au un grad ridicat de omogenitate.

Eşantioanele aleatoare trebuie să respecte următoarele cerinţe:

oricare úntate statistică să fie obţinută la întâmplare;

eşantioanele de acelaşi volum să aibe aceleaşi şanse de a fi

prelevate din populaţia respectivă;

unităţile populaţiei respective să aibe aceeaşi şansă de a

aparţine oricărui eşantion.

numărul de unităţi ce compun eşantionul să fie suficient de

mare pentru ca el să fie reprezentativ.

Un exemplu în acest sens este o analiză de apă, sânge etc.

În cazul sondajelor aleatoare distingem tri categorii de eşantioane:

48

- eşantioane în trepte (multi stage sampling), ceea ce înseamnă

că dintr-o populaţie se extrage la întâmplare un eşantion pe baza unui

anumit criteriu, şi apoi, din acest eşantion se extrag succesiv alte

eşantioane, de fiecare dată pe baza altui criteriu.

De exemplu, dintr-o populaţie se extrage la întâmplare, după criteriul

temperamentului, un eşantion. Din acest eşantion se extrag la

întâmplare alte eşantioane, criteriul considerat fiind sexul, apoi

profesia, vârsta etc.

- eşantioane grupate (grappes sau cluster sampling) se referă la

eşantioane între ale căror unităţi există anumite legături sau se

aseamănă între ele din anumite puncte de vedere. Un asemenea

eşantion poate fi considerat o etapă a unui eşantion în trepte.

De exemplu, pentru un studiu, se selectează la întâmplare o

universitate ( prima treaptă ), în cadrul universităţii o facultate ( a doua

treaptă ), în cadrul facultăţii o specializare ( a treia treaptă) etc.

Legătura comună este că pe toate treptele avem studenţi.

- eşantioane stratificate, se utilizează în cazurile în care

populaţia se poate organiza în subpopulaţii denumite straturi, fiecare

având anumite caracteristici distincte. Din interiorul fiecărui strat se

extrage un eşantion. Eşantionul care va fi studiat este constituit din

eşantioanele extrase.

49

De exemplu, dacă populaţia unei localităţi constitue un obiect de

studiu, atunci se pot forma eşantioane pe categorii de vârstă, profesie,

apartenenţă religioasă etc.

sondaje nealeatoare se utilizează atunci când se cunoaşte

structura populaţiei, iar caracteristica studiată necesită un eşantion a

cărui structură este apropiată de cea a populaţiei. Din această categorie

fac parte:

- eşantioane proporţionale, care sunt constituite proporţonal cu

numărul unităţilor care compun populaţia din care au fost extrase.

De exemplu, dacă populaţia este formată din femei şi bărbaţi, proporţia

de femei şi bărbaţi din eşantion trebuie să păstreze structura populaţiei.

- eşantioane tipice, ceea ce înseamnă că eşantionul conţine

numai un anumit tip de unităţi din populaţia respectivă.

De exemplu, personele cu deviaţii comportamentale dintr-o anumită

localitate fac obiectul unui studiu statistic. Se studiază un eşantion

format numai din rândul acestor persoane.

sondaje dirijate, se utilizează atunci când se au în vedere

anumite criterii prestabilite privind modalităţile de selectare a unităţilor

statistice care compun eşantionul. Pentru anumite populaţii, un

eşantion aleatoriu nu ar fi reprezentativ datorită neomogenităţii

caracteristicii studiate.

50

Un exemplu în acest sens este sondajul de opinie în care pentru

asigurarea unei reprezentativităţi corespunzătoare este necesar să fie

incluse toate categoriile sociale.

sondaje mixte reprezintă o combinaţie a caracteristicilor

celor două tipuri de sondaje, ceea ce înseamnă că eşantionul se

constituie prin alegerea aleatoare a diferitelor unităţi statistice din părţi

ale populaţiei formate după criterii prestabilite.

Se utilizează în studiul unei populaţii în care anterior alegerii unităţilor

statistice trebuie avută în vedere o împărţire a acesteia după anumite

criterii.

Un exemplu îl constituie studiul nivelului intelectual dint-o comunitate

în care anterior alegerii persoanelor trebuie realizată o împărţire după

studii, profesie etc.

O altă clasificare a sondajelor poate fi făcută astfel :

sondaje nerepetate, ceea ce înseamnă că selecţia unei

unităţi statistice se poate face o singură dată, fără a repune unitatea

statistică respectivă înapoi în populaţia de unde a fost extrasă;

De exemlu, o analiză de sânge.

sondaje repetate, ceea ce înseamnă că unităţile statistice

care au aparţinut unui eşantion se repun în populaţia respectivă şi pot

face parte dintr-un alt eşantion.

51

De exemplu, sondajele de opinie.

Din punct de vedere matematic, o populaţie statistică este o mulţime A,

iar un eşantion este o submulţime a sa B.

O unitate statistică aparţine mulţimii A, dar poate să aparţină şi

mulţimii B dacă a fost selectată în eşantionul respectiv.

Unui eşantion (selecţii) i se poate ataşa seria statistică şi variabila

statistică corespunzătoare, o repartiţie care poate fi una din legile

clasice de probabilitate sau apropiată de ele, pentru care se pot calcula

diferite caracteristici numerice precum media, dispersia etc.

Caracteristicile numerice care se calculează relativ la un eşantion

(submulţimea B) reprezintă media, dispersia etc. empirice sau de

selecţie.

Caracteristicile numerice care se calculează relativ la întreaga

populaţie (mulţimea A) reprezintă media, dispersia etc. teoretice.

Erori de sondaj

Diferenţele între valorile teoretice şi cele empirice sunt erori produse în

procesal de selecţie al eşantioanelor.

Distingem următoarele tipuri de erori:

erori grosolane, care se datorează neprofesionalismului

sau unor mari greşeli de observare, măsurare, determinare etc.

52

erori sistematice, apar în cele mai multe situaţii datorită

instrumentelor utilizate, precum şi a gradului de precizie a acestora.

Ele se produc repetat şi pot fi identificate şi înlăturate revizuirea

procedeelor de sondaj şi/sau instrumentelor de măsură.

erori întâmplătoare (aleatoare) se datorează neatenţiei sau

subiectivismului celui care efectuează observarea sau măsurarea,

precum şi a unor influenţe necontrolabile care pot să apară în timpul

acestei activităţi.

Observaţie. Influenţele necontrolabile nu pot fi eliminate.

În studiul care se efectuează asupra uneia sau mai multor caracteristici

ale unei populaţii prin inferenţa statistică sunt implicate trei distribuţii:

distribuţia caracteristicii populaţiei studiate, care nu este

cunoscută, ea fiind obiectul studiului;

distribuţia de sondaj, adică distribuţia pe care oare o anumită

caracteristică în mulţimea eşantioanelor de volum dat. Numărul

eşantioanelor posibile de volum dat poate să depăşească numărul

elementelor mulţimii respective.

distribuţia de eşantionare. Cercetările psihologice se bazează pe

studierea unuia sau mai multor eşantioane, fie pentru extrapolarea

53

concluziilor la nivelul întregii populaţii, fie pentru verificarea anumitor

ipoteze privind populaţia din care acestea au fost obţinute.

Aşa cum s-a mai precizat, extrapolarea rezultatelor la nivelul populaţiei

se poate face numai în condiţiile în care eşantionul sau eşantioanele au

fost reprezentative.

De exemplu, dacă se studiază temperamentul unei colectivităţi şi

eşantionul este format numai din tineri, nu se poate extrapola rezultatul

la întreaga colectivitate în care există persoane de toate vârstele.

Definiţie. Se numeşte distribuţia mediei de eşantionare sau distribuţie

de eşantionare, distribuţia valorilor mediilor eşantioanelor extrase

dintr-o populaţie.

Definiţie. Se numeşte medie de eşantionare (în cazul mai multor

eşantioane obţinute din aceeaşi populaţie), media mediilor de

eşantionare.

Fie mediile a k eşantioane, notate cu kxxx ,...,, 21 , iar media

populaţiei din care au fost extrase, atunci k

xxx k

....21 este media

de eşantionare.

Observaţie. Media fiecărui eşantion are o valoare apropiată de media

populaţiei din care provine, iar diferenţa se numeşte eroare de estimare.

54

Apropierea sau depărtarea mediei unui eşantion de media populaţiei

depinde de mărimea eşantionului. Media unui eşantion mai mare este

mai apropiată de media populaţiei.

In situaţia în care dintr-o populaţie s-ar extrage toate eşantioanele

posibile, atunci media de eşantionare este egală cu media populaţiei.

Distribuţia de eşantionare are o împrăştiere mai mică decât cea

existentă la nivelul populaţiei.

Dacă notăm cu N volumul eşantionului, cu abaterea standard, atunci

abaterea standard a mediei de eşantionare se calculează astfel:N

sm

.

Definiţie. Se numeşte eroare standard a mediei de eşantionare,

numărul ms .

Observaţie. De regulă, nu se cunoaşte abaterea standard a populaţiei şi

atunci eroarea standard a mediei de eşantionare se calculează utilizând

abaterea standard a eşantionului, care o aproximează pe cea a

populaţiei.

55


Elemente de teoria estimaţiei

Se ştie că statistica are ca obiect:

studierea caracteristicilor unei populaţii

calcularea diferitelor valori ale acestora.

În cazul populaţiilor mici se poate face o investigare cercetând/studiind

fiecare unitate statistică în parte.

În cazul populaţiilor mari acest lucru nu este posibil sau dacă este

posibil ar fi foarte costisitor şi se pune problema estimării

caracteristicilor statistice ale distribuţiei populaţiei (medie, abatere

standard etc.) folosind eşantioane.

Valorile caracteristicilor statistice calculate pentru unul sau mai multe

eşantioane aproximează, prin extrapolare, valorile caracteristicilor

statistice ale populaţiei studiate.

Definiţie. Se numeşte estimator, orice entitate a cărei valoare poate fi

utilizată pentru a înlocui o altă entitate.

În general, un estimator este o valoare aproximativă a entităţii

respective.

Statistica inferenţială foloseşte informaţiile obţinute prin studierea unui

eşantion pentru a trage concluzii privind întreaga populaţie.

56

Un rol important îl are teorema limită centrală, care stabileşte două

rezultate fundamentale:

cu cât numărul eşantioanelor dintr-o populaţie este mai mare, cu

atât mai mult media de eşantionare se apropie (aproximează) media

populaţiei.

cu cât volumul eşantioanelor este mai mare, cu atât mai mult

distribuţia mediei de eşantionare se apropie de distribuţie Gauss şi în

situaţiile în care distribuţia variabilei statistice a populaţiei studiate nu

urmează legea normală.

Teorema limită centrală este valabilă în următoarele situaţii:

eşantioanele să fie aleatorii;

unităţile statistice care compun eşantioanele sunt independente

unele de altele;

eşantioanele au acelaşi volum de selecţie.

Observaţie. Teorema limită centrală prezintă importanţă prin faptul că

în studiile statistice nu trebuie să mai fim prea mult preocupaţi de

distribuţiile statistice ale populaţiilor studiate, deoarece în cazul unui

sau unor eşantioane mari, distribuţiile mediilor de eşantionare sunt

aproximate de distribuţii normale.

Problema care se pune este legată de volumul eşantionului şi de

numărul acestora.

57

De regulă, eşantioanele sunt considerate mari dacă volumul de selecţie

depăşeşte 30 unităţi statistice.

Definiţie. Se numeşte estimaţie valoarea estimatorului.

De aici se desprinde conclizia că estimaţiile valorilor caracteristicilor

unei populaţii se obţin prin calcularea acestora la nivelul eşantioanelor.

Definiţie. Se numeşte estimaţie statistică valoarea care aproximează pe

baza datelor de sondaj valoarea necunoscută a unui parametru al

populaţiei.

De exemplu, media aritmetică x este estimator pentru media populaţiei

, iar abaterea standard s este estimator pentru abaterea standard a

populaţiei etc.

Se utilizează două proceduri de estimare:

punctuale

intervale.

Definiţie. Se numeşte estimaţie punctuală o valoare calculată pe baza

unui eşantion şi utilizată pentru a estima un parametru al populaţiei din

care provine.

De exemplu, media aritmetică a unui eşantion este o estimaţie

punctuală a mediei din care a fost extras eşantionul respectiv.

Definiţie. Se numeşte interval de încredere sau interval estimat, un

interval în care se află valoarea unui parametru al populaţiei studiate.

58

Definiţie. Se numeşte eroare de estimare, valoarea absolută a

diferenţei dintre estimaţia punctuală şi valoarea reală a parametrului

respectiv, nn ee * , unde *ne este estimaţia punctuală obţinută dintr-un

eşantion de volum n , iar ne valoarea parametrulu corespunzător

populaţiei respective.

Calculul erorilor de estimare este dificil datorită necunoaşterii valorii

parametrului estimat al populaţiei respective.

În această situaţie se determină un interval care să cuprindă parametrul

populaţiei respective.

Fie P o populaţie a cărei distribuţie depinde de un parametru .

Se pune problema ca pornind de la un sondaj, prin care s-a obţinut un

eşantion de volum n, să se determine un interval care să conţină, cu o

anumită probabilitate, valoarea parametrului respectiv.

Estimarea parametrilor

Caracteristicile unei populaţii pot conţine unul sau mai mulţi parametri

necunoscuţi, iar pe baza unei selecţii se pune problema estimării

acestora.

Estimarea unui parametru constă fie în a obţine o mărime care este

apropiată de valoarea reală a parametrului necunoscut, fie în a obţine

nişte limite (internal de încredere) în interiorul cărora, cu o anumită

probabilitate, se află mărimea reală a parametrului necunoscut.

59

Fie X o variabilă aleatoare care are funcţia de repartiţie ),( xF . Forma

funcţională a funcţiei de repartiţie ),( xF este specificată, însă este un

parametru real a cărui valoare adevărată 0 este necunoscută. Valoarea

0 aparţine unei mulţimi de valori reale , numit spaţiul parametrilor.

Pentru a găsi o valoare care să aproximeze pe , folosim o selecţie de

forma: nn xXxXxX ,.....,, 2211

Se pune problema găsirii unei funcţii ),....,,( 21 nxxx care să poată fi luată

ca valoare a parametrului .

Definiţie. Funcţia ),....,,( 21 nxxx se numeşte funcţie de estimaţie sau

estimator.

Definiţie. Se spune că ),....,,( 21 nxxx este un estimator consistent al lui

, dacă ),....,,( 21 nxxx converge în probabilitate la , adică

1)|),....,,((|lim 21

nnxxxP

Stabilirea faptului că o funcţie converge în probabilitate către o

constantă poate crea dificultăţi, motiv pentru care s-a recurs la condiţii

mai simple.

Definiţie. Se spune că ),....,,( 21 nxxx este un estimaţie corectă a lui

dacă:

0)(lim),()],.....,,([ 21

nnxxxMnn

0)],.....,,([lim 212

nnxxxD

60

Definiţie. Se spune că ),....,,( 21 nxxx este o estimaţie absolut corectă a

lui , dacă )],.....,,([ 21 nxxxM

0)],.....,,([lim 212

nnxxxD

Definiţie. Se spune că ),....,,( 21 nxxx este o estimaţie nedeplasată a lui ,

dacă )],.....,,([ 21 nxxxM .

În caz contrar avem o estimaţie deplasată.

Media de selecţie

n

iix

nxm

1

1 este o estimaţie consistentă şi

nedeplasată a mediei teoretice .

Dispersia de selecţie

n

ii xx

ns

1

22 )(1 este oestimaţie consistentă şi

nedeplasată a dispersiei teoretice 2 .

Intervale de încredere

Definiţie. O pereche de funcţii ),....,,( 2111 nxxx , ),....,,( 2122 nxxx este

interval de încredere pentru , dacă:

1) ],[),,....,,(),....,,( 21212211 nn xxxxxx pentru orice selecţie nxxx ,....,, 21

2) ][ 21P

Observaţie. Condiţia 2 indică faptul că intervalul cu limitele 1 şi 2

acoperă valorile adevărate ale lui cu probabilitatea . Cu cât

intervalul ],[ 21 este mai mic (tinde la zero) şi se apropie de 1, cu

atât mai mult intervalul dă o aproximaţie mai bună despre .

61

Definiţie. Intervalul ],[ 21 se numeşte interval de încredere, iar se

numeşte prag de încredere.

62


Ipoteze statistice

În ştiinţă, dar şi în alte domenii se foloseşte frecvent cuvântul ipoteză,

care este sinonim cu presupunere.

O ipoteză este o afirmaţie sub semnul incertitudinii, conţinînd o doză

de încredere, dar şi de neîncredere.

Definiţie. O ipoteză este o presupunere privind existenţa sau

producerea unui anumit fenomen, proces etc. şi care trebuie verficată

sau demonstrată.

Presupunerea se cheamă ipoteză deoarece se referă la o situaţie care

poate fi adevărată sau nu.

Definiţie. Se numeşte ipoteză statistică acea ipoteză care se face asupra

distribuţiilor sau parametrilor acestora privind diferite populaţii.

Observaţie. Ipoteza statistică este o presupunere asupra populaţiei şi nu

asupra selecţiei.

În statistică, ipoteza este una din cele mai utilizate tehnici. De regulă se

studiază un eşantion şi concluziile, prin extapolare, pot fi extinse la

întreaga populaţie.

Exemple.

1. Rezultatele fetelor la disciplina statistică sunt mai bune decât ale

băieţilor.

63

Ipoteză: randamentul studenţilor la statistică depinde de sex .

2. Un sondaj de opinie realizat în rândul tinerilor arată preferinţa

acestora pentru manele.

Ipoteză: această constatare este adevărată.

3. Performanţele a două grupe de atleţi, una formată din negri, iar alta

din albi sunt diferite, rezultatele grupului de negrii fiind mai bune.

Ipoteza: performanţele atleţilor depind de rasă.

4. Calculând media unui eşantion se obţine x .

Ipoteză: media teoretică a populaţiei din care provine eşantionul

poate fi aproximată prin x .

5. Rezultatele studenţilor din mediul rural sunt mai bune decât ale

celor din mediul urban.

Ipoteză: situaţia şcolară este specifică mediului.

Din aceste exemple şi din multe altele se poate observa că ipotezele

apar fie pe baza unor informaţii incomplete, fie pe baza experienţei,

intuiţiei sau preferinţei (poate chiar subiectivismului) celui care

efectuează cercetarea. Este evident că s-ar putea formula şi alte

ipoteze, fie prin negarea acestora fie prin formularea altora.

Putem concluziona că de fiecare dată avem cel puţin două sau mai

multe ipoteze:

),( 0 HH sau ),...,,,( 210 nHHHH

64

unde 0H este ipoteza admisă iniţial şi se numeşte ipoteza nulă, iar H

este o negare a ipotezei nule sau o ipoteză alternativă .

Observaţii.

1. Ipotezele HH ,0 nu pot fi simultan adevărate.

2. Ipoteza 0H este unică, dar ea poate avea mai multe ipoteze

alternative nHHH ,...,, 21 .

3. Ipoteza 0H nu poate fi simultan adevărată cu niciuna din

alternativele sale.

4. Ipoteza nulă împreună cu ipotezele alternative nHHH ,...,, 21

constituie mulţimea tuturor ipotezelor care se pot face privind

experimentul respectiv.

5. Dacă ipoteza 0H are o singură alternativă H , iar ipoteza H se

infirmă, nu avem certitudinea că se confirmă ipotezei 0H ; ea este

adevărată cu un anumit risc.

Definiţie. Se numeşte prag de semnificaţie riscul asumat în cazul

admiterii ipotezei nule 0H , când ipoteza H se infirmată.

Observaţie. De regulă pragul de semnificaţie este de 5% , iar peste

acesta ipoteza 0H se respinge.

Exemplu.

Un psiholog îşi pune problema dacă informaticenii au un coeficient de

inteligenţă superior populaţiei din care provin.

65

Ipoteză: informaticienii sunt mai inteligenţi decât media populaţiei

generale.

Dacă în acest exemplu considerăm 0H ipoteza nulă, putem scrie :

piH :0

unde i este media inteligenţei informaticienilor, iar p este media

inteligenţei populaţiei din care provin informaticienii.

Pentru a răspunde la întrebarea de mai sus se extrage un eşantion de cel

puţin 30 informaticieni, cărora li se dă un test de inteligenţă.

Să considerăm o distribuţie care depinde de un parametru şi să

verificăm ipoteza conform căreia are valoarea 0 .

Notăm această ipoteză astfel: 00 : H .

Să presupunem că în afară de valoarea 0 , parametrul mai poate avea

şi una din valorile 1 , 2 ,..., n atunci ipotezele

nnHHH :,...,:,: 2211 se numesc ipoteze alternative.

Definiţie. Ipotezele 00 : H , 11 : H ,... nnH :, se numesc ipoteze

admisibile, iar orice altă ipoteză admisibilă se numeşte ipoteză

alternativă.

Observaţie. Ipoteza 0H se numeşte ipoteză nulă deoarece se poate scrie

0: 00 H , verificând dacă diferenţa celor doi parametri este egală cu

zero.

66

Definiţie. Metodele pentru verificarea ipotezelor statistice se numesc

teste statistice.

Definiţie. Un test statistic pentru o ipoteză H sau o ipoteză alternativă

NH este o regulă ce divide spaţiul de selecţie R n în două regiuni W şi

W = R n -W astfel că dacă vectorul de selecţie WXXXX n ),....,,( 21

atunci se respinge ipoteza H (adică se acceptă NH ); dacă WX , atunci

se acceptă H .

Definiţie. Regiunea W se numeşte regiune critică.

Testarea ipotezelor poate să conducă la respingerea lui H când ea este

adevărată (eroare de gradul I) sau la acceptarea lui H când ea este falsă

(eroare de gradul II).

Decizia luată

0H adevărată

1H adevărată

0H respinsă

Decizie greşită ( eroare de tipul I )

Decizie bună

0H se acceptată

Decizie bună

Decizie greşită ( eroare de tipul II )

Probabilităţile acestor erori se notează astfel:

)/()/()/()/(

NHWXPNHHPHWXPHNHP

67

Definiţie. Se numeşte puterea testului, probabilitatea

)/()/()/(1 NHWXPNHWXPNHNHP

Altfel scris:

P(se acceptă 00 / HH fiind adevărată)= 1 decizie corectă

P(se respinge 00 / HH fiind adevărată)= eroare de gradul I

P(se acceptă 00 / HH fiind falsă)= eroare de gradul II

P(se respinge 00 / HH fiind falsă)= 1 decizie corectă

Fiind dată o eroarea este posibil să găsim multe regiuni critice astfel

ca )/( HWXP .

În general, prezintă interes acea regiune critică pentru care eroarea de

gradul doi este cea mai mică.

Exemplu .Să presupunem că avem un lac de acumulare (populaţia) care

alimentează cu apă o localitate. Se zvoneşte că apa acestui lac ar

conţine o substanţă interzisă. Pentru a dovedi existenţa ei se ia o probă

(un eşantion) dintr-o zonă a lacului aleasă întâmplător.

Ipoteza nulă este că apa nu conţine substanţa respectivă într-o

concentraţie mai mare decât cea permisă.

În urma analizei efectuate se determină concentraţia din eşantionul

respectiv.

Problema care se pune constă în a decide dacă această concentaţie din

eşantion se găseşte indiferent de locul de unde se extrage eşantionul.

68

Dacă nivelul concentraţiei din eşantion este mai mare decât cel al

concentraţiei admise în cel mult 5% din eşantioanele luate la

întâmplare din oricare zonă a lacului, atunci putem concluziona, cu un

prag de încredere de 95% că substanţa respectivă se găseşte în

concentraţie mai mare decât cea admisibilă.

Pragul de încredere de 95% nu ne absolvă de faptul că putem fi absolut

siguri că tot lacul are o concentraţie mai mare decât cea admisibilă.

Respingerea ipotezei pe baza cercetării statistice când, în realitate ea

este adevărată constituie eroare de gradul I.

Acceptarea ipotezei cînd ea este falsă este eroare de gradul II.

Testarea ipotezei nule presupune un anumit risc privind acceptarea sau

respingerea ei în raport cu unprag de semnificaţie.

69


Distribuţia (repartiţia ) normală [ ]

Scoruri standard

În psihologie, în unele cazuri, măsurarea anumitor caracteristici

(coeficientul de inteligenţă, timpul de reacţie etc.) ale unor subiecţi are ca

scop realizarea diferitelor comparaţii între subiecţi din aceeaşi populaţie

sau din populaţii diferite.

De exemplu, la un test o persoană obţine un număr de 75 puncte. Această

cifră este lipsită de importanţă dacă nu se cunosc câteva elemente

importante privind testul respectiv.

Pentru a putea face aprecieri asupra numărului de puncte obţinut de

persoana respectivă, este necesar să cunoaştem numărul minim şi maxim

de puncte ale testului respectiv, numărul mediu de puncte obţinut de

ceilalţi subiecţi care au făcut obiectul testării, precum şi împrăştierea faţă

de numărul mediu de puncte.

Facem presupunerea că numărul minim de puncte este 0, numărul maxim

este 100, media este 55, iar îmrăştierea este 30.

În acest caz, graficul se prezintă astfel:

70

Se numeşte scor standard sau scor z , modalitatea prin care se exprimă

semnificaţia unei anumite valori a unei distribuţii prin raportarea la

parametrii săi: medie şi abatere standard.

Scorul standard sau scorul z măsoară distanţa dintre o anumită valoare şi

media distribuţiei, folosind ca unitate de măsură abaterea medie standard.

Scorul z se expimă prin expresia:

xz

unde este media teoretică, este abaterea standard, iar x este oricare

dintre valorile distribuţiei.

Formula de mai sus transformă orice scor x în scor z . Numărătorul x

indică distanţa scorului x faţă de media . Prin împărţirea acestei distanţe

la se obţine distanţa scorului x faţă de media , exprimată în abateri

standard.

În cazul unui eşantion, scorul z este dat de

s

mxz

unde m şi s sunt media şi respectiv abaterea standard calculate pe baza

eşantionului.

Exemple. Fie un eşantion având media m =50 şi abaterea standard s =20.

Se obţin următoarele scoruri corespunzătoare valorilor 40,60, 80 din

eşantion:

5,020

504040

z , 5,0

205060

60

z , 5,120

508080

z

71

Scorul negativ indică o valoare mai mică decât media, ceea ce înseamnă

0,5 abateri standard sub medie, iar celelalte indică valori standard peste

medie, respectiv 0,5 şi 1,5.

Observaţii.

1. Scorul z se mai numeşte şi scor standard deoarece exprimă, în unităţi

ale abaterii standard, distanţa unei valori faţă de media distribuţiei din

care face parte.

2. Media distribuţiei scorurilor z este 0, indiferent de media distribuţiei

din care provin valorile lui x .

3. Abaterea standard a distribuţiei scorurilor este 1, indiferent de

abaterea standard a distribuţiei din care provin valorile lui x .

4. Din faptul că raportarea se face la medie şi la abaterea standard, scorul

z poate fi utilizat pentru compararea unor valori ce provin din

distribuţii diferite, indiferent de unitatea de măsură a fiecăreia.

5. Scorurile z prezintă avantajul că permit compararea valorilor care

provin din distribuţii diferite, datorită faptului că folosesc aceeaşi

unitate de măsură şi anume abaterea standard. De exemplu, dacă un

student obţine un scor de 0,3 la un test de statistică şi un scor de 0,5 la

un test de psihologie, atunci putem afirma că performanţa studentului

respectiv este mai bună la psihologie decât la statistică.

72

6. În cazul unor distribuţii care au forme grafice total diferite,

comparaţiile scorurilor z trebuie privite cu mai multă atenţie.

De cele mai multe ori rezultatele scorurilor z sunt reprezentate prin

numere mici, negative sau pozitive, cu multe zecimale, fiind mai greu de

utilizat.

Pentru a înlătura acest inconvenient se fac unele transformări, care

conduc la alte scoruri standard, după cum urmează:

Tipul scorului Formula de calcul Media Abaterea standard Scor z

smxz

0

1

Scor T z*1050 50 10 Scor H (Hull) z*1450 50 14 Scor QI (Binet) z*16100 100 16 Scor QI (Wechsler) z*15100 100 15 Scor SAT z*100500 500 100

Observaţii.

1. Scorurile de mai sus se obţin în urma unor transformări ale scorului z .

2. În unele cazuri, formulele trebuie aplicate cu semnul minus.

De exmplu, să considerăm că o persoană (subiect) participă la două teste:

unul de statistică în psihologie şi altul de rectivitate.

La testul de statistică, cu 70m şi 20s obţine un număr de 85 de puncte

iar testul de reactivitate cu 15,0m şi 10,0s obţine un timp de reacţie de

0,20 secunde. Aplicăm testul T în fiecare caz şi se obţine:

73

5,5520/)7085(*1050 sT

5510,0/)15,020,0(*1050 rT

Se observă că ambele valori sunt peste media testului care este 50.

La primul test rezultatul este normal deoarece 85 este mai mare decât 70,

iar la al doilea test rezultatul nu corespunde realităţii deoarece 0,20 este

un rezultat mai slab decât media 0,15.

În această situaţie se aplică testul cu semnul minus:

4510,0/)15,020,0(*1050 rT

Şi se obţine o valoare mai mică decât medai testului.

Distribuţia (repartiţia) normală

Rezultatele observaţiilor sau măsurătorilor efectuate asupra unor unităţi

statistice (subiecţi) aparţinând unei populaţii statistice pot fi reprezentate

grafic, curbele respective având diverse forme: simetrice sau asimetrice,

înalte sau aplatizate, unimodale sau multimodale etc.

În cele mai multe cazuri, observaţiile şi măsurătorile urmează o

distribuţie normală, având o curbă de forma unui clopot, numită curba lui

Gauss.

Prin definiţie, o variabilă continuă X are repartiţie normală de parametri

şi , cu 0 şi x R ( X ~ ),( 2N ) dacă funcţia de densitate este de

forma:

)(xf = 2

2

2)(

21

x

e , 0 , x R

74

unde )(XM , iar )(22 XD .

Funcţia de repartiţie are forma:

dtexXPxFx t

2

2

2)(

21)()(

, 0 , x R

Pentru 0 şi 1 se spune că variabila aleatoare urmează legea

normală redusă )1,0(N , având densitatea de repartiţie

2

2

21)(

x

ex

, x R

16 22 28 34 40

=28, 6 =28, 12

75

Graficul distribuţiei normale reduse se numeşte curbă normală

standardizată, valorile de pe această curbă fiind exprimate în scoruri z .

Graficul repartiţiei normale reduse are următoarele proprietăţi:

are formă de clopot;

este simetric faţă de axa ordonatelor;

cea mai mare parte a valorilor se concentrează în zona

centrală;

concav în intervalul )1,1( şi convex în afară;

este asimptotic la axa Ox;

-3 -2 -1 0 1 2 3 Scoruri z

34 %

14 %

2

76

de fiecare parte a mediei se află jumătate dintre valorile

distribuţiei;

aria cuprinsă între grafic şi axa Ox este 1.

Funcţia de repartiţie a variabilei aleatoare normale reduse este

dtedttxx

tx

2

21)()(

Pentru fiecare x , valoarea lui )(x este egală cu aria cuprinsă între axa

Ox, graficul lui )(x şi dreapta xy .

Repartiţia normală prezintă importanţă din următoarele motive:

cele mai multe măsurători sunt repartizate aproximativ

normal;

variabilele care un sunt repartizate normal pot fi supuse

unor transformări care conduc la variabile repartizate exact sau

aproximativ normal;

în condiţii generale, sume de variabile repartizate sau nu

normal sunt aproximativ normal repartizate;

legea normală reprezintă cazul limită al multor legi de

probabilitate.

Repartizarea rezultatelor măsurătotorilor care urmează repartiţie

normală redusă )1,0(N se prezintă astfel:

77

aproximativ 34% dintre scorurile distribuţiei normale sunt

mai mari decât media şi se află între medie şi abaterea

medie standard, 1z .


mai mici decât media şi se află între medie şi abaterea



mai mari decât media şi se află între medie şi abaterea



mai mici decât media şi se află între medie şi abaterea


Distribuţia scorurilor z pe o curbă normală standardizată se utilizează

pentru a cunoaşte:

care este procentul valorilor mai mari sau mai mici decât un

anumit scor;

care este procentajul valorilor cuprinse între două scoruri;

care este procentajul valorilor cuprinse între medie şi un anumit

scor;

care este scorul corespunzător unui anumit procentaj etc.

78

Exemplu. La un test de cunoştinţe, media răspunsurilor corecte este de

70 puncte din 100 posibile, iar abaterea standard este 15.

Care este procentul celor care au obţinut peste 90 de puncte ?

În acest caz, scorul 33,115

7090

smxz

Din tabelul cu valorile funcţiei de repartiţie obţinem 4082,0)33,1( ,

ceea ce în procente înseamnă 40,82%.

Procentajul peste medie este de 50%, ceea ce înseamnă că numărul

celor care au obţinut peste 90 de puncte este 50-40,82=9,18 adică

9,18%.

Care este procentajul celor care au obţinut între 70 şi 85 puncte ?

În acest caz, scorul 115

7085

smxz

Din tabelul cu valorile funcţiei de repartiţie obţinem 3423,0)1( , ceea

ce în procente înseamnă 34,23%.

Care este numărul de puncte pentru a fi în primii 5% ?

Calculăm 50% - 5% = 45% , se caută în tabel valoarea 0,45 şi se obţine

z =1,64.

Calculăm szmx * şi se obţine x =70+1,64.15=70+24,60=96,60

puncte.

79


Distribuţiile (repartiţiile) HI- patrat, t (Student), Fisher-Snedecor

Distribuţia χ 2

O variabilă aleatoare X are repartiţie sau distribuţie χ 2 cu n grade de

libertate, dacă densitatea ei de repartiţie este de forma:

0,)

2(2

10,0

)( 21

2

2

xexn

x

xfxn

n

având media nXM )( şi dispersia nXD 2)(2 .

Repartiţia χ 2 este considerată ca fiind distribuţia unei variabile

aleatoare care se obţine ca suma pătratelor unor variabile aleatoare

independente cu repartiţie normală redusă (standard), ceea ce înseamnă

că dacă variabilele aleatoare nXXX ,...,, 21 sunt variabile aleatoare

independente )1,0(N , fiecare având distribuţie normală redusă

(standard), atunci variabila aleatoare nXXXZ ....21 are repartiţie

χ 2 cu n grade de libertate.

Observaţii.

Cuvântul libertate se referă la posibilitatea unei măsurători de de a

varia în cadrul unei serii de date, iar cuvântul grad la limitele acestei

variaţii.

80

Prin numărul gradelor de libertate asociate unei entităţi se înţelege

numărul variabilelor independente care definesc entitatea respectivă şi

a căror variaţie nu este supusă unor restricţii.

Testul 2 (hi-pătrat)

Testul 2 se bazează pe repartiţia 2 şi are multiple aplicaţii.

În psihologie, testul 2 se utilizează ca test de independenţă, pentru a

testa dacă două caracteristici ale unei anumite populaţii sunt

dependente sau independente, formulând următoarele ipoteze:

:0H caracteristicile care se compară sunt independente;

:1H caracteristicile care se compară sunt dependente.

Fie X o variabilă aleatoare şi ),( xF funcţia sa repartitie caracteristică

în ipoteza nespecificată H ( în sensul că este un parametru

necunoscut).

Fie o partiţie a mulţimii valorilor luin X :

i ...21 , ji , ji , li 1

şi o selecţie nXXX ,....,, 21 asupra lui X.

Notăm cu )/( HXPp ii şi i numărul de valori de selecţie aparţinând

lui i .

Presupunem că n este un număr suficient de mare astfel încât

tconsnpi tan)( , li 1 .

Notăm cu ̂ estimaţia lui determinată de condiţia:

81

min)(

))((1

22

l

i i

ii

npnp

cu

i

xdFpp ii )ˆ,()ˆ(ˆ

Dacă 21,

2 cl atunci se acceptă ipoteza H ; în caz contrar se respinge

ipoteza H ( c este dimensiunea parametrului vectorial ).

Testul 2 este util pentru a verifica ipoteza H că funcţia de repartiţie a

variabilei X este ),( xF , cu parametrul necunoscut.

Testul 2 are o formă simplă când ipoteza H este complet specificată în

sensul că nu există parametrul de estimat.

În acest caz, construcţia testului 2 se face în mod asemănător:

i

xdFpi )( ,

l

i i

ii

npnp

1

22 )(

În esenţă, testul 2 constă în următoarele:

Să presupunem că X reprezintă caracteristica unui subiect al cărui

comportament îl studiem. Efectuăm măsurători asupra acestei

caracteristici. Înregistrăm datele precum şi frecvenţele lor de apariţie şi

construim histograma. Aceasta ne sugerează un anumit tip de

distribuţie având funcţia de repartiţie );( xF , fiind un parametru

necunoscut.

Ne propunem să verificăm ipoteza statistică ),(:0 xFXH cu

alternativa ),(:1 xFXH .

82

Presupunem că s-au făcut n măsurători nxxx ,....,, 21 asupra caracteristicii

X . Intervalul valorilor posibile ale lui X îl împărţim în k intervale

disjuncte lDDD ,...,, 21 , ),( 1 kkk xxD , lk 1 .

Notăm cu

|{ kk DXPp dacă 0H este adevărată }

Această probabilitate se mai scrie

),();()( 11 kkkkk xFxFxXxPp

Să presupunem că în intervalul kD au fost observate kn valori, adică

l

kknn

1.

Repartiţia presupusă conţine un parametru necunoscut care trebuie

estimat din datele eşantionului nxxx ,...,, 21 , motiv pentru care kp nu pot fi

cunoscute exact, ci numai estimaţii ale lor.

Dacă numărul de parametri necunoscuţi este r , atunci se demonstrează

că

l

i i

iicalculat np

npn1

22 )(

urmează la limită o repartiţie 2 cu 1 rl grade libertate.

Dacă 21

2 rlc ( extras din tabele) se acceptă ipoteza 0H , altfel se

acceptă ipoteza 1H .

În practică, aplicarea testului 2 se relizează astfel: caracteristicile

datelor de observaţie se scriu într-un tabel de contigenţă care conţine m

83

lini mlll ,...,, 21 şi n coloane nkkk ,...,, 21 , corespunzătoare numărului

posibilităţilor de care sunt susceptibile caracteristicile cărora li se aplică

testul.

X Y

1k 2k nk

1l 11f 12f . . . . . . nf1

n

jjf

11

2l 21f 22f . . . . . . nf 2

n

jjf

12

. . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ml 1mf 2mf . . . . . . mnf

n

jmjf

1

m

iif

11

m

iif

12 . . . . . .

m

iinf

1

m

i

n

jijfN

1 1)(

Prin ijf am notat frecvenţele observate ale datelor din eşantionul

respectiv.

Cu ajutorul acestor frecvenţe se calculează frcvenţele teoretice tijf ,

astfel: N

fff

m

i

n

jljik

tlk

1 1

iar numărul gradelor de libertate este )1)(1( nmr .

Testul se calculează cu formula:

m

i

n

jt

ij

tijij

calculat fff

1 1

22 )(

84

Dacă 22tabelcalculat pentru r grade de libertate, atunci se acceptă ipoteza

0H , altfel se respinge 0H şi se acceptă 1H .

Acceptarea se face cu mai mică sau mai mare precizie, în funcţie de

valorile pragului de semnificaţie, care pot fi: 0.01 pentru mare precizie

şi 0,05 pentru o bună precizie. Un prag mai mare decât 0.05 este

considerat nesemnificativ.

Exemplu. La un examen s-au prezentat un număr 170 persoane: 80

fete şi 90 băieţi, obţinând următoarele rezultate:

fetele: 38 note mai mici decât 5

24 note de 5 şi 6

18 note de 7, 8, 9, 10.

băieţii: 32 note mai mici decât 5

36 note de 5 şi 6

22 note de 7, 8, 9, 10.

Diferenţele existente privind rezultatele sunt în raport de sex ?

Se pot face ipotezele:

0H diferenţele care apar între rezultatele fetelor şi cele ale

băieţilor sunt întâmplătoare.

1H diferenţele existente sunt dependente de sex.

85

Datele de observaţie sunt consemnate într-un tabel cu trei linii şi două

coloane. Deasupra diagonalei fiecărui dreptunghi se scriu frecvenţele

observate, iar sub diagonala frecvenţele calculate.

Pentru note considerăm caracteristica X, cu trei posibilităţi: note slabe ,

note satisfăcătoare şi note bune + foarte bune.

Pentru sex considerăm caracteristica Y cu două variante: sex feminin,

sex masculin.

X Y

fete Băieţi

n1

38 32,9

32 37,1

70

n2

24 28,2

36 31,8

60

n3

18 18,8

22 21,2

40

80 90 170

Frecvenţele teoretice se calculează astfel:

(70x80)/170=32,9 ; (70x90)/170=37,1

Se obţine:

73,22,21

8,08,18

8,08,31

2,42,28

2,41,37

1,59,32

1,5 2222222

86

Se caută valoarea în tabel în funcţie de numărul gradelor de libertate.

Dacă tabelul are m linii şi n coloane, atunci numărul gradelor de

libertate este (m-1)x(n-1).

În cazul de faţă numărul gradelor de libertate este 2 şi valoarea

corespunzătoare din tabel este 4,60.

Deoarece 2 =2,73<4,60 se acceptă ipoteza nulă 0H , ceea ce înseamnă

că rezultatele obţinute nu sunt dependente de sex.

Distribuţia (repartiţia t) Student

O variabilă aleatoare X are repartiţie t sau distribuţie Student cu n

grade de libertate, dacă densitatea ei de repartiţie este de forma:

212

)1()

2(

)2

1()(

n

nx

nn

n

xf

, x R

având media 0)( XM şi dispersia 2,2

)(2

nn

nXD .

Observaţie.

Pentru 30n , )(2 XD se apropie de valoarea 1, iar densitatea de

probabilitate a repartiţiei Student se apropie de densitatea de repartiţie

a variabilei normale reduse )1,0(N , ceea ce înseamnă că pentru

eşantioane mari, repartiţia Student poate fi aproximată printr-o

repartiţie normală )1,0(N .

Testul Student

87

Testul Student (introdus de R. Fisher) se bazează pe repartiţia Student

cu 1n grade de libertate şi se utilizează pentru compararea valorilor

diferiţilor parametri.

Testul Student este un test de comparare a mediilor şi se aplică unor

eşantioane independente, de volum mic, obţinute aleatoriu din

populaţii având distribuţie normală.

În psihologie, testul Student poate fi aplicat pentru compararea mediei

performanţelor unui subiect în situaţii diferite sau a două grupuri de

subiecţi aflate în aceeaşi situaţie.

Se pot face următoarele ipoteze asupra mediei unei populaţii având

distribuţie normală ),( N :

:0H 0 , 01 : H

în cazul în care dispersia este necunoscută.

Student (pseudonimul lui William Gosset 1876-1937) a studiat

repartiţia statisticii

ns

xt/

cunoscută sub numele de repartsau t sau repartiţia Student.

Pentru un număr mic de selecţii ( 50n ), densitatea ei de repartiţie se

apropie cea normală.

Testul t bilateral

Să presupunem că vrem să verificăm ipotezele statistice:

88

:0H 0

cu alternativa

01 : H ,

pe baza unui eşantion de volum n : nxxx ,...,, 21 efectuat dintr-o populaţie a

cărei caracteristică X (variabilă aleatoare) urmează o distribuţie

normală ),( N , având dispersia 2 este necunoscută ( fiind abaterea

standard).

Pe baza eşantionului se calculează:

media de selecţie

n

iix

nx

1

1

dispersia de selecţie

n

ii xx

ns

1

22 )(1

1 , unde nxxx ,....,, 21 sunt

măsurări asupra caracteristicii X ;

se calculează statistica testului ns

xtcalculat /

0 , care urmează

o distribuţie Student cu 1n grade de libertate.

Ipoteza 0H se acceptă dacă 2

1,1

ntabelcalculat ttt .

Dacă fixăm un prag de semnificaţie , ipoteza 0H se acceptă dacă

t

nsx

/0

ceea ce se mai poate scrie :

nstmx

nstm 00

reprezentând limitele de semnificaţie pentru media de selecţie .

89

Observaţie.

Valoarea pragului de semnificaţie se alege în funcţie de domeniul în

care se face cercetarea şi de precizia cu care se doreşte luarea deciziei.

De regulă, în toate cazurile, nivelul pragului de semnificaţie nu

depăşeşte valoarea 05.0 .

Valorile cele mai uzuale ale nivelului de semnificaţie sunt 01.0 , 02.0 şi

05.0 .

Se calculează statistica t cu ajutorul formulei

nsmx

tcalculat0

unde x şi s se calculează pe baza datelor de selecţie de volum n , iar 0m

este valoarea mediei pentru care se verifică ipoteza.

Se compară calculatt cu t din tabele, corespunzător pragului de

semnificaţie considerat.

Algoritmul de calcul:

1. Se extrage un eşantion de volum n din populaţia care

face obiectul studiului: nxxx ,...,, 21 .

2. Se calculează media de selecţie x şi abaterea standard

s , pe baza datelor eşantionului, cu formulele:

n

iix

nx

1

1 ,

n

ii xx

ns

1

22 )(1

1

3. Se calculează limitele intervalului de încredere

90

n

stmn

stm 00 ,

Dacă ),( 00 nstm

nstmx se acceptă ipoteza 0H . În caz contrar se

respinge ipoteza 0H şi se acceptă ipoteza 1H .

Exemplu.

Pentru ca o persoană să corespundă unui unui anumit loc de muncă

trebuie să obţină la un chestionar un număr de 50 puncte. Pentru a

verifica persoanele respective se ia un eşantion de 20 de subiecţi.

Rezultatele celor testaţi sunt următoarele:

Trebuie să verificăm ipoteza:

50:0 mH

ceea ce înseamnă că numărul mediu de puncte obţinut la chestionar

este de 50 puncte, la un nivel de semnificaţie 02.0 .

Calculăm:

20

1201

iixx ,

220

1

2 )(120

1 xxsi

i

Pentru 02.0 , din tabel pentru distribuţia Student cu 191 n grade de

libertate, 53.202.0 t .

Număr puncte 46 48 50 52 54 Număr persoane 2 4 9 3 2

91

nstm 0 ,

nstm 0

Se observă că ()x ceea ce înseamnă că ipoteza mH :0 50 se acceptă,

iar persoanele respective corespund locului de muncă.

Testul t unilateral

Testul t unilateral se aplică în situaţiile în care nu prezintă interes

faptul că 0mm sau 0mm .

Considerăm că avem o populaţie normală ),( mN , cu ambii parameti

necunoscuţi, şi vrem să verificăm ipoteza:

0: mmH

cu alternativele

01 : mmH

sau

02 : mmH

Algoritmul de calcul:

1. Se extrage un eşantion de volum n din populaţia care

face obiectul studiului: nxxx ,...,, 21 .

2. Se calculează media de selecţie x şi abaterea standard

s , pe baza datelor eşantionului, cu formulele:

n

iix

nx

1

1 ,

n

ii xx

ns

1

22 )(1

1

3. Se calculează

92

,0 nstm

Dacă

nstmx 10

atunci se acceptă ipoteza 0H .

Exemplu.

Distribuţia Fisher-Snedecor

Repartiţia Fisher-Snedecor, cunoscută şi sub numele F este utilă în

testarea ipotezelor statistice privind compararea a două dispersii.

Repartiţia F depinde de doi parametri 21 ,nn reprezentând grade de

libertate şi se notează 21 ,nnF .

Quantilele repartiţiei F , notate cu 21 ,, nnF se găsesc în tabele pentru

diferite valori ale lui şi grade de libertate.

Dacă X şi Y sunt două variabile aleatoare independente, având

repartiţie 2 , cu 1n şi respectiv 2n grade de libertate, atunci variabila

aleatoare YnXnX

1

2 are repartiţie F cu 1n şi respectiv 2n grade de

libertate.

93


Teste statistice

Definiţie.Se numeşte test statistic, un procedeu inferenţial prin care, pe

baza datelor furnizate de un eşantion, se stabileşte credibiltatea ipotezei

pentru întreaga populaţie din care provine acesta.

Un test statistic este o metodă sau un procedeu de verificare a

ipotezelor statistice.

Distingem două categorii de teste statistice:

teste parametrice, prin care se verifică dacă valoarea unui

parametru calculată pe baza unui eşantion obţinut dintr-un sondaj

poate estima valoarea teoretică (la nivelul întregii populaţii) a

parametrului respectiv.

De exemplu, media empirică (calculată pe sondaj), poate estima

media (teoretică) a populaţiei respective.

teste de concordanţă, prin care se verifică dacă există

concordanţă între distribuţia teoretică a unei populaţii şi cea empirică.

Testarea ipotezelor despre o singură populaţie

În cele ce urmează vor fi prezentate modalităţi de testare a ipotezelor

statistice privind o singură populaţie.

94

Pe baza unei statistici calculate pentru un eşantion, se trage o concluzie

privind parametrul corespunzător al populaţiei din care a fost extras

eşantionul.

Cercetarea psihologică vizează diferenţa dintre valoarea unei statistici

(medie aritmetică sau proporţie) calculată pentru un eşantion şi

valoarea presupusă a parametrului corespunzător al populaţiei din care

a fost extras eşantionul.

De regulă, între cele două valori există diferenţe, iar testarea

ipotezelor statistice are menirea să decidă dacă diferenţa este suficient

de mare astfel încât să se justifice respingerea presupunerii făcute.

Definiţie. Se numesc teste parametrice, testele pentru verificarea

ipotezelor statistice privind parametrii unei populaţii.

Testul scorurilor Z pentru medii aritmetice când este cunoscut

Pentru media aritmetică, în cazul în care se cunoaşte sau se poate

aproxima valoarea lui , se aplică următoarea formulă:

n

xz P

/

Ipoteza nulă pH :0 , unde este media teoretică (media aritmetică

reală) a populaţiei, p este media presupusă (media care aproximează

pe cea reală), x media eşantionului, abaterea standard, iarn este

volumul de selecţie.

95

Ipoteza alternativă paH : , cu variantele paH : sau paH : .

Dacă se respinge 0H ca neadevărată, atunci se poate accepta Ha .

Exemplu. Considerăm un test de inteligenţă aplicat studenţilor

universităţii.

Ipoteză nulă 0H : media punctelor obţinute de studenţi la acest test este

800 (dacă ar fi chestionaţi toţi studenţii).

Ipoteza alternativă aH : există o diferenţă semnificativă între valoarea

efectivă a parametrului respectiv şi valoarea presupusă: media reală a

punctelor studenţilor şi media presupusă.

Pentru a verifica această ipoteză se ia un eşantion de 130 de studenţi,

se testează şi se obţine o medie de 755 puncte.

Să presupunem că se cunoaşte abaterea medie standard a populaţiei, ca

fiind 152.

Se pune problema dacă diferenţa dintre media eşantionului şi cea a

populaţiei este sau nu semnificativă. Dacă este semnificativă, atunci

ipoteza se respinge.

În acest caz, avem:

800:0 H , iar 800: aH

36,3130/152800755

/

n

xZ p

Ipoteza nulă este respinsă dacă rezultatul testului Z este peste sau sub

un nivel de încredere, ceea ce înseamnă în regiunea critică.

96

Considerând pragul de semnificaţie , atunci aria de sub 2/Z plus

aria de peste 2/Z reprezintă regiunea critică.

Dacă Z se află în regiunea critică, ipoteza nulă se respinge, ceea ce

înseamnă că diferenţa între media aritmetică a eşantionului şi media

aritmetică a populaţiei este semnificativă. Eşantionul respectiv diferă

semnificativ de populaţia din care a fost extras, ceea ce conduce la

respingerea ipotezei.

În cazul exemplului de mai sus, pentru 05.0 avem 96,12/ Z , ceea

ce înseamnă că – 3,36 este mai mic decât – 1,96, deci se află în zona

critică.

În acest caz se respinge ipoteza nulă 0H .

2/ 2/

2/z + 2/z

97

De aici rezultă că probabilitatea de a lua o decizie greşită este de 5%,

ceea ce înseamnă că dacă repetăm acest test de 100 de ori (extragerea a

100 eşantioane) se respinge greşit ipoteza 0H doar în 5 caziuri.

Cu alte cuvinte, diferenţa dintre media populaţiei şi media eşantionului

este diferită în 95% din cazuri.

Testarea ipotezelor pentru medii aritmetice când este necunoscut

De regulă, în practica cercetării statistice, valoarea abaterii standard a

populaţiei nu se cunoaşte.

În funcţie de eşantion, distingem două cazuri:

eşantioane mari, volumul de selecţie n este mai mare decât 30. În

acest caz, se poate estima prin s şi se utilizează următoarea

formulă:

1/

nsXZ P

eşantioane mici, volumul de selecţie n este mai mic decât 30. În

acest caz, se utilizează o distribuţie Studentt :

1/

nsXt P

Exemplu. Să presupunem că la nivelul conducerii universităţii se

primeşte informaţia (neverificată) că media aritmetică a coeficientului

98

de inteligenţă a studenţilor, care au mediile anuale peste 9, din cele 11

facultăţi ale universităţii este de aproximativ 125.

Pentru a testa această ipoteză se ia un eşantion aleatoriu de 20 studenţi

din cele 11 facultăţi, a cărui medie aritmetică 123X , iar abaterea

standard .8s

Ne interesează dacă la un nivel de încredere de 99% media aritmetică a

coeficientului de inteligenţă a studenţilor cu rezultate anuale peste 9

este mai mare decât 125.

Datele problemei: 125P , 123X , 8s , 20n .

Ipotezele: 125:0 H , 125: aH

Din tabelul cu valorile distribuţiei Studentt , se obţine:

01.0 , nr. grade de libertate 191201 n , ,

Statistica testului 09,1198123125

1

nsXt P .

Ţinînd seama de faptul că t nu cade în zona critică, 53,209,1 , nu se

poate respinge ipoteza nulă.

De aici rezultă că pe baza mediei aritmetice a eşantionului nu se poate

trage concluzia la un nivel de încredere de 99% că media

coeficientului de inteligenţă a studenţilor cu rezultate anuale de peste 9

este mai mare de 125.

În cazul testului Studentt , regulile de acceptare-respingere sunt astfel:

dacă 2/tt sau 2/ tt se respinge ipoteza 0H .

99

dacă tt se respinge ipoteza HH :0 .

dacă tt se respinge ipoteza HH :0 .

Testul scorurilor z pentru proporţii

În anumite cercetări, prezintă interes proporţia eşantionului în

populaţia respectivă şi nu media aritmetică.

În aceste situaţii se utilizează un test al ipotezelor pentru proporţii,

care se aplică eşantioanelor pentru care 5np , utilizând următoarea

formulă:

npp

PpZ H

/)1(

unde p este proporţia eşantionului, HP este ipoteza privind proporţia,

iar n este volumul de selecţie.

Exemplu. Se spune că 10% din angajaţii unei mari companii suferă de

depresii, din cauza spectrului şomajului.

Pentru testarea acestei ipoteze se obţine un eşantion aleatoriu de 200

angajaţi ai companiei respective şi se constată că 24 dintre ei suferă de

depresii.

Pornind de la această constatare, se poate trage concluzia la un nivel

de încredere de 95% că mai mult de 10% dintre angajaţii companiei

suferă depresii ?

În acest exemplu 10,0HP , 12,0p , 200n .

Ipoteza nulă : 10,0:0 PH .

100

Ipoteza alternativă : 10,0: PH a .

Pentru 05,0 din tabele se obţine 65,1Z .

Calculând statistica testului se obţine

06,10188,002,0

300/)12,01(12,010,012,0

/)1(

nppPpZ H .

Având în vedere că 65,106,1 Z rezultă că Z calculat nu cade în

regiunea critică, ceea ce înseamnă că ipoteza nulă nu poate fi respinsă.

În concluzie, la un nivel de încredere de 95% nu se poate afirma că

mai mult de 10% dintre angajaţii firmei au depresie.

101


Testarea ipotezelor despre diferenţele dintre două populaţii

În unele cazuri cercetarea psihologică urmăreşte testarea ipotezelor

privind diferenţele dintre mediile aritmetice a două populaţii sau dintre

proporţiile a două populaţii.

Se obţin două eşantioane aleatoare şi independente din două populaţii

diferite. Diferenţa dintre cele două eşantioane privind statistca de

interes este suficient de mare pentru a concluziona, cu o anumită

eroare, că populaţiile din care au fost extrase eşantioanele sunt diferite

sub aspectul statisticii respective ?

Testul scorurilor Z pentru diferenţa dintre două medii aritmetice

Testul Z se aplică pentru volume de selecţie (eşantioane) mari ( 30n ).

Notăm cu 1 media aritmetică (teoretică/reală) a primei mulţimi, iar cu

2 media aritmetică a celei de a doua mulţimi.

Ipoteza nulă 210 : H .

Ipoteza alternativă 21: aH .

Testul Z se calculează după formula:

2

22

1

21

21 ||

nn

XXZ

unde

102

n

Xxi

i

2

2)(

, n

xX i

i

iar 1n şi 2n reprezintă volumele de selecţie ale celor două eşantioane.

Testul Z se aplică pentru compararea mediilor aritmetice a două

populaţii formate din două eşantioane de volume mai mari decât 30,

adică pentru eşantioane mari.

Exemplu. Considerăm două populaţii formate din două grupuri de

sportivi care se pregătesc pentru proba privind săritura în lungime.

Se iau două eşantioane aleatoare şi independente (obţinerea unuia nu

influenţează obţinerea celuilalt) de volume 70 şi respectiv 65.

Calculăm mediile aritmetice şi abaterile medii standard ale celor două

eşantioane privind săritura în lungime.

Se obţine:

82,61 X , 17,121 , 12,72 X , 16,22

2

34,1

6516,2

7017,1

|6562|

Z

La un prag de 0,05 , din tabel se obţine 1,96 , ceea ce înseamnă că

96,134,1 ceea ce înseamnă că se acceptă ipoteza nulă, diferenţa celor

două medii nu este semnificativă.

103

Decizia de acceptare a ipotezei nule are o probabilitate de 95%, ceea

ce înseamnă că în 95% din cazuri mediile celor două populaţii nu

diferă semnificativ.

Dacă 331 n , 342 n , 7,71 X , 15,321 , 7,62 X , 5,32

2 se obţine

33,2Z care este mai mare decât Z din tabel a cărui valoare este 96,1 ,

ceea ce înseamnă că ipoteza nulă se respinge.

Testul scorurilor t pentru diferenţa dintre două medii aritmetice

Testul t se aplică pentru volume de selecţie (eşantioane) mici ( 30n ).

Fie două eşantioane:

},....,,{121 nxxx şi },....,,{

221 nyyy

atunci numărul t se determină cu ajutorul formulei:

)11(21

2

nns

yxt

,

2

)()(

21

1 1

22

2

1 2

nn

yyxxs

n

i

n

jji

,

1

11

1 n

iix

nx ,

2

12

1 n

jjy

ny

Exemplu. Nr ix

xxi 2)( xxi Nr jy

yy j 2)( yy j

1 6 0,23 0,05 1 6 0,82 0,67 2 7 1,51 2 5 0,03 3 7 1,51 3 5 0,03 4 6 0,05 4 3 4,75 5 4 3,13 5 4 1,39 6 5 0,59 6 6 0,67 7 6 0,23 7 5 0.03 8 5 -0,77 8 7 3,31 9 5 -0,77 9 4 1,39

104

10 6 0,23 10 6 0,67 11 6 0,23 11 6 0,67 12 7 1,23 13 5 -0,77 75 10,27 57 13,61

77,51375

x , 18,51157

y , 08,11113

61,1327,10

s , 40,1)

111

131(08,1

18,577,5

t

Numărul gradelor de libertate este n=13+11+2=22, la un prag 0,05 ,

din tabele găsm 2,07 mai mare decât 1,40.

Se admite ipoteza nulă conform căreia diferenţa dintre cele două medii

nu este statistic semnificativă, diferenţele fiind întâmplătoare.

Testul scorurilor z pentu diferenţa dintre două proporţii

Testul se aplică pentru eşantioane mari ( )30,30 21 nn .

21

21**

21

)1(nn

nnPP

ppz

,

21

2211*

nnpnpnP

unde 1p şi respectiv 2p sunt proporţiile eşantioanelor, iar 1n şi respectiv

2n reprezintă volumele de selecţie al celor două eşantioane.

Exemplu.

Se zvoneşte că salariaţii din două fabrici ale unei companii au opinii

diferite privind politica salarială promovată de conducere.

Problema care preocupă conducerea: există o diferenţă semnificativă

între opiniile salariaţilor celor două fabrici privind politica salarială

105

promovată de conducere ?

Pentru aceasta se alcătuiesc două eşantioane de 85 de salariaţi de la

prima fabrică şi 103 de la cea de a doua fabrică.

Răspunsurile sunt: de acord, împotrivă, nedecis.

Proporţia salariaţilor care au răspuns că sunt de acord cu politica de

personal promovată de conducere este de 0,34 în primul eşantion şi

0,25 în al doilea eşantion.

Date: 831 n , 34,01 p , 1032 n , 25,02 p

Ipoteze: 210 : PPH , 21: PPH a

Calculul statisticii testului:

29,0186

97,53186

75,2522,2810383

)25,0(103)34,0(83*21

2211

nn

pnpnP

29,107,009,0

103.8310383

1)29,01(29,0

25,034,01)1(

21

21**

21

nnnnPP

ppZ

Distribuţia de eşantionare Z pentru un prag 05,0 , 96,12/ Z .

Decizia: 69,129,12/

ZZ calculat nu suntem în zona critică, ceea ce

înseamnă că nu se poate respinge ipoteza nulă.

Rezultă că opiniile salariaţiilor de la cele două fabrici pivind politica

salarială nu diferă semnificativ.

106


Testarea valorilor de sondaj aberante

În multe cercetări experimentale se întâlnesc situaţii în care anumite

valori sunt mult diferite de majoritatea celorlalte; ele pot fi mult mai

mici sau mult mai mari.

Aceste valori „singulare” sau discordante în raport cu celelalte se

numesc valori aberante sau valori de excepţie şi se pot datora

următoarelor cauze:

eşantioane nereprezentative;

erori de observare sau măsurare;

erori privind obţinerea eşantioanelor

condiţii nefavorabile pentru prelevarea de probe etc.

Exemplu. Un student obţine întrun an la examene următoarele

rezultate: 9, 10, 9, 10, 9, 9, 3, 8, 9, 10.

Se pune întrebarea dacă nota 3 este aberantă (în discordanţă cu

celelalte), fără ca prin aceasta să se înţeleagă că studentul nu trebuia să

primească această notă, că notarea nu a fost obiectivă etc.

În ceea ce priveşte valorile aberante trebuie analizate două aspecte:

detectarea acestor valori ?

107

dacă există, se înlătură sau se păstrează în mulţimea datelor care

se analizează ?

În statistică au fost dezvoltate tehnici privind primul aspect.

În ceea ce priveşte al doilea aspect, doar experimentul poate să decidă.

În unele situaţii este posibil ca tocmai valoarea aberantă să prezinte

interes.

De exemplu, un astronom observă că întro mulţime de stele apare o

cometă şi ar decide că aceea este aberantă.

În practică, în absenţa unui test se aplică regula care spune că între cel

puţin 10 valori,este aberantă valoarea care nu se înscrie între sx 2 şi

sx 2 .

Textul Dixon

Pentru detectarea unor valori aberante întrun eşantion de volum mic,

25n , datele de sondaj se ordonează, crescător sau descrescător, astfel

încât valoarea care se testează să fie prima în şir, adică )1(x .

Ipotezele testului Dixon sunt:

.:;:

)1(1

)1(0

taesteaberanvaloareaxHantanuesteabervaloareaxH

Se calculează statistica testului:

)1()1(

)2()1(

nxxxx

D

108

Statistica notată cu D este calculată în funcţie de valoarea lui n , fiind

prezentată în cele ce urmează.

Tabelul cu valorile critice pentru testul Dixon Valorile critice D 1,n N 05,0 01,0

Statistica D

3 4 5 6 7

0,941 0,765 0,642 0,560 0,507

0,988 0,889 0,780 0,698 0,637

)()1(

)2()1(

nxxxx

8 9 10

0,554 0,512 0,477

0,683 0,635 0,597

)1()1(

)2()1(

nxxxx

11 12 13

0,576 0,546 0,521

0,679 0,642 0,615

)1()1(

)3()1(

nxxxx

14 15 16 17 18 19 20 21 22 23 24 25

0,546 0,525 0,507 0,490 0,475 0,462 0,450 0,440 0,430 0,421 0,413 0,406

0,641 0,616 0,595 0,577 0,561 0,547 0,535 0,524 0,514 0,505 0,497 0,489

)2()1(

)3()1(

nxxxx

109

Decizia:

se respinge 0H în favoarea lui 1H dacă 1, nDD ;

se acceptă 0H dacă 1, nDD .

În cazul respingerii ipotezei nule, valoarea )1(x poate fi considerată

valoare aberantă şi poate fi eliminată dintre datele ce urmează a fi

procesate.

Procedeul se poate repeta până când nu se mai respinge ipoteza nulă.

Exemplu. Se selectează un lot de 10 studenţi având următoarele medii

anuale:

6,25 , 6,42 , 6,70 , 6,85 , 7,10 , 7,35 , 7,50 , 8,33 , 8,75 , 9,50

Se ordonează descrescător:

9,50 , 8,75 , 8,33 , 7,35 , 7,50 , 7,10 , 6,85 , 6,70 , 6,42 , 6,25

Se observă că 477,0243,0 tabelcalculat DD ceea ce înseamnă că nu se

poate respinge ipoteza nulă şi prin urmare 9,50 nu poate fi considerată

valoare aberantă şi nu poate fi exclusă din eşantion.

110

Testul Grubbs

Pentru detectarea unor valori aberante întrun eşantion de volum mai

mare, 25n , extrase dintr-o populaţie normală, cu parametri

necunoscuţi.

Testul se bazează pe abaterea dintre medie şi valoarea extremă testată.

Datele de sondaj se ordonează, astfel încât valoarea )1(x care se testează

să fie prima în şir, iar )(nx este valoarea maximă.

Ipotezele testului Grubbs sunt:

.:;:

)1(1

)1(0

taesteaberanvaloareaxHantanuesteabervaloareaxH

Se calculează statistica testului:

pentru valoarea de sondaj maximă, )(nx

sxx

g n )(

pentru valoarea de sondaj minimă, )1(x

sxx

g )1(

Unde x şi s reprezintă media şi respectiv abaterea medie standard de

sondaj.

Ipoteza nulă 0H se respinge dacă valoarea calculată g este mai mare

decât valoarea tabelată a testului Grubbs.

111

Tabelul cu valorile critice pentru testul Grubbs N 05,0 01,0 n 05,0 01,0 25 2,55 2,884 85 3,151 3,543 30 2,683 3,009 90 3,171 3,563 35 2,745 3,103 95 3,189 3,582 40 2,811 3,178 100 3,207 3,600 45 2,914 3,292 105 3,224 3,617 50 2,956 3,336 110 3,239 3,632 55 2,992 3,376 115 3,254 3,647 60 3,025 3,411 120 3,267 3662, 65 3,055 3,442 125 3,281 3,675 70 3,082 3,471 130 3,294 6883, 75 1073, 3,496 135 3,306 3,700 80 3,130 3,521 140 3,318 3,723

Ipoteza nulă 0H se respinge dacă valoarea calculată g este mai mare

decât valoarea critică (valoarea din tabel) 1,ng .

Exemplu. Să presupunem că avem un eşantion de 30 de persoane

dintr-o populaţie, caracteristica studiată est înălţimea.

Valorile eşantionului sunt:

1,73m, 1,58m, 1,60,...,1,85m, 1,99m

Ordonăm crescător valorile obţinute şi avem:

1,58m, 160m,....,1,85m, 1,99m.

Calculăm media eşantionului şi se obţine 70,1x , iar abaterea standard

105,0s .

În eşantionul respectiv există o persoană cu înălţimea de 1,99m; se

pune problema dacă această valoare este sau nu una de excepţie, care

ar trebui să fie, eventual, eliminată din studiu.

112

Valoarea testată este cea maximă şi avem:

76,2105,029,0

105,070,199,1)30(

sxx

g

Se observă că 68,276,2 grubbscalculat gg şi ipoteza 0H se respinge, ceea

ce înseramnă că valoarea 1,99m este de excepţie şi trebuie eliminată.

Cursul nr. 13 Statistică în ecologie

Corelaţie şi regresie

113

Studiul unor fenomene şi procese presupune luarea în

consideraţie a două sau mai multe caracteristici.

Exemplu.Repartiţia a 25 studenţi după notele la informatică şi la

statistică este prezentată în tabelul următor: Nr. student Nota la informatică Nota la statistică 1 8 9 2 6 7 3 5 7 4 8 8 5 3 4 6 10 9 7 6 7 8 9 8 9 4 5 10 8 8 11 4 5 12 7 7 13 9 10 14 3 4 15 10 9 16 7 8 17 8 8 18 3 4 19 7 8 20 5 6 21 9 10 22 6 6 23 7 8 24 7 6 25 10 10 26 6 7 27 7 5 28 8 8 29 4 6

114

30 9 8

Considerăm separat pe cele două caracteristici şi avem seriile

statistice următoare: Nota la informatică 3 4 5 6 7 8 9 10 Frecvenţa 3 3 2 4 7 5 3 3

Nota la statistică 4 5 6 7 8 9 10 Frecvenţa 3 3 9 4 5 3 3

Folosind aceste serii statistice se pot introduce variabilele

statistice corespunzătoare notate cu X şi respectiv Y , astfel:

Cele două variabile statistice considerate simultan constituie

componentele unui vector bidimensional ),( YXV .

3 4 5 6 7 8 9 10 X: 3/30 3/30 2/30 4/30 7/30 5/30 3/30 3/30 4 5 6 7 8 9 10 Y: 3/30 3/30 9/30 4/30 5/30 3/30 3/30

115

Se poate scrie:

mipxX

i

i ,....,2,1,:

njqy

Yj

j ,....,2,1,:

De exemplu, gruparea datelor de mai sus după cele două

caracteristici conduce la un tabel cu două intrări. Nota la informatica Nota la statistică

10

9

8

7

6

5

4

3

2

1

Total

10 9 8 7 6 5 4 3 2 1

1 2 0 0 0 0 0 0 0 0

2 1 0 0 0 0 0 0 0 0

0 0 5 0 0 0 0 0 0 0

0 0 3 4 0 0 0 0 0 0

0 0 1 0 3 0 0 0 0 0

0 0 0 0 2 0 0 0 0 0

0 0 0 0 0 2 1 0 0 0

0 0 0 0 0 1 2 0 0 0

0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0

3 3 9 4 5 3 3 0 0 0

Total 3 3 5 7 4 2 3 3 0 0 30

Se observă că 3 studenţi au obţinut nota 7 la informatică şi 8 la

statistică, 2 studenţi au obţinut nota 5 la informatică şi 6 la

statistică, nici-un student nu a obţinut 10 la statistică şi 8 la

informatică.

În cazul unui studiu statistic după mai multe caracteristici, se

utilizează vectori aleatori multidimensionali ),.....,,( 21 nXXXV în

116

care fiecare componentă niX i ,...,2,1, este o variabilă statistică

având repartiţia:

nipX

Xk

k

i

ii ,...,2,1,:

lmk ,...,2,1 cu condiţia 11

l

k

m

kip

Reluând exemplul de mai sus, datele se pot grupa într-un tabel

având pe orizontală notele de la informatică, iar pe verticală

notele la statistică. Se vor marca celulele unde există cupluri de

note la informatică şi statistică. X y

3

4

5

6

7

8

9

10

4 2* 2* 5 2* * 3* 6 * * * * 4* 7 * 2* * * 5* 8 3* 5* 2* 10* 9 * 2* 3* 10 * 2* 3* 2* 3* 2* 3* 6* 7* 3* 4*

Analiza unei populaţii se realizează studiind una sau mai multe

caracteristici. Se pune problema dacă între aceste caracteristici

există sau nu vreo legătură.

Analiza de regresie şi corelaţie realizează studiul

existenţei/inexistenţei unei relaţii de dependenţă între diferitele

caracteristici.

117

Regresia indică existenţa şi tipul dependenţei între două sau mai

multe caracteristici ale unei populaţii.

Regresia. Noţiunea de regresie a fost introdusă de statisticianul

englez Galton, care studiind relaţia dintre înălţimea părinţilor şi

cea a copiilor a constatat că părinţii foarte înalţi au copii înalţi,

în timp ce părinţii scunzi au copii scunzi dar mai puţin scunzi

decât părinţii.

Corelaţia exprimă gradul de dependenţă dintre caracteristicile

considerate, evaluându-l printr-un număr care se numeşte

coeficient de corelaţie.

Covarianţa exprimă variaţia simultană a datelor studiate.

Regresia liniară

Fie ),....,,( 21 nxxxX şi ),....,,( 21 nyyyY două caracteristici după care

se studiază o populaţie. Punctele de coordonate nkyx kk ,...,2,1),,(

se reprezintă într-un sistem de cartezian. În cazul în care între

cele două caracteristici există o corelaţie, poziţia punctelor poate

sugera o figură geometrică cunoscută (o dreaptă, o curbă etc.)

care constituie imaginea grafică a unei funcţii. Problema care se

pune este să determinăm funcţia respectivă astfel încât ea să

aproximeze cât mai bine punctele reprezentate. Curba obţinută

se numeşte curbă de regresie. În cazul când curba respectivă ia

118

forma unei drepte avem o dreaptă de regresie sau regresie

liniară.

Determinarea funcţiei liniare care se reprezintă printr-o dreaptă

de regresie, se poate realiza prin metoda celor mai mici pătrate.

Metoda celor mai mici pătrate.

Considerăm caracteristicile reprezentate prin punctele de

coordonate nkyx kk ,...,2,1),,( .

Metoda celor mai mici pătrate constă în a determina funcţia

RRf : astfel încât suma

2

1])([ k

n

kk yxf

să fie minimă.

În cazul regresiei liniare, funcţia RRf : este baxxf )( , ceea

ce înseamnă că trebuie să determinăm coeficienţii a şi b astfel

încât

min][ 2

1

k

n

kk ybax

Pentru aceasta considerăm funcţia RRF 2: definită prin

2

1

)(),( k

n

kk ybaxbaF

şi rezolvăm sistemul:

119

0

0

bFaF

n

kkk

n

kkkk

ybax

xybax

1

1

0)(

0)(

echivalent cu

n

k

n

kkk

n

k

n

k

n

kkkkk

ynbxa

yxxbxa

1 1

1 1 1

2

Pentru rezolvarea sistemului se notează xxd kk , nk ,....,2,1 şi

se obţine soluţia:

n

kk

n

kkk dyda

1

2

1/ , nyb

n

kk /)(

1

, nk ,.....,2,1

unde nxxn

kk /)(

1

este media aritmetică.

Exemplu.

Coeficientul de corelaţie.

Calculul coeficientului de corelaţie se face în cazul populaţiilor

în care se studiază două caracteristici. Fie ),....,,( 21 nxxxX şi

),....,,( 21 nyyyY două caracteristici după care se studiază o

populaţie.

Coeficientul de corelaţie se calculeatuză astfel:

n

k

n

kkkkk

n

kyyxxyyxxr

1 1

22

1)()(/)])(([

unde

n

kkx

nx

1

1 ,

n

kky

ny

1

1 .

120

Cu cât coeficientul de corelaţie este mai apropiat de valoarea 1,

cu atât dependenţa este mai mare. Dacă r se apropie de 0

înseamnă că dependenţa este foarte mică.

Exemplu. Cursul nr. 14 Statistică în ecologie

121

Analiză dispersională sau analiză de varianţă ANOVA(ANalysis Of VAriance)

Noţiunea de dispersie sau varianţă a fost introdusă de Robert

Fisher. Parametrul dispersie caracterizează de regulă

împrăştierea valorilor unei variabile aleatoare.

Fisher a folosit dispersia pentru a determina efectele unor factori

aleatori, cantitativi sau calitativi, asupra unei variabile aleatoare.

Conform unei teoreme, dacă estimăm dispersia unei variabile

aleatoare în două moduri şi anume ţinând seama de influenţa

factorului şi apoi înlăturând influenţa factorului, prin

compararea celor două dispersii se pot obţine informaţii

referitoare la efectul factorului; dacă prima dispersie este mai

mare, atunci factorul exercită o influenţă asupra variabilei

aleatoare.

Analiza varianţei sau analiza dispersională este o metodă

statistică de analiză a datelor de observaţie care depind de mai

mulţi factori cu acţiune concomitentă, cu scopul de a stabili pe

cei mai importanţi şi de a estima influenţa lor.

Prin aplicarea testului t au fost obţinute observaţii privind

diferenţa dintre două medii. În multe situaţii se pune problema

comparării a trei sau mai multe medii.

122

Soluţia aplicării testului t pentru compararea mediilor două câte

două nu se dovedeşte eficientă datorită creşterii volumului de

calcul, dar, mai ales prin cumularea erorilor generate de precizia

de calcul 0.05 cu fiecare pereche comparată, ceea ce conduce la

depăşirea nivelul admis.

Din aceste motive se utilizează analiza de varianţă ANOVA,

care, de fapt, constituie o generalizare a testului t pentru

situaţiile în care este nevoie să comparăm mai multe medii

independente.

ANOVA, deşi este un procedeu de comparare a mediilor

eşantioanelor (grupurilor) dintr-o populaţie, ea nu compară

diferenţele între medii, ci dispersia (împrăştierea) lor.

Analiza dispersională ANOVA poate fi utilizată în două variante:

ANOVA unifactorială, care se aplică în situaţiile în care

avem o variabilă dependentă şi o variabilă independentă.

Variabila dependentă este măsurată pe o scală de tip

interval/raport pentru trei sau mai multe valori ale

variabilei independente. Variabila independentă se

numeşte factor, iar valorile acesteia se numesc niveluri.

Exemple:

123

1. viteza de reacţie în raport cu trei categorii de vârstă

(20 - 40 ani, 40 – 60 ani, 60 – 80 ani)

2. scorul la un test de inteligenţă aplicat studenţilor de

la psihologie, filosofie, istorie şi jurnalism.

ANOVA multifactorială, care se aplică o variabilă

dependentă şi două sau mai multe variabile independente,

fiecare cu două sau mai multe valori, măsurate pe o scală

de tip nominal sau ordinal.

Exemple:

1. viteza de reacţie în raport trei categorii de vârstă (20

- 40 ani, 40 – 60 ani, 60 – 80 ani) şi genul (masculin,

feminin).

2. scorul la un test de inteligenţă aplicat studenţilor, în

funcţie de programul de studii pe care-l urmează( de

la psihologie, filosofie, istorie şi jurnalism) di de gen

(masculin, feminin).

În cele ce urmează se vor face referiri numai la ANOVA

unifactorială.

Procedura de calcul ANOVA se bazează pe două modalităţi

diferite de estimare a dispersiei:

124

1. Estimarea dispersiei populaţiei ( 2 fiind necunoscut) pe

baza mediei dispersiei (grupurilor) eşantioanelor care

provin din populaţia respectivă.

Prin calcularea mediei dispersiilor eşantioanelor (grupurilor) se

obţine o valoare care estimează dispersia populaţiei din care

provin eşantioanele.

Datorită faptului că valoarea obţinută se bazează pe calculul

dispersiei din fiecare eşantion (grup), se numeşte dispersie

intragrup.

Fie k eşantioane de volum knnn ,....,, 21 , având un număr total

(subiecţi) persoane:

knnnp ......21 .

kp

snsnsns kkragrup

2222

2112

int)1(......)1()1(

Dacă knnn ....21 atunci

k

ssss k

ragrup

222

212

int.....

2. Estimarea dispersiei populaţiei ( 2 fiind necunoscut) pe

baza dispersiei mediilor eşantioanelor (grupurilor) care

provin din populaţia respectivă.

125

Prin calcularea dispersiei mediilor eşantioanelor (grupurilor) se

obţine o valoare care estimează dispersia populaţiei din care

provin eşantioanele.

Datorită faptului că valoarea obţinută se bazează pe calculul

mediei din fiecare eşantion (grup), se numeşte dispersie

intergrup.

Fie k eşantioane de volum knnn ,....,, 21 , având un număr total de

subiecţi knnnp ......21 .

1

)(......)()( 22

221

212

int

k

nmmnmmnmms kk

ergrup

Unde kmmm ,.....,, 21 reprezintă mediile corespunzătoare fiecărui

grup, iar m reprezintă media grupurilor.

Dacă eşantioanele au acelaşi volum n , se obţine:

nk

mmmmmms k

ergrup 1)(......)()( 22

22

12int

Observaţii.

a. Dispersia intragrup, ca medie a dispersiilor grupurilor,

constituie o estimare directă a dispersiei populaţiei din care

provin grupurile. Ea reprezintă variabilitatea din interiorul

grupului respectiv privind caracteristica cercetată.

Variabilitatea respectivă se poate datora mai multor cauze:

i. diferenţelor existente între subiecţi

126

ii. unor erori de măsurare

b. Dispersia intergrup, ca dispersie a mediilor grupurilor,

constituie o estimare indirectă a dispersiei populaţiei din

care provin grupurile.

Ipoteze:

Ipoteza nulă: diferenţele dintre mediile caracteristicii

eşantioanelor (grupurile) care se compară, provinind dintr-o

populaţie unică, sunt nesemnificative, ele reprezentând variaţii

fireşti ale distribuţiei de eşantionare.

Ipoteza de cercetare: diferenţele dintre mediile caracteristicii

esantioanelor care se compară sunt semnificative.

Testul Fisher constă în raportul:

2int

2int

ragrup

ergrup

ss

F

Observaţii:

Exemplu.

Să presupunem că se cere efectuarea unei cercetări având ca

ipoteză existenţa unei relaţii între performanţele studenţilor şi

trei metode de pregătire (asistat, în grup, individual).

127

Considerăm trei grupuri de studenţi: primul format din 7

studenţi, al doilea din 8 studenţi şi al treilea format din 6

studenţi. Fiecare grup este pregătit printr-o altă metodă.

Ipoteza cercetării: Performanţele studenţilor sun dependente de

metoda de pregătire.

Ipoteza nulă: Nu există legătură între performanţele studenţilor

şi metoda de pregătire.

nr. notele 2)( medianota

notele 2)( medianota notele

2)( medianota

1 8 1 8 4 5 1

2 9 0 6 0 6 4

3 10 1 5 1 4 0

4 8 1 6 0 3 1

5 10 1 7 1 2 4

6 9 0 5 1 4 0

7 9 0 6 0

8 5 1

Σ 63 4 48 8 24 10

n 7 8 6

m 91 m

62 m

43 m

3/)469( m

33.6m

imm

-2.67 0.33 2.33

Asistat Grup Individual

128

2)(

imm

7.12 0.1 5.42

Calculăm 58.412

642.581.0712.72int

xxxs ergrup

7.018

8.1502.0518.162int

oxxxs ragrup

4.597.058.41

F

statisticÄ‚__ÃŽn__psiholpgie-s_ii

Documents

statisticÄ‚ÃŽnpsiholpgie-s_ii