aplicatii spss

86
Aplicaţii SPSS

Upload: zizima-zizi

Post on 28-Jun-2015

2.956 views

Category:

Documents


11 download

TRANSCRIPT

Page 1: Aplicatii SPSS

Aplicaţii SPSS

Page 2: Aplicatii SPSS

SPSS prezentare generală

„SPSS for Windows” este un pachet de programe destinat analizei statistice a datelor. Deşi există o varietate de programe de acest gen (SAS, Statistica for Windows, GraphPad, MS Excel, care are şi el funcţii statistice), SPSS se distinge prin structurarea riguroasă şi uşurinţa utilizării, chiar şi pentru începători.

Cea mai recentă versiune disponibilă la această dată este SPSS 12.0. Acest manual nu acoperă în mod special o anumită versiune, ci face referire în general la versiunile sub Windows. În esenţă, toate versiunile sub Windows oferă acelaşi pachet de funcţii statistice iar diferenţele, chiar dacă sunt, nu sunt relevante la nivelul unui curs introductiv de statistică.

Simbolul care precede această propoziţie indică introducerea unei informaţii importante, care se impune a fi reţinută.

Ne vom axa pe o prezentare sintetică, axată pe esenţial, considerând cunoscute elementele de bază de operare în mediul Windows.

Funcţii de bază ale SPSS

editarea datelor (construirea bazelor de date, transformări ale variabilelor) prelucrarea statistică a datelor (statistici descriptive, teste de semnificaţie) prezentarea rezultatelor, sub formă numerică sau grafică realizarea unor proceduri proprii de prelucrare sau de a modifica procedurile

standard SPSS. Această opţiune este rezervată utilizatorilor avansaţi şi nu va face obiectul prezentării în acest manual.

Domeniile de lucru în SPSS

Particularitatea principală a interfeţei de lucru cu SPSS este aceea că rezervă fiecăreia dintre funcţiile de mai sus un domeniu special („ecran”, sau „fereastră”). Astfel, la lansarea programului, acesta deschide automat o fereastra rezervată editării datelor (Data Editor) şi una afişării rezultatelor (Viewer). Putem numi aceste ferestre şi domenii de lucru, deoarece la nivelul fiecăruia avem la dispoziţie o varietate de funcţii şi opţiuni specifice. Ca să înţelegem mai bine, trebuie să ne imaginăm „domeniile de lucru” ca fiind „ferestre” distincte, similare celor ale documentelor Word, cu deosebirea că, în acest caz, fiecare fereastra acoperă funcţii specifice.

Trecerea de la o fereastră la alta se face într-unul din următoarele moduri: Din meniul SPSS/Windows, prin alegerea ferestrei dorite; Utilizând butoanele din bara de comenzi directe a ferestrei SPSS; Utilizând butoanele de pe bara de sarcini a sistemului de operare (din

partea de jos a ecranului).

- 2 -

Page 3: Aplicatii SPSS

Domeniul bazei de date (Data Editor)

La lansarea programului SPSS se deschide fereastra domeniului de editare a datelor (SPSS Data Editor). Ea se prezintă ca în imaginea de mai jos, având caracteristicile obişnuite ale unei ferestre Windows, cu o structură de linii şi coloane:

- pe coloane sunt variabilele (de ex., cod_sub, rezultat)- pe linii sunt cazurile (în acest caz, cinci subiecţi)

O sesiune de lucru cu SPSS presupune, în mod necesar, existenţa unei baze de date.

SPSS operează cu o singură bază de date la un moment dat. Pentru a deschide o altă bază de date, sau a crea una nouă, cea aflată în

lucru va fi închisă. Programul solicită salvarea ei prealabilă, dacă acest lucru nu a fost deja efectuat.

Dacă vrem să prelucrăm date aflate în baze de date (fişiere) diferite, este necesară aducerea lor în aceeaşi bază de date (procedura DATA-Merge files, care va fi descrisă mai târziu).

Meniurile ferestrei Data Editor nu se vor activa integral decât atunci când va exista cel puţin o variabilă definită şi valori pentru cel puţin un caz.

Baza de date SPSS poate fi creată direct, cu ajutorul structurii (ferestrei) Data Editor, sau poate fi deschisă cu ajutorul comenzii File-Open, aşa cum vom exemplifica mai târziu.

Domeniul afişării rezultatelor (Viwer)

SPSS depune rezultatele prelucrărilor într-o secţiune aparte a domeniului de lucru. Aceasta cuprinde toate tipurile de rezultate, atât de tip numeric cât şi de tip grafic. Fereastra respectivă (Viewer) este organizată în două zone distincte: una pentru navigare (în partea stângă) şi alta pentru afişarea rezultatelor (în partea dreaptă).

- 3 -

Page 4: Aplicatii SPSS

Fişierul rezultat prin salvarea acestei ferestre are extensia .SPO Un fişier cu rezultate SPSS nu poate fi deschis decât din SPSS Dacă se doreşte transmiterea rezultatelor în afară SPSS se va proceda fie la

„exportul” rezultatelor cu procedura corespunzătoare din meniul File/Export, fie la transferarea prin Select/Copy/Paste într-un editor grafic de tipul MS Word.

Domeniul de editare a procedurilor directe (Syntax)

SPSS permite, în afara operării prin intermediul mediurilor, şi lucrul direct cu proceduri definite de utilizator. Aceasta se face în interiorul unei ferestre speciale, care permite, pe de o parte, editarea procedurilor, iar pe de altă parte, lansare lor în execuţie.

Imaginea de mai jos redă comenzile SPSS pentru calcularea procedurii de calcul indicatorilor statistici descriptivi, redaţi mai sus, în fereastra SPSS Viewer.

Utilizarea directă a procedurilor impune aprofundarea SPSS Se poate seta afişarea procedurilor curente în SPSS Viewer, concomitent cu

rezultatele. (Edit/Options/Viewe/Display commands in the log)

- 4 -

Page 5: Aplicatii SPSS

Meniurile SPSS

Meniurile de tip listă se aseamănă cu meniurile altor programe sub Windows. Fără a intra în amănunte, iată o prezentare succintă a meniurilor pentru fereastra DATA EDITOR:

Meniul Funcţii principale ObservaţiiFile Operaţii de deschidere şi salvare de fişiere

Edit

Operaţii de Select/Copy/Cut/Paste, Find şi, cel mai important, setarea caracteristicilor de lucru ale SPSS (Options-în versiunile pt. Win 9X)

ViewÎn cazul ferestrei Data Editor, setează modul de afişare: cu sau fără bara de butoane, cu sau fără liniile despărţitoare ale celulelor.

DataFuncţii de operare cu variabilele; definire, inserare, ştergere, selectare, sortare, adiţionare de fişiere, etc.

Importante pentru pregătirea datelor în vederea prelucrării

TransformFuncţii de modificare a datelor prin calculare, recodificare.

Importante pentru pregătirea datelor în vederea prelucrării

Statistics(Analyze)

Grupează procedurile de calcul statistic

Prin opţiunile fiecărei proceduri se pot obţine şi reprezentări grafice specifice

Graph Grupează procedurile de reprezentare grafică

UtilitiesInformaţii despre variabile, structurare pe seturi de variabile

WindowLista ferestrelor deschise cu posibilitatea de selecţie

Help Informaţii de ajutor

Aici se află un tutorial extrem de sugestiv de operare cu SPSS, iar de la versiunea 7.5 în sus, o procedură de sprijin în alegerea tipului de prelucrare statistică (Statistic Coach)

Paşii analizei statistice cu SPSS

În principiu, prelucrarea datelor cu SPSS presupune următoarele etape:

1 Introducerea datelor Opţiuni:(a) Introducerea directă a datelor în DATA EDITOR(b) Deschiderea unui fişier de date SPSS (extensia .SAV)(c) Importarea unui fişier de format diferit (se alege din

- 5 -

Page 6: Aplicatii SPSS

caseta File open/File of type)

2 Pregătirea datelor

Corecţia erorilor, selecţii, recodificări, transformarea variabilelor prin calcule, declararea valorilor lipsă, combinarea datelor din două fişiere diferite (meniurile Data, Transform)

3Selectarea procedurii satistice

Meniurile Statistics (sau Analyze) şi Graphs

4Selectarea variabilelor ce urmează a fi supuse prelucrării

În conformitate cu configuraţia casetei de dialog care este afişată la fiecare procedura

5 Rularea proceduriiSe acţionează butonul OK din caseta de dialog a procedurii Butonul devine activ numai atunci când sunt întrunite

condiţiile presupuse de procedura respectivă

6 Analiza rezultatelorRezultatele prelucrărilor sunt afişate într-o fereastră specifică (SPSS Viewer), cu funcţiuni de editare grafică sau de tip text, în funcţie de versiune.

7 Editarea rezultatelor

Se editează rezultatele afişate în Viewer, aducându-le la forma dorită sub aspect grafic Dublu clic pe un element din Viewer conduce la

intrarea elementului respectiv în regim de editare)

8Inserarea datelor într-un document

Rezultatele din SPSS Viewer se preiau cu Select/Copy şi se depun cu Paste în orice tip de editor de documente.

SPSS este un program puternic de analiză statistică a datelor. Utilizarea lui optimă

presupune, în mod necesar, stăpânirea de către operator a cunoştinţelor teoretice de statistică.

Aşa cum un program de editare grafică nu compensează lipsa de talent la desen, nici SPSS nu poate fi cu adevărat exploatat de către cei care nu au cunoştinţe de statistică. În lipsa acestora, nici alegerea procedurilor şi nici interpretarea rezultatelor nu va fi cu adevărat posibilă.

- 6 -

Page 7: Aplicatii SPSS

Editarea datelor

O bază de date în SPSS este o structură formată din linii şi coloane, la intersecţia cărora se formează celulele care conţin, fiecare, o anumită unitate de informaţie.

Existenţa unei baze de date deschisă în fereastra Data Editor este o condiţie obligatorie pentru operarea cu SPSS

SPSS operează numai cu o singură bază de date deschisă la un moment dat

În principiu, o bază de date SPSS se obţine pe una din următoarele căi:a) Crearea ei prin operaţiunea de definire a variabilelor şi introducerea datelor de la

tastatură;b) Deschiderea unei baze de date SPSS, existente pe un suport de memorie;c) Importarea unei baze de date din alt format decât SPSS

În continuare, vom trata pe rând, fiecare din cele trei situaţii:

a) Crearea unei baze de date SPSS

În linii generale, pentru crearea unei baze de date proprii în SPSS, se procedează astfel:

Se lansează SPSS Se definesc variabilele bazei de date în domeniul Data Editor Se introduc datele pentru fiecare caz (subiect) în parte Se salvează baza de date (extensia specifică este *.sav)

Definirea variabilelor se acţionează Define variable din meniul Data soluţie mai directă este dublu clic pe capul de coloană

În versiunile de SPSS mai recente, editarea variabilelor se face într-o fereastră specială. Cu toate acestea, elementele de bază rămân aceleaşi ca al versiunile anterioare.

- 7 -

Page 8: Aplicatii SPSS

Ca urmare a operaţiei de mai sus, apare o casetă de dialog ca în imaginea de mai jos (forma ei nu diferă substanţial de la o versiune de SPSS la alta). Dacă privim caseta, vom observa următoarele elemente:

Variable Name: zona de declarare a numelui de variabilă. VAR00001 este numele implicit al primei variabile. Acesta se şterge, pentru a fi înlocuit cu numele pe care dorim să îl dăm variabilei.

Variable Description, este o zona informativă în care sunt afişate caracteristicile predefinite ale noii variabile. Aceste caracteristici se pot seta în Edit-Options (sau Preferences, la unele versiuni).

Change Settings, este o zonă care cuprinde butoane de comenzi pentru modificarea setărilor implicite:

În zona Measurement, se permite declararea tipului de măsurare specific variabilei: Scale (Interval/Raport); Ordinal; Nominal

Butoanele OK (pentru finalizarea definirii variabilei, Cancel (pentru renunţarea la definirea variabilei, Help (informaţii legate de definirea variabilelor)

În versiunile mai recente de SPSS editarea variabilei nu presupune acest tip de casetă, dar toatele elementele ei constitutive se regăsesc.

Numele variabilei:

Orice variabilă SPSS trebuie să aibă un nume. Cele mai importante aspecte legate de denumirea variabilelor sunt următoarele:

Trebuie sa fie format din minim 1, maxim 8 caractere, Nu sunt suportate caractere „speciale” cum ar fi spaţiu sau semne de punctuaţie

- 8 -

Page 9: Aplicatii SPSS

În cazul utilizării unor caractere improprii, apare un mesaj de eroare şi se permite corectarea numelui.

Alegerea numelui este la latitudinea operatorului. Respectarea anumitor convenţii poate fi, însă, extrem de utilă, mai ales dacă avem de a face cu o baza de date cu multe variabile. Iată câteva recomandări utile în acest sens (ele nu sunt obligatorii):

Numele să exprime, pe cât posibil, conţinutul variabilei Pentru variabile „înrudite”, se va utiliza o schemă de denumire care

să exprime acest lucru. De exemplu, dacă avem variabile care cuprind valori ale timpului de reacţie măsurat în mai multe condiţii, putem declara variabilele TR_1, TR_2, TR_3 ş.a.m.d.,

caracterul underscore este recomandabil ca separator în cadrul numelui de variabilă). Dacă într-o situaţie de acest gen am avea 10 sau mai multe „momente”, este de preferat să se declare nume de genul TR_01, TR_02,...TR_10, etc., deoarece ulterior SPSS aranjează alfabetic variabilele în listele de selecţie şi, astfel, se păstrează ordinea dorită.

Într-o bază de date nu pot exista două variabile cu acelaşi nume! Există o serie de cuvinte „rezervate”, a căror utilizare ca nume de variabile nu este

acceptată de program. Acestea sunt: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, THRU, TO, WITH.

Definirea „tipului” de variabilă

Tipul de variabilă se referă la Se acţionează butonul Type de pe caseta Define Variable Apare caseta Define Variable Type

, unde se marchează tipul variabilei şi se declară caracteristicile acesteia (Width, Decimal Places, în cazul variabilelor numerice)

Se acţionează butonul Continue, pentru a se reveni la caseta Define Variable.

Aşa cum se observă în caseta Define Variable Type din imaginea de mai sus, SPSS poate opera cu o varietate de tipuri de variabile. Fiecărui tip îi corespund anumite proprietăţi (caracteristici) care trebuie definite de operator. Cele mai uzuale sunt tipurile:

[Numeric], care cuprind valori de tip numeric cu sau fără zecimale.

- 9 -

Page 10: Aplicatii SPSS

Proprietăţi: numărul de cifre necesare pentru exprimarea „întregilor” numărul de „zecimale”

EXEMPLE: Pentru o variabilă în care vom introduce vârsta în ani împliniţi, vom defini Type Numeric cu Width 2 (presupunând că nu avem subiecţi cu vârsta peste 100 de ani) şi Decimal Places 0.Pentru o variabilă în care vom introduce rezultatul la un test exprimat în scoruri T cu o zecimală, definim Type Numeric cu Width 2 şi Decimal Places 1.

[Caracter] (String), care cuprind valori exprimate sub formă de caractere alfanumerice (litere sau chiar cifre).

Proprietăţi numărul de caractere rezervat, care este fixat implicit la 8, dar poate fi

modificat după dorinţă. SPSS face distincţie între variabile de tip caracter „scurte” (Short string) şi „lungi”

(Long string). Primele au maxim 8 caractere şi pot fi incluse în unele proceduri statistice (semnificaţia diferenţei între medii, de exemplu), pe când celelalte nu pot fi utilizate decât în operaţii de listare (cazul variabilei de genul „nume”, de ex.).

Deşi permisă, utilizarea variabilelor „string” nu este de preferat. Toate variabilele care suportă codificări vor fi, de preferinţă, introduse cu valori numerice. Utilizarea acestora în proceduri statistice nu este limitată de nici o restricţie.

Unităţi de timp calendaristic sau orar [Date], care pot include valori de timp într-un format specificat, aşa cum se vede în imagine.

Proprietăţi formatul de întroducere, care poate fi unul din cele evidenţiate în

caseta Define Variable Type/DateExemplu: dd-mmm-yyyy presupune introducerea unor valori de genul „21-FEB-

2001” (luna fiind scrisă obligatoriu după prescurtarea ei în engleză).

Există o mare varietate de formate pentru acest tip de variabilă, acoperind, practic, orice cerinţă posibilă din partea utilizatorului.

Variabilele de tip Date beneficiază de funcţii speciale de tratare şi analiză în SPSS.

- 10 -

Page 11: Aplicatii SPSS

Nu vom prezenta şi celelalte tipuri de variabile, ele fiind mai puţin folosite, dar facem precizarea că semnificaţia lor poate fi găsită în Help-ul casetei Define Variable Type.

Tipul unei variabile poate fi schimbat ulterior prin simpla redefinire a acesteia. Se va acorda atenţie mesajelor care pot să apară şi care avertizează asupra eventualelor pierderi de informaţie prin schimbarea tipului.

Opţiunile din zona Measurement (Scale, Ordinal, Nominal), care se regăsesc doar la versiuni SPSS de la 7.0 în sus, nu au întotdeauna o utilitate practică dar marcarea lor corectă este necesară pentru anumite proceduri statistice sau grafice.

Etichetarea variabilelor şi a valorilor

Etichetarea este o formă de descriere explicită a conţinutului variabilei (având în vederea că numele variabilei nu poate fi mai mare de 8 caractere). Etichetarea se poate practica atât la nivelul variabilei dar şi la valorile pe care le conţine, în cazul variabilelor de tip nominal sau ordinal.

Pentru etichetare se apasă butonul Labels de pe caseta Define Variable. Se deschide o nouă casetă (Define Labels), care conţine spaţii pentru eticheta variabilei (Variable Label) şi pentru etichetele valorilor (Value labels).

Eticheta variabilei nu se supune restricţiilor pentru nume, putând conţine oricâte caractere (max. 255), dar şi spaţii sau alte semne grafice tipăribile.

Etichetele pentru valori vor fi introduse una câte una, astfel: se plasează valorea etichetatăîn zona Value se introduce eticheta corespunzătoare în zona Value label se acţionează butonul Add Operaţiunea se reia pentru toate valorile pe care dorim să le etichetăm.

Imaginea prezintă etichetarea valorilor unei variabile care se referă la calificativul la un examen. Se observă că valoarea 1 are eticheta SLAB, valoarea 2, eticheta MEDIU iar valoarea 3, eticheta BUN (încă nu a fost acţionat butonul Add pentru a fi finalizată declaraţia etichetei acestei valori).

Deşi nimic nu ne obligă să aplicăm etichete variabilelor şi valorilor, este foarte recomandabil ca ele să fie atribuite.

- 11 -

Page 12: Aplicatii SPSS

Etichetele ajută la citirea mai uşoară a rezultatelor (deoarece apar alături de acestea). În plus, etichetele sunt asociate prelucrărilor grafice (histograme, bare, etc.) fapt care reduce necesitatea de a le introduce ulterior prin editarea respectivelor grafice.

Pentru a şti cum să declarăm etichetele, este bine să ni le imaginăm ca fiind înscrise pe axele de referinţă ale unui grafic. Dacă „se potrivesc”, atunci au fost bine definite.

Oricum, ele vor putea fi modificate ulterior sau editate direct în SPSS Viewer.

Declararea valorilor lipsă (missing values)

Valorile lipsă sunt de două tipuri: valori lipsă de sistem (system missing values) adică valori care lipsesc din baza de

date (nu au fost introduse). Forma lor de evidenţiere pe ecran este un punct plasat în celula respectivă.

valori lipsă declarate de utilizator (user missing values) adică valori pe care utilizatorul le declară ca atare. Acestea pot exista în baza de date dar utilizatorul, din diverse motive, nu doreşte să fie luate în calcul. Atenţie, odată declarate, aceste valori nu sunt şterse şi nici nu sunt marcate în mod evident pe ecran.

Pentru declararea valorilor lipsă se acţionează butonul Missing Values din caseta Define Variables, care generează apariţia casetei de dialog alăturate.

Se observă că există mai multe opţiuni: declararea a trei valori distincte ca fiind lipsă (Discrete missing values) declarea unui domeniu de valori lipsă (Range of missing values) declararea unui domeniu la care se poate adăuga şi o valoare distinctă (Range plus

one discrete missing value)

Deşi nu pare foarte evidentă acum, utilitatea funcţiei de declarare a valorilor lipsă nu trebuie subestimată. Foarte adesea suntem nevoiţi să scoatem din prelucrări anumite valori (care nu pot fi totuşi, pur şi simplu, şterse). Să ne gândim numai la valorile extreme ale unei distribuţii, a căror menţinere în anumite prelucrări poate determina modifcări semnificative a rezultatelor.

În concluzie, declararea variabilelor se compune din următoarele operaţiuni:

Atribuirea numelui (maxim 8 caractere)

- 12 -

Page 13: Aplicatii SPSS

Definirea tipului (numeric, caracter, data) Atribuirea etichetei variabilei Atribuirea etichetei valorilor, în cazul variabilelor măsurate pe scale

nominale sau ordinale Declararea valorilor lipsă (care nu au fost recoltate în procesul de

măsurare, din diferite motive)

Ştergerea şi inserarea variabilelor

Ştergerea unei variabile se face prin selectarea acesteia (clic pe capul de variabilă) şi acţionarea tastei Delete (sau se comandă din meniul Edit-Cut).

Inserarea unei variabile se face prin plasarea cursorului-celulă pe coloana variabilei în stânga căreia dorim să inserăm noua variabilă (sau prin selectarea variabilei respective), după care se comandă, din meniul Data-Insert variable. După aceasta, se defineşte variabila inserată (nume, tip, etichete).

Ştergerea şi inserarea cazurilor Ştergerea cazurilor se face în mod similar variabilelor, prin selectarea acestora

(clic pe capul de linie) şi tasta Delete (sau Edit-Cut). Se pot selecta mai multe cazuri simultan (drag cu mouse-ul pe capul liniilor) după care se şterg ca mai sus.

Inserarea cazurilor se face după plasarea cursorului pe linia deasupra căreia dorim să inserăm un nou caz, după care se acţionează în meniul Data-Insert case.

Pentru versiunile de SPSS de la 7 în sus, clic dreapta pe capul de coloană sau de linie, produce un meniu contextual care permite un acces mai rapid la funcţiile de inserare/ştergere.

SPSS nu permite Undo (în meniul Edit) decât limitat la ultima acţiune. Din acest motiv, ştergerea variabilelor sau a cazurilor trebuie să se facă cu atenţie, pentru că datele pot fi definitiv pierdute. Se va reţine, totuşi, că baza de date se actualizează pe hard disk numai după salvarea comandată de utilizator. Ca urmare...

Orice modificare efectuată nu produce efecte decât asupra datelor din memoria de lucru, fişierul rămânând nemodificat.

În cazul unei acţiuni care produce efecte nedorite asupra bazei de date, există soluţia închiderii bazei de date, fără a se accepta salvarea cerută de program, după care se deschide fişierul respectiv din nou.

Erori frecvente- Apariţia unor cazuri inutile, (umplute cu system missing values) la sfârşitul unei

baze de date. Explicaţie: Introducerea inutilă a unei valori într-o variabilă, valoare care apoi

este ştearsă. Cu toate acestea, SPSS a creat deja un caz nou, pe care l-a umplut cu system missing values.

Soluţie: Selectarea cazului prin apăsarea pe capul de linie şi acţionarea tastei Delete (sau Edit-Cut).

- Apariţia unor variabile inutile (nedorite).

- 13 -

Page 14: Aplicatii SPSS

Explicaţie: La introducerea din greşeală a unei valori într-o variabilă nedefinită în prealabil, SPSS creează automat o variabilă implicită, pe care o denumeşte VAR00001.

Soluţie: Se selectează variabilă resectivă (clic de mouse pe capul de coloană) şi se acţionează tasta Delete (sau Edit-Cut).

Exemplu practic de realizare a unei baze de date

Să ne imaginăm că am aplicat testul Eysenck Personality Inventory, care vizează următoarele caracteristici de personalitate: extraversiunea, nevrozismul şi atitudinea defensivă (scala Lie). Pentru analiza datelor suntem interesaţi să raprtăm rezultatele la o serie de caracteristic demografice ale subiecţilor, să zicem: sexul şi vârsta. În plus, pentru a avea controlul datelor dorim să inregistrăm şi identitatea subiecţilor. Pentru fiecare dintre informaţiile pe care dorim să le introducem în baza de date vom crea câte o variabilă.Variabila Numele

variabileiTipul variabilei Eticheta

variabileiEtichetele valorilor

Identitatea subiecţielor (esentiala pentru a asigura identitatea fiecarei inregistrari inparte si pentru realizarea corespondentelor cu alte baze de date in care avem informatii cu privire la aceiaşi subiecţi)

COD (optăm pentru un cod numeric dacă nu avem nevoie de numele subiecţilor)

numeric, Width 2, Decimal Places 0(presupunem că nu avem mai mult de 99 subiecţi)

Identitate Nu se aplică etichete decât la valorile variabilelor de tip categorial (nominale sau ordinale)

Sexul SEX Numeric, Width 1, Decimal Places 0

Sex 1=feminin2=masculin

Vârsta (în ani împliniţi; sau în luni dacă dorim mai multă precizie)

VIRSTA Numeric, Width 2, Decimal Places 0(presupunem că nu avem subeicţi cu vârsta peste 99 de ani)

Vârsta

Extraversiune EXTRAV Numeric, Width 2, Decimal Places 0(nu se poate obţine o valoare mai mare de 100 şi nu există zecimale)

Extraversiune

Nevrozism NEVRO Numeric, Width 2, Nevrozism

- 14 -

Page 15: Aplicatii SPSS

Decimal Places 0(nu se poate obţine o valoare mai mare de 100 şi nu există zecimale)

Lie LIE Numeric, Width 1, Decimal Places 0(nu se poate obţine o valoare mai mare de 9 şi nu există zecimale)

„Minciună”

Se observă faptul că pentru variabile ale căror nume exprimă exact conţinutul

(SEX, VÂRSTA) se poate utiliza fără nici un inconvenient numele şi ca etichetă. Pentru a fi mai expliciţi, să spunem că numele variablei este util în primul rând SPSS-ului pentru a manipula variabilele, în timp ce etichetele sunt necesare mai ales utilizatorului pentru a înţelege cu uşurinţă la ce se referă o variabilă al cărui nume prea scurt

Avem alăturat, imaginea DATA EDITOR pentru primii trei subiecţi introduşi cu variabilele de mai sus:

Insistăm pe declararea, cu precădere, a variabilelor de tip numeric: SPSS este un program de prelucrare statistică, fapt care implică date numerice. Deşi el poate opera şi cu date de tip caracter, acestea nu sunt acceptate pentru toate tipurile de proceduri statistice. Pentru a nu avea surprize, este recomandabil să fie utilizate variabile de tip numeric în toate cazurile. De exemplu, variabila sex, poate fi declarată de tip caracter (cu valorile M si F) dar, la fel de bine, de tip numeric (cu valorile convenţionale 1 şi, respectiv, 2). În acest din urma caz, pentru explicitarea valorilor se vor folosi etichetele de valoare (value label).

Introducerea unei variabile care să conţină numele subiecţilor poate fi necesară doar dacă ne propunem realizarea unor liste ale subiecţilor din baza de date. Altfel, identificarea numerică a fiecărei înregistrări este suficientă (şi absolut necesară), scutind un mare volum de muncă pe care l-ar implica introducerea numelor. Vom

- 15 -

Page 16: Aplicatii SPSS

avea grijă însă, ca pe documentul original să scriem codul numeric aferent fiecărui subiect, astfel încât, la nevoie, să se poată identifica numele (pentru corecţii, de ex.)

Variabile multiple pentru întrebări cu răspuns multiplu: De obicei, o întrebare prezintă un singur răspuns, dar pot fi situaţii în care o întrebare prezintă răspunsuri multiple care pot fi alese în acelaşi timp. De exemplu: „Ce activităţi preferaţi pentru timpul liber? 1. sport; 2. filme; 3. petreceri cu prieteni...”, etc. Într-un asemenea caz ne putem aştepta să avem mai multe răspunsuri la aceeaşi întrebare. Soluţia pentru introducerea datelor este, de aceea, crearea mai multor variabile, câte una pentru fiecare variantă de răspuns. Astfel, vom avea variabila „SPORT” care poate primi două valori, sa zicem „1” dacă este aleasă şi „0” dacă nu este aleasă, şi aşa mai departe. În acest mod vom putea analiza frecvenţa alegerilor pentru fiecare variantă de răspuns în parte.

Evitarea variabilelor redundante: Dacă la un test nu sunt posibile, de exemplu, decât răspunsuri corecte sau greşite, atunci nu este necesar să declarăm o variabilă pentru „corecte” şi una pentru „greşite” dacă suma lor dă totalul răspunsurilor.

Salvarea bazei de date din Data Editor

O bază de date aflată în lucru nu are un corespondent într-un fişier decât după ce se execută o salvare a acesteia. Acest lucru nu trebuie niciodată uitat. Spre deosebire de WORD de exemplu, SPSS nu are o funcţie de salvare automată după un interval de timp prestabilit. Cu alte cuvinte, indiferent ce modificări facem în Data Editor pe ecran, datele respective vor fi salvate numai la comanda explicită a operatorului.

Pentru o bază de date nou creată, salvarea se face în mod similar cu orice alt program cunoscut: File-Save as, care deschide următoarea casetă de dialog:

Se alege locaţia de salvare (Save in) Se dă un nume fişierului (File name) Se verifică tipul de fişier (formatul implicit pentru baze de date SPSS are

extensia .sav) Se acţionează Save

SPSS poate salva şi în alte formate, dintre cele mai importante fiind: Dbase sau FoxPro, Lotus 1-2-3, Excel. Salvarea în aceste formate poate fi utilă pentru transferul datelor pentru prelucrări ulterioare în alte programe.

- 16 -

Page 17: Aplicatii SPSS

Deschiderea unei baze de date SPSS

O bază de date creată cu SPSS se deschide cu comanda File-Open, care activează următoarea casetă de dialog:

Se alege locaţia de citire (Look in) Se indică fişierul dorit (selectarea cu mouse-ul) în fereastra de căutare Se indică tipul de fişier ce urmează a fi deschis (implicit este de tip SPSS

cu extensia .sav) Se acţionează Open

În cazul deschiderii unui fişier de alt tip decât SPSS, se va alege tipul respectiv din lista Files of type. În cazul în care SPSS nu recunoaşte tipul de fişier în care se află datele noastre, putem încerca transformarea lor prealabilă din formatul original într-un format recunoscut de SPSS. Deşi există riscul pierderii unor aspecte ce ţin de formatul de reprezentare a datelor, operaţiunea scuteşte totuşi un mare volum de muncă.

- 17 -

Page 18: Aplicatii SPSS

Operaţii de transformare a variabilelor

Dacă privim variabilele SPSS din punctul de vedere al modului în care au fost create, putem distinge două categorii:

b) variabile „primare” care includ valori rezultate direct din cercetare si au fost introduse, de regulă, de la tastatură.

c) variabile „secundare” rezultate prin transformările aplicate variabilelor primare.

Exemple de situaţii în care se impune transformarea variabilelor: Avem mai multe variabile „primare” care conţin răspunsurile la

întrebările unei scale de tip Lickert şi suntem interesaţi să calculăm (într-o variabilă „secundară”) suma răspunsurilor.

Avem un număr de variabile „primare” în care se află rezultatul parţial pentru fiecare minut din cele 10 câte durează un test de calcul aritmetic şi dorim să creăm o nouă variabilă ( „secundară”) în care să avem media performanţei pe cele 10 minute sau abaterea standard a performanţei pe cele 10 minute, pentru fiecare subiect,

Avem o variabilă care conţine data naşterii şi dorim să creăm pe baza ei o altă variabilă, care să conţină vârsta.

Dorim să transformăm variabila care conţine vârsta, într-o altă variabilă care conţine valori pentru categorii de vârstă.

Pentru toate aceste situaţii, care sunt unele dintre cele mai des întâlnite, dar şi pentru multe altele încă, SPSS oferă proceduri de transformare în meniul Transform.

În continuare, vom prezenta câteva dintre cele mai frecvent utilizate funcţii de transformare a variabilelor.

Însumarea valorilor variabilelor

Se utilizează atunci când dorim să obţinem o variabilă prin adunarea valorilor din două sau mai multe variabile.

Imaginea de mai jos prezintă o tabelă de date SPSS care cuprinde scorurile la trei examene parţiale (scor_1, scor_2 si scor_3). Dorim să realizăm o variabilă care să cuprindă un scor general, prin însumarea celor trei variabile. Se poate observa că unii dintre subiecţi nu au valori la toate cele trei scoruri (valori lipsă de sistem).

- 18 -

Page 19: Aplicatii SPSS

Deoarece prin calculare, o nouă variabilă este plasată după toate variabilele existente, am preferat să inserăm o nouă variabilă imediat după cele trei pe care dorim să le însumăm. În acest fel avem şi posibilitatea să controlăm uşor corectitudinea operaţiei de însumare

Se apelează procedura Transform-Compute, care deschide caseta de mai jos:

Se efectuează următoarea succesiune de operaţii:1. Se introduce numele noii variabile în zona Target Variable („total”).2. Se scrie expresia de însumare în zona Numeric Expression.

Funcţia este SUM (expresie numerică, expresie numerică, ...), aşa cum se vede şi în zona listei Functions: Ea poate fi scrisă de la tastatură sau selectată din lista de funcţii şi „ridicată” prin acţionarea butonului ▲. Atenţie, sintaxa fiecărei funcţii trebuie respectată întocmai. În cazul nostru, variabilele numerice se vor scrie între paranteze, una câte una, cu virgulă între ele. Variabilele pot fi scrise de la tastatură sau mutate la rândul lor din lista de variabile cu butonul ►.

- 19 -

Page 20: Aplicatii SPSS

Dacă variabilele ce vor fi însumate se află în baza de date una după alta, ca în cazul exemplului nostru, atunci avem posibilitatea să scriem o expresie de însumare simplificată, astfel SUM (prima_variabilă TO ultima_variabilă). În acest caz, clauza TO va fi cuprinsă între spaţii, pentru a nu fi confundată cu un nume de variabilă. Această opţiune ne sugerează cât de important poate fi să aranjăm corespunzător variabilele în structura unei tabele SPSS.

3. Se apasă butonul OK4. Deoarece variabila total există, SPSS ne întreabă dacă dorim să modificăm

conţinutul acesteia. Dacă nu ar exista o variabilă cu acest nume, rezultatul operaţiei de calcul ar fi depus într-o variabilă creată automat şi amplasată după ultima variabilă din baza de date.

Răspundem OK, deoarece ştim că am creat această variabilă tocmai pentru a depune în ea suma.

Rezultatul operaţiei se vede în imaginea de mai jos:

Calcularea mediei a două sau mai multe variabile

Presupunând că în loc de sumă, ne-ar interesa media valorilor de la mai multe variabile, se procedează în mod similar. Expresia de calcul a mediei este MEAN (expresie_numerică, expresie_numerică, ...), unde ... arată că putem pune oricâte variabile (sau valori) numerice, cu virgulă între ele. Ca şi în cazul sumei, se poate realiza o expresie cu clauza TO, cu condiţia ca variabilele pentru care se realizează media să se afle una după alta în tabela SPSS.

- 20 -

Page 21: Aplicatii SPSS

Reamintim că funcţia MEAN poate fi scrisă de la tastatură sau poate fi adusă din lista de funcţii, prin selectare şi acţionarea butonului ▲.

Este de la sine înţeles că expresia de calcul poate fi realizată şi într-o manieră simplă şi directă, fără utilizarea funcţiilor (SUM sau MEAN), astfel:

Pentru sumă: scor_1+scor_2+scor_3Pentru medie: (scor_1+scor_2+scor_3)/3

Se va face o distincţie clară între suma sau media astfel obţinute, care se referă la suma sau media valorilor de la mai multe variabile, pentru acelaşi subiect, şi suma sau media pe care am calcula-o pe verticală, la nivelul fiecărei variabile în parte, pe întreaga distribuţie

Se pot realiza diverse alte funcţii de transformare, utilizându-se marea varietate de funcţii care se găsesc în lista Functions şi a căror semnificaţie se poate află din Help-ul casetei Compute.

Extragerea anului dintr-o variabilă de tip cronologic (date) SPSS oferă funcţii de transformare cu variabilele de tip cronologic. Dintre

acestea, vom exemplifica cu realizarea unei variabile care să conţină anul naşterii, să zicem, scos dintr-o variabilă care conţine data naşterii. Imaginea de mai jos este extrasă din baza de date Employee data.sav

Observăm că variabila bdate, care conţine data naşterii. Pentru a avea vârsta, trebuie să calculăm diferenţa dintre anul curent (să zicem, 2000) şi anul naşterii: Pentru

- 21 -

Page 22: Aplicatii SPSS

aceasta trebuie să facem diferenţa dintre anul curent (2000) şi anul naşterii, care se află în câmpul bdate.

Pentru a avea variabila ce urmează a fi creată în apropierea variabilei bdate, vom insera o variabilă (denumind-o „virsta”, de tip numeric, cu doi întregi). Apoi utilizăm procedura Compute din meniul Transform:

În câmpul Target variable introducem numele noii variabile (virsta). În zona Numeric Expression vom scrie expresia de transformare, care se bazează

pe funcţia XDATE.YEAR(). Această funcţie are ca rezultat extragerea valorii care reprezintă anul dintr-o

variabilă de tip dată calendaristică. În cazul nostru, XDATE.YEAR(bdate)=anul naşteriiCa urmare, putem scrie expresia astfel: 2000-XDATE.YEAR(bdate)Mai jos putem vedea rezultatul procedurii Compute:

Se observă în variabilă virsta, valorile rezultate prin transformare (corespunzătoare anului 2000).Desigur, transformarea putea fi efectuată şi în două etape. Mai întâi prin extragerea anului naşterii într-o variabilă separată şi, apoi, prin efectuarea unei noi transformări realizarea diferenţei dintre anul curent şi anul naşterii. Am preferat o soluţie într-o „singură etapă” pentru că este mai operativă.

Posibilităţile de transformare a variabilelor oferite de SPSS permit crearea unor noi variabile pe baza celor existente, în funcţie de necesităţile de prelucrare pe care le avem. În toate cazurile, însă, nu se va alege soluţia modificării valorilor

- 22 -

Page 23: Aplicatii SPSS

dintr-o variabilă „primară” peste valorile deja existente. Cu alte cuvinte, este recomandabil să creăm prin transformare variabile noi, şi nu să modificăm valorile existente din variabilele „primare” a căror pierdere ar necesita reintroducerea lor, în caz de necesitate.

Recodificarea variabilelor

Recodificarea unei variabile înseamnă convertirea valorilor acesteia, cu scopul obţinerii unei distribuţii bazată pe frecvenţe cumulate. Procesul este similar cu crearea unei tabele de frecvenţe grupate şi ne reamintim că poate fi derulat în maniera descrisă mai jos:

Paşi pentru grupării de frecvenţe: Se face diferenţa dintre valoarea cea mai mare şi valoarea cea mai mică a unei

distribuţii Se împarte valoarea obţinută la mărimea posibilă (estimată) a intervalului Se selectează mărimea intervalului care conduce la un număr de clase cuprins

între 5 şi 15 Se determină limita inferioară a primului interval (trebuie să fie un multiplu al

mărimii intervalului) Se determină limita superioară a primului interval Se construiesc intervalele de clasă pentru fiecare interval, fiind atenţi să avem

clase „suprapuse” sau „intervale neacoperite”

În principiu, deşi este recomandabilă obţinerea unei grupări de frecvenţe pe 5-15 clase, se poate opta pentru un număr de clase care serveşte cel mai bine interesul de cercetare. De exemplu, în cazul unei distribuţii de vârstă exprimată în ani, este preferabil să se opteze pentru clase „cincinale” sau „decade”, acestea având şi o anumită semnificaţie „psihologică”.

În urma transformării de mai sus, am obţinut variabila virsta. Utilizarea ei ca atare în analize statistice este improprie, de aceea ar fi foarte utilă obţinerea unei variabile care să asocieze anumite valori convenţionale pentru categorii de virsta. Pentru aceasta putem efectua „recodificarea” variabilei virsta pentru a obţine o distribuţie grupată de frecvenţe, astfel:

Se lansează procedura Recode - Into Defferent Variables din meniul Transform:

Atenţie, se poate alege şi opţiune Into Same Variables, dar nu este recomandabilă deoarece, în cazul unei erori, nu mai avem la dispoziţie variabila iniţială pentru o nouă recodificare.

- 23 -

Page 24: Aplicatii SPSS

Paşi de efectuat la apariţia casetei Recode into Defferent Variable: se trece variabila virsta în zona Numeric Variable Output Variable. Semnul

întrebării arată că se aşteaptă numele variabilei ce urmează să fie creată prin recodificare.

Acest nume se scrie în zona: Name, după care se apasă butonul Change.

Am ales, absolut convenţional, ca nume al variabilei recodificate, v_clase. Urmează acum să descriem limitele claselor de recodificare. Pentru aceasta, se

acţionează butonul Old and New Values

Deşi relativ complicată, caseta de declarare a noilor valori în funcţie de cele vechi este uşor de înţeles.În zona Old value, se alege una dintre variantele de definire a valorilor de la care se

pleacă. Să zicem că am ales soluţia să recodificăm anii pe intervale de zece ani, primul interval fiind 29-39, al doilea 40-49, ş.a.m.d.

Pentru aceasta activăm opţiunea Range şi scriem valorile limite al intervalului dorit. După aceasta, în zona New value oValue, scriem care este valoarea pe care o asignăm

acestei clase. În fine, acţionăm butonul Add pentru a definitiva operaţiunea şi trecem la definirea

următoarei clase, până terminăm.În zona OldNew se poate observa lista recodificărilor definite.Se acţionează butonul Continue şi, la revenirea în caseta anterioară, butonul OK.

Rezultatul operaţiuni se vede mai jos:

- 24 -

Page 25: Aplicatii SPSS

Se observă corespondenţa dintre valoarea din variabila virsta, cu valoarea din variabila v_clase. Pentru valoarea 71, avem missing value în variabila v_clase, deoarece nu am definit un interval care să cuprindă această vârstă. (De regulă, această situaţie este determinată de o eroare de definire a intervalelor de clasă. Pentru a o repara, ar trebui să intrăm din nou în procedura Recode şi să redefinim clasele).relua.

Transformarea operată pe variabila vîrstă nu este de loc inutilă. Dacă am fi dorit să vedem în ce măsură este o relaţie între nivelul salariului şi vârstă, ar fi fost oarecum impropriu (fără a fi propriu-zis o greşeală ) să utilizăm o statistică parametrică (corelaţia). În analizele statistice pe vârste este recomandabil, totuşi, să operăm cu grupe de vârstă.

Ordonarea după rang a valorilor unei variabile

Aşa cum am spus în cuprinsul primei părţi a acestui volum, este posibil să ne confruntăm cu o variabilă cantitativă ale cărei valori nu respectă condiţiile unei statistici parametrice (vezi figura din stânga, unde valoarea 250 este excesivă). Într-o situaţie de acest gen, una din soluţiile posibile este transformarea de rang, cu procedura Transform-Rank cases (caseta din dreapta):

- 25 -

Page 26: Aplicatii SPSS

Variabila vizată (scor) este trecută în lista Variable(s), se setează modul de ordonare (am ales atribuirea rangului 1 valorii celei mai mari) iar apoi am acţionat butonul OK. Procedura permite fixarea unor parametri de transformare cu ajutorul butoanelor Rank şi Ties, asupra cărora nu insistăm aici.

Organizarea datelor pentru analiză

SPSS permite efectuarea unor operaţii de organizare a datelor care prezintă un interes aparte pentru faza de analiză. Acestea sunt: sortarea, împărţirea fişierului în subgrupuri, selectarea unor seturi de date, combinarea fisierelor (adăugarea de cazuri, adăugarea de variabile). Le vom trece în revistă, pe rând.

Sortarea bazei de date

Sortarea este operaţia de aranjare a bazei de date în funcţie de ordinea crescătoare/descrescătoare a valorilor unei variabile. Ea este utilă mai ales pentru inspectarea directă a valorilor de la extrema unei distribuţii sau pentru listarea ordonată a bazei de date. Procedura utilizată este: Data-Sort.

Baza de date nesortată Caseta Sort Cases

Imaginea din casetă descrie sortarea bazei de date, crescător (Ascending), după valorile variabilei scor (rezultatul se vede în imaginea de mai jos).

Se poate efectua sortarea simultană după mai multe variabile, fiecare în sensul dorit, de exemplu: grup(Ascending) şi scor(Descending).

- 26 -

Page 27: Aplicatii SPSS

Împărţirea bazei de date în subgrupuri

Baza de date SPSS poate fi împărţită în subgrupuri, pentru analiză distinctă. Atunci când datele sunt astfel organizate, orice procedură de analiză se va efectua distinct pentru fiecare subgrup.

Procedura este: Data-Split File iar caseta de dialog este cea de mai jos:

Opţiunile sunt: Analyze all cases, do not create groups (pentru analiza integrală a datelor) Compare groups (rezultatele vor fi afişate astfel încât să poată fi uşor comparate) Organize output by groups (rezultatele vor fi afişate în Viewer, separat pe

grupuri)

Operaţia nu produce nici o modificare vizibilă asupra bazei de date. Singurul efect se vede în zona de afişare a rezultatelor, unde toate procedurile de analiză vor fi afişate pentru fiecare subgrup în parte.

Pentru a se reveni la analiza intergrală a datelor, se va reveni în procedura Split File şi se va seta opţiunea Analyze all cases....

Selectarea unor seturi de date

Selectarea unui set de date permite aplicarea procedurilor de analiză numai pe cazurile selectate. Dacă nu se optează pentru ştergerea datelor neselectate, ele vor fi păstrate şi vor putea fi reintroduse în analiză. Procedura este Data-Select Cases....

Pentru exemplificare, să ne propunem selectarea din baza de date din imaginea de mai sus a cazurilor aparţinând grupului 1.

Imaginea prezintă: În partea stângă, baza de date La mijloc, caseta principală Select Cases care are:

o Zona listei de variabileo Zona fixare a condiţiilor de selectare Select, unde:

- 27 -

Page 28: Aplicatii SPSS

All cases este setarea implicită şi înseamnă că toate datele intră în analiză

If condition is satisfied, se bifează atunci când se doreşte declararea unei condiţii de selectare bazată pe o funcţie

IF este butonul de deschidere a casetei pentru declararea condiţiei, care deschide caseta Select Cases: if. În cazul nostru, am trecut variabila grup în zona de editare a functie şi am declarat-o egală cu 1. Astfel, toate cazurile din baza de date care au grup=1 vor fi analizate, celelalte fiind ignorate. Exemplul se bazează pe o selecţie simplă, dar sunt permise selecţii bazate pe funcţii mai complicate sau care pot să includă combinaţii de variabile.

o Random sample of cases, permite selectarea unui set aleator de cayuri din baya de date

o Based on time por case range, permite selectarea cazurilor în funcţie de poziţia din baza de date.

o Use filter variable, selectează pe baza valorile unei variabile filtruo Unselected cases Are, permite opţiunea de filtrare a cazurilor neselctate

(Filtered) sau de eliminare a lor (Deleted). În acest din urmaă caz, cazurile neselectate vor fi şterse, dar baza de date, dar actualizarea fişierului de pe hard disk se va face numai după prima comanda Save.

După finalizarea operaţiei de selectare de mai sus, baza de date se prezintă în felul următor:

- 28 -

Page 29: Aplicatii SPSS

Se observă: Marcarea cu o diagonală a capului de linie corespunzător cazurilor neselectate Apariţia unei variabile de sistem filter_$ care conţine valoarea 0 pentru cazurile

neselectate şi valoarea 1 pentru cazurile selectate. Această variabilă poate fi ulterior utilizată în procedurile de analiză, ca variabilă independentă (caz în care se va anula situaţia de selectare, prin bifarea opţiunii All cases).

Selectarea este utilizată în mod obişnuit, pentru alegerea temporară a unui set de date. Adesea se uită anularea unei selectări existente, atunci când se doreşte revenirea al analiza tuturor cazurilor. Efectul este obţinerea unor rezultate pe date parţiale.

Alte operaţii de organizare a datelor pentru analiză

Opţiunile SPSS pentru organizarea datelor sunt mult mai numeroase decât cele descrise mai sus. Fără a le trata în amănunt, ne vom mulţumi să le prezentăm sumar:

Agregarea cazurilor, atunci când există înregistrări multiple pentru fiecare subiect şi se doreşte păstrarea uneia singure (Data-Agregate)

Adăugarea unor cazuri din altă bază de date SPSS (Data-Merge Files-Add cases...)

Adăugarea unor variabile din altă bază de date SPSS (Data-Merge Files-Add variables...)

Inversarea liniilor cu coloanele (Data-Transpose...)

- 29 -

Page 30: Aplicatii SPSS

Calcularea indicatorilor statistici descriptivi

Reamintim faptul că statistica descriptivă are ca obiectiv analiza caracteristicilor variabilelor. Principalele elemente de statistică descriptivă sunt:

reprezentarea întregii distribuţii, pe cale:o numerică (analiza de frecvenţe)o grafică (bară, histogramă, box-plot, stem and leaf)

valorile tendinţei centraleo modo medieo mediană

valorile împrăştieriio amplitudineo abatere standard

valorile formei distribuţieio indice de simetrie (skewness)o indice de boltire (kurtosis)

SPSS oferă posibilităţi variate de reprezentare şi de calcul a acestor indicatori. În acest sens există, pe de o parte, proceduri specializate şi, pe de altă parte, opţiuni care pot fi accesate din interiorul altor proceduri. Fie şi acest aspect numai, ar trebui să sugereze că analiza statistică descriptivă, în ciuda caracterului ei „elementar”, este o componentă indispensabilă a analizei statistice.

În ceea ce priveşte procedurile specializate, ele se lansează din meniul Statistics-Summarize (sau Analyze-Descriptive statistics, pentru versiunile mai noi de SPSS) şi sunt grupate în trei proceduri: Frequencies, Descriptives şi Explore.

Aceste proceduri oferă prelucrări distincte dar conţin şi rezultate comune. Alegerea uneia sau alteia dintre ele depinde de necesităţile de analiză.

Procedura Frequencies

Este singura care permite analiza de frecvenţe.La apariţia casetei Frequencies, variabila pe care dorim să o supunem analizei va

fi trecută în lista de calcul Variable(s), prin selectarea ei şi acţionarea butonului de

- 30 -

Page 31: Aplicatii SPSS

transfer (►). Pot fi incluse mai multe variabile în această listă, rezultatele fiind afişate distinct, pentru fiecare în parte.

Se va observa pe caseta de mai sus bifarea opţiunii pentru tabela de frecvenţe, care este funcţia specifică a acestei proceduri. În plus, prin acţionarea butoanelor din partea de jos a casetei se pot seta alte analize, astfel:

Butonul Statistics Butonul Chart Butonul FormatSe aleg indicatorii statistici descriptivi doriţi

Se alege tipul de grafic dorit

Se aleg diverse moduri de prezentare a rezultatelor

Rezultatele sunt afişate în SPSS Viewer în forma de mai jos (dar unele sub altele, nu alăturat, aşa cum sunt aranjaţi aici):

Indicatorii statistici descriptivi

Tabelul de frecvenţe Histograma

Procedura Descriptives

- 31 -

Page 32: Aplicatii SPSS

Această procedură vizează doar indicatorii statistici descriptivi. La lansare, Satistics-Descriptives, se deschide caseta principală Descriptives. Se trec variabilele vizate în lista Variable(s)(dacă dorim calcularea scorurilor z, se bifează opţiunea din stânga-jos a casetei )

Se aleg indicatorii doriţi din Options

Rezultatul analizei, din Viewer

Imaginea bazei de date, în care se vede apariţia variabilei zscor (denumită automat de progarm) cu valorile transformate în scoruri z.

Procedura Explore

Procedura Explore este cea mai complexă dintre toate procedurile statisticii descriptive şi se poate utiliza atunci când se doreşte o analiză exhaustivă a variabilei (sau variabilelor).

Caseta principală Explore

În Dependent List se includ variabilele de analizat În Factor List se includ eventualele variabile categoriale, în funcţie de care se

doreşte analiza variabilei analizate Label cases by, permite etichetarea cazurilor la afişare (rar utilizat)

- 32 -

Page 33: Aplicatii SPSS

Display, permite alegerea opţiunilor de afişare a rezultatelor numerice (Statistics), grafice (Plots) sau ambele categorii (Both)

Butonul Statistics deschide caseta pentru alegerea unor indicatori (dar procedura analizează, implicit toţi indicatorii statistici descriptivi, de bază)

Butonul Plots, permite alegerea reprezentărilor grafice dorite:

Butonul Options, permite setarea modului de tratare a valorilor lipsă

Rezultatele analizei Explore, definită mai sus, se prezintă astfel:

Indicatorii statistici Reprezentarea stem-and-leaf Reprezentarea Box plot

- 33 -

Page 34: Aplicatii SPSS

Teste parametrice

Testul z (t) pentru media unui singur eşantion

UtilizareTestul z pentru un singur eşantion este utilizat pentru se testa diferenţa dintre

media unui eşantion faţă de media cunoscută a populaţiei din care face parte. Atunci când volumul eşantionului este mic (N<30) este utilizată o variantă denumită testul t pentru un singur eşantion.

Utilizarea acestui test statistic este condiţionată de cunoaşterea mediei populaţiei. Dacă populaţia are o extindere mare, acest lucru este dificil de realizat (în afara cazurilor în care există studii speciale, cum sunt cele antropometrice, de exemplu). Dintre variabilele psihologice ale cărei medii pentru populaţie este cunoscută, este inteligenţa, exprimată în unităţi QI (μ=100). Testul poate fi utilizat, însă, atunci când populaţia are o extindere mai redusă. De exemplu, dacă a fost evaluat nivelul de satisfacţie într-o organizaţie, se poate testa diferenţa dintre nivelul de satisfacţie la nivelul unei secţii faţă de media satisfacţiei la nivelul întregii organizaţii (populaţie).

Condiţii de aplicareCondiţia teoretică de bază este normalitatea distribuţiei de eşantionare. În temeiul

teoremei limitei centrale, cu cât volumul eşantionului este mai mare, cu atât normalitatea distribuţiei de eşantionare este mai sigură.

Aranjarea datelorDatele supuse testării trebuie să fie incluse într-o variabilă SPSS de tip numeric.

Procedura: Statistics-Compare Means-One Sample T Test

Variabila testată

Caseta principalăVariabila testată este trecută în lista Test Variable(s)În zona Test Value se înscrie media populaţiei (100 în cazul nostru)

Caseta Options permite alegerea pragului de semnificaţie.Confidence Interval 95% este echivalent cu p=0.05 şi este implicit pentru toate testele statistice

- 34 -

Page 35: Aplicatii SPSS

Rezultate

Primul tabel include statistica descriptivă a variabilei testate (N, media, ab.std, eroarea standard a mediei)

Al doilea tabel include rezultatele testului statistic: t=6.254, df=4, p=0.03, diferenţa faţă de media populaţiei (22.6) şi limitele inferioară (12.57) şi superioară (32.63) ale intervalului de încredere pentru media populaţiei estimată de eşantionul de cercetare.

Concluzia testului: media eşantionului de cercetare diferă semnificativ de QI=100, ca medie a populaţiei.

- 35 -

Page 36: Aplicatii SPSS

Testul t pentru eşantioane independente

UtilizareTestul t pentru eşantioane independente este utilizat pentru testarea diferenţei

dintre mediile aceleiaşi variabile dependente măsurate pe două grupuri, formate din subiecţi diferiţi. Exemplu: testarea diferenţei dintre media scorului la o scală de sociabilitate aplicată unor copii crescuţi în familie şi unor copii crescuţi în instituţii de ocrotire. În acest caz, scorul la sociabilitate este variabila dependentă, măsurată pe scală cantitativă (interval/raport) iar mediul de educare este variabila independentă, exprimată pe scală nominală dihotomică (familie/instituţie de ocrotire)

CondiţiiTeoretic, testul t poate fi utilizat pentru eşantioane oricât de mici, dacă distribuţia

de eşantionare pentru cele două grupuri este normală şi dacă varianţa valorilor în cele două grupuri nu diferă semnificativ. În ce priveşte condiţia egalităţii varianţei, ea este testată cu un teste specifice. Unul dintre acestea este testul Levene, iar în funcţie dacă rezultatul său programul calculează testul t pe două căi, aşa cum vom vedea mai jos.

Dacă variabila dependentă nu întruneşte condiţiile pentru testul t, se poate apela la teste neparametrice, astfel:

Testul z pentru proporţii (compararea procentului de „sociabili” din cele două grupuri)

Testul Mann-Whitney U, dacă se transformă valorile variabilei „sociabilitate” în valori de rang

Aranjarea datelorTabela de date SPSS va conţine variabila dependentă, de tip numeric, şi variabila

independentă, de tip nominal, cu două valori, în funcţie de apartenenţa la un grup sau altul. Variabila independentă poate fi de tip „string” (codificând cele două grupuri cu valori de genul „A” şi „B”) sau de tip numeric (cu codificarea convenţională 1 şi 2). Din principiu, însă, recomandăm cea de a doua variantă.

Procedura: Statistics-Compare means-Indpendent Samples T Test

- 36 -

Page 37: Aplicatii SPSS

În caseta principală se trece variabila dependentă (soc) în lista Test Variable(s) (pot fi testate mai multe variabile simultan) iar variabila independentă (grup), în zona Grouping Variable. În acest moment, programul ataşează variabilei dependente două semne de întrebare, sugerând introducerea valorilor care definesc cele două grupuri. Concomitent, se activează butonul Define Groups a cărui acţionare deschide caseta secundară Define Groups, unde se introduc valorile care definesc cele două grupuri comparate (ordinea lor nu este relevantă). După acţionarea butonului Continue, caseta principală devine completă şi se poate acţiona OK pentru efectuarea testului.

Rezultate

- 37 -

Page 38: Aplicatii SPSS

În primul tabel (Group Statistics) avem statistica descriptivă a celor două grupuri. Se va observa că programul descrie grupurile prin intermediul etichetelor valorilor. Dacă acestea nu ar fi fost definite, în loc de „institutie” şi „familie” ar fi apărut 1, respectiv, 2.

Al doilea tabel are două linii:Pe prima avem rezultatele testului t pentru cazul asumării omogenităţii varianţei

(Levene’s Test for Equality of Variances). În cazul nostru, ele sunt egale (Sig.=0.666, ceea ce se traduce ca o valoare p=0.666, deci mai mare de 0.05 pentru distribuţia F a testului Levene, pe care nu o discutăm aici). Ca urmare, vom citi pe această linie rezultatul testului: t=-2.42, df=12, Sig.=0.045.

Pe a doua linie avem rezultatele testului t pentru cazul în care nu s-ar întruni condiţia de omogenitate a varianţei pentru cele două grupuri. Dacă semnificaţia testului Levene ar fi fost mai mică sau egală cu 0.05, rezultatului testului t s-ar fi citit pe această linie. Pentru exemplul nostru, rezultatul testului t permite acceptarea ipotezei cercetării, conform căreia copiii crescuţi în mediu familial sunt mai sociabili (m=22.00) decât cei crescuţi în mediu instituţional (m=17.71).

- 38 -

Page 39: Aplicatii SPSS

Testul t pentru eşantioane dependente (perechi)

UtilizareTestul t al diferenţei mediilor a două eşantioane dependente permite evaluarea

semnificaţiei variaţiei unei anumite caracteristici la aceeaşi indivizi în două situaţii diferite (de exemplu, „înainte” şi „după” acţiunea unei anumite condiţii, ori în două contexte diferite, indiferent de momentul manifestării acestora). Avantajul major al acestui model statistic este acela că surprinde variaţia numită „intrasubiect”, prin faptul că baza de calcul este diferenţa dintre cele două valori ale fiecărui subiect în parte.

Exemplu: Un grup de subiecţi efectuează operaţii aritmetice în condiţii de linişte şi, ulterior, în condiţii de zgomot puternic. Ipoteza cercetării este că zgomotul determină o reducere a capacităţii de calcul numeric.

CondiţiiCondiţia teoretică a testului este normalitatea distribuţiei de eşantionare a

distribuţiei de diferenţe. Ca şi în celelalte cazuri, teorema limitei centrale determină normalizarea distribuţiei de eşantionare pe măsură ce volumul eşantionului creşte.

În situaţia în care condiţia nu se îndeplineşte, se pot utiliza teste neparametrice echivalente: testul semnului (pentru date nominale) sau testul Wilcoxon (pentru date ordinale).

Aranjarea datelorVor fi create două variabile distincte, ambele cantitative, măsurate pe scală de tip

I/R, care primesc câte o valoare pentru fiecare subiect.

- 39 -

Page 40: Aplicatii SPSS

Procedura: Statistics-Compare Means-Paired Sample T Test...

Se selectează cu un clic de mouse, pe rând, fiecare dintre cele două variabile. Astfel se constituie perechea de variabile în zona Curent selection.

O dată constituită, perechea de variabile se trece în lista Paired Variables cu butonul de transfer (►). Pot fi create mai multe perechi de variabile şi prelucrate simultan.

Caseta Options permite alegerea pragului de semnificaţie (implicit 0.05).

Rezultate

Primul tabel conţine statistica descriptivă pentru cele două variabile.Al doilea tabel conţine testul de corelaţie Pearson (r) dintre cele două variabile.

Evaluarea intensitatea asocierii liniare dintre cele două variabile este legitimă în acest context, dar oferă o informaţie diferită de testul diferenţei dintre medii. Alegerea testului de corelaţie sau al testului t se decide în funcţie de obiectivul cercetării.

- 40 -

Page 41: Aplicatii SPSS

În fine, ultimul tabel prezintă rezultatul testului: t=5.076, df=9, p=0.001. Acesta permite respingerea ipotezei de nul şi acceptarea ipotezei cercetării, zgomotul afectează capacitatea de calcul aritmetic.

Coeficientul de corelaţie liniară Pearson (r)

UtilizareCorelaţia Pearson (r) măsoară gradul de asociere dintre variabile. Aceasta se

referă la gradul şi sensul de variaţie concomitentă a valorilor unei variabile în raport cu cealaltă, după un model de tip liniar.

Domeniul de variaţie a coeficientului de corelaţie Pearson (r) este între r=-1 (corelaţie perfectă negativă) şi r=+1 (corelaţie perfectă pozitivă). Absenţa oricărei legaturi (corelaţii) dintre variabile se traduce prin r=0.

Exemplu: Testul de corelaţie implică două variabile dar, adesea, într-o cercetare psihologică numărul variabilelor supuse corelaţiei este mai mare de două. Acest fapt conduce la ceea ce se numeşte o matrice de corelaţii care este un tabel ale căror celule cuprind corelaţiile dintre perechile de variabile. Pentru exemplificare, să luăm în considerare situaţia în care se urmăreşte evidenţierea legăturii (asocierii) dintre anxietate şi agresivitate, pe de o parte, şi preferinţa pentru risc pe de altă parte.

CondiţiiCondiţia principală pentru calcularea coeficientului de corelaţie liniară Pearson

este ca variabilele implicate să fie măsurate pe scală de interval/raport (alături de existenţa unei forme a distribuţiei care nu se abate sever de la curba normală).

Testele neparametrice alternative, pentru cazul în care condiţiile pentru utilizarea testului Pearson nu se îndeplinesc, sunt: testul chi-pătrat (pentru date nominale) sau coeficienţii de corelaţie Spearman sau Kendall (pentru date ordinale).

Aranjarea datelorSe creează variabile distincte pentru fiecare caracteristică supusă testării.

Procedura: Statistics-Corelate-BivariateVariabilele supuse corelaţiei vor fi trecute în lista Variables:

- 41 -

Page 42: Aplicatii SPSS

Testul implicit, din zona Correlation Coefficients, este Pearson, dar se poate bifa un altul (Kendall sau Spearman), dacă datele sunt neparametrice.

Tipul implicit de testare a ipotezei este bilateral (Two-tailed), dar se poate alege unilateral (dacă există o justificare solidă).

Flag significant correlations, determină marcarea cu un asterisc a coeficienţilor semnificativi la p=0.05 şi cu două asteriscuri a celor semnificativi la p=0.01. Acest lucru este util atunci când matricea de corelaţie este mare, pentru a scoate în evidenţă valorile semnificative ale lui r.

Rezultate

Tabelul rezultatelor cuprinde matricea de corelaţii a variabilelor analizate. El este redundant, deoarece prezintă aceleaşi corelaţii de două ori, odată deasupra diagonalei, odată sub diagonală. Corelaţiile variabilelor cu ele însele sunt perfect pozitive (r=1) şi nu prezintă, desigur, nici un interes.

Fiecare celulă include următoarele informaţii: valoarea lui r nivelul p numărul de subiecţi (N)

În cazul nostru, consemnăm corelaţii negative dar nesemnificative între anxietate şi agresivitate (r=-0.38, p=0.26), pe de o parte, şi între anxietate şi preferinţa pentru risc,

- 42 -

Page 43: Aplicatii SPSS

pe de altă parte (r=-0.40, p=0.24). În acelaşi timp, se constată o corelaţie semnificativă (r=0.96, p<0.001) între agresivitate şi preferinţa pentru risc. Precizăm faptul că raportarea coeficienţilor de corelaţie se face cu două zecimale, chiar dacă programele îi calculează cu trei zecimale.

Dezavantajul acestui tip de tabel constă în faptul că avem de fapt o dublă prezentare a corelaţiilor, deasupra diagonalei şi sub diagonală. Pentru corelaţii implicând multe variabile tabelul se va cit cu relativă dificultate.

Să presupunem că suntem interesaţi de corelaţiile dintre anxietate şi agresivitate cu variabila preferinţă pentru risc, nu şi de corelaţia dintre anxietate şi agresivitate. În acest caz, în caseta principala, Bivariate Correlations, prezentată mai sus, variabilele vor fi introduse astfel încât variabila „preferinţa pentru risc” sa fie ultima din listă. Apoi se apasă butonul Paste, al cărui efect este deschiderea domeniului Syntax, ca o fereastră distinctă, în care se află sintaxa procedurii de corelaţie. Acolo, pe linia /VARIABLES=anx agresiv risc, se inserează cuvântul WITH, având grijă să existe spaţiu atât în stingă cât şi în dreapta sa.

Mai departe, se selectează întreaga procedură (cu ajutorul mouse-ului) şi se apasă pe butonul Run (►) de pe bara de comenzi a ferestrei

Rezultatul din Viewer va arăta ca mai jos:

Este evident că această modalitate se poate aplica pentru oricât variabile, dacă avem grijă să le aşezăm separat în listă şi să includem clauza WITH între cele două categorii de variabile. Nu pot fi incluse mai multe clauze WITH în aceeaşi procedură.

Ulterior, putem reveni în fereastra Syntax pentru a o închide (cu File-Close), salvând sau nu procedura astfel modificată.

- 43 -

inseraţi WITH

Page 44: Aplicatii SPSS

Expresia grafica a corelaţiei (Scatterplot)Caracterul şi intensitatea corelaţiei dintre două variabile se evidenţiază extrem de

sugestiv cu ajutorul unei proceduri grafice specifice, numită scatterplot. Aceasta se lansează din meniul principal Graphs-Scatter... care deschide

următoarea casetă de dialog:

În cazul nostru, să presupunem că dorim reprezentarea grafică a corelaţiei dintre agresivitate şi preferinţa pentru risc, singura semnificativă. În acest scop, selectăm pe caseta Scatterplot opţiunea Simple şi apăsăm Define.

Trecem variabila Agresivitate pe axa Y şi variabila Preferinţa pentru risc pe axa Z (se poate la fel de bine şi invers). Se apasă OK şi se obţine graficul din imaginea următoare, care sugerează foarte clar existenţa unei asocieri de tip liniar între cele două variabile.

- 44 -

Page 45: Aplicatii SPSS

Reprezentarea grafică este sursă de informaţii cu privire la natura relaţiei dintre variabile, motiv pentru care este recomandabilă utilizarea frecventă a acesteia. Mai mult, ea este necesară în special atunci când valoarea corelaţiei este redusă, sau nesemnificativă, deoarece graficul poate scoate în evidenţă o legătura de alt tip decât liniară.

O corelaţie r=0.92, ca cea obţinută mai sus, între agresivitate şi preferinţă pentu risc, este improbabil să se întâlnească într-un studiu real. De fapt, dacă s-ar întâmpla să apară, ar trebui să concluzionăm mai degrabă că cele două variabile se confundă, decât că sunt distincte.

- 45 -

Page 46: Aplicatii SPSS

Regresia liniară simplă

UtilizareAnaliza de regresie este o aplicaţie a corelaţiei, utilizată în scopuri de predicţie.

Dacă evaluăm agresivitatea ca trăsătură de personalitate şi preferinţa pentru risc ca expresie a numărului de incidente în trafic, la conducătorii auto, se poate estima pe baza agresivităţii riscul de accident încă înainte de dobândirea carnetului de şofer. Acest tip de regresie, în care există o singură variabilă predictor (agresivitatea) şi o variabilă criteriu (tendinţa spre risc) se numeşte regresie liniară simplă. Mai frecvent utilizată este regresia multiplă, care efectuează predicţii bazate pe mai multe variabile predictor asupra unei variabile criteriu. Vom prezenta mai jos regresia liniară simplă, ca o formă de introducere în analiza de regresie, mai uşor de înţeles.

Exemplu: Predicţia rezultatului statistică pe baza cunoştinţelor de matematică, evaluate anterior începerii cursului de statistică.

Condiţii Din punct de vedere statistic, condiţiile variabilelor care sunt supuse analizei de

regresie sunt aceleaşi ca în cazul corelaţiei, deoarece regresia liniară este o aplicaţie a acesteia.

Din punct de vedere metodologic, predicţia presupune, de regulă, evaluarea variabilei predictor anterior variabilei criteriu. Acest fapt poate sugera o relaţie de tip cauzal între variabile, dar numai dacă sunt întrunite şi alte condiţii (cum ar fi izolarea efectelor altor variabile).

Aranjarea datelorStructura de variabile este similară analizei de corelaţie.

- 46 -

Page 47: Aplicatii SPSS

Procedura: În principiu, analiza de regresie începe cu coeficientul de corelaţie dintre variabile şi vizualizarea imaginii scatterplot. În cazul nostru, urmând procedura prezentată mai sus, am obţinut o corelaţie r=0.74 (p=0.002). Aceste valori confirmă existenţa unei legături pozitive semnificative, între cunoştinţele de matematică şi performanţa la statistică. O idee mai exactă ne oferă coeficientul de determinare r2=0,5476. Acesta ne spune că 54% din variaţia „performanţei la statistică” este explicată de variaţia valorilor la variabila „cunoştinţe de matematică”. Deducem că restul de 46% din performanţa la statistică este explicată de alte variabile, necunoscute în această fază1.

Pe baza acestor concluzii se poate trece la analiza de regresie a cărei finalitate este aceea de obţinere a coeficienţilor a (termenul liber, sau originea dreptei de regresie) şi b (panta dreptei de regresie), cu ajutorul cărora se poate estima în viitor performanţa la statistică pe baza rezultatului la un test de cunoştinţe matematice aplicat în prima zi de şcoală. Neîndoielnic, o astfel de procedură s-ar justifica mai ales pentru identificarea studenţilor cu potenţiale dificultăţi şi care, tocmai fiind avertizaţi în legătură cu aceste dificultăţi vor putea să acorde statisticii o atenţie sporită, în vederea obţinerii unui rezultat peste nivelul celui prezis.

Lansarea procedurii: Statistics-Regression-Linear...

În caseta principală Linear Regression, se trece variabila criteriu în zona Dependent iar variabila criteriu în zona Independent(s).

În caseta Statistics, bifăm Estimates pentru obţinerea coeficienţilor de regresie (opţiune implicită)

În caseta Regression Save, bifăm Predicted Values-Unstandardized şi Residuals-Unstandardized, care vor avea ca efect crearea de variabile distincte în baza de date.Prediction interval (individual) va calcula limitele de încredere pentru valorile prezise.

1 Facem precizarea că valorile şi aprecierile nu se bazează pe un studiu reale.

- 47 -

Page 48: Aplicatii SPSS

Valorile prezise sunt valorile rezultate pe baza modelului de predicţie. Valorile reziduale se calculează ca diferenţă între valorile variabilei criteriu si

cele prezise pe baza modelului de regresie.

Analiza rezultatelor

Tabelul Model Summary oferă valoarea coeficientului de regresie, notat cu R, care este identic cu coeficientul de corelaţie dintre cele două variabile. Dacă modelul de regresie ar fi avut mai multe variabile predictor, R ar fi fost coeficientul de corelaţie multiplă dintre predictori şi criteriu. Interpretarea este similară coeficientului de corelaţie simplă, la fel ca şi pentru R2, care este coeficientul de determinare al lui R. Valoarea lui ne spune că 55% din variaţia performanţei la statistică este explicată de variaţia variabilei „cunoştinţe de matematică”. „Adjusted R Square” este o corecţie a lui R2 în funcţie de numărul de predictori şi numărul de subiecţi.

Tabelul Coefficients conţine coeficienţii B (nestandardizaţi) şi coeficientul beta (standardizat), care pot fi utilizaţi, la alegere, în ecuaţia de predicţie.

Astfel, de exemplu, dacă un student realizează un scor de 30 la testul de cunoştinţe de matematică, se poate estima performanţă finală la statistică cu ajutorul relaţiei:

- 48 -

Page 49: Aplicatii SPSS

unde 3.406 este originea iar 0.854 este panta dreptei de regresie.Sau, dacă predicţia se face pe baza unui scor standardizat z al variabilei mat_in (să zicem,

0.93), atunci:

În acest caz termenul liber are valoarea 0, deoarece originea dreptei pentru scoruri standardizate se află în 0.

Desigur, scorurile astfel prezise sunt estimări, atâta timp cât corelaţia dintre variabile nu este perfectă. Iar estimările conţin cu atât mai multă eroare cu cât corelaţia dintre variabile este mai mică (punctele graficului de corelaţie fiind mai îndepărtate de dreapta de regresie).

La finalul procedurii analizei de regresie, cu setările de mai sus, în baza de date apar câteva variabile noi, aşa cum se vede în imaginea de mai jos.

Variabila pre_1, conţine valorile prezise pe baza modelului de regresie.Variabila res_1, conţine diferenţa dintre valoarea reală şi valoarea prezisăVariabilele lici_1 şi lici_2, conţin limitele inferioară şi superioară ale intervalului

de încredere pentru fiecare valoare în parte. Pentru a înţelege mai bine problema limitelor, să privim prima valoare prezisă de pe coloana pre_1 (25.598). Cu un nivel de încredere de 95% (echivalent cu o probabilitate de eroare de 0.05), putem spune că valoarea adevărată pentru stat_fin prezisă pe baza valorii mat_in=26, s-ar afla în intervalul 21.77 şi 29.41.

În fine, rezultatele conţin şi imaginea scatterplot a relaţiei dintre valorile mat_in şi scorurile z ale variabilei pre_1.

- 49 -

Page 50: Aplicatii SPSS

Imaginea este identică cu ceea ce am prezentat în cazul corelaţiei. Singura deosebire este dată de trasarea dreptei. Aceasta se face de către operator, în felul următor:

- se acţionează dublu clic de mouse pe imaginea graficului din Viewer. prin care...- graficul este trecut deschis într-o fereastră individuală de editare, în care...- se execută procedura Chart-Options-Fit Line- Fit Options. La capătul acestei serii

de acţiuni apare caseta de mai jos unde se marchează Linear regression.

Facem precizarea că acest procedeu de trasare a liniei în interiorul scatterplotului este utilizabil şi în cazul corelaţiei. Dacă se alege alt model decât cel liniar (de exemplu, Quadratic regression) se va obţine linia de regresie sub formă curbilinie, punând în evidenţă abaterile de la modelul liniar. Acest lucru este cu deosebire util atunci când corelaţia este mică, fapt care se poate datora faptului că relaţia dintre variabile nu urmează un model liniar (vezi exemplul din prima secţiune a manualului, bazat pe corelaţia dintre scorurile z şi probabilităţile de sub curba normală).

Ce utilizăm, corelaţia sau regresia?

Corelaţia şi regresia liniară sunt similare şi, de aceea, uşor de confundat. În unele situaţii pot fi utilizate ambele proceduri.

- 50 -

Page 51: Aplicatii SPSS

Se calculează corelaţia liniară: atunci când există două variabile măsurate pe aceiaşi subiecţi şi se doreşte

evaluarea gradului de asociere între variabile atunci când distribuţiile de eşantionare ale celor două variabile sunt normale

(atunci când cel puţin una dintre variabile este manipulată, nu se calculează corelaţia Pearson)

Se calculează regresia liniară: atunci când una dintre variabile precede şi poate fi cauza celeilalte variabile atunci când una dintre variabile este manipulată, se calculează regresia atenţie, calculele regresiei nu sunt simetrice, ca urmare, inversând variabilele în

ecuaţia de regresie se va obţine o linie de regresie diferită, în timp ce dacă se inversează ordinea variabilelor în calcularea corelaţiei, se obţine acelaşi coeficient r.

- 51 -

Page 52: Aplicatii SPSS

Teste neparametrice nominale

Testul z al proporţiei pentru un singur eşantion

UtilizareTestul z pentru proporţii pentru un eşantion, este utilizat în cazul variabilelor

dihotomice pentru a testa diferenţa dintre proporţiile valorilor în eşantion prin comparaţie cu proporţia la nivelul populaţiei.

Exemplu: La întrebarea „cine se uită la telenovele?” răspund DA 7 subiecţi, dintre care 5 femei şi 2 bărbaţi. Întrebarea cercetării este dacă femeile se uită într-o proporţie mai mare decât bărbaţii la telenovele.

CondiţiiCunoaşterea proporţiei la nivelul populaţiei pentru valorile variabilei testate. În

cazul nostru, raportul femei/bărbaţi este cunoscut din studiile demografice (51%/49%)

Aranjarea datelor

Se creează variabila dihotomică cu valori numerice. Variabilele de tip „string” nu sunt acceptate de procedura SPSS. În cazul nostru, valorile sunt 1 pentru feminin şi 2 pentru masculin.

Procedura: Statistics-Non Patametric Tests-Binomial...

Variabila testată este trecută în lista Test Variable List:

- 52 -

Page 53: Aplicatii SPSS

În zona Define Dichotomy se alege Get from data, dacă variabila este dihotomică, sau Cut point, dacă variabila este continuă, prin fixarea unei valori care împarte distribuţia în două categorii.

În zona Test proportion se introduce proporţia primei categorii. Butonul Options permite solicitarea statisticii descriptive pentru variabila

testată.

Rezultate

Rezultatul în cazul exemplului dat cuprinde frecvenţa pe categorii, procentul şi semnificaţia testului în raport cu proporţia la nivelul populaţiei (p=0.243). În acest caz, se acceptă ipoteza de nul şi se respinge ipoteza cercetării. Proporţia femeilor care se uită la telenovele nu diferă semnificativ de proporţia bărbaţilor, prin raportare la proporţia lor în populaţie.

- 53 -

Page 54: Aplicatii SPSS

Testul semnelor

UtilizareTestul semnelor este utilizat pentru a testa diferenţa dintre valori, utilizându-se

semnul diferenţei şi nu valoarea acesteia, atunci când ambele valori sunt măsurate pentru aceiaşi subiecţi . Dacă nu ar exista nici o diferenţă între valorile perechi, atunci numărul diferenţelor pozitive ar trebui să fie egal cu cel al diferenţelor negative. Cu cât numărul diferenţelor de un anumit semn este mai mare comparativ cu cel al diferenţelor de semn opus, cu atât creşte posibilitatea ca diferenţa dintre variabile să fie statistic semnificativă.

Exemplu: Într-un experiment cu privire la efectul motivării asupra memorării, subiecţilor li se cere să memoreze cuvinte dintr-o listă, înainte si după introducerea unui factor motivant. Dat fiind faptul că numărul subiecţilor este prea mic pentru asumarea normalităţii distribuţiei de eşantionare, se alege testul semnului, în locul testului t pentru eşantioane dependente.

CondiţiiVariabilele vor fi de tip numeric, iar valorile exprimate în aceeaşi unitate de

măsură, pentru a se putea face diferenţa lor.

Aranjarea datelor

Imaginea de mai jos conţine variabilele „inainte” şi „dupa”, care vor fi analizate.

Variabila „dif” conţine rezultatul diferenţei „dupa-inainte”.Variabila „semn”, conţine semnul diferenţei. Ambele sunt prezentate numai

pentru a face mai evident baza de calcul a testului deoarece, în fapt, nu sunt relevante sub aspectul procedurii SPSS.

2. Dacă nu se dispune de valorile variabilelor ci numai de semnul diferenţei, testul semnului va fi calculat manual, pe baza formulei 4.7.

Procedura: Statisstics-Nonparametric Tests-2 Related Samples...

În prima fază, cele două variabile sunt selectate, pe rând, prin clic de mouse pe fiecare, constituindu-se în pereche. Acest fapt se observă în partea de jos a casetei, în

Apoi, perechea de variabile este trecută în lista Test Pair(s) List: prin acţionarea butonului ►.Dacă este necesar, se pot testa simultan mai

- 54 -

Page 55: Aplicatii SPSS

zona Current Selections.Se bifează Sign în zona Test Type.

multe perechi de variabile.

Rezultate

Tabelul Sign Test cuprinde numărul diferenţelor pozitive, respectiv negative, pentru cazurile din baza de date. În cazul nostru, există 7 diferenţe pozitive şi nici o diferenţă negativă.

Tabelul Test Statistics, prezintă semnificaţia testului (p=0.016). Ipoteza de nul se respinge dacă valoarea lui p este mai mică decât pragul fixat şi care, implicit, este 0.05. În exemplul dat, ipoteza de nul se respinge, acceptându-se ipoteza cercetării (motivarea stimulează memorarea).

- 55 -

Page 56: Aplicatii SPSS

Testul Chi-pătrat al asocierii (independeţei)

UtilizareTestul chi-pătrat este utilizat pentru evidenţierea gradului de asociere între două

variabile categoriale. Exemplu: Să presupunem că am evaluat numărul femeilor şi al bărbaţilor

diagnosticaţi cu sindrom de stres postraumatic (PTSD) dintr-un mic oraş, afectat de un cutremur de pământ, iar datele sunt cele din următorul tabel de corespondenţă:

Problema cercetării este dacă incidenţa PTSD este în legătură cu caracteristica de sex.

Condiţii Cele două variabile nu trebuie să se „intersecteze” (să nu existe subiecţi care să

fie incluşi în mai mult de o celulă de tabel). Este recomandabil ca frecvenţa aşteptată să nu ia valori mai mici de 5 (sau, cel

puţin, în nu mai mult de 20% din celule). Nici o celulă nu trebuie să aibă frecvenţa aşteptată 0..

Aranjarea datelorDatele pot fi incluse în Data Editor în două moduri:a. Sub forma unor înregistrări distincte pentru fiecare caz

Acest mod poate fi extrem de dezavantajos atunci când sunt multe cazuri sau când există deja o statistică globală a fenomenului PTSD în raport cu sexul.

b. Sub forma unor înregistrări distincte pentru valorile caracteristicii de sex:

- 56 -

Femei BărbaţiPTSD 20 10Non-PTSD 30 40

Page 57: Aplicatii SPSS

În această situaţie, se introduc frecvenţele PTSD pentru toate combinaţiile valorilor celor două variabile analizate şi frecvenţele asociate fiecăreia. Pentru a se realiza corespondenţa dintre variabilele sex şi PTSD cu variabila frecv, se apelează la procedura Data-Wheight Cases...:

Facem precizarea că în tabelele de date din imaginile de mai sus variabilele au fost codificate numeric cu 1 respectiv 2, atât pentru sex cât şi pentru PTSD, valorile fiind etichetate. Faptul că în celule apar etichetele şi nu valorile, se obţine prin setarea Data-Value Labels.

Procedura Chi-pătrat acceptă şi variabile de tip caracter (string) dar reamintim recomandarea de principiu ca toate variabilele să fie declarate de tip numeric.

Procedura: Statistics-Summarize-Crosstabs...

Casetele de configurare sunt următoarele:

În caseta principală Crosstabs se trec variabilele analizate în lista Row(s), respectiv Columns(s). Pot fi analizate mai multe perechi de variabile simultan. Rezultatul analizei nu depinde de modul de plasare a variabilelor pe linie sau pe coloană. Dacă de doreşte crearea unui grafic al corespondenţei dintre variabile, se va bifa şi Display clustered bar charts.

În caseta Statistics se bifează Chi-Square. În caseta Cell Display se bifează Counts-Observed; Percentages-Row, Column,

Total şi Residuals-Unstandardized (bifarea opţiunilor este în funcţie de informaţiile pe care le doreşte analistul).

- 57 -

Page 58: Aplicatii SPSS

Rezultate

Imaginea prezintă tabelul de corespondenţă, având pe linii valorile caracteristicii de sex iar pe coloane valorile aferente variabilei PTSD. În celulele tabelului se află valorile solicitate prin configurarea casetelor. Vom exemplifica pentru celula „feminin/da”:

Count 20 indică numărul femeilor cu PTSD %within Sex 40.0% indică procentul femeilor care au manifestat PTSD din totalul

femeilor %within PTSD indică procentul femeilor cu PTSD din totalul celor care au

manifestat PTSD % of Total indică procentul femeilor cu PTSD din totalul subiecţilor Residual indică diferenţa dintre numărul de femei cu PTSD (frecvenţa observată)

şi frecvenţa aşteptată (în cazul nostru, +10)

În tabelul Chi-Square Tests citim valoarea testului Pearson Chi-Square (16.66) şi, în special, pragul de semnificaţie al acestuia (p=0.000 care va fi citit ca p<0.001). În cazul particular al acestui exemplu, unde tabelul de corespondenţă este format din două linii şi două coloane, valoarea lui chi-pătrat poate fi luată de pe linia Continuitiy Correction (15.04) cu valoarea aferentă a pragului de semnificaţie: p<0.001.

Valoarea testului chi-pătrat fiind mai mică decât nivelul alfa 0.05, se respinge ipoteza de nul şi se confirmă ipoteza cercetării: există o incidenţă mai mare a reacţiei de stres postraumatic la femei decât la bărbaţi.

În raportarea statisticii chi-pătrat va fi inclusă valoarea gradelor de libertate (df) şi numărul cazurilor

Valoarea lui chi-pătrat se raportează cu două zecimale

- 58 -

Page 59: Aplicatii SPSS

Graficul de tip bară permite vizualizarea relaţiei dintre variabile.

Testul Chi-pătrat pentru corespondenţă (goodness of fit)

UtilizareTestul chi-pătrat pentru gradul de corespondenţă se utilizează atunci când dorim

să comparăm frecvenţele observate unei singure variabile categoriale cu frecvenţele aşteptate, dinainte cunoscute.

Exemplul 1: Avem evaluarea nivelului de inteligenţă pe cinci categorii valorice, de la foarte slab, la foarte bun şi dorim să ştim dacă distribuţia acestor calificative se supune curbei normale, procentele aferente pe curba normală fiind cunoscute (2.5%, 14%, 67%, 14%, 2.5%).

Exemplul 2: Am solicitat unui grup de tineri să îşi exprime genul muzical preferat şi am obţinut frecvenţe diferite pentru mai multe genuri de muzică. Problema este dacă diferenţele dintre aceste frecvenţe sunt semnificative, presupunând că, dacă nu ar fi semnificative proporţiile preferinţelor pentru genurilor muzicale, ar trebui să fie identice (adică, dacă ar fi trei genuri, fiecare ar trebui să întrunească un procent de 33.33%).

Aranjarea datelorVom exemplifica pe o situaţie corespunzătoare celui de-al doilea exemplu. Baza

de date se poate constitui fie prin înregistrarea fiecărui caz în parte (având o variabilă pentru genul muzical şi o alta pentru exprimarea preferinţei faţă de acesta), fie, ca în exemplul anterior, prin înregistrarea rezultatelor sintetice şi ponderarea variabilei gen_muz cu variabila frecv prin operaţia Data-Weight cases...:

- 59 -

Page 60: Aplicatii SPSS

Procedura: Statstics-NonParametric-Tests-Chi-Square...

În caseta Chi-Square Test se trece variabila analizată în zona Test Variable List.

Se bifează All categories equal, acesta fiind modelul în raport cu care dorim să testăm frecvenţele variabilei analizate

Dacă am fi dorit să le testăm în raport cu alte frecvenţe cunoscute, am fi bifat Values şi, apoi, am fi introdus pe rând acele frecvenţe (scriindu-le în dreptul lui Values şi înregistrându-le prin butonul Add)

Rezultate

Cele două tabele cu rezultate din Viewer prezintă: Frecvenţele observate, frecvenţele aşteptate şi valorile reziduale (diferenţa

dintre frecvenţe) pentru cele trei genuri muzicale Valoarea testului Chi-pătrat al corespondenţei (12.17), df(2) şi p=0.002

Acest rezultat justifică respingerea ipotezei de nul şi acceptarea concluziei că subiecţii diferenţele dintre preferinţele pentru cele trei genuri muzicale sunt semnificative şi nu se datorează variaţiei întâmplătoare de eşantionare.

- 60 -