caietspss[1]

95
UNIVERSITATEA DE ŞTIINŢE AGRICOLE ŞI MEDICINĂ VETERINARĂ CLUJ-NAPOCA Prelucrarea datelor statistice în cercetarea de Marketing cu SPSS sub Windows ~îndrumar de lucrări practice pentru studenţii agronomi ~

Upload: api-3729398

Post on 07-Jun-2015

5.213 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: CaietSPSS[1]

UNIVERSITATEA DE ŞTIINŢE AGRICOLE ŞI MEDICINĂ

VETERINARĂ CLUJ-NAPOCA

Prelucrarea datelor statistice în cercetarea de Marketing cu

SPSS sub Windows

~îndrumar de lucrări practice pentru studenţii agronomi ~

Page 2: CaietSPSS[1]

CUPRINS

Nr. CAPITOL PAG.

Cuvânt înainte 3

1 Introducere 5

2 Interfaţa programului SPSS

3. Introducerea datelor statistice

4. Transferul unei variabile

5. Selectarea unor subiecţi folosind comanda SELECT CASES

6. Sistematizarea datelor în SPSS7. Tabelul de asociere (Crosstabs)8. Elementele unui grafic9. Distribuţii statistice10. Calculul indicatorilor tendinţei centrale ,dispersiei şi formei unei

distribuţii11. Parametrii unei distribuţii bivariate (bidimensionale)12. Verificarea normalităţii unei distribuţii folosind SPSS13. Calculul indicatorilor statisticii descriptive14. Calculul probabilităţilor pentru distribuţii normale folosind SPSS15. Estimarea prin interval de încredere16. Demersul testării unei ipoteze statistice17. Testarea egalităţii unei medii cu o valoare specificată18. Testarea egalităţii mediilor a două eşantioane perechi19. Testarea egalităţii mediilor a două eşantioane independente

(Independent Samples T Test)20. Testarea egalităţii a trei şi mai multe medii21. Testarea egalităţii unei proporţii cu o valoare specificată (Binomial

Test)22. Testarea egalităţii a două şi mai multe proporţii23. Analiza de corelaţie

ANEXA

4

Page 3: CaietSPSS[1]

Cuvânt înainte

Dragi studenţi,

Îndrumarul de faţă a fost conceput pentru a vă ajuta în reamintirea şi fixarea

cunoştinţelor, dobândite de voi în cadrul seminariilor la disciplina Marketing, menite a

vă familiariza cu mijloacele moderne de prelucrare a datelor culese în urma cercetărilor

de piaţă şi nu numai. Aşadar îndrumarul nu-şi propune să suplinească, o eventuală

absenţă a dumneavoastră de la aceste seminarii, asimilarea informaţiilor prezentate fiind

dificilă fără asistenţa cadrului didactic.

De asemenea, lucrarea nu insistă asupra noţiunilor fundamentale de statistică,

care v-au fost predate la cursul de profil din anul III. Ar putea fi necesară deci,

revizuirea acestor cunoştinţe acolo unde este cazul.

Îndrumarul a fost conceput urmărind structura seminariilor predate studenţilor

din anul V de la profilurile IEA şi IMAPA, folosind pentru alcătuirea bazelor de date,

chiar chestionarele culese de aceştia în practica de vară.

În speranţa că scopul didactic al acestui caiet va fi realizat, vă urăm spor la

învăţat şi multă baftă în sesiune !

Autorii

5

Page 4: CaietSPSS[1]

1. INTRODUCERE

SPSS (Statistical Package for the Social Sciences) este unul dintre cele mai

puternice şi utilizate programe de prelucrare a datelor statistice (aşa numitul data mining)

precum şi a alcătuirii de prognoze. Soft-ul a fost creat în anii ’60 de compania SPSS în a

cărei obiect de activitate este realizarea de software pentru prelucrarea statistică a datelor

şi a ajuns la data scrierii acestui caiet (noiembrie- decembrie 2006) la versiunea 15. Site-

ul companiei poate fi accesat la www.spss.com sau www.spss.ro .

Programul este relativ uşor de asimilat datorită faptului că nu necesită cunoaşterea

detaliată a formulelor de calcul ci doar a ipotezelor verificate de testele statistice.

De exemplu, analiticile SPSS sunt de folos:

• In ciclurile de viaţă ale clienţilor, ca atragerea noilor clienţi, păstrarea cât mai mult timp

a celor mai profitabili şi imbunătăţirea interacţiunilor cu ei

• Cercetătorilor şi analiştilor pentru a descoperi relaţiile şi a identifica tendinţele

• Pedagogilor, pentru a-şi pregăti mai bine studenţii pentru roluri în domeniile comercial,

academic sau public

• Organizaţiilor guvernamentale, care se concentrează pe reducerea fraudei, criminalităţii

si infracţionalităţii

• Comerciantilor independenti de software (ISVs), pentru a-şi spori valoarea soluţiilor

prin integrarea componentelor pre-built ale analiticilor predictive SPSS în aplicaţiile lor.

Enumerăm doar cateva modalităţi prin care clienţii analiticilor predictive SPSS

beneficiază într-o varietate de domenii:

• O bancă lider de piaţă foloseşte SPSS pentru a-şi ţinti mai bine eforturile de marketing,

rezultatele au fost o crestere a vânzărilor si o reducere a costurilor de marketing.

• Un furnizor de servicii de precizie pentru marketing prin e-mail care foloseste software

SPSS pentru a-şi ajuta clienţii să-şi ţintească mai bine campaniile de marketing şi-a sporit

veniturile cu mai mult de 60%

• Un institut de cercetare medicală dintr-un spital important foloseşte software SPSS

6

Page 5: CaietSPSS[1]

pentru a analiza mai eficient datele de expresie a genelor, conducând la progrese rapide în

studiul şi tratamentul tumorilor cerebrale la copii

• Un furnizor de seamă în procesarea plăţilor şi soluţii de detectare a fraudei pentru

comerţul prin Internet foloseşte software SPSS pentru a-şi ajuta clienţii să-şi reducă

pierderile datorate fraudelor.

• O mare companie de servicii financiare foloseşte software SPSS pentru a identifica

locaţii noi, mai profitabile în care să-şi crească afacerile, fapt care s-a soldat cu o

reducere de 50% a erorilor de previzionare

• Un colegiu din California foloseste software SPSS pentru a reduce costurile în

marketingul orientat pe recrutare, a-şi imbunătăţi oferta curiculară şi a creşte retenţia

studenţilor.

2. INTERFAŢA PROGRAMULUI SPSS

In figura 1 este prezentată interfaţa programului SPSS care se prezintă la fel ca

interfeţele programelor de calcul tabelar pe care le cunoaşteţi ( de exemplu programul

EXCEL) Aşa cum puteţi observa, există un meniu (Figura 1, săgeata 1) a cărui butoane

vor fi explicate pe parcursul acestei lucrări.

Spre deosebire de alte programe, numele fiecărei variabile va fi trecut în capul de

tabel în căsuţele numite generic “var” (Figura 1, săgeata 2).

Introducerea datelor se face prin accesarea foii Variable View prin apăsarea butonului cu

acelaşi nume (săgeata 3 din figura 1).

7

Page 6: CaietSPSS[1]

Figura 1 : Interfaţa programului SPSS

1 2

3

8

Page 7: CaietSPSS[1]

3. Introducerea datelor statistice

In fereastra “Variable View” se introduc atributele variabilei: nume (name), tip (type),

lungimea (width), număr zecimale (decimals), eticheta (label), valorile etichetei (values),

valorile lipsă (missing), alinierea (align) şi modalităţile de măsurare a variabilei

(measure) ( scală, ordinal, nominal) (vezi figura 2).

Figura 2: Fereastra Variable View

3.1 Numele variabilei

Numele variabilei se editează în coloana Name ţinând cont de următoarele restricţii :

- să fie unic

- să aibă cel mult 8 caractere

- primul caracter să fie o literă

9

Page 8: CaietSPSS[1]

- ultimul caracter să nu fie “_” (underscore)

- poate să conţină litere, cifre, şi simbolurile @,#, _ , $

- să nu conţină spaţii sau simboluri speciale folosite în SPSS

De exemplu întrebării din baza de date 1 (vezi anexa 1) “ consumaţi produse

alimentare certificate ca fiind ecologice ?” i se va ataşa variabila “consumat” nume ce va

fi trecut în capul de tabel.

3.2. Tipul variabilei

Se realizează în coloana Type . La poziţionarea cursorului pe pătratul gri din dreapta

căsuţei corespunzătoare caracteristicii Type ( vezi Figura 3 săgeata) apare fereastra cu

ajutorul căreia se poate alege tipul variabilei: Numeric ( cu zecimale separate prin virgulă

– Comma sau punct Dot ) , Data, însoţite de un simbol financiar ( de exemplu Dolar) sau

sub forma unui şir de caractere – String (în cazul în care dorim să introducem un cuvânt

sau o frază).

Figura 3: Introducerea atributelor unor variabile

10

Page 9: CaietSPSS[1]

La rubrica Label se introduce eticheta variabilei (Figura 4 Sageata 1) . Această etichetă

reprezintă explicaţiile care vor apărea lângă rapoarte ( grafice sau tabele) atunci când vor

fi realizate.

Atunci când variabilele sunt nominale (categoriale) acestea vor fi introduse codificat de

exemplu răspunsurile la întrebarea 1 vor fi codate astfel:

“1” dacă răspunsul a fost “Deseori”

“2” dacă răspunsul a fost “Câteodată”

“3” dacă răspunsul a fost “Nu”

Acestea vor fi introduse în fereastra ce apare acţionând celula corespunzătoare coloanei

Values (Figura 4 –săgeata 2)

Introducerea valorii se face acţionând butonul “Add” , modificarea unor valori se face

folosind butonul “Change” iar pentru ştergere butonul “Remove” din aceeaşi fereastră.

Pentru a face efective aceste schimbări e necesar să se acţioneze butonul “OK”

Figura 4: Definirea etichetei pentru variabilele statistice

1 2

11

Page 10: CaietSPSS[1]

In practica anchetelor de sondaj se folosesc pentru răspunsurile invalide, codurile:

97 – pentru “nonrăspuns”

98 - pentru “ neaplicabil”

99 - pentru “ răspuns ilizibil”

Analog se introduc toate variabilele necesare.

4. Transformarea unei variabile

Pentru a transforma datele unei variabile se va folosi comanda Recode din meniul

Transform aşa cum se observă în figura de mai jos -săgeata:

Figura 5: Transformarea unei variabile

12

Page 11: CaietSPSS[1]

Recodificarea unei variabile se face fie în aceeaşi variabilă –atunci când vechea variabilă

dispare ( opţiunea Into Same Variables) sau în altă variabilă

( opţiunea Into Different Variables).

In cazul în care a fost aleasă opţiunea schimbării variabilei într-o altă variabilă diferită

apare fereastra Recode into Different Variables

Figura 6: Recodificarea unei variabile

1 2

13

Page 12: CaietSPSS[1]

De exemplu dorim ca vârsta respondenţilor să fie recodificată astfel:

- Pentru cei cu vârsta sub 35 ani codificat iniţial cu valorile 1 şi 2 să atribuim cuvântul

“tineri”

- Pentru vârsta între 35 şi 65 ani codificat cu 3 şi 4 atributul “maturi”

- Pentru vârsta mai mare de 65 ani codificat cu 5 atributul “vârstnici”

Astfel în fereastra de mai sus (figura 6 săgeata 1), în fereastra “Recode into different

values” se selectează variabila “Vârsta”, care, cu ajutorul butonului săgeată din fereastră

se mută în fereastra Numeric Variable ->Output Variable

In caseta Nume se trece numele noii variabile Vârsta1 iar mai jos în caseta Label se trece

eticheta. Se acţionează apoi butonul Change pentru a face schimbările efective. Prin

acţionarea butonului Old and new values apare apoi fereastra Recode into Different

Variables , Old and New Values (figura 6, săgeata 2) . In această fereastră se selectează

opţiunea Output Variables are Strings pentru a putea defini noua variabilă ca şi “string”

(şir de caractere). Pentru a schimba valorile 1 şi 2 cu valoarea “tineri” se selectează

butonul Range iar casetele de editare corespunzătoare sunt folosite pentru a stabili limita

inferioară şi superioară a intervalului dorit (through – de la- până la). Se scrie 1 în caseta

din stânga şi 2 în caseta din dreapta. Apoi se selectează butonul de opţiuni Value şi se

scrie “tineri” în caseta de editare după care se acţionează butonul Add . Se procedează

analog pentru toate categoriile. Prin clic pe butonul de comandă Continue se revine în

fereastra Recode into Different Variables. Prin butonul de comanda OK se va declanşa

recodificarea variabilei. Noua foaie de date apare în foaia de date Data View cu datele de

cod corespunzătoare fiecărui caz. O comandă asemănătoare comenzii Recode este

comanda Compute.

14

Page 13: CaietSPSS[1]

5. Selectarea unor subiecţi folosind comanda SELECT CASES

In meniul Data există comanda Select Cases. Ca urmare se deschide fereastra de dialog

Select Cases. Dorim de exemplu să alegem toate cazurile în care consumatorii consumă

“Câteodată ” produse agroalimentare ecologice.

Figura 7 . Filtrarea variabilelor statistice

Pentru aceasta se acţionează butonul de comandă If care va deschide fereastra Select

cases în care se introduce condiţia de filtrare “consumat” =2, consumat fiind numele

variabilei prin care au fost codificate răspunsurile la întrebarea “ Consumaţi produse

alimentare certificate ca fiind ecologice”

( vezi anexa ). Butonul de comandă Continue determină revenirea la fereastra Select

Cases în care se activează butonul de comandă OK pentru a obţine fişierul filtrat. Astfel

în foaia Data View din fereastra Data Editor, cazurile anulate sunt tăiate printr-un slash

15

Page 14: CaietSPSS[1]

(/ -linie oblică) ( vezi săgeata din figura de mai sus). Aceste cazuri nu vor fi folosite la

nici o raportare.

6. Sistematizarea datelor în SPSS

Sistematizarea datelor în SPSS poate fi realizată prin opţiunea Frequencies subordonată

comenzii Descriptive Statistics din meniul Analyze (vezi figura 8). Activarea opţiunii

Frequencies determină deschiderea ferestrei Frequencies.

Figura 8: Activarea opţiunii Frequencies

Din partea din stânga a ferestrei Frequencies se selectează variabila dorită prin click de

mouse, apoi este mutată prin acţionarea butonului săgeată în caseta Variables. Prin

butonul de comandă OK se obţine Tabelul de frecvenţă afişat în fereastra de rezultate

Output Viewer.

16

Page 15: CaietSPSS[1]

Intr-un tabel de frecvenţă sunt prezentate pentru fiecare variabilă selectată, următoarele

elemente:

- valorile sau clasele de valori ale variabilei, efectivul

- procentele

- procentele cumulate corespunzătoare ( suma procentelor categoriilor inferioare)

7. Tabelul de asociere (Crosstabs)

Acest tip de tabel este folosit pentru prezentarea relaţiilor dintre două variabile

categoriale. In fiecare rubrică (celulă) este prezentată frecvenţa parţială aşa cum va fi

selectată.

Obţinerea unui tabel de asociere în SPSS presupune alegerea opţiunii Crosstabs,

subordonată comenzii Descriptive Statistics din meniul Analyze (figura 9).

Figura 9 Obţinerea tabelului de asociere Crosstabs

17

Page 16: CaietSPSS[1]

După ce se selectează această opţiune , apare pe monitor fereastra Crosstabs în cadrul

căreia selectăm variabile pentru rânduri şi coloane. Se observă în fereastra Crosstabs

posibilitatea de a alege mai multe opţiuni care apar în fereastră (figura 10):

Numere observate- Observed

Efective sperate - Expected

Percentages: - Pe rânduri –Row, pe coloane –Column, pe total – Total

Residuals: se referă la abateri Standardizate , nestandardizate, ajustate.

Figura 10: Alegerea opţiunilor pentru alcătuirea tabelelor

18

Page 17: CaietSPSS[1]

8. Elementele unui grafic

Se pot executa o mulţime de aplicaţii grafice cu ajutorul programului SPSS. Acestea se

pot găsi în meniul Graphs (figura 11)

Figura 11. Alegerea tipurilor de grafic din Meniul Graph

Line- Diagrama liniară

Pie- diagrama pe structură plăcintă

Boxplot – Diagrama “cutia cu mustăţi” este folosită pentru a prezenta amplitudinea,

intervalul interquartilic şi mediana unei distribuţii

Error Bar - Diagrama “bara erorilor” este folosită pentru a arăta media şi intervalul de

încredere de 95% pentru media respectivă.Scatter – Diagrama “norul de puncte” este

folosită pentru a reprezenta relaţiile dintre variabile

19

Page 18: CaietSPSS[1]

Histograma – Este folosită pentru a arăta forma unei distribuţii după o variabilă

înregistrată asupra unei colectivităţi.

8.1. Histograma – permite vizualizarea formei unei distribuţii statistice, după o

variabilă cantitativă continuă divizată pe intervale egale sau inegale. Construcţia

histogramei se face într-un sistem de de două axe rectangulare: pe abscisă se înscriu

valorile variabilei cantitative sub formă de intervale (clase de valori) iar pe ordonată

numărul de observaţii sau frecvenţa corespunzătoare fiecărui interval. Pentru variabila

cantitativă se ia un număr de intervale (k) egal cu rădăcina pătrată din numărul de

observaţii (n) sau k= 1+ 3.322lg n. Comanda Histogram se obţine din meniul Graphs.

( vezi figura 12 de mai jos). In fereastra Histogram se poate alege opţiunea Display

normal curve (vezi săgeata) pentru redarea distribuţiei normale.

Figura 12: Obţinerea histogramei din comanda Graphs

20

Page 19: CaietSPSS[1]

Forma grafică a histogramei este redată în figura de mai jos.

Figura 13: Forma grafică a histogramei

Varsta aproximativa

4.03.02.01.0

30

20

10

0

Std. Dev = .59

Mean = 2.0

N = 38.00

O altă modalitate de obţinere a histogramei este alegerea comenzii Interactive cu

opţiunea Histogram din meniul Graphs .

A treia modalitate constă în accesarea meniului Analyze -> Descriptive Statistics ->

Frequencies -> Charts -> Histogram.

8.2. Diagrama Boxplot

Diagrama Boxplot este folosită pentru prezentarea unei distribuţii după o variabilă

numerică , chiar atunci când numărul datelor de care dispunem este mic. Construcţia sa

presupune ordonarea datelor şi împărţirea lor în patru grupe , fiecare variabilă

reprezentând 25% din distribuţie. Sunt marcate astfel cinci valori ale variabilei şi anume:

valoarea minimă şi valoarea maximă, fără outlieri , quartila 1, quartila 2 şi mediana ( vezi

figura)

21

Page 20: CaietSPSS[1]

Figura 14. Diagrama BoxPlot

Maximum (fără outlieri)

Percentila 75 ( Quartila 3)

Mediana (Quartila 2)

Percentila 25 (Quartila 1)

Minimum (fără outlieri)

9. Distribuţii statistice

In general, un fenomen pentru a putea fi descris în termeni statistici trebuie să evalueze

după o anumită lege- adică să-i poată fi descrisă evoluţia după anumite coordonate. Cea

mai cunoscută lege , inclusiv în agricultură este distribuţia normală. Exemple de

distribuţie normală: producţia de grâu la hectar la nivelul fermelor, cantitatea de

precipitaţii căzute în luna iulie din ultimii 100 ani , samd. De exemplu, putem considera

producţia medie de grâu la hectar în ultimii 30 de ani, ca fiind 3000 kg/ha (figura de mai

jos)

Aceasta nu înseamnă că în fiecare an s-au obţinut recolte de 3000 kg /ha ci înseamnă că

s-au obţinut recolte mai mici sau mai mari în jurul acestei valori. Totuşi putem spune că

este mult mai probabil să întâlnim o recoltă de 3500 kg/ha decât o recoltă de 10.000 de

kg/ha. Deci cu cât ne îndepărtăm de valoarea medie cu atât producţia respectivă este mai

22

Page 21: CaietSPSS[1]

greu de obţinut. Acest aspect este redat de curba de mai jos care reflectă distribuţia de

probablitate într-un astfel de caz , distribuţie numită “normală” . O astfel de distribuţie se

numeşte normală şi se caracterizează prin doi parametrii: media şi abaterea medie

pătratică (deviaţia standard)

1. Media se notează cu μ= unde xi sunt valorile variabilei

iar N volumul populaţiei

2. Abaterea medie pătratică (deviaţia standard) măsoară dispersia în jurul mediei şi se

calculează ca rădăcină pătrată din varianţă

σ = unde

Figura 15: Curba distribuţiei normale

In Statistică se defineşte următoarea noţiune: Momentul centrat μ de ordinul k e definit

ca:

Coeficientul de asimetrie a unei distribuţii exprimă gradul de dezechilibru al unei

distribuţii şi se calculează ca raport dintre momentul centrat de ordin trei

23

Page 22: CaietSPSS[1]

la puterea a doua şi momentul centrat de ordin doi la puterea a

treia după relaţia: adică

Figura 16: Distribuţia asimetrică cu abaterea spre stânga respectiv spre dreapta

Acest indicator se numeşte Skewness iar atunci când ia valori între –1 şi 0 indică

prezenţa unei distribuţii asimetrice negative cu abatere spre stânga iar când variază între 0

şi 1 indică o distribuţie cu abatere spre dreapta ( vezi figura). Valoarea 0 indică prezenţa

unei distribuţii simetrice.

Coeficientul de boltire sau aplatizare (kurtosis) e o măsură a răspândirii fiecărei

observaţii în jurul valorii centrale. Pentru o distribuţie normală , valoarea kurtosis-ului

statistic e 0 şi se numeşte distribuţie mezocurtică.

Atunci când coeficientul este mai mare ca zero indică o grupare mai puternică a valorilor

în jurul valorii centrale, curba este mai boltită decât o distribuţie normală şi se numeşte

distribuţie leptocurtică. Atunci când coeficientul este mai mic decât zero, indică o

grupare mai slabă în jurul valorii centrale , curba frecvenţelor este mai aplatizată şi se

numeşte distribuţie platicurtică ( vezi figura 17)

Kurtosis-ul:

24

Page 23: CaietSPSS[1]

Figura 17: Distribuţia leptocurtică / platicurtică

10. Calculul indicatorilor tendinţei centrale ,dispersiei şi formei unei

distribuţii

Din meniul Analyze din comanda Descriptive Statistics alegem opţiunea de calcul

Descriptives . După alegerea variabilei pentru care dorim să calculăm parametrii

distribuţiei se deschide fereastra de dialog Descriptives: Options . Din această fereastră

selectăm, prin bifare, în caseta/casetele de validare corespunzătoare ,

indicatorul/indicatorii care urmează a fi calculaţi.

Se pot realiza următoarele calcule:

- Mean (media)

- Sum (suma tuturor observaţiilor)

- Std. Deviation ( abaterea medie pătratică, numită şi abaterea standard)

- Variance (varianţa)

- Range ( amplitudinea variaţiei)

- Minimum şi Maximum (valoarea minimă şi valoarea maximă a variabilei selectate)

- S.E. mean standard Error mean (eroarea medie de selecţie: )

- Kurtosis (boltirea)

- Skewness (asimetria)

25

Page 24: CaietSPSS[1]

Figura 18: Calculul indicatorilor statistici utilizând comanda Descriptive Statistics

Mai există două modalităţi pe care le puteţi aborda pentru a obţine calculul indicatorilor

statisticii descriptive prin opţiunea Frequencies.

- Din Meniul Analyze comanda Descriptive Statistics opţiunea Frequencies

- Din Meniul Analyze comanda Reports opţiunea Case Summaries (Tabel 1)

Tabel 1: Raport obţinut prin comanda Case Summaries privind frecvenţa consumului de

produse ecologice

26

Page 25: CaietSPSS[1]

Case Summaries

Consumati produse alimentare certificate ca fiind ecologice ?

2.50 15 .300 .22 .55 6

1.93 54 .439 .13 .66 28

2.67 8 .333 .33 .58 3

3.00 3 . . . 1

2.11 80 .475 .11 .69 38

Varsta aproximativa<18 ani

18-35 ani

35-50 ani

50-65 ani

Total

Mean Sum VarianceStd. Errorof Mean Std. Deviation N

11. Parametrii unei distribuţii bivariate (bidimensionale)

Distribuţia de frecvenţă : “Consumaţi produse alimentare certificate ca fiind ecologice ?”

şi “Vârsta aproximativă a respondentului” exprimă distribuţia eşantionului de persoane

observate simultan după cele două variabile considerate , adică arată câte persoane dintr-

o anumită categorie de vârstă au un anumit nivel al venitului. Distribuţia bivariată se

poate obţine pe mai multe căi:

- meniul Analyze comanda Descriptive Statistics opţiunea Crosstabs

- meniul Analyze comanda Reports opţiunea Case Summaries

- meniul Date comanda Split File comanda Analyze Reports OLAP Cubes

Prin demersul AnalyzeDescriptive Statistics Crosstabs se poate obţine o distribuţie

bivariată parcurgând următorii paşi:

- se deschide fereastra de dialog Crosstabs , în care selectăm variabilele “consumat” şi

“vârsta” , din lista variabilelor şi le mutăm în zonele Row(s) şi Column(s)

- din fereastra Crosstabs, activând butonul de comandă Cells, se deschide fereastra

Crosstabs: Cell Display, în care bifăm modul dorit de afişare a frecvenţelor în

crosstable;

- activarea butonului de comandă Continue ne întoarce în fereastra Crosstabs, unde

prin OK se comandă SPSS-ului afişarea raportului(vezi figura 19).

27

Page 26: CaietSPSS[1]

Figura 19: Comandarea raportului bivariat- Crosstabs

28

Page 27: CaietSPSS[1]

S-a obţinut următorul tabel:

Tabel 2: Tabel privind frecvenţa consumului în funcţie de vârstă

Consumati produse alimentare certificate ca fiind ecologice ? * Varsta aproximativa Crosstabulation

7 7

100.0% 100.0%

3 16 1 20

15.0% 80.0% 5.0% 100.0%

3 5 2 1 11

27.3% 45.5% 18.2% 9.1% 100.0%

6 28 3 1 38

15.8% 73.7% 7.9% 2.6% 100.0%

Count

% within Consumatiproduse alimentarecertificate ca fiindecologice ?

Count

% within Consumatiproduse alimentarecertificate ca fiindecologice ?

Count

% within Consumatiproduse alimentarecertificate ca fiindecologice ?

Count

% within Consumatiproduse alimentarecertificate ca fiindecologice ?

deseori

cateodata

nu

Consumati produsealimentare certificateca fiind ecologice ?

Total

<18 ani 18-35 ani 35-50 ani 50-65 ani

Varsta aproximativa

Total

12. Verificarea normalităţii unei distribuţii folosind SPSS

29

Page 28: CaietSPSS[1]

Majoritatea testelor statistice şi a procedeelor de modelare statistică cer îndeplinirea

condiţiilor de normalitate pentru a putea fi interpretate. Prin urmare e deosebit de

important să se determine dacă eşantionul observat provine dintr-o populaţie normal

distribuită.

Vizualizarea grafică a diferenţelor dintre o distribuţie empirică şi distribuţia teoretică

folosind histograma, boxplot, PP-plot şi QQ-plot sau folosind teste statistice .

Pentru aceasta vom folosi baza de date grau.sav. Această bază de date are câmpurile:

grau2003, prod2003, grau2004 şi prod2004 care reprezintă rezultatele unui sondaj

privitoare la suprafeţele cultivate cu grâu în fiecare fermă (ha) (grâu2003 respectiv

grâu2004 ) şi producţia obţinută la această recoltă în anii 2003 şi 2004 (prod2003 şi

prod2004 în tone). Acolo unde datele lipsesc fermierii fie nu au cultivat grâu fie au omis

să declare producţiile obţinute. Aşa cum deja s-a arătat, cu ajutorul comenzii Transform

Compute se calculează randamentele pe fermă pentru fermele care au cultivat grâu

obţinând câmpurile rand2003 şi rand2004 astfel:

rand2003= prod2003/supr2003 iar rand2004=prod2004/supr2004.

Nu uitaţi condiţia de filtrare: prod2003&supr2003>0 respectiv prod2004&supr2004>0

pentru a elimina valorile lipsa (figura 20).

Figura 20: Aplicarea filtrelor privitoare la cultura de grâu în anul 2003

30

Page 29: CaietSPSS[1]

Pentru vizualizarea formei grafice a distribuţiei considerăm procedeul histogramei.

Reamintim: meniul GraphsHistogram se bifează caseta de validare Display normal

curve (vezi figura 21 de mai jos) şi alegem de exemplu variabila rand2004.

31

Page 30: CaietSPSS[1]

Figura 21: Comenzi pentru vizualizarea distribuţiei normale prin diagrama Histogram

Se obţine următoarea histogramă:

RAND2004

9.08.07.06.05.04.03.02.01.0

20

10

0

Std. Dev = 1.25

Mean = 3.3

N = 48.00

Se poate observa că distribuţia corespunde aproximativ distribuţiei normale.

32

Page 31: CaietSPSS[1]

Alte modalităţi grafice sunt procedeele Q-Q plot şi P-P plot (vezi figurile 22,23 ) Q-Q

plot compară valorile ordonate ale variabilei observata cu valorile quantilice ale

distribuţiei teoretice specificate (în cazul nostru distribuţia normală). Dacă distribuţia

variabilei testate este normală , atunci punctele Q-Q conturează o linie care se suprapune

cu dreapta care reprezintă distribuţia teoretică adică trece prin origine şi are panta egală

cu unu. In diagramă Q-Q plot se observă că punctele nu sunt serios deviate de la linia

dreaptă în cazul randamentelor obţinute în anul 2004 ceea ce arată o distribuţie normală.

Aceeaşi interpretare grafică avem şi pentru diagrama PP plot care compară funcţia de

repartiţie a distribuţiei unei variabile empirice cu funcţia de repartiţie a unei distribuţii

teoretice specificate (în cazul nostru, funcţia distribuţiei normale standard).

Figura 22: Diagrama Q-Q plot

Normal Q-Q Plot of RAND2004

Observed Value

1086420

Exp

ecte

d N

orm

al V

alue

7

6

5

4

3

2

1

0

Figura 23 Diagrama P-P plot

Normal P-P Plot of RAND2004

Observed Cum Prob

1.00.75.50.250.00

Exp

ect

ed

Cu

m P

rob

1.00

.75

.50

.25

0.00

33

Page 32: CaietSPSS[1]

Observaţie: Procedeele grafice sunt procedee intuitive, bazate pe impresii vizuale fiind

astfel încărcate cu subiectivism. Putem doar să estimăm veridicitatea ipotezei distribuţiei

normale a variabilelor.

O altă modalitate de a verifica normalitatea pentru o anumită variabilă –în cazul nostru-

randamentele obţinute în anul 2003 respectiv 2004 este următoarea ( aplicarea testului

Kolmogorov Smirnov-Lilliefors):

Selectarea opţiunii: Analyze ->Nonparametric Tests 1 Sample K-S (figura 24)

Figura 24: Selectarea testului Kolmogorov-Smirnof pentru verificarea normalităţii

34

Page 33: CaietSPSS[1]

La rubrica Test Variable List se alege variabila de testat: rand2003 obţinându-se

următorul tabel:

Tabel 3: Raport privind testul Kolmogorov-Smirnov

One-Sample Kolmogorov-Smirnov Test

48

2.7192

.9157

.138

.138

-.079

.957

.320

N

Mean

Std. Deviation

Normal Parameters a,b

Absolute

Positive

Negative

Most ExtremeDifferences

Kolmogorov-Smirnov Z

Asymp. Sig. (2-tailed)

RAND2003

Test distribution is Normal.a.

Calculated from data.b.

Concluzia normalităţii o putem trage din studiul coeficientului sig. (ultimul rând). Acest

coeficient ia valori între 0 şi 1. In funcţie de valoarea acestuia ipoteza de nul

“ Distribuţia nu e normală ” se respinge sau se acceptă!

Astfel: dacă valoarea coeficientului sig<0,05 ipoteza de nul se respinge cu o probabilitate

de 95%

- dacă valoarea coeficientului sig<0,01 ipoteza de nul se respinge cu o probabilitate de

99%

In cazul de faţă valoarea lui Sig de 0,320 este mai mare decât 0,05 în consecinţă

acceptăm ipoteza de normalitate.

Procedăm analog şi pentru variabila rand2004 şi observăm că şi în acest caz distribuţia

este normală.

13. Calculul indicatorilor statisticii descriptive

Folosim baza de date “grau” .

Dorim să examinăm indicatorii acestei distribuţii. Pentru aceasta efectuăm selecţiile

următoare: meniul Analyze, comanda Descriptive Statistics , opţiunea Frequencies. In

35

Page 34: CaietSPSS[1]

fereastra Frequencies se deschide fereastra de dialog cu acelaşi nume din care, prin clic

pe butonul Statistics se deschide butonul Frequencies: Statistics din care se pot selecta

parametrii doriţi, prin bifare în casetele de validare corespunzătoare (vezi figura 25)

Figura 25: calculul indicatorilor statisticii descriptive

Obţinem un tabel de forma (tabel 4):

Tabel 4: Raport privind indicatorii statisticii descriptive

36

Page 35: CaietSPSS[1]

Statistics

RAND200448

45

3.3402

3.1000

1.2478

1.571

.343

6.008

.674

Valid

Missing

N

Mean

Median

Std. Deviation

Skewness

Std. Error of Skewness

Kurtosis

Std. Error of Kurtosis

O altă modalitate de calcul a acestor indici este:

Meniul Analyze Reports Case Summaries. Această opţiune deschide fereastra

Summary Report: Statistics, de unde se pot selecta parametrii doriţi (vezi figura 26):

Figura 26: Calculul indicatorilor statisticii descriptive prin comanda Case Summaries

37

Page 36: CaietSPSS[1]

14. Calculul probabilităţilor pentru distribuţii normale folosind SPSS

Dorim să aflăm probabilitatea ca o valoare a unei variabile aleatorii distribuită normal să

aparţină unui interval. Dintre funcţiile disponibile în acest sens sunt funcţiile

CDF.NORMAL şi IDF.NORMAL

Pentru funcţia CDF.NORMAL sintaxa este următoarea:

CDF.NORMAL(q,mean,stddev) unde mean- valoarea medie a distribuţiei iar stddev-

deviaţia standard calculate aşa cum am văzut în precedentul capitol.

Dorim de exemplu să calculăm, dată fiind distribuţia rand2004- (randamentele la hectar

pentru grâu în anul 2004 aşa cum reiese din eşantion), care este probabilitatea de a obţine

o recoltă de sub 3 t/ha. Litera “q” din sintaxa funcţiei CDF.NORMAL va fi înlocuită cu

cifra 3 deoarece reprezintă valoarea în funcţie de care calculăm probabilitatea. Demersul

e următorul:

Se alege meniul Transform comanda Compute (figura 27)

- In zona Target Variable din fereastra Compute Variable introucem numele variabilei

pentru a cărei valoare dorim să calculăm probabilitatea , de exemplu “prob3”

- In zona Numeric Expression introducem expresia funcţiei , selectată din lista

Functions , CDF.NORMAL (q,mean,stddev) unde q este o valoare a variabilei X.

Pentru exemplul dat, CDF.NORMAL (3,3.34,1.24), 3.34 fiind valoarea medie, iar

1.24 deviaţia standard pentru această variabilă (rand2004).

- Prin butonul OK se comandă calculul propriu-zis al probabilităţii

38

Page 37: CaietSPSS[1]

Figura 27 : Calculul probabilităţilor pentru distribuţii normale folosind SPSS

După apăsarea butonului OK se va obţine probabilitatea P(rand2004<3)= 0.39 care apare

în celula de sub numele variabilei prob3.

39

Page 38: CaietSPSS[1]

Putem spune astfel că probabilitatea ca un fermier să obţină la grâu o recoltă de sub 3t/ha

este de 39% , şi în acelaşi timp, putem spune că probabilitatea de a obţine o recoltă de

peste 3t/ha este de 61 % (100%-39%). Dacă dorim ca să aflăm probabilitatea ca recolta

unui fermier să fie între 3 şi 4 tone calculăm P(rand2004<4) – P(rand2004<3) urmărind

acelaşi demers.

Se obţine astfel o probabilitate de 0,31% ca un fermier să aibă o producţie de grâu, între 3

şi 4 tone/hectar (vezi săgeata figura 28)

Figura 28: Calcul al probabilităţilor pentru distribuţia normală

40

Page 39: CaietSPSS[1]

Pentru operaţiunea inversă, adică de a afla care este valoare distribuţiei pentru care

probabilitatea este mai mică de o anumită valoare se foloseşte funcţia

IDF.NORMAL(prob,mean,stddev). Astfel, dacă vrem să aflăm valoarea sub care în anul

2004 au coborât 10% din fermieri vom calcula valoarea funcţiei

IDF.NORMAL(0.1,3.34,1.24) urmărind acelaşi demers ca cel descris pentru funcţia

CDF.NORMAL.

Valoarea obţinută este de 1.75 t/ha. Putem spune deci, că 10% dintre fermieri au obţinut o

recoltă de sub 1.75 t/ha la grâu în anul 2004.

Figura 28. Calculul probabilităţilor prin funcţia IDF Normal

41

Page 40: CaietSPSS[1]

15. Estimarea prin interval de încredere

Alegerea unui eşantion dintr-o anumită populaţie are o anumită valoare de

reprezentativitate. Asta înseamnă că caracteristicile acelui eşantion aproximează cu o

oarecare probabilitate caracteristicile întregii populaţii. De exemplu nu putem spune cu

siguranţă că media celor 48 de înregistrări ce fac parte din eşantionul rand2004 este exact

media înregii populaţiei datorită factorilor aleatorii ce au intervenit în formarea acestui

eşantion. Dar putem estima media printr-un interval “de încredere”. Astfel nu putem

spune cu siguranţă cât e media populaţiei dar putem spune cu o anumită probabilitate în

ce interval se încadrează.

Calculăm de exemplu, valoarea medie pentru variabila rand2004.

Selectăm meniul Analyze comanda Descriptive Statistics opţiunea Explore

(figura 29)

- In fereastra Explore selectăm variabila dorită (rand2004) şi o mutăm în zona

Dependent List

- Activăm butonul de comandă Statistics care deschide fereastra Explore:Statistics,

unde bifăm caseta de validare Descriptives şi precizăm în caseta Confidence Interval

for Mean (săgeata) nivelul de încredere dorit ( implicit e 95%).

- Butonul de comandă Continue determină revenirea în fereastra Explore, din care

activăm OK pentru a comanda afişarea rezultatelor în fereastra Output

42

Page 41: CaietSPSS[1]

Tabel 29: Estimarea prin interval de încredere

43

Page 42: CaietSPSS[1]

Se obţine raportul de mai jos (Tabel 5):

Tabel 5: Raport privind estimarea prin interval de încredere

Descriptives

3.3402 .1801

2.9779

3.7025

3.2489

3.1000

1.557

1.2478

.75

8.62

7.87

1.4219

1.571 .343

6.008 .674

Mean

Lower Bound

Upper Bound

95% ConfidenceInterval for Mean

5% Trimmed Mean

Median

Variance

Std. Deviation

Minimum

Maximum

Range

Interquartile Range

Skewness

Kurtosis

RAND2004Statistic Std. Error

In dreptul menţiunii Mean (media) observăm valoarea media a eşantionului, 3,3402 t/ha –

randament mediu la grâu în anul 2004. Limitele intervalului de încredere se găsesc în

dreptul menţiunii “95% Confidence Interval for Mean” cu limita inferioară “ Lower

Bound” = 2.9779 şi limita superioară

“ Upper Bound” = 3.7025. Putem spune aşadar cu o încredere de 95% că producţia medie

la hectarul de grâu, pentru anul 2004 este între 2,97 t/ha şi 3,7 t/ha. Cu alte cuvinte, dacă

44

Page 43: CaietSPSS[1]

s-ar repeta studiul de 100 de ori ( adică dacă s-ar înregistra 100 de eşantioane,

independente şi identic observate) datele obţinute pentru 95 de eşantioane s-ar încadera în

acelaşi interval de încredere,numai 5 din cele 100 de eşantioane fiind susceptibile să dea

valori în afara limitelor intervalului de încredere calculat.

16. Demersul testării unei ipoteze statistice

Demersul testării unei ipoteze presupune parcurgerea unor etape după cum urmează:

1. Se formulează ipotezele, în funcţie de problema pusă;

2. Se alege un test statistic în funcţie de distribuţia de selecţie a statisticii considerate

3. Se alege un prag de semnificaţie pentru test

4. Se stabilesc regulile de decizie , definind regiunile de “acceptare” şi de “respingere” a

ipotezei H0

5. Se calculează valoarea statisticii test, folosind datele înregistrate prin sondaj

6. Se compară valoarea calculată a statisticii test cu valoarea teoretică

7. Se ia decizia de a nu respinge sau de a respinge ipoteza admisă

O ipoteză statistică este o presupunere cu privire la un parametru al unei distribuţii date

sau cu privire la legea de probabilitate a populaţiei studiate. Exemplu: ipoteza de egalitate

a mediilor pentru a verifica dacă sunt diferenţe semnificative între populaţiile din care s-

au extras eşantioanele observate.

In procesul de testare statistică , se formulează ipoteza nulă şi ipoteza alternativă.

Ipoteza nulă (ipoteza de nul). Ipoteza nulă pe care dorim să o testăm este notată H0. Prin

ipoteza nulă H0 se admite , în principal, că nu există nici o diferenţă între valorile

comparate. Ipoteza nulă H0 este ipoteza pe care, de fapt, dorim să o discredităm.

Ipoteza alternativă Ipoteza alternativă , ipoteza pe care dorim să o testăm în opoziţie cu

ipoteza nulă, se notează cu H1. Ipoteza alternativă este cea care va fi acceptată dacă, prin

45

Page 44: CaietSPSS[1]

regula de decizie, se va respinge ipoteza nulă. Ipoteza H1 este cea pe care, de fapt, vrem

să o dovedim ca fiind adevărată.

17. Testarea egalităţii unei medii cu o valoare specificată

Testarea egalităţii se face cu ajutorul “One-Sample T Test”

Din meniul Analyze comanda Compare Means opţiunea One- Sample t test

Dorim, de exemplu să observăm dacă fermierii consideraţi au obţinut în anul 2003 un

randament mai mare la grâu decât media pe ţară. Astfel din anuarul statistic (

www.insse.ro) obţinem că producţia medie de grâu în Romania a fost în anul 2003 de

1428 kg/ha.

După selectarea opţiunii One-Sample T Test, se parcurg următorii paşi (figura 30):

- Selectăm în fereastra One-Sample T Test variabila vârsta şi o mutăm în zona Test

Variable (s);

- Specificăm valoarea dorită 1.428 în zona de editare Test Value

- Activăm butonul de comandă Options care deschide fereastra One-Sample T

Test:Options în care, în zona Confidence Interval alegem gradul de încredere 95%

după care acţionăm butonul de comandă Continue pentru a reveni în fereastra Sample

T Test

46

Page 45: CaietSPSS[1]

Figura 30: Demersul alegerii testului student pentru compararea unui eşantion cu o

valoare constantă “One_Sample T Test”

- Acţionăm butonul OK şi comandăm SPSS obţinerea raportului

Tabelul 6: Raport “One-Sample Statistics”

One-Sample Statistics

48 2.7192 .9157 .1322RAND2003N Mean Std. Deviation

Std. ErrorMean

Tabelul 7: Raport “One-Sample Test”

47

Page 46: CaietSPSS[1]

One-Sample Test

9.769 47 .000 1.2912 1.0253 1.5570RAND2003t df Sig. (2-tailed)

MeanDifference Lower Upper

95% ConfidenceInterval of the

Difference

Test Value = 1.428

In raportul “One-Sample Statistics” sunt redate

- N- mărimea eşantionului (numărul de răspunsuri din eşantion -48)

- Mean – media eşantionului

- Std. Deviation – deviaţia standard

- Std. Error Mean – eroarea standard a mediei

In output-ul “One-Sample Test”

- Test Value – valoarea cu care s-a comparat media eşantionului

- T – rezultatul statisticii Student

- df- numărul gradelor de libertate ale statisticii ( se calculează ca mărimea eşantionului

(48) –1)

- Sig. – gradul de siguranţă al acceptării ipotezei de nul. Explicaţia acestui coeficient a

mai fost oferită pe parcursul acestui caiet ( Vezi verificarea ipotezei de normalitate –

testul Kolmogorov-Smirnof-Lillefors)

- Mean Difference – diferenţa dintre media eşantionului şi valoarea testată

( Mean – Test Value adică 2.7192 – 1.428 = 1.2912 )

- 95% Confidence Interval of the difference - Intervalul de încredere al valorii Mean

Difference cu limita inferioară (lower) şi limita superioară ( upper)

Ipoteza de nul în cazul de faţă este H0: media eşantionului nu diferă foarte mult de

producţia medie înregistrată în agricultura României . Pentru acceptarea/respingerea

acestei ipoteze studiem valoarea coeficientului Sig.

Se observă din valoarea acestuia: Sig= 0.000 că ipoteza de nul este respinsă cu o

probabilitate de 100 % sau că este “acceptată” cu o probabilitate de 0%. Concluzia de

respingere a ipotezei de nul poate fi respinsă şi studiind intervalul de încredere al “Mean

48

Page 47: CaietSPSS[1]

Difference” interval ce nu conţine valoarea zero. Faptul că acest interval nu conţine

valoarea zero înseamnă că diferenţa celor 2 medii ( a eşantionului şi valoarea testată) nu

poate fi zero deci mediile nu pot fi egale.

Tragem deci concluzia că între media randamentele înregistrate la grâu , pentru

eşantionul considerat în anul 2003 şi media randamentelor înregistrate pe ţară la grâu,

există o diferenţă cu 1.2912 t/ha ( Mean Difference).

18. Testarea egalităţii mediilor a două eşantioane perechi

Paired –Samples T Test este un procedeu care se aplică în cazul eşantioanelor

dependente. Prin acest procedeu , se compară mediile pentru un singur grup observat în

momente diferite. Adesea prin acest test se observă aceiaşi subiecţi în două momente

diferite, verificându-se dacă diferenţele dintre valorile medii sunt semnificative. Se

calculează diferenţele dintre valorile celor două variabile pentru fiecare caz în parte şi se

testează dacă diferenţele dintre mediile acestora diferă de zero.

Demersul folosit în SPSS este: meniul Analyze comanda Compare Means opţiunea

Paired-Samples T Test

Exemplu: Considerăm variabilele rand2003 şi rand2004 . Dorim să verificăm

dacă nivelul mediu al randamentelor la grâu în anul 2004 este mai mare sau mai mic

decât în anul 2003.

Pentru aceasta selectăm în fereastra de dialog Paired Samples T Test prima variabilă

rand2003 prin clic asupra ei vom vedea că SPSS o mută în Current Selections (în partea

din stânga jos a ferestrei) ca Variable 1;

- Mutăm perechea de variabile în zona Paired Variables (în partea dreaptă a ferestrei

dialog) (vezi figura de mai jos).

Figura 30: Demersul alegerii testului student pentru compararea unui eşantion cu o

valoare constantă “One_Sample T Test”

49

Page 48: CaietSPSS[1]

Intervalul de încredere al ipotezei de nul se poate modifica ( implicit e 95%) apăsând

butonul Options…

- Prin apăsarea butonului de comandă OK se obţine output-ul prezentat mai jos.

Tabelul 8: Raportul “Paired Samples Statistics”

Paired Samples Statistics

2.8285 41 .9183 .1434

3.3161 41 .9485 .1481

RAND2003

RAND2004

Pair1

Mean N Std. DeviationStd. Error

Mean

50

Page 49: CaietSPSS[1]

Tabelul 9 : Raportul “Paired Samples Test”

Paired Samples Test

-.4876 .6785 .1060 -.7017 -.2734 -4.602 40 .000RAND2003 - RAND2004Pair 1Mean Std. Deviation

Std. ErrorMean Lower Upper

95% ConfidenceInterval of the

Difference

Paired Differences

t df Sig. (2-tailed)

In tabelul “Paired Samples Statistics” la rubrica “ Mean” sunt prezentate mediile celor

două eşantioane rand2003 respectiv rand2004 .

In tabelul “Paired Samples Statistics” studiem valoarea lui Sig., care este 0.000. De

asemenea constatăm că intervalul de încredere nu conţine valoarea zero. Ipoteza de nul se

respinge, adică putem afirma că între randamentele înregistrate în anul 2003 respectiv

2004 există diferenţe semnificative. Astfel în acelaşi tabel la rubrica “Mean” putem

constata valoarea acestei diferenţe : -0.4876. Putem spune deci că, pe ansamblu ,

randamentele obţinute la grâu în anul 2003 sunt mai mici decât cele obţinute în anul

2004, în medie cu 487,6 kg/ha.

19. Testarea egalităţii mediilor a două eşantioane independente

(Independent Samples T Test)

Independent Samples T Test este un procedeu care se aplică în cazul eşantioanelor

independente. Prin acest procedeu se testează dacă mediile a două grupe sunt egale.

Exemplu: (Folosim din nou, baza de date IEA.sav aflată pe CD) Dorim să aflăm dacă

între două categorii de vârstă ale consumatorilor există diferenţe

semnificative cu privire la frecvenţa consumului de alimente ecologice.

Demersul testării folosind SPSS este: meniul Analyze

comanda Compare Means opţiunea Independent-Samples T Test

51

Page 50: CaietSPSS[1]

Figura 31: Demersul alegerii testului student pentru compararea egalităţii mediilor a

două eşantioane independente (Independent-Samples T Test)

In fereastra Test Variable(s) (figura 31 )mutăm variabila consumat iar în fereastra

Grouping Variable mutăm variabila vârsta. Acţionăm apoi butonul Define Groups… şi

definim cele două grupuri ce aparţin variabilei vârsta:

“2” – care descrie categoria de respondenţii între 18-35 ani şi “3” care descrie categoria

de respondenţi între 35 şi 50 ani ( vezi categoriile variabilei vârsta aşa cum au fost

definite). Se obţin tabelele de mai jos (tabelul 10 şi tabelul 11):

Tabelul 10: Raport generat de aplicarea testului “ Independent Samples Test”

52

Page 51: CaietSPSS[1]

Group Statistics

120 2.08 .75 6.82E-02

58 2.12 .68 8.89E-02

Varsta.18-35ani

35-50ani

consumati produsealimentare certificateca fiind ecologice

N Mean Std. DeviationStd. Error

Mean

Tabelul 11: Raport al testului “Independent Sample Test”

Independent Samples Test

.950 .331 -.394 176 .694 -4.57E-02 .12 -.27 .18

-.408 123.229 .684 -4.57E-02 .11 -.27 .18

Equal variancesassumed

Equal variancesnot assumed

consumati produsealimentare certificateca fiind ecologice

F Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

1 2 3

Calculul statisticii test pentru compararea mediilor a două populaţii cere să se verifice

dacă deviaţiile standard la nivelul celor două grupe sunt semnificativ diferite, deoarece

prin ipoteza de nul se presupune că cele două populaţii au varianţe egale. Se foloseşte în

acest scop testul Levene de egalitate a varianţelor ( Levene’s test for equality of

Variances)

Dacă nivelul de semnificaţie observat pentru acest test este mic ( de exemplu mai mic de

0,05) atunci se folosesc varianţe distincte (Equal variance not assumed) pentru testarea

mediilor. Dacă acest nivel este mare, ca în cazul considerat ( Sig. al testului Levene este

egal cu 0,331 –săgeata 1 figura ) atunci se folosesc varianţe comune ( Equal variances

assumed). In această ipoteză se observă că coeficientul Sig. al testului t

( săgeata 2 tabelul 11) este de 0.694 (mai mare decât 0,05) şi ne arată că pentru mediile

celor două grupe nu se poate trage concluzia că diferă semnificativ. Aceeaşi concluzie o

putem trage din studierea intervalului de încredere a diferenţelor (săgeata 3, tabelul 11),

53

Page 52: CaietSPSS[1]

interval care conţine valoarea 0. In concluzie nu se poate trage concluzia că diferenţa

dintre valorile medii ale celor două grupe este semnificativă.

20. Testarea egalităţii a trei şi mai multe medii

ANOVA (Analysis of Variances) este un procedeu de analiză a varianţei unei variabile

numerice sub influenţa unei variabile de grupare.

Prin ANOVA se compară medii pentru trei şi mai multe subpopulaţii definite de

variabila de grupare (variabila independentă). Această metodă permite extensia analizei

realizate prin testul t aplicabil asupra a două medii, la situaţii în care variabila

independentă (variabila de grupare ) prezintă trei şi mai multe categorii (niveluri).

De asemenea , ANOVA poate fi folosită în analiza unor situaţii în care asupra

variabilei numerice ( variabila dependentă) acţionează simultan mai multe variabile

independente. In astfel de cazuri , prin ANOVA se poate prezenta modul în care aceste

variabile independente interacţionează una cu alta şi ce efecte au aceste interacţiuni

asupra variabilei dependente.

One way ANOVA (ANOVA unifactorială) este unul din procedeele de analiză a

varianţei pentru o variabilă cantitativă dependentă de o singură variabilă factor ( de

grupare). Variabila factor, numită şi variabilă independentă , explicativă trebuie să fie

calitativă şi trebuie să aibă un număr redus de categorii (modalităţi).

Ipoteza nulă , ipoteza de testat , formulată prin acest procedeu , presupune

egalitatea a trei şi mai multe medii:

H0: m1=m2=…=mk

Unde mk este media grupei mk

Interpretarea rezultatelor ANOVA vizează două teste şi anume:

- Testul de omogenitate a varianţelor. Această problemă implică testul de omogenitate

a varianţelor subpopulaţiilor , definite de modalităţile variabilei factor (de grupare).

Ipoteza de nul este respinsă dacă valoarea Sig. (probabilitatea ) este inferioară valorii

0,05 (5%) semnificând că nu sunt egale toate varianţele.

- Testul ANOVA. Ipoteza nulă este respinsă dacă valoarea Sig. este inferioară valorii

0,05 (5%), semnificând că cel puţin două medii calculate la nivelul subpopulaţiilor ,

diferă între ele.

54

Page 53: CaietSPSS[1]

In SPSS , pentru compararea a trei şi mai multe medii este folosit următorul demers:

meniul Analyze comanda Compare Means opţiunea One-Way ANOVA.

De exemplu: Utilizăm baza de date IEA.sav Dorim să vedem dacă pentru cele trei

categorii de intervievaţi (cu frecvenţa definită ca: “deseori”, “câteodată” şi “niciodată”

respectiv variabila “consumat”) exită diferenţe în ceea ce priveşte vârsta acestora. Adică

dacă cei care consumă “deseori” sunt mai tineri decât celelalte două categorii.

Pentru aceasta , din fereastra Variable View vom exclude variabilele lipsă prin

excluderea variabilelor ce conţin “99” adică non-răspuns. Pentru variabila “Vârsta” se dă

Click pe celula corespunzătoare coloanei Missing ( Figura 32 săgeata 1 ) iar în fereastra

Missing Values se introduce valoarea “99” (săgeata 2).

Figura 32: Excluderea valorilor indezirabile prin comanda “Missing Values”

1

2

55

Page 54: CaietSPSS[1]

După selectarea opţiunii One-Way ANOVA , se parcurg următorii paşi:

- In fereastra de dialog One-Way ANOVA alegem variabila “consumat” pe care o mutăm

în zona Dependent List şi variabila Vârsta pe care o mutăm în zona Factor;

- Prin butonul de comandă Options (vezi figura şi săgeata) se deschide fereastra One-

Way ANOVA :Options în care se bifează casetele de validare Descriptive,

Homogenity of variance şi Means plot pentru a se verifica îndeplinirea restricţiilor de

normalitate, homoscedaticitate şi independenţă impuse unei analize ANOVA (figura

33).

Figura 33: Alegerea parametrilor analizei ANOVA

56

Page 55: CaietSPSS[1]

Restricţia de homoscedaticitate. Una din restricţiile aplicării ANOVA o constituie

homoscedasticitatea, adică se presupune că varianţele grupelor sunt egale. Se poate

verifica această ipoteză cu ajutorul testului Levene-Test of Homogenity of Variances.

( vezi Tabelul 11 de mai jos)

Tabelul 11: Raport generat de testul Levene

Descriptives

Varsta.

48 2.60 .84 .12 2.36 2.85 2 5

98 2.51 .82 8.24E-02 2.35 2.67 1 5

69 2.58 .95 .11 2.35 2.81 1 5

215 2.55 .86 5.88E-02 2.44 2.67 1 5

deseori

cateodata

nu consum

Total

N Mean Std. Deviation Std. Error Lower Bound Upper Bound

95% Confidence Interval forMean

Minimum Maximum

Tabelul 12: Analiza varianţelor generată de condiţia de homoscedasticitate

Test of Homogeneity of Variances

Varsta.

.942 2 212 .391

LeveneStatistic df1 df2 Sig.

In noile condiţii , valoarea Sig. (0.391) pentru testul de omogenitate a varianţelor este mai

mare ca 0,05 sugerând că varianţele pentru cele trei categorii de consumatori sunt egale,

deci restricţia de homoscedasticitate este îndeplinită şi astfel se poate aplica ANOVA.

Tabelul ANOVA corespunzător pentru cele trei categorii de vârstă selectate sunt

prezentate în tabelul 13 .

57

Page 56: CaietSPSS[1]

Tabelul 13: Raportul generat de testul ANOVA pentru trei categorii de vârstă

ANOVA

Varsta.

95.160 2 47.580 1.087 .339

9322.840 213 43.769

9418.000 215

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

In tabelul ANOVA sunt prezentate statistica test F (vezi testul Fisher din manualul de

Statistică) , valoarea Sig. precum şi elementele de calcul pentru statistica test F.

Reamintim , statistica test F se calculează după relaţia:

reprezintă estimatorul varianţei intergrupe (Between-Groups) . Se calculează ca

medie a pătratelor abaterilor mediei fiecărei grupe faţă de media pe ansamblul grupelor şi

arată varianţa datorată influenţei factorului de grupare;

reprezintă estimatorul mediei varianţelor de grupă şi arată varianţa din interiorul

fiecărei grupe (Within Groups) , varianţa datorată influenţelor aleatorii.

Cu cât mediile grupelor au valori mai diferite între ele , cu atât variaţia dintre grupe este

mai mare; cu cât o variaţie , în interiorul grupelor, este relativ mai mică, cu atât statistica

test F este mai mare, arătând că ipoteza nulă poate fi respinsă.

In exemplul considerat statistica test F este mică (1.087) cu o probabilitate

asociată Sig. ( 0.339) mai mare decât 0,05 –evidenţiază că ipoteza de egalitate a mediilor

pe grupe nu se respinge, deci înclinaţiile spre consum a clienţilor nu diferă semnificativ

în raport cu vârsta.

21. Testarea egalităţii unei proporţii cu o valoare specificată (Binomial Test)

Binomial Test este un procedeu prin care se testează ipoteze cu privire la o variabilă cu

distribuţie binomială, variabilă care poate lua doar două valori, de exemplu, sexul

persoanelor.

58

Page 57: CaietSPSS[1]

Pentru astfel de variabile , se calculează frecvenţele de apariţie a fiecăreia dintre

cele două valori, iar pe baza lor, media, deviaţia standard, etc.

Binomial test este similar cu One Sample t-test şi este folosit pentru a compara o

proporţie cu o valoare specificată.

Exemplu: Dorim să verificăm dacă proporţia persoanelor mulţumite de calitatea

produselor agroalimentare este mai mare decât 75 %

După filtrarea datelor pentru eliminarea non-răspunsurilor efectuăm următorul demers:

meniul Analyze comanda Nonparametric Tests opţiunea Binomial (Tabel 35)

Pentru aceasta , după selectarea opţiunii Binomial şi deschiderea ferestrei Binomial Test

Selectăm variabila “multumit” şi o mutăm în zona Test variable List

- In zona Define Dichotomy alegem Get from date dacă avem o variabilă dihotomică sau

Cut point în cazul în care dorim să dihotomizăm o anumită variabilă. In cazul nostru

variabila “multumit” este codificată astfel: 1- pentru răspunsul “DA sunt mulţumit”

2- pentru răspunsul “parţial mulţumit” şi 3 – pentru “nemulţumit”

In zona Cut point introducem valoarea “1” pentru a selecta valorile <=1 respectiv valorile

>1. Valorile <=1 vor desemna grupa consumatorilor mulţumiţi de calitatea produselor

ecologice.

- In zona de editare Test Proportion se precizează valoarea dorită (0.75).

59

Page 58: CaietSPSS[1]

Tabel 35: Demersul testării egalităţii unei proporţii cu o valoare specificată

Se apasă butonul de comandă OK şi se declanşează obţinerea raportului (vezi

Tabelul 14)

Tabelul 14: Raportul generat de “Binomial Test”

Binomial Test

<= 1 93 .60 .75 .000a,b

> 1 62 .40

155 1.00

Group 1

Group 2

Total

Sunteti multumit(a)de calitateaproduselor ecologicece se afla pe piata?

Category NObserved

Prop. Test Prop.Asymp. Sig.

(1-tailed)

Alternative hypothesis states that the proportion of cases in the first group < .75.a.

Based on Z Approximation.b.

60

Page 59: CaietSPSS[1]

Astfel se observă că proporţia observată în eşantion pentru grupa consumatorilor

mulţumiţi e de 60% . Datorită faptului că valoarea Sig. asociată testului este mai mică

decât 0.01, se poate concluziona cu o încredere de 99% că proporţia celor mulţumiţi de

produsele agroalimentare ecologice diferă semnificativ de proportia de 75%. Adică , mai

puţin de trei sferturi dintre consumatori sunt mulţumiţi de calitatea acestor produse.

22. Testarea egalităţii a două şi mai multe proporţii

In cazul unei distribuţii nominale, testul Hi-pătrat este folosit pentru a verifica dacă

distribuţia teoretică a frecvenţelor relative (ipoteza de nul presupune că toate categoriile

au proporţii egale), fie cu o distribuţie de frecvenţă propusă.

Aplicarea acestui procedeu de testare presupune următorul demers: meniul Analyze

comanda Nonparametric Tests opţiunea Chi-Square Test.

Exemplu: Considerăm variabila “consumat” din fişierul “iea.sav” Dorim să verificăm

dacă proporţia respondenţilor pe cele trei categorii este egală. Adică dacă consumatorii se

împart în mod egal în –consumatori frecvenţi, consumatori ocazionali respectiv

nonconsumatori.

- In fereastra de dialog Chi-Square Test (vezi figura 34) selectăm variabila pentru care

dorim să testăm proporţiile, în cazul nostru variabila “consumat” şi o mutăm în zona

Test Variable List. Se pot selecta mai multe variabile , pentru fiecare variabilă

obţinându-se câte un tabel de frecvenţă separat.

- In zona Expected Range definim categoriile pentru care dorim să testăm proporţiile .

Alegem Get from data, considerând categoriile definite pentru variabila “ consumat”

- In zona Expected Values alegem ipoteza toate proporţiile egale sau proporţii

specificate (Values). In cazul nostru alegem să verificăm dacă există următoarea

corespondenţă: consumatori frecvenţi 30%, consumatori ocazionali –40%, respectiv

non- consumatori consumatori –30 % , deci specificăm proporţiile 30,40,30 la rubrica

“Values” .

61

Page 60: CaietSPSS[1]

Figura 34: Demersul alegerii proporţiilor de testat prin testul Hi-pătrat

- Prin clic pe butonul de comandă Continue , se revine în fereastra Chi-Square Test ,

din care se selectează OK, care comandă lansarea procedurii de obţinere a rapoartelor

de mai jos (figura )

Interpretare In tabelul frecvenţelor , sunt comparate frecvenţele observate cu frecvenţele

teoretice ( aşteptate conform ipotezei de nul), pentru fiecare categorie i. Diferenţele sunt

prezentate pe categorii în coloana Residual. Exemplele teoretice aşteptate de noi în cazul

de faţă sunt: (din totalul de 216 respondenţi)

- 216 x 30 % = 64.8 pentru răspuns “deseori”

- 216 x 40% = 86.4 pentru răspuns “cateodata”

62

Page 61: CaietSPSS[1]

- 216 x 30 % = 64.8 pentru răspuns “nu consum”

Rezultatele sunt prezentate în tabelul de mai jos (Tabelul 15):

Tabelul 15: Frecvenţele observate şi teoretice privitoare la aplicarea testului Hi-pătrat

consumati produse alimentare certificate ca fiind ecologice

48 64.8 -16.8

98 86.4 11.6

70 64.8 5.2

216

deseori

cateodata

nu consum

Total

Observed N Expected N Residual

In tabelul Chi Square Test se prezintă valoarea statisticii Hi-pătrat (Chi-Square) gradele

de libertate (df) şi valoarea semnificaţiei (Asymp. Sig).

Tabelul 16: Rezultatul testului Hi-pătrat

Test Statistics

6.330

2

.042

Chi-Square a

df

Asymp. Sig.

consumatiproduse

alimentarecertificate ca

fiindecologice

0 cells (.0%) have expected frequencies less than5. The minimum expected cell frequency is 64.8.

a.

In exemplul dat, valoarea estimată a statisticii Hi-pătrat este semnificativă la un nivel de

încredere de 95% deoarece valoarea Asimp. Sig< 0,01. Ca urmare ipoteza nulă este

respinsă. Se poate trage concluzia că cele trei categorii de consumatori nu au proporţia

specificată: 30:40:30.

Exemplul 2:

Dorim să calculăm deviaţia de la frecvenţele teoretice pentru o distribuţie de 2 variabile:

presupunem “varsta” şi “consumat” . Selectăm doar categoriile de vârstă între 18-65 de

63

Page 62: CaietSPSS[1]

ani , cele mai numeroase în sondajul nostru. Pentru aceasta filtrăm doar categoriile de

vârstă 2, 3,4 ( Vezi Data Select Cases) condiţia (varsta >1 & varsta < 5)

Tabel 35: Demersul aplicării testului Hi-pătrat pentru două variabile

Demersul este următorul (Figura 35): Meniul Analyze Descriptive statistics

Crosstabs

In fereastra Crosstabs la rubrica Row(s) trecem variabila “consumat” iar la rubrica

column(s) trecem variabila “varsta” Acţionând butonul Cells (săgeata) se deschide

fereastra Cells Display unde se selectează la rubrica “Counts” afişarea valorilor

observate “ Observed” şi a valorilor teoretice aşteptate “ Expected”.

Analog acţionând butonul “Statistics” se obţine o nouă fereastră din care bifăm opţiunea

Chi-Square ( vezi săgeata din figura 36)

Figura 36: Alegerea opţiunii Hi-pătrat din fereastra “Statistics”

64

Page 63: CaietSPSS[1]

După acţionarea butoanelor “Continue” şi OK” se obţin rapoartele de mai jos:

Tabel 17: Raport privitor la frecvenţele observate şi teoretice pentru variabilele

“consumat” şi “vârsta”

65

Page 64: CaietSPSS[1]

consumati produse alimentare certificate ca fiind ecologice * Varsta. Crosstabulation

29 10 8 47

28.2 13.6 5.2 47.0

53 31 7 91

54.6 26.4 10.0 91.0

38 17 7 62

37.2 18.0 6.8 62.0

120 58 22 200

120.0 58.0 22.0 200.0

Count

Expected Count

Count

Expected Count

Count

Expected Count

Count

Expected Count

deseori

cateodata

nu consum

consumati produsealimentare certificateca fiind ecologice

Total

18-35ani 35-50ani 50-60ani

Varsta.

Total

In tabelul sunt afişate atât frecvenţele observate “count” cât şi cele teoretice “expected

count”.

Astfel au fost primite 29 de răspunsuri pentru consumul frecvent de produse ecologice

“deseori” de către consumatorii cu vârste între 18-35 ani.

Frecvenţa teoretică “ expected count” a fost calculată ţinând cont de urmâtoarele aspecte:

Numărul total al tinerilor de 18-35 ani din eşantion este (vezi tabel Total-Count) de 120

în timp ce numărul respondenţilor este de 200. Aceasta înseamnă că proporţia tinerilor

din eşantion este: p= 120/200* 100% = 60%

- Numărul total al celor care au răspuns cu “deseori” privind frecvenţa consumului este

(vezi Tabel 17) de 47. Teoretic ne aştepăm deci ( în cazul ipotezei de nul) ca 60 % din

aceştia să fie tineri între 18-35 ani. Frecvenţa teoretică este deci : ft= 47x 60% adică 28,2

In figura de mai jos avem rezultatele testului Hi-pătrat. Se observă coeficientul Sig. >0.05

ceea ce înseamnă că ipoteza de nul nu se respinge. Adică frecvenţele observate , nu diferă

de cele teoretice pentru nici una din cele trei categorii de consumatori. Cu alte cuvinte,

comportamentul consumatorilor în ceea ce priveşte consumul de produse ecologice nu

este influenţat de vârstă.

66

Page 65: CaietSPSS[1]

Tabel 18: Rezultatul testului Hi-pătrat pentru variabilele vârsta şi consumat

Chi-Square Tests

4.371a 4 .358

4.312 4 .365

.138 1 .710

200

Pearson Chi-Square

Likelihood Ratio

Linear-by-LinearAssociation

N of Valid Cases

Value dfAsymp. Sig.

(2-sided)

0 cells (.0%) have expected count less than 5. Theminimum expected count is 5.17.

a.

23. Analiza de corelaţie

Analiza de corelaţie este folosită pentru a studia intensitatea legăturii dintre variabile. In

sens strict, corelaţia este o măsură a intensităţii legăturii dintre variabile. Pentru stabilirea

corelaţiei dintre două mărimi în SPSS se pot calcula trei coeficienţi de corelaţie: Pearson,

Kendall şi Spearman (vezi cursul de statistică).

Exemplu: In baza de date Anuarul_statistic.sav găsi date preluate din anuarul statistic

privind productivitatea medie la nivel naţional pentru diferite culturi între anii 1990 şi

2003 .

Astfel am dori să punem în vedere existenţa unei corelaţii între randamentele înregistrate

la grâu şi cele înregistrate la orz.

Considerăm următorul demers: meniul Analyze Correlate Bivariate prin care se

deschide fereastra Bivariate Correlations .

După deschiderea ferestrei Bivariate Correlations se parcurg următorii paşi:

-Selectăm variabilele dorite şi le mutăm în zona Variables;

- In zona Correlation Coefficients, alegem prin bifare în casetele de validare

corespunzătoare , coeficienţii de corelaţie pe care dorim să-i calculăm.

67

Page 66: CaietSPSS[1]

- Casera de validare Flag significant correlations este activată la deschiderea ferestrei

dialog şi are ca efect semnalizarea corelaţiilor semnificative. Astfel coeficienţii de

corelaţie semnificativi la pragul de 0,05 sunt marcaţi cu un asterisc, iar cei

semnificativi la pragul de 0,01 sunt marcaţi cu două asteriscuri.

Figura 37: Demersul analizei de corelaţie

- Activând OK cerem obţinerea raportului ( vezi Tabel 19)

Tabel 19: Raportul de corelaţie randamente grâu-orz

68

Page 67: CaietSPSS[1]

Correlations

1.000 .893**

. .000

14 14

.893** 1.000

.000 .

14 14

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Grau total

Orz total

Grau total Orz total

Correlation is significant at the 0.01 level (2-tailed).**.

In raport sunt prezentate statisticile pentru fiecare variabilă , precum şi valoarea

coeficientului de corelaţie Pearson, cu nivelul de semnificaţie (Sig.) corespunzător.

Tabelul Correlations este un tabel cu matricea coeficienţilor de corelaţie. Valorile

sunt distribuite simetric, de o parte şi de alta a diagonalei coeficienţilor de corelaţie egali

cu 1, corespunzători corelaţiei fiecărei variabile cu ea însăşi. De o parte şi de alta a

diagonalei tabelului sunt prezentate valorile coeficienţilor de corelaţie dintre variabile,

luate două câte două şi valorile pragului de semnificaţie (Sig.) corespunzător , precum şi

numărul observaţiilor considerate, N.

Reamintim că valoarea coeficientului de corelaţie Pearson este cuprinsă între – 1 şi 1

Dacă coeficientul ia valoarea 0, atunci între variabile nu există legătură. Valoarea

coeficientului indică intensitatea legăturii şi anume: cu cât se apropie mai mult de 1, cu

atât legâtura e mai puternică, respectiv cu cât se apropie mai mult de zero, cu atât legâtura

este mai slabă. Un coeficient de corelaţie egal cu +1 indică o legătură directă perfectă

între variabile. Un coeficient de corelaţie egal cu –1 arată o legătură inversă perfectă.

Pentru exemplul considerat s-a obţinut un coeficient de corelaţie Pearson egal cu 0,893

ceea ce sugerează că între variabile există o corelaţie directă puternică , valoarea

coeficientului fiind foarte apropiată de 1.

Valoarea Sig. corespunzătoare egală cu 0.000 evidenţiază că s-a obţinut un coeficient de

corelaţie semnificativ la 0.01 adică sunt şanse mai mici de 1% de a greşi dacă afirmăm că

între cele două variabile există o corelaţie semnificativă. Putem spune deci că culturile de

grâu şi orz sunt corelate din punct de vedere al randamentelor obţinute annual.

In tabelul următor se observă că o astfel de corelaţie nu există între randamentele

obţinute la grâu şi cartof.

69

Page 68: CaietSPSS[1]

Tabelul 20: Raportul de corelaţie randamente grâu - cartofi

Correlations

1.000 -.278

. .336

14 14

-.278 1.000

.336 .

14 14

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Grau total

Cartof total

Grau total Cartof total

ANEXA

CHESTIONAR

Universitatea de Ştiinţe Agricole şi Medicină Veterinară a iniţiat acest studiu care urmăreşte să evalueze gradul de cunoaştere, în rândul consumatorilor a produselor alimentare ecologice , precum şi părerile lor în legătură cu acest subiect.

Datele personale, furnizate de dvs., vor fi considerate strict confidenţiale.

Astfel, Vă rugăm să aveţi amabilitatea de a ne răspunde la următoarele 10 întrebări:

I ) Consumaţi produse alimentare certificate ca fiind ecologice?

1) Deseori 2) Câteodată 3) Nu

I b) Vă rugăm explicaţi de ce aţi ales una din aceste opţiuni:

……………………………………………………………………………..Dacă răspunsul a fost “ Nu cunosc aceste produse” se pun întrebările III şi IV, se iau date le personale, -(intrebarile X, XI, varsta) apoi se încheie interviul.

II) Cum identificaţi produsele alimentare ecologice într-un magazin?

1) După ambalaj /sigla 2) După spaţiile special amenajate 3) Altele………

Dacă în urma întrebărilor I şi II observăm că intervievatul nu cunoaşte noţiunea de produs ecologic se pun întrebările III şi IV, se iau datele personale –(intrebarile X si XI, varsta) apoi se încheie interviul. Dacă se cunoaşte noţiunea de produs alimentar ecologic, se trece direct la întrebarea cu numărul V fara a se mai pune intrebarile III si IV.

III ) Dacă aţi şti că produsele ecologice sunt mai sănătoase pentru că nu conţin substanţe chimice şi în plus sunt obţinute prin protejarea mediului, aţi fi dispus să achiziţionaţi aceste produse?

1) Sigur da 2) Cred că da 3) Nu ştiu 4) Mai degrabă nu 5) Sigur nu

70

Page 69: CaietSPSS[1]

IV) Dar dacă aţi şti că preţul produselor ecologice ar fi cu 40% mai mare decât cele clasice aţi mai cumpăra?

1) Sigur da 2) Cred că da 3) Nu ştiu 4) Mai degrabă nu 5) Sigur nu

V) Care sunt motivele pentru care achizitionati produsele alimentare ecologice?

1) pentru sanatate 2 ) sunt mai gustoase 3) pentru copii / pentru batrani

4)Altele:………………………………………………………. VI) Cum credeţi că ar trebui încurajat consumul de produse ecologice?

1) Prin scăderea preţurilor 2) Prin publicitate mai intensă 3) Prin informarea consumatorilor asupra avantajelor acestui tip de produs

4) Altele…………………………………………………………………..

VII) Sunteti multumit(ă) de numarul de produse ecologice ce se afla pe piata? 1) DA 2) Partial 3 ) NU

VIII) Sunteţi mulţumit (ă) de calitatea produselor ecologice ce se află pe piaţă ?

1) DA 2) Parţial 3) NU

Vă rugăm sa ne spuneti de ce aţi ales una din opţiunile “Parţial” sau “NU” ? ………………………………………………………………………………

IX) De unde aţi aflat despre existenţa produselor alimentare ecologice? 1 ) De la TV 2 ) Din reviste 3) Din magazine 4) De la un prieten

5) De pe Internet 6) De la mine 7) Altele……………………………

X) Vă rugăm să ne spuneţi ce ocupaţie aveţi ( sau aţi avut înainte de pensionare, şomaj etc)

………………………………………………….

XI) Vă rugăm să ne spuneţi numele şi nr. dvs de telefon:

71

Page 70: CaietSPSS[1]

Nume:……………………………………………………….

Nr. telefon…………………………………………………Vă mulţumim foarte mult pentru atenţia acordată !

Se va nota apoi vârsta aproximativă a intervievatului aşa cum o apreciaţi dvs. !

1) < 18 ani 2) 18-35 ani 3) 35-50 ani 4) 50- 65 ani 5 ) 65 ani

Chestionarul a fost administrat de:……………………………………..

72