Download - Pre Final 1111
-
7/22/2019 Pre Final 1111
1/32
Student:
PROIECT la
STATISTIC PENTRU AFACERI
-
7/22/2019 Pre Final 1111
2/32
Cap.1. Introducere
1.1. Definirea problemei
Pia igaretelor din Romnia este o pia cu un potenial estimat la aproximativ 33 de
miliarde de tigarete/an1 i este disputat n prezent de trei mari companii internaionale: BAT
(British American Tobacco), Philip Morris i JTI (Japan Tobacco International).
Nivelul consumului actual de igarete din ara noastr (aproximativ 1480 igri pe an pe
cap de locuitor adult)2, dezvoltarea pieei pe segmente bine difereniate (premium, mediu,
economic i ieftin), segmentarea categoriilor de igri (normale, lights, super lights, cu arome) i
caracterul de pia matur, toate acestea constituie premise favorabile ale abordrii pieei
romneti de igarete n vederea determinrii consumului de tutun n rndul consumatorilor aduli.
1.2. Scopul cercetrii
Prezentul proiect de cercetare are ca scop cunoaterea deprinderilor de a fuma i obiceiul
consumului de igarete n rndul adulilor de pe piaa ieean.
1.3. Obiectivele cercetrii
Formularea obiectivelor const n precizarea la nivel operaional a informaiilor care sunt
necesare pentru alegerea variantei decizionale optime, pentru fiecare dimensiune a problemei
investigate.
n cadrul acestui proiect de cercetare, obiectivele sunt urmtoarele:
O1: identificarea persoanelor fumtoare;
O2: determinarea categoriilor de igri consumate de ctre membrii eantionului;
O3: identificarea mrcii de igarete consumat n prezent de ctre populaia cercetat;
O4: identificarea consumului zilnic de igarete la nivelul unui consumator;
O5: determinarea cheltuielilor efectuate saptmnal pe consumul de igarete.
1.4. Ipotezele cercetrii
Orice chestionar i bazeaz ntrebrile pe nite ipoteze de cercetat i obiective de urmrit.
n forma cea mai simpl o ipotez este de fapt o presupunere. Conceperea ipotezelor cercetrii
contribuie la clarificarea aspectelor care se doresc a fi obinute n urma cercetrii. n cadrul
cercetrii, ipotezele pot fi confirmate sau respinse pe baza datelor rezultate.
1http://businessday.ro/09/2010/cat-alcool-si-cate-tigari-consuma-romanii/2Idem
-
7/22/2019 Pre Final 1111
3/32
Ipoteze generale:
I1: Fumtorii reprezint mai mult de jumtate din populaia cercetat;
I2: Populaia consum n medie cel mult un pachet de igri pe zi;
I3: Exist legtur ntre vrst i deprinderea de a fuma;
I4: Exist legtur ntre marca de igri fumat i sexul respondentului;I5: Exist legtura ntre numrul de igri fumate pe zi i banii cheltuii sptmnal pe
tutun;
I6: Categoria de igri fumat influeneaz cheltuielile saptmnale pe igarete.
1.5. Populaia cercetat
Prima etap a procesului de eantionare const n definirea populaiei int, respectiv a
populaiei din care va fi selectat eantionul. Prin urmare, informaiile sunt obinute pe baza unui
eantion, iar populaia cercetat o reprezint: persoanele ce depesc vrsta de 18 ani
sexul s fie att masculin ct i feminin
cu domiciliul sau rezidena n municipiul Iasi.
Informaii suplimentare ce privesc aceast grup includ irelevana orientrii politice sau
religioase, a nivelului de educaie sau a statutului social.
Cap.2. Crearea bazei de date2.1. Eantionul
Pentru determinarea mrimii eantionului, am considerat c este potrivit eantionarea
aleatorie, fiind o procedur obiectiv, n cazul creia, probabilitatea de selecie este cunoscut i
nenul, pentru fiecare unitate a populaiei int.
Pentru determinarea mrimii eantionului. n cazul unei eantionri aleatoare, avem
nivelul de ncredere pe care l-am luat n considerare necesar estimrii parametrilor populaiei. Am
avut n vedere un nivel al erorii admise de 5% i s-ar putea garanta cu o probabilitate de 95%.Conform tabelului distribuiei normale, pentru Z/2, i corespunde valoarea 1,96.
Mrimea eantionului n, pentru cazul procentelor, a fost determinat conform formulei:
2/2 2= ptratul coeficientului Z corespunztor nivelului de ncredere avut n vedere
p= estimarea procentelor a celor care spun Da; rspunsuri pozitive
q=(1-p), estimarea procentelor a celor care spun Nu; rspunsuri negative
-
7/22/2019 Pre Final 1111
4/32
-
7/22/2019 Pre Final 1111
5/32
Variabilele luate n considerare pentru realizarea acestei cercetri au fost definite att din
punct de vedere conceptual ct i din punct de vedere operaional n tabelul urmtor:
Nr.
crt.
Variabila Eticheta pentru
variabil
Etichete pentru valori
1. Q1_Fumtor Suntei fumtor? 0-Nu1-Da
2. Q2_Marca_tigri Ce marc de igri fumai
n prezent?
1-Winston, 2-L&M, 3-Kent, 4-Marlboro,
5-Viceroy, 6-Pall Mall, 7-Virgina Slims,
8-Parliament, 9-Dunhill, 10-Alta
3. Q3_Preul Ct de important este
preul produsului atunci
cnd luai decizia de a
consuma o anumit marc
de igri?
1-total neimportant
2-neimportant
3-nici important, nici neimportant
4-important
5-foarte important
4. Q4_Cantitate Cte igri fumai n medie
pe zi?
5. Q5_Cheltuieli Ci bani cheltuii
sptmnal pe igri?
7. Q7_Sexul Sexul respondentului 1-masculin
2-feminin
8. Q8_Vrsta Vrsta respondentului
9. Q9_Venitul Care este venituldumneavoastra personal
net lunar?
1-sub 500 lei2-500-1000lei
3-1000-1500 lei!
4-1500-2000 lei
5-peste 2000 lei
Variabilele definite, n numr de 9 sunt prezentate n figura de mai jos:
Fig.2.1. Introducerea variabilelor n baza de date, realizat n SPSS
-
7/22/2019 Pre Final 1111
6/32
Am introdus datele n celulele foii Data View din fereastra Data Editor. n fiecare coloan
(variabil) am introdus rspunsul corespunztor. n total au fost 200 de subieci, deci am obinut
200 de rspunsuri.
Baza de date este prezentat n figura de mai jos:
Fig.2.2. Transformarea bazei de date n SPSS, folosind Data View
2.3. Verificarea bazei de date
Pentru a verifica dac distribuia valorilor unei variabile prezint asimetrie accentuat,
dac sunt otlieri sau alte anomalii se vor utiliza diagramele Box Plot create prin opiunea Explorea comenzii Descriptive Statistics din meniul Analyze, de asemenea mai pot fi folosite i alte
procedee de verificare a normalitii (procedee grafice: histograma, P-P Plot, Q-Q Plot i teste de
normalitate).
Depistarea outlierilorOutlierile reprezint valorile aberante nregistrate la nivelul unui eantion i se pot depista
pe baza graficelor care verific normalitatea distribuiilor variabilelor.
-
7/22/2019 Pre Final 1111
7/32
Pentru aceast analiz se vor analiza ca variabile cantitatea i cheltuielile. Otlierile se pot
depista n cazul variabilelor numerice, iar valorile acestora se vor depista urmnd demersul
Analyze Descriptive Statistics Explore - Plots, outlierile fiind depistate implicit.
Fig.2.3. Demersul Analyze Descriptive Statistics-Explore-plots
Fig.2.4. Meniul Explore
-
7/22/2019 Pre Final 1111
8/32
Descriptives
Statistic Std. Error
Cate tigari fumati in
medie pe zi?
Mean 14,37 ,448
95% Confidence Interval for
Mean
Lower Bound 13,48
Upper Bound 15,26
5% Trimmed Mean 14,62
Median 15,00
Variance 22,326
Std. Deviation 4,725
Minimum 3
Maximum 20
Range 17
Interquartile Range 8
Skewness -,602 ,229
Kurtosis -,547 ,455
Tabelul Descriptives cuprinde media variabilei, mreun cu abaterea standard de la media
eantioanelor, precum i ali indicatori precum: variana, abaterea standard, valoarea minim i
valoarea maxim a variabilei, amplitudinea etc.
Din tabelul de mai sus rezult faptul c n medie, membrii eantionului fumeaz zilnic
14,37 igri, mediana indicndun numr de 15 igri.
Numrul minimindicat de subieci este de 3 igri pe zi, n timp ce numrul maximeste
de 20 tiri pe zi, rezultnd o amplitudine de 17 igri.
Media obinut la nivelul eantionului (14,37)poate fi considerat o estimare punctual
a mediei la nivelul populaiei totale, ns o estimare mai aproape de realitate este cea pe baza
intervalului de ncredere, care ia n calcul i eroarea aleatoare de eantionare.
Imediat sub medie, n tabel apar limitele intervalului de ncrederepentru media la nivelul
populaiei totale n condiiile unei probabiliti (nivel de ncredere) de 95%. Limita inferioara
acestui interval este de 13,48 igri (Lower Bound), iar limita superioar de 15,26 igri
(Upper Bound).
n concluzie, la nivelul populaiei totale putem garanta cu o probabilitate de 95%c
media consumului zilnic de igripoate lua valori n intervalul [13,48 igri; 15,26 igri].
Eroarea de eantionare este de 0,89 igri, valoare care se scade i se adun la media
eantionului pentru obinerea intervalului de ncredere.
n tabelul de mai sus apar i ali indicatori precum media obinutprin eliminarea a 5%
dintre valorile de la fiecare extremitate a seriei de date (5% Trimmed Mean). Aceast excludere
-
7/22/2019 Pre Final 1111
9/32
are n vedere crearea unei omogeniti mai bune a datelor, n special atunci cnd distribuia nu
este perfect normal. n felul acesta media va avea o reprezentativitate mai bun.
De asemenea, distana interquartilic (Interquartile Range) are valoarea 8,
reprezentnd diferena dintre quartila a 3-a i prima quartil.
Analiznd graficul de mai sus, putem afirma c cei mai muli subieci fumeazn medie
15 igari pe zi. Constatm lipsa scorurilor extreme, mediana (linia ngroat din interiorul
cutiei) fiind situat la valoarea 15care este mai apropiat de marginea superioar, ceea ce
nseamn c arat o distribuie asimetric la stanga.
-
7/22/2019 Pre Final 1111
10/32
Descriptives
Statistic Std. Error
Cati bani cheltuiti
saptamanal pe tigari?
Mean 68,69 2,361
95% Confidence Interval for
Mean
Lower Bound 64,01
Upper Bound 73,37
5% Trimmed Mean 68,19
Median 75,00
Variance 618,960
Std. Deviation 24,879
Minimum 25
Maximum 120
Range 95
Interquartile Range 40
Skewness ,186 ,229
Kurtosis -,657 ,455
Din tabelul de mai sus observm cn medie, membrii eantionului cheltuie sptmnal
68,69 leipe igri, medianaindicnd valoarea de 75 lei.
Valoarea minimcheltuit de subieci sptmnal pe igri este de 25 lei,n timp ce
valoarea maximeste de 120 lei pe sptmn, rezultnd o amplitudine de 618,96 lei.
La nivelul populaiei totale putem garanta cu o probabilitate de 95%c mediacheltuielilor sptmnale pe igri poate lua valori n intervalul [64,01 lei; 73,37 lei].n acest
caz eroarea de eantionareeste de 4,68 lei.
Distana interquartilicde 40 leiarat diferena dintre prima quartili a 3-a
quartil.
-
7/22/2019 Pre Final 1111
11/32
Conform diagramei Box Plot prezentat n figura de mai sus, putem observa c mediana
este situat la valoarea de 75 lei, ceea ce nseamna c respondenii fumtori cheltuie n jur de 75lei sptmnal pe igri. Diagrama arat o distribuie asimetric la dreaptai putem constata i
de aceast dat lipsa scorurilor extreme.
Cap.3. Descrierea statistic a distribuiilor bi i univariate
3.1. Descrierea statistic a distribuiilor univariate
Descrierea statistic a variabilelor nominale (categoriale)
Vom analiza drept variabil nominal, marca de igri pe care respondeni o fumeaz nprezent. Vom selecta meniulAnalyze Descriptive Statistics Frequencies Statistics(unde la
CentralTendencyse bifeaz Mode) i Charts (unde la Chart Typese bifeaz Pie sau Bar, iar la
Chart ValueFrequencies sau Percentages). Astfel, se obin urmtoarele rezultate:
-
7/22/2019 Pre Final 1111
12/32
Statistics
Sunteti fumator?
N Valid 200
Missing 0
Mean ,56
Std. Error of Mean ,035
Std. Deviation ,498
Variance ,248
Variabila analizat avnd la baz o scal nominal binar ne permite s calculm media,
abaterea standard, variana i abaterea standard de la media eantioanelor. Trebuie menionat ns
c scala binar este singura scal nominal care permite calcularea mediei aritmetice, indicatorii
mai sus menionai fiind imposibil de calculat n cazul unei scale nominale obinuite.
Media caracteristicii binare este exprimat n valori relative, avnd valoarea 0,56 n cazul
de fa. Exprimat n procente, aceasta semnific faptul c 56% din membrii eantionului sunt
fumtori. Deviaia standard este de 0,498, n plus sau n minus.
Sunteti fumator?
Frequency Percent Valid Percent Cumulative Percent
Valid Nu 89 44,5 44,5 44,5
Da 111 55,5 55,5 100,0
Total 200 100,0 100,0
Att tabelul de mai sus ct i graficul de tip plcint, arat faptul c dintre cei chestionai
56% au declarat c sunt fumtori, pe cnd 44% au declarat c nu sunt fumtori.
-
7/22/2019 Pre Final 1111
13/32
Ce marca de tigari fumati in prezent?
Frequency Percent Valid Percent
Cumulative
Percent
Valid Winston 23 11,5 20,7 20,7
L&M 5 2,5 4,5 25,2
Kent 40 20,0 36,0 61,3
Marlboro 7 3,5 6,3 67,6
Viceroy 1 ,5 ,9 68,5
Pall Mall 23 11,5 20,7 89,2
Virginia Slim 3 1,5 2,7 91,9
Parliament 3 1,5 2,7 94,6
Dunhill 6 3,0 5,4 100,0
Total 111 55,5 100,0
Missing 99 89 44,5
Total 200 100,0
Din tabel putem observa c 40 de persoane din cei chestionai consuma marca de igari
Kent, pe locul doi la egalitate se afl marcile Winston i Pall Mall consumate de ctre 23 de
persoane, Marlboro este consumat de ctre 7 persoane dintre cei chestionai urmat de Dunhill de
ctre 6 persoane. Cele mai puin consumate mrci de igri sunt Virginia Slims, Parliament i
Viceroy.
Att tabelul de mai sus, ct i graficul de tip pie, arat faptul c, 36,04% din membrii
eantionului consum marca de igri Kent, urmate de marcile Winston i Pall Mall cu un procent
de 20,72%, un procent de 6,31% pentru marca Dunhill.
20.72%
4.5%
36.04%
6.31%
0.9%
20.72%
2.7%2.7% 5.41%
CE MARCA DE TIGARI FUMATI IN PREZENT?
Winston
L&M
Kent
Marlboro
Viceroy
Pall MallVirginia Slim
Parliament
Dunhill
-
7/22/2019 Pre Final 1111
14/32
Sexul respondentului:
Frequency Percent Valid Percent Cumulative Percent
Valid Masculin 114 57,0 57,0 57,0
Feminin 86 43,0 43,0 100,0
Total 200 100,0 100,0
Conform tabelului i graficului de mai sus putem observa c, dintr-un total de 200 de
respondeni, 57% (ceea ce nseamn 114 persoane) dintre acetia au fost persoane de sex masculin,
n timp ce restul respondenilor, respectiv 43% (86 de persoane) au fost persoane de sex feminin.
Descrierea statistic a valorilor numerice
Pentru a reda variabilele numerice (numrul mediu de igri fumate pe zi, banii cheltuii
sptmnal pe igrii vrsta), din meniul Analyze alegem Descriptive Statistics Frequencies la
opiunea Dispersion selectm St.deviation, minimum i maximum, iar la optiunea Central
Tendency selectm Mean), iar la Chart optm pentru diagrama de tip Histogram cu curb
normal.
57%
43%
Sexul respondentului:
Masculin
Feminin
-
7/22/2019 Pre Final 1111
15/32
Astfel s-au obinut urmtoarele rezultate:
Statistics
Cate tigari fumati in
medie pe zi?
Cati bani cheltuiti
saptamanal pe tigari?
Varsta
respondentului:
N Valid 111 111 200
Missing 89 89 0
Mean 14,37 68,69 29,26
Std. Error of Mean ,448 2,361 ,602
Median 15,00 75,00 26,00
Mode 15 50a 25a
Std. Deviation 4,725 24,879 8,517
Variance 22,326 618,960 72,543
Skewness -,602 ,186 1,021
Std. Error of Skewness ,229 ,229 ,172
Kurtosis -,547 -,657 ,135
Std. Error of Kurtosis ,455 ,455 ,342
Range 17 95 32
Minimum 3 25 18
Maximum 20 120 50
a. Multiple modes exist. The smallest value is shown
-
7/22/2019 Pre Final 1111
16/32
Pentru variabila cte igri fumai n medie pe zi am obinut urmtoarele valori ale
indicatorilor calculai:
Mean (media) = 14,37 igri: n medie numrul de igri fumate ntr-o zi este de 14,37,
aprovimativ 15 igri.
Median (mediana) = 15 igri:jumtate dintre respondenifumeazpn la 15 igri pezi i jumtate din respondenifumeaz peste 15 igri pe zi;
Mode (modul) = 15:numrul de igri fumate de cei mai muli respondeni este de 15
igri pe zi
Std. Deviation(abaterea medie ptratic, numit i abaterea standard) =4,725: n medie,
numrul igrilor fumate de respondeni pe zi se abate de la numrul mediu de igri fumate
cu 4,725 n plus sau n minus, respectiv 14,374,725;
Minimum; Maximum= numrul minim indicat de subieci este de 3 igri pe zi, n timp
ce numrul maxim este de 20 de igri pe zi, rezultnd o aplitudine de 17 igri pe zi;
Kurtosis (boltirea) = -0,547: valoarea negativ a coeficientului de boltire relev o
distribuie platicurtic
Skewness (asimetria) = -0,602:valoarea negativa coeficientului de asimetrie indic o
asimetrie la stnga (negativ).
-
7/22/2019 Pre Final 1111
17/32
Pentru a arta forma distribuiei numrului de igri fumate pe ziam folosit histograma
i curba frecvneelor obinute cu ajutorul butoanelor de comand din fereastra Frequencies:
Charts.
Din figura de mai sus observm c, pe ansamblu, eantionul are o distribuie dup
numrul de igri fumate pe zi asimetric la stnga.
Pentru variabila ci bani cheltuii sptmnal pe igri,am obinut urmtoarele valori
ale indicatorilor calculai:
Mean (media) = 68,69 lei: n medie cheltuielile sptmnale pe igri sunt de 68,69 lei;
Median (mediana) = 75 lei:jumtate dintre respondenicheltuie sptmnal pe igri
pn n 75 lei i jumtate din respondenicheltuie peste 75 lei;
Mode (modul) = 50:cei mai muli dintre membrii eantionului cheltuielile sptmnal 50
lei pe igri;
Std. Deviation(abaterea medie ptratic, numit i abaterea standard) =28,879: n medie,
banii cheltuii sptmnal pe igri de ctre respondeni se abat de la cheltuielile medii
saptmnale cu 28,879 lein plus sau n minus, respectiv 68,6928,879 lei;
Minimum; Maximum:avem cheltuieli sptmnale pe igri de minim 25 lei i cheltuieli
de maxim 120 lei, rezultnd o amplitudine de 95 lei sptmnal;
-
7/22/2019 Pre Final 1111
18/32
Kurtosis (boltirea) = -0,657: valoarea negativ a coefiientului de boltire relev o
distribuie platicurtic;
Skewness (asimetria) = 0,186: valoarea pozitiva coeficientului de asimetrie indic o
asimetrie la dreapta (pozitiv).
Din figura de mai sus observm c, pe ansamblu, eantionul are o distribuie dup banii
cheltuii sptmnal pe igri asimetric la dreaptapredominnd cheltuielile cuprinse ntre 50-
75 lei. Curba frecvenelor este platicurtic.
Pentru variabila vrsta respondentului am obinut urmtoarele valori ale indicatorilor
calculai:
Mean (media) = 29,26 ani:vrsta medie a respondenilor este de 29,26 ani. Median (mediana) = 26 ani: Jumtate dintre respondeni au vrsta pn la 26 ani i
jumtate din respondeniau vrsta peste 26 ani.
Mode (modul) = 25 ani:Vrsta purtat de cei mai muli dintre respondenieste vrsta de
25 de ani.
Std. Deviation (abaterea medie ptratic, numit i abaterea standard) = 8,517 ani : n
medie, vrsta unui respondent se abate fa de vrsta medie a respondenilorcu 8,517 ani
plus sau minus valoarea abaterii medii ptratice, respectiv: 29,26 8,517 ani.
-
7/22/2019 Pre Final 1111
19/32
Kurtosis (boltirea) = 0,135: valoarea pozitiv a coeficientului de boltire relev o
distribuie peltocurtic.
Skewness (asimetria) = 1,021:valoarea pozitiv a coeficientului de asimetrie indic o
asimetrie la dreapta (pozitiv)
Minimum; Maximum: vrsta minim a persoanelor din eantion este de 18 ani, ceamaxim de 50 ani, rezultnd o aplitudine de 32 ani.
Din figura de mai sus observm c, pe ansamblu, eantionul are o distribuie dup vrst
asimetric la dreapta predominnd vrsta tnr.
3.2. Descrierea statistic a distribuiilor bivariate
Analiza statistic a gradului de asociere ntre dou variabile
Tratarea datelor n vederea analizei statistice a gradului de asociere presupune:
construirea tabelelor de asociere i calculul frecvenelor condiionate;
calculul i interpretarea lui hi-ptrat;
calculul coeficienilor de asociere.
n acest subcapitol mi-am propus s studiez gradul de asociere dintre dou variabile
nominale: marca de igri consumat n prezent i sexul respondentului; o variabila nominal i
o variabul numeric, dou variabile numerice.
-
7/22/2019 Pre Final 1111
20/32
a)Dou variabile nominale
Distribuia eantionului de respondeni observai simultan dup cele dou variabile
considerate poate fi obinut prin opiunea Crosstabs a comenzii Descriptive Statistics din meniul
Analyze.
Distribuia de frecven marca de igri consumat n prezent* sexul respondentului
este obinutn crosstabelul de mai jos.
Ce marca de tigari fumati in prezent? * Sexul respondentului: Crosstabulation
Count
Sexul respondentului:
TotalMasculin Feminin
Ce marca de tigari fumati in
prezent?
Winston 17 6 23
L&M 2 3 5
Kent 30 10 40
Marlboro 3 4 7
Viceroy 1 0 1
Pall Mall 18 5 23
Virginia Slims 0 3 3
Parliament 2 1 3
Dunhill 3 3 6
Total 76 35 111
Dintre cei 23 respondeni care fumeaz n prezent marca de igri Winston, 17 sunt
persoane de sex masculin i 6 de sex feminin. Dintre cei 5 respondeni care fumeaz n prezent
marca de igri L&M, 2 sunt de sex maculin i 3 de sex feminin. Dintre cei 40 respondeni care
fumeaz n prezent marca de igri Kent, 30 sunt de sex masculin i 10 de sex feminin . Pentru
marca de igri Pall Mall, observm c din cei 23 de respondeni fumtori ale acestei mrci, 18
sunt de sex masculin i 5 de sex feminin. Marca de igro Virginia Slims este fumat doar de
persoanele de sex feminin, n numr de 3 persoane dintre cei care au declarat c sunt fumtori.
Dunhill este preferat att de brbai ct i de femei, doar c ntr-un numr mult mai mic, respectiv
3 persoane de sex masculin i 3 persoane de sex feminin.
Am reprezentat grafic, prin bare, distribuia dup marca de igri fumat n prezent i
sexul respondenilor.
-
7/22/2019 Pre Final 1111
21/32
Am analizat diferenele calitative prin calculul i interpretarea lui hi-ptrat (PearsonChi-
Square).
Pentru aplicarea testului n cadrul analizei bivariate se pleacde la urmtoarele ipoteze:
H0- ntre frecvenele observate i cele ateptate nu existdiferene semnificative, ceea
ce presupune faptul cntre marca de igri fumat n prezent isexul respondentului nu exist
legtur.
H1- Existdiferene semnificative ntre frecvenele observate i cele ateptate, ceea ce
semnificexistena unei legturi ntre marca de igri fumat n prezent isexul respondentului.
Chi-Square Tests
Value df Asymp. Sig. (2-sided)
Pearson Chi-Square 14,059a 8 ,080
Likelihood Ratio 14,468 8 ,070
Linear-by-Linear
Association
,891 1 ,345
N of Valid Cases 111a. 12 cells (66,7%) have expected count less than 5. The minimum expected count is ,32.
-
7/22/2019 Pre Final 1111
22/32
Citim n tabelul Chi-Square Tests nivelul de semnificaie minim pentru care se poate
accepta ipoteza alternativ, care poate fi citit n coloana Asymp. Sig.(2-sided). Pentru 8 grade de
libertate, valoarea Asymp.Sig este egal cu 0,08 care este mai mic dect =0,05,prin urmare vom
respinge ipoteza nul i vom accepta ipoteza H1, conform creia ntre marca de igri fumat n
prezent i sexul respondentului exist legtur.
b)O variabil nominal i una numeric
Teste folosite?????
c)Dou variabile numerice
Teste folosite???????
Reprezentarea grafic simultan pentru variabilele numrul de igri fumate pe zi i
vrsta respondentului este folosit pentru prezentarea legturilor dintre fenomene . Am folosit
diagrama Scatterplot din meniul Graphscomanda Interactive.
Cap.4. Estimarea i testarea parametrilor distribuiilor observate
4.1. Estimarea parametrilor prin interval de ncredere
Prin estimare se nelege un procedeu prin care se generalizeaz rezultatele observatepe
un eantion la nivelul populaiei din care este extras, adic se afl valoarea unui parametrual unei
populaii pe baza datelor nregistrate la nivelul unui eantion extras din aceasta.(Elisabeta Jaba,
Ana Grama, pag. 176).
Estimarea se poate efectua punctual sau prin interval de ncredere. Estimarea punctual
presupune o estimaie calculat pe baza datelor nregistrate la nivelul unui eantion. Estimareaprin
interval de ncredere presupune aflarea limitelor de ncredere ale unui interval care acoper
valoarea adevrat a unui parametru al populaiei.
Estimarea prin interval de ncredere a unei medii i unei proporiiPentru a estima prin interval de ncredere numrul mediu de igri fumate pe zi ,
respectiv banii cheltuii sptmnal pe igrial tuturor respondenilor care au declarat c sunt
fumtori, am selectat opiunea Explore din comanda Descriptive Statistics a meniului Analye.
Caseta Descriptives permite calculul intervalului de ncredere 95%.
-
7/22/2019 Pre Final 1111
23/32
Descriptives
Statistic Std. Error
Cate tigari fumati in medie
pe zi?
Mean 14,37 ,448
95% Confidence Interval for
Mean
Lower Bound 13,48
Upper Bound 15,26
Cati bani cheltuiti
saptamanal pe tigari?
Mean 68,69 2,361
95% Confidence Interval for
Mean
Lower Bound 64,01
Upper Bound 73,37
Limita inferioar a intervalului de ncredere (Lower Bound) este:
Lmita superioar a intervalului de ncredere (Upper Bound) este:
n concluzie, numrul mediu de igri fumate pe zi este cuprins, cu o ncredere de 95%,
ntre 13,48 i 15,26 igri. Banii cheltuii sptmnal pe igri sunt cuprini, cu o ncredere de
95%, ntre 64,01 lei i 73,37 lei.
Pentru a estima prin interval de ncredere proporiapersoanelor chestionate care au
declarat c fumeaz,am efectuat urmtorul set deoperaii:1. Am calculat, la nivelul eantionului observat, proporia rspunsurilor pentru
persoanele care fumeaz.2. Am calculat eroarea standard Sp dup relaia:
Aplicm formula de mai sus pentru f =0.56 si n =200persoane i obinem:
3. Am calculat limitele I.C. (pentru z = 1,96 )Limita inf. : Li =f -1,96 Sp =0,0351 -1.96 0,0351 =0.56 - 0.687 =0.49 (49.2%)
Lmita sup. : Ls =f +1.96 Sp =0.0351 +1.96 0.0351 =0.56 +0.0687 =0.62 (62%)
La nivelul populaiei totale putem garanta cu o probabilitate de 95% c procentul
fumtorilor se situeazn intervalul [49% ; 62%].
Continuare ......
-/2
+/2
= , unde este abaterea standard iar n este volumulesantionului
,(,)2 = ,(,)=2
,2442 = 0,0351
-
7/22/2019 Pre Final 1111
24/32
Cap.6. Analiza legturilor statistice
n acest capitol mi-am propus s analizez legtura dintre dou variabile, dintre careuna
este efectul (rezultativa, dependent) iar cealalt este cauza (factorial, independent).
Analiza de regresie
Am aplicat analiza de regresie pentru a evalua n ce msur variabila dependent
numrul de igri consumate pe zi poate fi explicat prin variabila independent banii cheltuii
pe igri saptmnal.
Programul SPSS estimeaz parametrii modelului de regresie ales (am ales modelul de
regresie simplu liniar).
Pentru analiza modelului de regresie am parcurs urmtorii pai:
- estimarea parametrilor ecuaiei de regresie (pe baza metodei celor mai mici
ptrate) i interpretarea regresiei n funcie de semnul i valoarea parametrilormodelului de regresie;
- testarea semnificaiei parametrilor de regresie.
Parametrii ecuaiei de regresie , ntr-un model liniar simplu, Y =a +bX +e , sunt:
- - ordonata la origine (valoarea variabilei Y cand X = 0);
- panta dreptei, numit i coeficient de regresie;
Variabila independent (X) i variabila dependent (Y) sunt prezentate n tabelul
Variables Entered.
Variables Entered/Removedb
Model Variables Entered Variables Removed Method
1 Cati bani cheltuiti
saptamanal pe
tigari?
. Enter
a. All requested variables entered.b. Dependent Variable: Cate tigari fumati in medie pe zi?
n ecuaia de regresie, parametrii a i b sunt necunoscui. n practic parametrii unuimodel de regresie sunt estimai pe baza datelor la nivelul unui eantion observat: Y = a + bX ,
unde:
- a i b sunt estimaii ale parametrilor i
Tabelul Coefficientsprezint coeficienii nestandardizai ai modelului de regresie
estimat, erorile standard ale acestora, coeficienii de regresie standardizai cu erorile standard
corespunztoare, precum i valorile statisticii test ti valorile Sig. corespunztoare.
-
7/22/2019 Pre Final 1111
25/32
Coefficientsa
Model
Unstandardized Coefficients
Standardized
Coefficients
t Sig.B Std. Error Beta
1 (Constant) 3,419 ,722 4,735 ,000
Cati bani cheltuiti
saptamanal pe tigari?
,159 ,010 ,839 16,121 ,000
a. Dependent Variable: Cate tigari fumati in medie pe zi?
Am obinut n tabelul Coefficients valorile estimaiilor parametrilor deregresie i
anume valorile lui a i b (Unstandardized Coefficients).
a (Constant) = 3,419
b (vrsta respondentului) = 0,159
Modelul de regresie estimat este: Y = 3,419 + 0,159 X
Deoarece am obinut o valoare pozitiv a coeficientului de regresie b, nseamn c exist
o legtur direct ntre numrul de igri fumate pe zii banii cheltuii saptmnal pe igri. Dac
numrul de igri fumate pe zi crete cu 10, atuncibanii cheltuii saptmnal pe igri cresc, n
medie, cu 0,159 lei.
Am testat parametrii modelului de regresie folosind testul t. n tabelul Coefficients citim
valoarea testului t i valoarea Sig. corespunztoare. Pentru coeficientul de regresie b, citim
valoarea testului egal cu 16,121 i valoarea semnificaiei Sig. de 0,000.Deoarece Sig. este mai mic dect 0,05, atunci respingem ipoteza H0 (b nu difer
semnificativ de 0) i acceptm ipoteza H1 (b difer semnificativ de 0). nconlcuzie, putem spune
c exist o legtur semnificativ ntre numrul de igri fumate pe zii banii cheltuii saptmnal
pe igri.
Analiza de corelaie
n continuare am studiat intensitatea legturii dintre variabilele numrul de igri fumate
pe zi i banii cheltuii saptmnal pe igri. n acest sens am folosit analizade corelaie i am
obinut i interpretat indicatorii corelaiei.
Tabelul Model Summary prezint valoarea coeficientului de corelaie R, valoarea
raportului de determinaie R2i eroarea standard a estimaiei.
Model Summary
Model R R Square
Adjusted R
Square
Std. Error of the
Estimate
1 ,839a ,705 ,702 2,580
a. Predictors: (Constant), Cati bani cheltuiti saptamanal pe tigari?
Valoarea R (valoarea coeficientului de corelaie) arat dac exist sau nucorelaie ntre
variabila dependent (Y) i variabila independent (X).Acest indicator ia valori ntre -1 i 1.
-
7/22/2019 Pre Final 1111
26/32
Valoarea 2 (valoarea raportului de determinaie) arat proporia variaiei variabileidependente explicate prin modelul de regresie. Pentru modelul analizat a rezultat o valoare
R=0,839, respectiv, 2= 0,705, ceea ce ne arat c ntre numrul de igri fumate pe zi i baniicheltuii saptmnal pe igri exist o legtur liniar, direct, strns.
Tabelul Regession ANOVAprezint rezultatele analizei varianei variabilei dependentesub influena factorului de regresie i a factorului reziduu. Prezint informaii asupra sumei
ptratelor abaterilor variabilei dependente, gradele de libertate, estimaiile varianelor datorate
celor dou surse de variaie, raportulFi Sig.
ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression 1730,171 1 1730,171 259,877 ,000a
Residual 725,684 109 6,658
Total 2455,856 110
a. Predictors: (Constant), Cati bani cheltuiti saptamanal pe tigari?b. Dependent Variable: Cate tigari fumati in medie pe zi?
n cazul variabilelor considerate, valoarea Sig. pentru F este sig.=0,00
-
7/22/2019 Pre Final 1111
27/32
Testarea semnificaiei coeficientului de corelaie este realizat cu ajutorul testului t.
Valoarea Sig. corespunztoare, egal cu 0.000, evideniaz c s-a obinut un coeficient de corelaie
semnificativ la un prag de 0.000, adic sunt anse mai mici de 1% ( = 0.01) de a grei n a afirma
c ntre cele dou variabile exist o corelaie semnificativ.
Relaia dintre dou variabile poate fi reprezentat grafic sub forma unui nor de puncte.
Practic, graficul l alegem din meniul GRAPHS, comanda SCATTER, care deschide fereastra:
Vom alege un grafic simplu, care s ilustreze relaia dintre dou variabile, deci vomselecta opiunea SIMPLE. Se activeaz apoi butonul DEFINE, care deschide urmtoarea fereastr:
-
7/22/2019 Pre Final 1111
28/32
Se introduc cele dou variabile n cmpurile axei X i axei Y (nu conteaz ordinea n care
se introduc variabilele deoarece corelaia este bidirecional) i apoi se apas butonul OK.
Reprezentarea grafic a corelaiei este urmtoarea:
Reprezentarea grafic a corelaiei apare sub forma unui nor de puncte. Pentru exemplul
nostru norul de puncte este ascendent cresctor (din stnga-jos spre dreapta-sus) deoarece relaia
dintre variabile este pozitiv, iar punctele sunt apropiate, grupate deoarece coeficientul de corelaie
are valoare ridicat (r=0,839). Dac relaia ar fi fost invers proporional, norul de puncte ar fi fost
-
7/22/2019 Pre Final 1111
29/32
orientat descresctor (din stnga-sus spre dreapta-jos). n cazul n care nu ar fi nici o relaie,
punctele ar fi fost distribuite uniform pe grafic.
Analiza dispersional (One - Way ANOVA)
n acest subcapitol mi-am propus s studiez influena categoriei de igri fumat de
respondeniasupra banilor cheltuii sptmnal pe igri.
Formularea ipotezelor:
- H1: variabila categoria de igri fumat influeneaz cheltuielile sptmnale pe
igri sau cheltuielile sptmnale pe igri vor varia n funcie de categoria de
igri fumat.
- H0: varibila cheltuieli sptmnale pe igri va avea aceeai valoare, indiferent de
categoria de igri fumat.
Pentru atingerea acestui obiectiv am aplicat procedeul de analiz ANOVA unifactorial (One-Way ANOVA) care analizeaz variana pentru o variabil cantitativ (banii cheltuii
sptmnal pe igri) dependent de o singur variabil factor (categoriei de igri fumat).
Prin ANOVA se compar cheltuielile pe igripentru cele patru subcategorii definite de
variabila de grupare (igri normale, igri lights, super lights i mentolate).
n SPSS, am ales opiunea One-Way ANOVA din comanda Compare Means a meniului
Analyze.
Pentru a verifica dac sunt ndeplinite restriciile cerute de ANOVA am bifat casetele de
validare Descriptives, Homogeneity of variance i Means plot. Restriciile impuse unei analizeANOVA i verificarea lor constau n:
- restricia de normalitate (pentru a verifica normalitatea putem folosi: rezultatele
din tabelul Descriptives, diagrama Boxplot , diagrama Q-Q, testul K-L-S);
- restricia de homoscedasticitate (pentru a verifica dac varianele grupelor sunt
egale folosim testul LeveneTest of Homogeneity of Variances);
- restricia de independen;
Descriptives
Cati bani cheltuiti saptamanal pe tigari?
N Mean
Std.
Deviation
Std.
Error
95% Confidence Interval for Mean
Minimum MaximumLower Bound Upper Bound
Normale 43 48,95 20,165 3,075 42,75 55,16 25 100
Lights 18 61,11 9,164 2,160 56,55 65,67 50 75
Ultra lights 27 81,48 12,921 2,487 76,37 86,59 60 120
Mentolate 23 96,52 15,406 3,212 89,86 103,18 75 120
Total 111 68,69 24,879 2,361 64,01 73,37 25 120
-
7/22/2019 Pre Final 1111
30/32
Tabelul cu testul lui Leneve reprezint tocmai testul de omogenitate, care trebuie s fie
nesemnificativ pentru a utiliza aceast metod.
Test of Homogeneity of Variances
Cati bani cheltuiti saptamanal pe tigari?
Levene Statistic df1 df2 Sig.
1,511 3 107 ,216
Valoarea Sig.(0,216) pentru testul de omogenitate a varianelor este mai mare ca 0,05
sugernd c varianele pentru cele 4 categorii suntegale, deci restricia de homoscedasticitate
este ndeplinit i astfel se poate aplica ANOVA.
n tabelul ANOVA am obinut valoarea statisticii test Fisher, valoarea semnificaiei Sig.
i elementele de calcul pentru statistica test F (Fisher).
ANOVA
Cati bani cheltuiti saptamanal pe tigari?
Sum of Squares df Mean Square F Sig.
Between Groups 40017,421 3 13339,140 50,851 ,000
Within Groups 28068,165 107 262,319
Total 68085,586 110
Statistica test F se calculeaz dup relaia:
2= reprezint estimatorul varianei intergrupe (Between-Groups);2= reprezint media varianelor de grup i arat variana din interiorul fiecrei grupe
(Within Groups).
Din datele pe care le avem pn acum, F(3;107) = 50,851, p
-
7/22/2019 Pre Final 1111
31/32
- Stelua care apare n dreptul diferenelor dintre medii indic existena unor
diferene semnificative ntre acestea
- Coloana Sig. Conine valoarea exact a pragului de semnificaie pentru fiecare
diferen.
Astfel, n tabelul nostru avem urmtoarele rezultate:
Multiple Comparisons
Cati bani cheltuiti saptamanal pe tigari?
Bonferroni
(I) Ce categorie de
tigri fumati?
(J) Ce categorie de
tigri fumati?
Mean
Difference (I-J) Std. Error Sig.
95% Confidence Interval
Lower Bound Upper Bound
Normale Lights -12,158 4,547 ,052 -24,38 ,07
Ultra lights -32,528* 3,977 ,000 -43,22 -21,84
Mentolate -47,568
*
4,184 ,000 -58,82 -36,32Lights Normale 12,158 4,547 ,052 -,07 24,38
Ultra lights -20,370* 4,928 ,000 -33,62 -7,12
Mentolate -35,411* 5,097 ,000 -49,11 -21,71
Ultra lights Normale 32,528* 3,977 ,000 21,84 43,22
Lights 20,370* 4,928 ,000 7,12 33,62
Mentolate -15,040* 4,596 ,009 -27,39 -2,69
Mentolate Normale 47,568* 4,184 ,000 36,32 58,82
Lights 35,411* 5,097 ,000 21,71 49,11
Ultra lights 15,040* 4,596 ,009 2,69 27,39
*. The mean difference is significant at the 0.05 level.
Pentru a evita ca rezultatele noastre s fie fals pozitive, trebuie s fim mai severi n
privina p-ului; corecia Bonferroni seteaz pragul de semnificaie la p = 0,05/nr. de comparaii 0,001. Stabilind acest nou prag de semnificaie statistic i comparnd seriile dou cte dou,obinem p
-
7/22/2019 Pre Final 1111
32/32