Download - proiect semestrial spss
Universitatea Alexandru Ioan Cuza
Facultatea de Economie şi Administrarea Afacerilor
Student:
Fotea Mihaela
MC MRU, An I
Disciplina: Statistică pentru afaceri
Proiect semestrial
SPSS
Coordonator:
Prof.univ.dr. Elisabeta Jaba
2
Cuprins
Cuprins ......................................................................................................................................................... 2
Cap.1 Prezentarea și descrierea statistică a unui eșantion observant ........................................................... 3
1.1 Descrierea problemei de studiat și alegerea variabilelor analizate ...................................................... 3
1.2 Realizarea bazei de date în SPSS și definirea variabilelor .................................................................. 3
1.1.1 Descrierea statistică a variabilelor nominale ............................................................................ 5
1.1.2 Descrierea statistică a valorilor numerice ................................................................................. 7
Cap. 2 Estimarea prin interval de încredere a parametrilor distribuțiilor considerate ................................. 13
2.1 Estimarea mediei prin interval de încredere...................................................................................... 13
2.2 Estimarea proporției ......................................................................................................................... 14
Cap. 3 Testarea ipotezelor statistice ........................................................................................................... 16
3.1 Testarea egalității unei medii cu o valoare specificată ...................................................................... 16
3.2 Testarea diferenței dintre două medii .............................................................................................. 18
3.3 Testarea egalităţii dintre două medii ................................................................................................ 19
Cap. 4 Analiza asocierii a două variabile categoriale ................................................................................. 20
4.1 Analiza de corelaţie pentru două variabile numerice ........................................................................ 21
4.2 Analiza de regresie simpla liniară ..................................................................................................... 22
Cap. 5 Analiza grafică a trendului .............................................................................................................. 23
5.1 Analiza variaţiilor sezoniere ............................................................................................................. 24
Bibliografie ................................................................................................................................................ 26
3
Cap.1 Prezentarea și descrierea statistică a unui eșantion observant
1.1. Descrierea problemei de studiat și alegerea variabilelor analizate
Acest studiu are la bază opinia oamenilor în legătură cu o serie de aspecte din viața lor
cum ar fi: nivelul de trai, modalitățile de petrcere a timpului liber, preocupări, salariu etc. Prin
intermediul acestui studiu am dorit să aflăm cum apreciază indivizii nivelul de trai prin prisma
salariului raportat la o serie de factori : ocupația, vârsta, vechimea, nivelul de educație etc.
Pentru a analiza acest subiect s-a aplicat un chestionar unui eșantion de 1500 de persoane,
din județul Iași cu vârsta cuprinsă între 19 și 69 de ani. Chestionarul este format dintr-un set de
întrebări deschise și închise referitoare la situația financiară prezentă raportată la cea din trecut.
Pentru acest proiect am realizat o bază de date pentru un eșantion de 33 de persoane,
modificând astfel și structura chestionarului deoarece acesta este un proiect didactic și nu este
just să utilizez o bază de date prea complexă la care am lucrat anterior. Variabilele menționate
mai sus vor constitui baza de date din SPSS, numită Date generale.
1.2 Realizarea bazei de date în SPSS și definirea variabilelor
Atributele acestor variabile sunt definite în fereastra Data Editor – Variable View. Vor fi
introduse, genul, ocupația (director, profesor, medic, infirmier), educația, salariul, vechimea
statutul, timp liber, concediu, localitate. Mai departe, alegem tipul variabilelor: numerice ( vârsta,
salariul, timpul, mediu,vechimea) și string ( genul, cheltuieli, ocupație și venit).
4
Tabel nr. .1.1 Introducerea variabilelor în baza de date, realizată în SPSS
Iar baza de date va fi următoarea:
Tabel nr. 1.2 Transformarea bazei de date în SPSS, folosind Data View
5
1.1.1 Descrierea statistică a variabilelor nominale
Vom analiza drept variabile nominale, ocupaţia şi genul persoanelor chestionate. Vom
selecta meniul Analyze – Descriptive Statistics – Frequencies – Statistics ( unde la
Central Tendency vom bifa Mode) şi Charts (unde la Chart Type vom bifa Pie, iar la Chart Value
- Frequencies). Astfel, se obţin următoarele rezultate:
Tabelul nr 1.3 Sexul respondentului
Interpretare: În tabelul 1.3 putem observa că, dintr-un total de 33 de respondenţi, 18 dintre
aceştia au fost bărbați, în timp ce restul respondenţilor, respectiv 15 au fost femei.
Tabelul nr 1.4 Ocupaţia persoanelor cuprinse în eşantionul analizat
Interpretare: Atât din tabelul nr. 1.4, cât şi din graficul următor, putem observa că din totalul
celor chestionaţi, cei mai mulţi au fost studenţi, cu o pondere de 12.1%, urmând profesorii,
6
managerii, pensionarii, infirmierii și șomerii cu un procent de 9.1% şi cu un procentaj de 6.1%
contabilii, medicii, zidarii etc.
Figura nr. 1.5 Ponderea persoanelor cuprinse în eşantion, în funcţie de ocupaţia acestora
Figura nr. 1.6 Ponderea persoanelor cuprinse în eşantion, în funcţie de sexul acestora
7
1.1.2 Descrierea statistică a valorilor numerice
Pentru a reda variabilele numerice (salariul și vârsta), din meniul Analyze alegem
Descriptive Statistics – Frequencies( la opțiunea Dispersion selectăm St.deviation, minimum și
maximum, iar la optiunea Central Tendency selectăm Mean), iar la Chart optăm pentru diagrama
de tip Histogramă cu curbă normală. Astfel s-au obținut următoarele rezultate:
Tabelul nr 1.7 Parametrii distribuţiei, salariul și vârsta indivizilor
Din figura 1.7 putem observa o analiză a vârstei și a salariului lunar. Vârsta minimă a
persoanelor din eşantion este de 18 ani, cea maximă de 69 ani. Avem afişată şi o medie a vârstei,
de 37,21 ani. Abaterea medie pătratică (std. deviation): În medie, vârsta fiecărei persoane se abate
de la vârsta medie cu 12.754 în plus sau în minus. Avem și un salariu lunar minim de 299 lei și
un salariu maxim de 6400 lei, iar salariul mediu este de 1799.30 lei. La fel ca și în cazul vârstei
avem o abatere medie pătratică de 1764.324 +/-.
Din bara de meniu utilizăm comanda Analyze–Descriptive Statistics– Descriptives–
Options şi selectăm urmatorii parametri: valoarea medie (mean), abaterea medie patra tică
( s td . deviation), varianţa, coeficientul de asimetrie (skewness), de boltire (kurtosis) si variable
list. Am făcut acest lucru pentru 3 variabile (vârsta indivizilor din eșantion, salariul lunar şi
modalități de petrecere a timpului liber). Se obţin următoarele rezultate:
Tabelul nr. 1.8 Corelaţia existentă între cele trei variabile
8
Utilizând comanda Analyze – Descriptive Statistics – Frequencies – Statistics şi
selectând urmatorii parametri: valoarea medie (mean), mediana, modala, valorile quartile,
abaterea medie patratică ( s td . deviation), varianţa, coeficientul de asimetrie (skewness), de
boltire (kurtosis). În fereastra Charts selectăm şi opţiunea Histogram/With normal curve. Pentru
realizarea acestui lucru am folosit aceleași variabile de la figura 1.8. Rezultatul a fost :
Tabelul nr. 1.9 Parametrii repartiţiei unidimensionale
Interpretare:
Media(mean):
vârsta medie a persoanelor din eşantion este de 37,21 ani;
venit lunar mediu de 1799,30 Ron;
Modalitatea de petrecere a timpului liber în medie este de 2,21
Mediana(median):
jumătate din cei chestionaţi au vârsta în medie de 37 de ani
au un venit de până la 1200 Ron;
Își petrec vacanțele în strainătate de 2 ori pe an
Modul (mode):
Cei mai mulţi dintre cei chestionaţi au 45 ani
cei mai mulţi dintre cei chestionaţi au un venit de 1200 Ron
9
cei mai mulţi preferă să-și petreacă timpul liber 1 dată pe an
Abaterea medie pătratică (std. deviation):
în medie, vârsta fiecărei persoane se abate de la vârsta medie cu 12.754, în plus sau în
minus;
venitul lunar al unei persoane se abate de la venitul lunar mediu, în plus sau în minus, cu
1764.324;
durata timpului petrecut se abate de la cea medie cu 1,19 ori pe an.
Skewness: În ceea ce priveşte parametrii formei, se observă că seria asimetrică pozitiv,
predomină persoanele de vârsta a doua (skewness >0);
Kurtosis: În cazul nostru, distribuţia are o boltire alungită.
Tabelul nr.1.10 Structura persoanelor cuprinse în eşantion, în funcţie de vârsta acestora
10
Tabelul nr.1.11 Structura persoanelor cuprinse în eşantion, în funcţie de salariul lunar al
acestora
Tabelul nr.1.12 Modalităţile respondenţilor de petrecere a timpului liber
11
În tabelul de frecvență pentru variabila “Modalități de petrecere a timpului liber” se poate
observa că 12 indivizi își petrec timpul liber plimbându-se, 9 își petrec vacanțele în străinatate, 8
indivizi merg în țară în vacanțe, iar ultimele 4 persoane își petrec timpul liber mergând la
teatru/operă (2) și participând la diferite activități extracurriculare.
Grafic nr. 1.13 Distribuţia salariului lunar al respondenţilor, în jurul mediei
Grafic nr. 1.14 Distribuţia respondenţilor în funcţie de vârstă, în jurul mediei
12
Grafic nr. 1.15 Distribuţia respondenţilor în funcţie de modalităţile de petrecere a
timpului liber, în jurul mediei
13
Cap. 2 Estimarea prin interval de încredere a parametrilor distribuțiilor
considerate
2.1. Estimarea mediei prin interval de încredere
Pentru estimarea mediei am ales variabila “Salariul”; selectăm din meniul Analyse –
comanda Descriptives Statistics- opțiunea Explore, iar din fereastra Explore, selectăm variabila
dorită și o mutăm în zona Dependent List. Apoi activăm butonul de comandă Statistics, care
deschide fereastra Explore Statistics și bifăm caseta de validare Descriptives, precizând în caseta
Confidence Interval for Mean, nivelul de încredere de 95%. Se obțin următoarele date:
Tabelele nr. 2.1 şi 2.2 Estimarea mediei prin intervalul de încredere
Interpretare: cu o probabilitate de 95% putem afirma că salariul mediu al unui angajat
este între 1173.70 RON și 2424.91 RON.
14
Grafic nr. 2.3 Boxplot pentru variabila “salariul lunar”
2.2.Estimarea proporției
Vom efectua o serie de pași pentru a determina intervalul de încredere pentru o proporție.
Pentru a calcula estimația proporției pentru categoria “Student”, din meniul Analyze, comanda
Descriptive Statistics, opțiunea Frequencies, aflăm valoarea variabilei Z pentru un nivel de
încredere de 95% (Z=1,96), calculăm abaterea standard după relația
este abaterea (deviația) standard, iar n este volumul eșantionului
și calculăm limitele intervalului cu formula f ± .
15
Tabelele nr. 2.4 şi 2.5 Estimarea proporţiei prin intervalul de încredere
Se poate observa că proporția angajaților care ocupă funcția de student este de 12.1%.
Calculăm pentru f = 12.1% : = =0,003
Calculăm limitele I.C. pentru z = 1,96:
- = f – 1,96 · = 0,121 - 1,96 · 0,07 = -0,128
- = f + 1,96 · = 0,121 + 1,96 · 0,07 = 0,25
Interpretare: cu o probabilitate de 95%, putem afirma că ponderea persoanelor din
categoria “Student” la nivelul populației este acoperită de intervalul [-0,128; 0,25] sau că
ponderea acestora este cuprinsă între -12,8% și 25%.
16
Cap. 3 Testarea ipotezelor statistice
3.1. Testarea egalității unei medii cu o valoare specificată
Pentru a testa egalitatea unei medii cu o variabilă specificată am ales variabila “Salariu”.
Se va analiza dacă salariul curent al unui angajat diferă sau nu de 700 RON . Testarea egalității
salariului mediu la nivel de eșantion cu o valoare fixă se realizează cu opțiunea One – Sample T
Test, care presupune parcurgerea următoarelor etape: din meniul Analyze, alegem comanda
Compare Means și opțiunea One-Sample T Test.
După alegerea opțiunii One – Sample T Test, selectăm din fereastră variabila “Salariu” și
o mutăm în zona Test Variable(s), specificăm valoarea dorită, 700, în zona de editare Test Value;
apoi activăm butonul de comandă Options și în zona Confidence Interval, alegem gradul de
încredere de 95%. După ce acționăm butonul Continue și apoi OK obținem următoarele tabele:
Tabelele nr. 3.1 şi 3.2 Testatea egalităţii unei medii cu o valoare specificată
Interpretare: se poate observa că valoarea nivelului de semnificație Sig. egală cu 0,001
este mai mică decât valoarea 0,05, considerată în Confidence Interval din Options, ceea ce
evidențiază existența unei diferențe semnificative între valoarea medie a salariului observată în
eșantion și cea specificată, de 700 RON (ipoteza nulă se respinge).
17
Testarea egalității unei medii cu o valoare specificată se poate realiza și printr-un
procedeu grafic: Error Bar. Diagrama Error Bar descrie intervalul de încredere de 95% a mediei
pentru variabila “Salariu”, adică intervalul care acoperă valoarea medie, cu o probabilitate de
95%.
Pentru a obține diagrama Error Bar, selectăm din meniul Graphs – comanda Error Bar,
alegem tipul simple și butonul de opțiuni Summaries of separate variables. Apoi din butonul
Define alegem Define Simple Error Bar, selectăm variabila “Salariu” și o mutam în zona Error
Bars.
Grafic nr.3.3 Diagrama Error Bar pentru variabila salariu
Interpretare: Se poate observa că și prin procedeul Error Bar, cu o probabilitate de 95%
se respinge ipoteza nulă, de egalitate a salariului mediu al persoanelor din eșantion cu o valoare
specificată (700); această valoare (700) nu este cuprinsă în intervalul de încredere [1000; 2500].
18
3.2 Testarea diferenței dintre două medii
Testarea se realizează cu ajutorul testului Independent-Samples T Test. Demersul este:
Analyze – Compare Means – Independent-Samples T Test. Se va testa dacă bugetul alocat înainte
de criză este acelaşi pentru genul feminin şi masculin. Ipoteza privind egalitatea mediilor se
formulează astfel:
H0: X 1= X 2
H1: X 1≠ X 2
Tabelele nr. 3.4 şi 3.5 Testarea diferenţei dintre mediile: salariul şi sexul respondenţilor
Interpretare: Testul t este egal cu 0,99 respectiv cu 1,04 cu o probabilitate Sig. de 0,325și
0,307>0,05, ceea ce arată că bugetul lunar pentru cele două sexe (2079 Ron pentru masculin şi
1463 pentru femenin) ceea ce arată că între cele două medii există diferenţe semnificative.
19
3.3 Testarea egalităţii dintre două medii
Din meniul Analyze – Compare Means – One-way Anova introducem variabila
cantitativă vârsta dependentă de variabila „modalități de petrecere a timpului liber”.
H0: Vârsta persoanelor chestionate nu influenţează modul de a-și petrece timpul liber.
H1: Vârsta persoanelor chestionate influenţează modul de a-și petrece timpul liber.
Tabelele nr. 3.6 şi 3.7 Testarea egalităţii dintre mediile: vârsta şi modalităţile de
petrecere a timpului liber ale respondenţilor
Valoarea Sig = 0.02 pentru F este mai mică decât 0,05, deci variabila independentă
explică variaţia variabilei dependente. De aici rezultă că vârsta persoanelor chestionate
influenţează modul în care își petrec timpul liber. Se poate lua decizia de a respinge ipoteza
nulă, cu un risc acceptat de 5%.
20
Cap. 4 Analiza asocierii a două variabile categoriale
Pentru această analiză am realizat următorii paşi: din meniul Analyze – Descriptive
Statistics – Crosstabs. Aici, pe rânduri am ales variabila “Surse de venit”, iar pe coloane “mediul
din care face parte”, bifând de la Statistics opțiunea Chi-square .
Tabelele nr. 4.1 şi 4.2 Influenţa mediului asupra surselor de venit
Tabelul Crosstab ne ajută să interpretăm asocierea categoriilor celor două variabile.
Astfel, putem observa că sursele de venit provin în primul rând din activitatea de bază, în număr
de 10 în mediul urban, respectiv 8 în mediul rural.
21
Tabelele nr. 4.3 Asocierea variabilelor
Tabelul Chi Squarse folosește pentru a testa asocierii. Astfel spus, ipoteza presupusă
adevarată (H0) va confirma că variabilele sunt independente, pe cand ipoteza alternativă (H1) va
confirma că variabilele sunt dependente sau asociate. Pentru decizie vom compara valoarea Sig-
ului din tabel cu α=0,05, de unde rezultă că se respinge ipoteza H0 (Sig< α). Aşadar, variabilele
“sursele de venit” şi “mediul din care face parte”, sunt dependente sau asociate, neavând aceeaşi
proporţie.
4.1 Analiza de corelaţie pentru două variabile numerice
Acest tip de analiză am folosit-o pentru a studia intensitatea legăturii dintre variabilele
“Nivelul de educaţie” şi “Salariul curent”. Corelaţia o vom exprima prin coeficientul de corelaţie
Pearson astfel: Analyze – Correlate – Bivariate, bifând coeficientul Pearson.
Tabel nr. 4.4 Corelarea variabilelor vârsta-salariu
22
Valoarea coeficientului de corelaţie Pearson de 0.74 tinde spre 1 (valoarea
corespunzătoare unei corelaţii perfecte), ceea ce denotă faptul că între cele două variabile există o
legătură strânsă.
4.2 Analiza de regresie simpla liniară
Pentru acest tip de analiză am utilizat două variabile numerice, şi anume: “Statut
matrimonial” (independentă), precum “Nivel de trai perceput” (dependentă). Astfel, din meniul
Analyze – Regression – Linear, am ales cele două variabile, la Statistics am bifat Estimates şi
Confidence intervals, iar la Save am bifat Unstandardizad atât pentru Predicted Values cât şi
pentru Residuals.
Tabelele nr. 4.5 şi 4.6 Analiza regresiei liniare simple
Interpretare:
1. R ε [0;1], iar cu cât valoarea lui R este mai aproape de 0, cu atât legătura este mai slabă între
cele două variabile şi cu cât este mai aproape de 1, legătura este mai strânsă. Astfel, R=0,73 arată
o legătură strânsă între cele două variabile analizate.
2. R Square ne atară că 0.005 % din variaţia salariului este explicată de variaţia nivelului de
educaţie.
23
Cap. 5 Analiza grafică a trendului
Dorind să evaluăm dacă există trend crescător sau descrescător, am realizat iniţial o
analiză grafică din meniul Graphs -> Sequence, şi astfel am observat că cifra de afaceri pentru
S.C.Petrom a variat în timp, în cea mai mare parte acesta având o evoluţie crescândă, cu toate că
în anumiţi ani, a scăzut.
Grafic nr. 5.1 Evoluţia cifrei de afaceri pe perioada 1999-2013
24
5.1 Analiza variaţiilor sezoniere
Pentru această etapă am definit iniţial anul primei înregistrări din meniul Data -> Define
Dates, după care, din meniul Analyze -> Regression -> Curve estimation, am ales ca variabilă
dependentă “cifra de afaceri”, iar ca variabilă independentă “anii”, bifând căsuţa Time, pentru a
determina variaţia medie anuală a salariilor. De asemenea, modelul ales de noi este cel liniar.
Tabel nr. 5.2 Analiza variaţiilor sezoniere
Grafic nr. 5.3 Trendul cifrei de afaceri pe perioada analizată, 1999-2013
25
Atât din tabelul nr.5.2 cât şi din graficul nr.5.3 putem observa faptul că există un trend
crescător. Notaţia “b1” din tabel reprezintă variaţia medie anuală a cifrei de afaceri, iar aceasta
având o valoare pozitivă (b1>0), şi anume 18,994 ,se confirmă cele spuse anterior. Totodată,
putem spune că în medie, salariile au variat anual cu 1.053.213.725,796 Ron.
Prognoza cifrei de afaceri în timp am realizat-o din meniul Analyze -> Regression ->
Curve Estimation. Variabila dependentă este şi cifra de afaceri, am bifat iar căsuţa “Time”, iar la
Save am ales opţiunea “Predicted values”. La Predict through am introdus anul 2013, acesta fiind
orizontul de prognoză pentru care am dorit să estimăm valoare salariului.
Astfel, ne aşteptăm ca în anul 2013, cifra de afaceri pentru compania SC.PETROM să
fie de 18.619.754.703.8valoare calculată şi luată din baza noastră de date.
Tabel nr.5.4 Prognoza cifrei de afaceri
26
Bibliografie
1. Jaba Elisabeta, Statistică, ediţia a III-a, Editura Economică, Bucureşti, 2002;
2. Jaba Elisabeta, Grama, A., Analiza statistică cu SPSS sub Windows, Editura
Polirom, 2004;