Download - Program SPSS
Capitolul 1. Introducere
Obiectivul proiectului Ancheta somajului este o metoda moderna pentru cercetarea statistica a pietei si fortei de munca avand ca obiectiv principal masurarea populatiei active ocupate si in somaj si a populatiei inactive la nivelul principalelor tari europene. Conceputa ca sursa importanta de informatii asupra fortei de munca, ancheta furnizeaza, intr-o maniera coerenta, date esentiale asupra tuturor segmentelor de populatie, cu numeroase posibilitati de corelare si structurare dupa caracteristici demo-socio-economice, diverse, in conditii de comparabilitate internationala.
1
Capitolul 2. Construirea bazei de date
2.1 Alegerea variabilelor analizate Pentru aceasta ancheta am considerat relevante urmatoarele variabile: Tara Populatia totala Numarul de someri Rata somajului Numarul de locuri de munca disponibile Nivelul de dezvoltare Variabila tara reprezinta zona geografica la care ne referim. Populatia totala face referire la numarul de locuitori aferent unei anumite tari din cadrul Uniunii Europene. Numarul de someri se refera la populatia care momentan este fara ocupatie si care beneficiaza de un ajutor din partea statului. Rata somajului este o variabila numerica care exprima procentul persoanelor somere in decursul unui an aferent populatiei totale a unei tari. Numarul de locuri de munca disponibile reprezinta oferta factorului de productie munca. Nivelul de dezvoltare se refera la gradul de dezvoltare al tarii. In figura 1 se evidentiaza o macheta de ecran a variabilelor prezentate anterior.
2
Figura 1. Variabile Orice analiza statistica a datelor in SPSS presupune pregatirea setului de date necesar anchetei.
2.2 Definirea variabilelor si introducerea datelor in SPSS Acest proces presupune prezentarea datelor intr-un format care sa permita organizarea si efectuarea analizei lor. Definirea si introducerea datelor sunt operatii care se efectueaza folosind foile Data View si Variable View din fereastra Data Editor. Astfel se alege tipul variabilei in coloana Type din foaia Variable View din fereastra Data Editor. Ele pot fi de mai multe tipuri si anume: Numerice (numeric, comma, dot, scientific notation); Alfanumerice (string). n acest proiect tipul predominant al variabilelor utilizate este cel numeric, cu exceptia variabilei tara care este de tip string. Numele variabilelor este limitat in general la 8 caractere, exceptie facand prima variabila a carui nume este de 10 caractere.
3
Nu s-au utilizat valori ale variabilelor urmand ca acestea sa fie introduse manual. Datele se introduc in celulele foii Data View din fereastra Data Editor deschisa prin comanda New Data din meniul File. Fiecare rand reprezinta un subiect, iar fiecare coloana reprezinta o variabila. In figura 2 este surprinsa o macheta in care este prezentata foaia Data View privind modul de introducere a datelor.
Figura 2
4
Capitolul 3. Verificarea bazei de date3.1 Verificarea normalitatii distributiilor Pentru verificarea normalitatii unei distributii in SPSS pot fi utilizate doua cai, si anume: Reprezentarea grafica folosind procedeele histograma, boxplot, P-P plot si Q - Q plot; Aprecierea numerica a abaterilor distributiei empirice de la distributia teoretica. Histograma Acest procedeu presupune diagnosticarea unei distributii in vederea stabilirii normalitatii. Luand in considerare variabilele alese anterior putem evidentia procedeul histogramei astfel:15
12
Frequency
9
6
3
Mean = 46646.75 Std. Dev. = 90781.241 N = 16 0 0 100000 200000 300000 400000
populatia totala
5
Figura 3. Histograma pentru populatia totala Se observa n figura 3 o distributie cu un grad mare de asimetrie, normalitatea distributiei putand fi pusa sub semnul intrebarii.
4
3
Frequency
2
1
Mean = 9.893 Std. Dev. = 4.6282 N = 15 0 5.0 25.0 Figura 0.0 Histograma ratei 10.0 4. somajului 15.0nivel de20.0 la fiecare tara
rata somajului calculata la nivel de tara
In figura 4 putem observa o distributie aproximativ simetrica rezultand astfel o distributie normala.
6
15
12
Frequency
9
6
3
Mean = 2275.9 Std. Dev. = 4449.9726 N = 16 0 0.0 5000.0 10000.0 15000.0 20000.0 Figura 5. Histograma numarului de someri existenti n fiecare tara
In aceasta histograma putem observa o distributie asimetrica, deci distributia variabilei testate nu este normala.
numarul de someri existenti
7
14
12
10
Frequency
8
6
4
2 Mean = 649.525 Std. Dev. = 1277.1831 N = 16 0 0.0Figura 6. Histograma 3000.0 1000.0 2000.0 4000.0 numarului de 5000.0 6000.0 locuri disponibile
La fel ca si in cazul anterior distributia are un grad mare de asimetrie, fiind astefel considerata o distributie anormala. Q-Q plotEstimated Distribution Parameters
numarul de locuri disponibile
Normal Distribution
Location Scale
numarul de locuri disponibile 649.525 1277.1831
populatia totala 46646.750 90781.2410
numarul de someri existenti 2275.900 4449.9726
rata somajului calculata la nivel de tara 9.893 4.6282
8
Normal Q-Q Plot of numarul de locuri disponibile3,000
2,000
Expected Normal Value
1,000
0
-1,000
-2,000 0 6,000 Figura 7. Q-Q plot pentru variabila numarul 2,000 de locuri de4,000 munca disponibile
-2,000
Observed Value
9
Normal Q-Q Plot of populatia totala
200,000
Expected Normal Value
100,000
0
-100,000
Figura 8. Q-Q plot pentru variabila populatia totala -200,000 -100,000 0 100,000 200,000 300,000Observed Value
400,000
10
Normal Q-Q Plot of numarul de someri existenti12,000
9,000
Expected Normal Value
6,000
3,000
0
-3,000
-6,000 -10,000 -5,000 0 5,000 10,000 15,000 20,000
Observed Value Figura 9. Q-Q plot pentru variabila numarul de someri aferent fiecarei tari
11
Normal Q-Q Plot of rata somajului calculata la nivel de tara20
15
Expected Normal Value
10
5
0 0 5 10 15 20 25
Figura 10. Q-Q plot pentru variabila rata somajului. Dupa cum am evidentiat in procedeul histogramei putem spune ca distributia normala este intalnita doar in cazul variabilei rata somajul. In cazul celorlalte variabile distributia este asimetrica, deci aceasta nu este normala.
Observed Value
12
Capitolul 4. Analiza statistica univariata a datelor
4.1 Descrierea statistica a variabilelor nominale Variabilele statistice numite si caracteristici statistice reprezinta siruri de valori reale inregistrate la nivelul unitatilor statistice ale unei colectivitati bine definite. Exprima insusiri, trasaturi esentiale purtate de unitatile statistice ale unei colectivitati. Dupa modul de exprimare variabilele pot fi numerice sau cantitative si variabile nenumerice sau atributive care la randul lor pot fi nominale sau nominal ordinale. Variabilele nominale sunt caracteristici ale caror modalitati de manifestare sunt exprimate atributiv, in cuvinte, de exemplu variabila nivelul de dezvoltare al tarii. Cum putem observa si in exemplul nostru, cand numarul variantelor unei caracteristici atributive este mare, acestea fac obiectul nomenclatoarelor statistice, de exemplu, nomenclatorul tarilor Uniunii Europene. Distributiile dupa o variabila nominala poate fi reprezentata in SPSS cu ajutorul diagramelor BAR si PIE.Statistics nivelul de dezvoltare al tarii N Valid 16 Missing 0 nivelul de dezvoltare al tarii Cumulative Percent 25.0 68.8 100.0
Valid
foarte dezvoltata dezvoltata slab dezvoltata Total
Frequency 4 7 5 16
Percent 25.0 43.8 31.3 100.0
Valid Percent 25.0 43.8 31.3 100.0
13
Diagrama BAR
nivelul de dezvoltare al tarii
7
6
5
Frequency
4
3
2
1
foarte dezvoltata dezvoltata slab al tarii Figura 11. Diagrama BAR pentru variabila nivelul de dezvoltare dezvoltata
0
nivelul de dezvoltare al tarii
14
Digrama PIE
nivelul de dezvoltare al tarii
foarte dezvoltata dezvoltata slab dezvoltata
Figura 12. Diagrama PIE pentru variabila nivelul de dezvoltare al tarii Interpretare Cum se poate observa, in esantionul ales cea mai mare pondere o au tarile dezvoltate, ele reprezentand 43.8% din totalul tarilor luate in calcul avand in vedere nivelului de dezvoltare al acestora. 4.2 Descrierea statistica a variabilelor numerice Variabilele numerice sunt numite si cantitative si pot fi numarabile sau masurabile respectiv cu variatie discontinua (variabile discrete), sau cu variatie continua(variabile continue). 15
In cazul caracteristicilor anchetei efectuate variabilelle discrete iau valori numarabile de exemplu: populatia totala a tarii, numarul somerilor si locurile de munca disponibile. Variabilele continue exprima dimensiuni numarabile cum ar rata somajului. Ele pot fi reprezentate grafic prin intermediul histogramei, Q-Q plot si Boxplot. Histograma10
8
Frequency
6
4
2
Mean = 2.06 Std. Dev. = 0.772 N = 16 0 0.5 1 1.5 2 2.5 3 Figura 13. Histograma variabilei nivelului de dezvoltare 3.5 tarii al
Interpretare
nivelul de dezvoltare al tarii
Se observa o distribuite simetrica ceea ce ne duce la concluzia ca avem dea face cu o distributie normala.
16
Capitolul 5. Analiza statistica bivariata a datelor5.1 Analiza statistica a gradului de asociere intre doua variabile O distributie bivariata (bidimensionala) repezinta variatia unitatilor unei colectivitati simultan dupa doua caracteristici de grupare. In acest caz se pot lua in considerare reprezentarea grafica simultana a unei variabile nominale si a unei varibile numerici, a doua variabile numerice sau a doua nominale.
5.2 Analiza de regresie si corelatie Analiza de corelatieCorrelations rata somajului calculata la nivel de tara Pearson Correlation 1 Sig. (2-tailed) N 16 Pearson Correlation .482 Sig. (2-tailed) .059 N 16 numarul de someri existenti .482 .059 16 1 16
rata somajului calculata la nivel de tara numarul de someri existenti
17
4000.0
3000.0
numarul de someri existenti
2000.0
1000.0
0.0 0 20000 40000 60000 80000 100000
Interpretare
populatia totala
Pentru exemplul considerat s-a obtinut un coeficient de corelatie Pearson egal cu 0.482, ceea ce indica existenta unei corelatii directe intre cele doua variabile. Nu este o legatura puternica si nici slaba, valoarea acestui coeficient fiind la mijlocul intervalului. Valoarea SIG este de 0.059 ceea ce inseamna ca legatura este directa, insa foarte slaba.
18
Analiza de regresieStatistics nivelul de dezvoltare al tarii N Valid 16 Missing 0 nivelul de dezvoltare al tarii Cumulative Percent 25.0 68.8 100.0
Valid
foarte dezvoltata dezvoltata slab dezvoltata Total
Frequency 4 7 5 16
Percent 25.0 43.8 31.3 100.0
Valid Percent 25.0 43.8 31.3 100.0
nivelul de dezvoltare al tarii
7
6
5
Frequency
4
3
2
1
0 foarte dezvoltata dezvoltata slab dezvoltata
nivelul de dezvoltare al tarii
19
Descriptive Statistics Mean numarul de someri existenti numarul de locuri disponibile 1236.781 371.825 Std. Deviation 1327.4967 414.1279 N 16 16
Model Summary(b) Adjusted R Std. Error of R R Square Square the Estimate .859(a) .737 .718 704.4368 a Predictors: (Constant), numarul de locuri disponibile b Dependent Variable: numarul de someri existenti
Model 1
Interpretare Valoarea R ia valori intre -1 si 1 si arata daca exista sau nu o corelatie intre variabila dependenta (numarul de someri existenti) si variabile independenta (numarul de locuri de munca dispobinibile la nivelul fiecarei tari). In interpretarea modelului, se foloseste coeficientul de determinatie R 2 . Valoarea R 2 ia valori intre 0 si 1. Acest indicator este folosit pentru stabilirea carui model de regresie este cel mai bine de utilizat. In cazul variabilelor alese,
20
se observa ca valoarea este de 0.737 ceea ce indica faptul ca modelul de aregresie ales explica aproximativ legatura dintre variabile. Acesta valoare indica o legatura intre cele doua variabile destul de stransa si directa.ANOVA(b) Sum of Squares df Regression 19486474. 1 720 Residual 6947236.9 14 25 Total 26433711. 15 644 a Predictors: (Constant), numarul de locuri disponibile b Dependent Variable: numarul de someri existenti Model 1
Mean Square 19486474.720 496231.209
F 39.269
Sig. .000(a)
a Dependent Variable: numarul de someri existenti Residuals Statistics(a) Minimum 239.025 -.875 177.035 268.937 -704.5668 -1.000 -1.303 1284.6863 -1.339 .010 .000 Maximum 4121.336 2.531 492.852 4750.187 2173.5952 3.086 3.188 2320.1326 5.868 6.405 .814 Mean 1236.781 .000 237.907 1274.433 .0000 .000 -.022 -37.6518 .146 .938 .086 .063 Std. Deviation 1139.7799 1.000 76.098 1240.3752 680.5506 .966 1.028 783.9849 1.629 1.545 .211 .103 N 16 16 16 16 16 16 16 16 16 16 16 16
Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Value Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value
.001 .427 a Dependent Variable: numarul de someri existenti
21
Histogram
Dependent Variable: numarul de someri existenti
8
6
Frequency
4
2
0 -2 -1 0 1 2 3 4
Mean = 9.71E-17 Std. Dev. = 0.966 N = 16
Regression Standardized Residual
22
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: numarul de someri existenti1.0
0.8
Expected Cum Prob
0.6
0.4
0.2
0.0
5.3 Analiza dispersionala ANOVAnumarul de someri existentiN Mean Std. Deviation
0.0
0.2
0.4
0.6
0.8
1.0
Observed Cum Prob Descriptives95% Confidence Interval for Mean Upper Lower Bound Bound 1289.630 3980.320 191.478 -578.757 529.408 437.207 3398.037 1944.154 Minim um Maximu m
Std. Error
foarte dezvoltata dezvoltata slab dezvoltata Total
4 7 5 16
2634.975 314.343 1409.640 1236.781
845.4783 132.8486 1601.3968 1327.4967
422.7392 50.2120 716.1664 331.8742
1581.3 165.5 5.6 5.6
3465.5 467.3 3523.7 3523.7
Test of Homogeneity of Variances numarul de someri existenti Levene Statistic 25.841 df1 2 df2 13 Sig. .000 ANOVA
23
numarul de someri existenti Sum of Squares 13925431. 908 12508279. 737 26433711. 644 df 2 13 15 Mean Square 6962715.954 962175.364 F 7.236 Sig. .008
Between Groups Within Groups Total
2500.0
2000.0
Mean of nrsomeri
1500.0
1000.0
500.0
foarte dezvoltata slab dezvoltata Ipoteza nula este respinsa pentru ca Sigdezvoltata este inferior valorii de 0.5.
nivelul de dezvoltare al tarii
24
Capitolul 6. Estimarea si testarea statistica6.1 Estimarea parametrilor prin interval de incredere a unei medii sau a unei proportii Calculul intervalului de incredere pentru o medie sau pentru o proportie presupune efectuarea urmatorilor pasi: Calculul valorii tipice de sondaj; Determinarea variabilitatii estimatorului considerat; Alegerea intervalului de incredere; Calculul limitelor intervalului de incredere.
Estimarea prin interval de incredere a unei medii
Cases Valid N rata somajului calculata la nivel de tara 16 Percent 100.0% N 0 Missing Percent .0% N 16 Total Percent 100.0%
Descriptives
25
Statistic rata somajului calculata la nivel de tara Mean 95% Confidence Interval for Mean Lower Bound Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis 9.513 6.995 12.030 9.158 9.250 22.313 4.7237 3.3 22.1 18.8 5.5 1.175 2.267
Std. Error 1.1809
.564 1.091
Interpretare Putem spune cu o incredere de 95% ca rata somajului la nivelul de dezvoltare al tarilor din Uniunea Europeana este intre 6.995% si 12.030%. Estimarea prin interval de incredere a unei proportiiStatistics nivelul de dezvoltare al tarii N Valid 16 Missing 0
nivelul de dezvoltare al tarii Cumulative Percent 25.0 68.8 100.0
Valid
foarte dezvoltata dezvoltata slab dezvoltata Total
Frequency 4 7 5 16
Percent 25.0 43.8 31.3 100.0
Valid Percent 25.0 43.8 31.3 100.0
Se poate observa ca ponderea cea mai mare n cadrul Uniunii Europe o au tatile dezvoltate cu un procent de 43.8%.
26