student niculcea stefan universitatea dunarea de jos bazele statisticii- roiect
Embed Size (px)
TRANSCRIPT

1
Universitatea: DUNAREA DE JOS DIN GALATI
Facultatea : STIINTE ECONOMICE SI ADMINISTRAREA AFACERILOR
PROIECT
BAZELE STATISTICII
Student: NICULCEA ŞTEFAN

2
CUPRINS
Tema proiect ………………………………………………………………………………………………3
Capitolul I.
1.1Calculul mediei aritmetice si a medianei veniturilor………………………6
1.2 Calculul mediei aritmetice si a medianei cheltuielilor…………………..7
Capitolul II.Aprecierea dispersiei si asimetriei celor doua variabile
2.1 Dispersia si asimetria veniturilor…………………………………………………..8
2.2 Dispersia si asimetria cheltuielilor…………………………………………………10
Capitolul III. Determinarea intervalelor de incredere
3.1 Determinarea intervalelor de incredere
pentru mediile aritmetice ale veniturilor…………………………….12
3.2 Determinarea intervalelor de incredere
pentru mediile aritmetice ale cheltuielilor…………………………..14
Capitolul IV.Analiza legaturilor dintre cele doua variabile
4.1 Aprecierea pe baza reprezentarii grafice a sensului,
intensitatii si formei legaturilor dintre cele doua variabile…..16
4.2 Determinarea parametrilor unei legaturi liniare
simple intre cele doua variabile………………………………………………19
4.3 Interpretarea rezultatelor regresiei……………………………………………20

3
TEMA PROIECT
In urma unei cercetari intreprinse pentru un esantion de 50 de persoane asupra relatiei dintre
veniturile disponibile si cheltuielile pentru un sortiment de produs s-au obtinut urmatoarele rezultate:
Tabel nr. 1:
Nr.crt. Venit lunar (lei)
Cheltuieli pentru sortimentul de
produs (lei)
0 1 2
1811 106.4
2811 106.4
3831 106.4
4851 107.4
5861 107.4
6861 107.4
7901 108.4
8911 108.4
9911 108.4
10921 108.4
11961 109.4
12991 110.4
13991 110.4
14991 110.4
151001 110.4
16 998 178.7

4
17998 178.7
181011 111.4
191011 111.4
201011 111.4
211031 111.4
221041 111.4
231061 156.6
241061 156.6
251046 156.6
261046 156.6
271041 112.4
281041 112.4
291041 112.4
301081 112.4
311091 113.4
321121 157.6
331121 157.6
341121 112.4
351121 112.4
361121 113.4
37 1121 113.4

5
381121 113.4
391121 113.4
401161 114.4
411171 115.4
421201 115.4
431251 117.4
441281 117.4
451311 118.4
461391 120.4
471451 122.4
481491 123.4
491511 123.4
501501 123.4
Se cere :
1. Sa se caracterizeze cele doua variabile prin intermediul mediei aritmetice si a medianei;
2. Sa se aprecieze dispersia si asimetria valorilor celor doua variabile ;
3. Sa se determine, cu o probabilitate de 95% , intervalul de incredere al mediilor aritmetice
ale celor doua variabile;
4. Sa se analizeze legatura dintre cele doua variabile determinandu-se parametrii unei functii
liniare de regresie care sa reflecte dependenta cheltuielilor pentru sortimentul de produs
fata de veniturile disponibile.

6
CAPITOLUL I
1.1Calculul mediei aritmetice si a medianei veniturilor
Tabelul nr. 2 . Sumar al statisticii descriptive pentru variabila X
Nr.
crt
Sumar al atatisticii
descriptive
pentru variabila X
Valori
1 Mean 1078.080
2 Median 1043.500
3 Mode 1121.000
4 Std Error 24.620
5 Std Dev. 174.092
6 Variance 30308.198
7 Coeff. Var. 16.148
8 Lower 95%CL 1029.824
9 Upper 95%CL 1126.3356
10 25th Percentile 991.000
11 75th Percentile 1121.000
12 Sum 53904.000
13 Minimum 811.000
14 Maximum 1511.000
15 1st Smallest 811.000
16 1st Largest 1511.000
17 Range 700.000
18 Count 50.000
19 Skewness 0.924
20 P(Skewness) 0.010
21 Kurtosis 0.718
22 P(Kurtosis) 0.246
23 Confidence Level (95,0%) 48.2556

7
Din tabelul nr.2 media aritmetica (Mean) a veniturilor lunare este urmatoarea:
Mean=1078.08 (lei)
Din tabelul nr.2 mMediana (Median) esantionului de venituri lunare este urmatoarea:
Median= 1043.5 (lei)
1.2 Calculul mediei aritmetice si a medianei cheltuielilor
Tabelul nr. 3 . Sumar al statisticii descriptive pentru variabila Y
Nr.
crt
Sumar al atatisticii
descriptive
pentru variabila Y
Valori
1 Mean 120.696
2 Median 112.400
3 Mode 112.400
4 Std Error 2.723
5 Std Dev. 19.255
6 Variance 370.772
7 Coeff. Var. 15.954
8 Lower 95%CL 115.539
9 Upper 95%CL 126.033
10 25th Percentile 110.400
11 75th Percentile 120.900
12 Sum 6034.800
13 Minimum 106.400
14 Maximum 178.700
15 1st Smallest 106.400
16 1st Largest 178.700
17 Range 72.300
18 Count 50.000
19 Skewness 1.897
20 P(Skewness) 0.000

8
21 Kurtosis 2.420
22 P(Kurtosis) 0.015
23 Confidence Level (95,0%) 5.337
Din tabelul nr.3 media aritmetica (Mean) a cheltuielilor lunare este urmatoarea:
Mean=120.696(lei)
Din tabelul nr.3 mediana (Median) esantionului de cheltuieli lunare este urmatoarea:
Median= 112.40 (lei)
CAPITOLUL II
Aprecierea dispersiei si asimetriei celor doua variabile
2.1 Dispersia si asimetria veniturilor
Vom apela la informatiile cuprinse in tabelul nr. 2 .
Abaterea medie patratica de sondaj are urmatoarea valoare:
S =174.092(lei)
Nivelul de incredere( “Confidence Level” )
“Confidence Level” = 1.96 x 174.092 / =48.2556
=1.96 - coeficient de incredere
Varianta esantionului ,care apare in tabel sub denumirea “ Sample Variance “ reprezinta :
=30308.198(lei )² ;
Abaterea medie patratica a esantionului ,care apare in table sub denumirea de “Standard
Deviation” reprezinta:

9
=174.092 lei .
Pe baza abaterii medii patratice si a mediei aritmetice calculate in capitolul anterior se poate
determina coeficientul de variatie:
=(174.092/1078.08)* 100=16.148%
In interpretarea omogenitatii seriei se poate alege drept criteriu de delimitare valoarea de
35% .Astfel ,daca valoarea coeficientului de variatie este mai mica sau egala decat 35% putem considera
ca seria este omogena ,iar media aritmetica este semnificativ reprezentativa pentru valorile seriei.In
schimb, daca se obtine o valoare de 35%se poate afirma ca seria este omogena iar media aritmetica nu este
semnificativ reprezentativa pentru valorile seriei .
In cazul nostru valoarea de 16.148% ne indreptateste sa afirmam ca seria este omogena iar media
aritmetica de 1078.08 lei este semnificativ reprezentativa pentru valorile seriei .
Programul Excel permite interpretari de mare acuratete ale asimetriei si boltirii valorilor unui
esantion.
Sensul asimetriei este dat de valoarea indicatorului cara apare in tabelul nr. 2 sub denumirea de
“Skewness”.Atunci cand valoarea acestuia este mai mare decat zero se poate considera ca esantionul are o
asimetrie pozitiva.In schimb ,daca valoarea sa este mai mica decat zero se poate afirma ca esantionul are o
asimetrie negativa.
In cazul nostru , valoarea de 0.924 are semnificatia unei asimetrii pozitive.
In aprecierea intensitatii asimetriei ne putem folosi de marimea numita “eroarea standard a
asimetriei “,notate cu sesx, care este data de relatia;
Sesx=(6/N)½
Unde N este numarul de unitati ale esantionului, in cazul nostrum N=50
Sesx=(6/50) ½=0.3464
Interpretarea intensitatii asimetriei de baza se realizeaza prin comparatia dintre marimile
“Skewness” ; Sesx , astfel:

10
-atunci cand valoarea in modul a indicatorului “Skewness” este mai mare decat dublul valorii
marimii ( I“Skewness”>2* Sesx ) rezulta ca esantionul este semnificativ asimetric;
-in caz contrar, esantionul nu este semnificativ asimetric.
Observatie:Simbolul ISkewnessI are semnificatia unei valori in modul a marimii Skewness.
In cazul nostru, deoarece I“Skewness”I=0.924 este mai mare decat
2* Sesx=2*0.3464=0.6928 vom aprecia ca esantionul este semnificativ asimetric.
Boltirea esantionului poate fi apreciata pe baza indicatorului notat “Kurtosis” astfel:
-cand Kurtosis=0 , se considera ca boltirea distributiei esantionului este identica cu cea a unei
distributii normale;
-o valoare strict pozitiva indica o distributie leptokurtica, cu o reprezentare grafica mai ascutita fata de
curba unei distributii normale;
-o valoare strict negative reflecta o distributie mezokurtica cu o reprezentare grafica neteda fata de
curba unei distributii normale;
In cazul nostru , deoarece “Kurtosis”=0.718 vom aprecia ca distributia este leptokurtica,cu o
reprezentare grafica mai ascutita fata de curba unei distributii normale.
2.2 Dispersia si asimetria cheltuielilor
Vom apela la informatiile cuprinse in tabelul nr. 3 .
Abaterea medie patratica de sondaj are urmatoarea valoare:
S=19.255(lei)
Nivelul de incredere( “Confidence Level” )
“Confidence Level” = 1.96 x19.255 / =5.337

11
=1.96 - coeficient de incredere
Varianta esantionului ,care apare in tabel sub denumirea “ Sample Variance “ reprezinta :
=370.772 (lei )² ;
Abaterea medie patratica a esantionului ,care apare in table sub denumirea de “Standard
Deviation” reprezinta:
=19.255 lei .
Pe baza abaterii medii patratice si a mediei aritmetice calculate in capitolul anterior se poate
determina coeficientul de variatie:
=(19.255/120.696)* 100=15.95%
In interpretarea omogenitatii seriei se poate alege drept criteriu de delimitare valoarea de
35% .Astfel ,daca valoarea coeficientului de variatie este mai mica sau egala decat 35% putem considera
ca seria este omogena ,iar media aritmetica este semnificativ reprezentativa pentru valorile seriei.In
schimb, daca se obtine o valoare de 35%se poate afirma ca seria este omogena iar media aritmetica nu este
semnificativ reprezentativa pentru valorile seriei .
In cazul nostru valoarea de 15.95% ne indreptateste sa afirmam ca seria este omogena iar media
aritmetica de 120.696 lei este semnificativ reprezentativa pentru valorile seriei .
Programul Excel permite interpretari de mare acuratete ale asimetriei si boltirii valorilor unui
esantion.
Sensul asimetriei este dat de valoarea indicatorului cara apare in tabelul nr. 2 sub denumirea de
“Skewness”.Atunci cand valoarea acestuia este mai mare decat zero se poate considera ca esantionul are o
asimetrie pozitiva.In schimb ,daca valoarea sa este mai mica decat zero se poate afirma ca esantionul are o
asimetrie negativa.
In cazul nostru, valoarea de 1.897 are semnificatia unei asimetrii pozitive.

12
In aprecierea intensitatii asimetriei ne putem folosi de marimea numita “eroarea standard a
asimetriei “,notate cu sesx, care este data de relatia;
Sesx=(6/N)½
Unde N este numarul de unitati ale esantionului, in cazul nostrum N=50
Sesx=(6/50) ½=0.3464
Interpretarea intensitatii asimetriei de baza se realizeaza prin comparatia dintre marimile
“Skewness” ; Sesx , astfel:
-atunci cand valoarea in modul a indicatorului “Skewness” este mai mare decat dublul valorii
marimii ( I“Skewness”>2* Sesx ) rezulta ca esantionul este semnificativ asimetric;
-in caz contrar, esantionul nu este semnificativ asimetric.
Observatie:Simbolul ISkewnessI are semnificatia unei valori in modul a marimii Skewness.
In cazul nostru, deoarece I“Skewness”I=1.897 este mai mare decat
2* Sesx=2*0.3464=0.6928 vom aprecia ca esantionul este semnificativ asimetric.
Boltirea esantionului poate fi apreciata pe baza indicatorului notat “Kurtosis” astfel:
-cand Kurtosis=0 , se considera ca boltirea distributiei esantionului este identica cu cea a unei
distributii normale;
-o valoare strict pozitiva indica o distributie leptokurtica, cu o reprezentare grafica mai ascutita fata de
curba unei distributii normale;
-o valoare strict negative reflecta o distributie mezokurtica cu o reprezentare grafica neteda fata de
curba unei distributii normale;
In cazul nostru , deoarece “Kurtosis”=2.420 vom aprecia ca distributia este leptokurtica,cu o
reprezentare grafica mai ascutita fata de curba unei distributii normale.
CAPITOLUL III

13
3.1 Determinarea intervalelor de incredere pentru mediile aritmetice ale veniturilor
In cazul unui esantion de 50 unitati statistice , stabilirea intervalului de incredere pentru media
aritmetica a populatiei are la baza formula:
unde:
este media aritmetica a esantionului;
este media aritmetica a populatiei cercetate;
coeficient de incredere ( pentru o probabilitate de 95% ii corespunde un coeficient de incredere
=1.96)
n=50 este volumul esantionului;
S este o marime numita abatere medie patratica de sondaj, data de relatia:
Nivelul de incredere( “Confidence Level” )
“Confidence Level” = =48.2556
=1.96 - coeficient de incredere
Programul Excel calculeaza automat expresia a carei valoare o afiseaza sub
denumirea “Confidence Level”.
Vom utiliza informatiile cuprinse in tabelul nr. 2
Nr. Sumar al atatisticii Valori

14
crt descriptive
pentru variabila X
1 Mean 1078.080
2 Median 1043.500
3 Mode 1121.000
4 Std Error 24.620
5 Std Dev. 174.092
6 Variance 30308.198
7 Coeff. Var. 16.148
8 Lower 95%CL 1029.824
9 Upper 95%CL 1126.3356
10 25th Percentile 991.000
11 75th Percentile 1121.000
12 Sum 53904.000
13 Minimum 811.000
14 Maximum 1511.000
15 1st Smallest 811.000
16 1st Largest 1511.000
17 Range 700.000
18 Count 50.000
19 Skewness 0.924
20 P(Skewness) 0.010
21 Kurtosis 0.718
22 P(Kurtosis) 0.246
23 Confidence Level (95,0%) 48.2556
Media aritmetica a veniturilor (apare in tabelul nr. 2 sub denumirea “Mean”) reprezinta 1078.08 lei.
Pentru o probabilitate de 95% a rezultat o valoare Confidence Level=48.2556
Rezulta urmatorul interval de incredere, stabilit pentru o probabilitate de 95%:
[1078.08-48.2556; 1078.08+48.2556] = [1029.824;1126.3356]

15
In concluzie ,se poate afirma , cu o probabilitate de 95%, ca media aritmetica a veniturilor tuturor
consumatorilor sortimentului de produs se afla in intervalul
[1029.824;1126.3356].
3.2 Determinarea intervalelor de incredere pentru mediile aritmetice ale cheltuielilor
In cazul unui esantion de 50 unitati statistice , stabilirea intervalului de incredere pentru media
aritmetica a populatiei are la baza formula:
unde:
este media aritmetica a esantionului;
este media aritmetica a populatiei cercetate;
coeficient de incredere ( pentru o probabilitate de 95% ii corespunde un coeficient de incredere
=1.96)
n=50 este volumul esantionului;
S este o marime numita abatere medie patratica de sondaj, data de relatia:
Nivelul de incredere( “Confidence Level” )
“Confidence Level” = =5.337
=1.96 - coeficient de incredere
Programul Excel calculeaza automat expresia a carei valoare o afiseaza sub
denumirea “Confidence Level”.
Vom utiliza informatiile cuprinse in tabelul nr. 3
Nr.
crt
Sumar al atatisticii
descriptive
pentru variabila Y
Valori
1 Mean 120.696

16
2 Median 112.400
3 Mode 112.400
4 Std Error 2.723
5 Std Dev. 19.255
6 Variance 370.772
7 Coeff. Var. 15.954
8 Lower 95%CL 115.539
9 Upper 95%CL 126.033
10 25th Percentile 110.400
11 75th Percentile 120.900
12 Sum 6034.800
13 Minimum 106.400
14 Maximum 178.700
15 1st Smallest 106.400
16 1st Largest 178.700
17 Range 72.300
18 Count 50.000
19 Skewness 1.897
20 P(Skewness) 0.000
21 Kurtosis 2.420
22 P(Kurtosis) 0.015
23 Confidence Level (95,0%) 5.337
Media aritmetica a veniturilor (apare in tabelul nr. 3 sub denumirea “Mean”) reprezinta 120.696 lei.
Pentru o probabilitate de 95% a rezultat o valoare Confidence Level=5.337
Rezulta urmatorul interval de incredere, stabilit pentru o probabilitate de 95%:
[120.696-5.337; 120.696+5.337] = [115.539;126.033]
In concluzie ,se poate afirma , cu o probabilitate de 95%, ca media aritmetica a veniturilor tuturor
consumatorilor sortimentului de produs se afla in intervalul

17
[115.539;126.033].
CAPITOLUL IV
Analiza legaturilor dintre cele doua variabile
4.1 Aprecierea pe baza reprezentarii grafice a sensului, intensitatii si formei legaturilor dintre cele
doua variabile

18
Tabelul nr.4
Nr. Crt. Venituri Cheltuieli
1 811 106.4
2 811 106.4
3 831 106.4
4 851 107.4
5 861 107.4
6 861 107.4
7 901 108.4
8 911 108.4
9 911 108.4
10 921 108.4
11 961 109.4
12 991 110.4
13 991 110.4
14 991 110.4
15 1001 110.4
16 998 178.7
17 998 178.7
18 1011 111.4
19 1011 111.4
20 1011 111.4
21 1031 111.4
22 1041 111.4
23 1061 156.6
24 1061 156.6
25 1046 156.6

19
Pentru aprecierea sensului, intensitatii si formei legaturii dintre cele doua variabile ( Venituri,
Cheltuieli) se poate recurge la reprezentarea acestora intr-un sistem de axe carteziene. Folosind
Din reprezentarea grafica a celor doua variabile se poate deduce ca este vorba de o legatura directa
(cresterea lui X determina cresterea lui Y), iar gruparea punctelor ne sugereaza o intensitate
semnificativa . In plus , reprezentarea grafica are conturul unei drepte , ceea ce ne face sa credem ca
putem apela la o functie de regresie liniara.
4.2 Determinarea parametrilor unei legaturi liniare simple intre cele doua variabile
O legatura liniara simpla are forma:
Yxi=a+b*xi
In care:
-Yxi reprezinta valoarea teoretica a caracteristicii dependente Y pentru unitatea statistica i;
-xi reprezinta valoarea empirica a caracteristicii independente x pentru unitatea statistica I;
-a si b sunt parametrii regresiei dintre x si y
Tabelul 5-Parametrii regresiei
Descriptive Statistics
Variable Mean Std Dev. N
Column Y 120.696 19.255 50
Column X 1078.080 174.092 50
Summary
R2 R Adj. R2 S.E. of

20
Estimate
0.024 0.154 0.003 19.222
ANOVA
Source Sum Sq. D.F. Mean Sq. F Prob.
Regression 433.034 1 433.034 1.172 0.284
Residual 17734.805 48 369.475
Total 18167.839 49
Regression Coefficients
Source
Coefficien
t Std Error Std Beta
-95%
C.I.
+95%
C.I. t Prob.
Intercept 102.287 17.220 67.663
136.91
1 5.940 0.000
Column X 0.017 0.016 0.154 -0.015 0.049 1.083 0.284
Din tabel extragem valoarea din dreptul denumirii “Intercept” care corespunde coeficientului a=102.287 si
pe cea din dreptul denumirii column X= 0.017 care corespunde valorii b.
Rezulta: a=85.145 lei
b=0.017 lei ceea ce ne conduce la urmatoarea ecuatie de regresie:
Yxi=102.287+0.017*xi
4.3 Interpretarea rezultatelor regresiei
Pentru interpretarea rezultatelor regresiei vom folosi informatiile prezentate
in tabelul 5 pe care, pentru facilitarea analizei, il vom diviza in mai multe componente.

21
Tab. 5. Parametrii regresiei
Descriptive Statistics
Variable Mean Std Dev. N
Column Y 120.696 19.255 50
Column X 1078.080 174.092 50
Summary
R2 R Adj. R2
S.E. of
Estimate
0.024 0.154 0.003 19.222
ANOVA
Source Sum Sq. D.F. Mean Sq. F Prob.
Regression 433.034 1 433.034 1.172 0.284
Residual 17734.805 48 369.475
Total 18167.839 49
Regression Coefficients
Source
Coefficien
t Std Error Std Beta
-95%
C.I.
+95%
C.I. t Prob.
Intercept 102.287 17.220 67.663
136.91
1 5.940 0.000
Column X 0.017 0.016 0.154 -0.015 0.049 1.083 0.284
4.3.1. Interpretarea sensului si intensitatii legaturii dintre cele
doua variabile

22
Pentru aprecierea sensului si intensitatii legaturii dintre cele doua variabile
putem folosi valorile coeficientului de determinare R2 si a coeficientului de
corelatie rxy.
Coeficientul de determinare R2 , care apare in tabelul 5 sub denumirea “R
Square” reprezinta 0.024, ceea ce inseamna ca 2.4 % din variatia
cheltuielilor pentru sortimentul de produs a fost cauzata de variatia veniturilor disponibile.
Coeficientul de corelatie rxy, care apare in tabelul 5. sub denumirea
“Multiple R” reprezinta 0,154, Valoarea sa pozitiva si apropiata de 1 semnifica o legatura directa .
4.3.2. Stabilirea intervalelor de incredere pentru parametrii
regresiei
Pentru intervalele de incredere ale parametrilor regresiei ne-am propus o
probabilitate de 95% cu care sa garantam rezultatele obtinute. In raport cu acest nivel au fost calculate,
prin programul Excel, limitele inervalelor de incredere ale coeficientilor a si b.
Limitele inferioara si superioara ale intervalului de incredere pentru coeficientul a pot fi extrase din
tabelul 5 din intersectia randului care corespunde denumirii “Intercept “ cu coloanele care corespund
denumirilor
“Lower 95% “, respectiv, “Upper 95% “.
Rezulta ca se poate afirma, cu o probabilitate de 95%, ca valoarea
coeficientului a apartine intervalului [67.663;136.911].
Limitele inferioara si superioara ale intervalului de incredere pentru
coeficientul b pot fi extrase din tabelul 5 din intersectia randului care
corespunde denumirii “X “ cu coloanele care corespund denumirilor “Lower
95% “, respectiv, “Upper 95% “.
Rezulta ca se poate afirma, cu o probabilitate de 95%, ca valoarea
coeficientului b apartine intervalului [-0.015;0.049 ].