regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau...
TRANSCRIPT
Econometrie MRK
1
Regresia liniară simplă
Problemă rezolvată: O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului
provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de
pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai
recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu
şi cea mai apropiată staţie de pompieri:
Nr. crt. Distanța față de stația de pompieri (zeci km) Valoarea prejudiciului (mii Euro)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
Cerintele sunt:
1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este
variabila explicativă şi care este variabila explicată;
2. Pe baza datelor din eşantion, determinaţi estimatiile coeficienţilor modelului de regresie adecvat
analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;
3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;
4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie
Pearson;
5. Calculaţi raportul de corelaţie, testaţi semnificaţia (validitatea) acestuia la un nivel se semnificatie de
5% şi interpretaţi rezultatul obţinut;
6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;
7. Testati ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de
semnificaţie de 5%;
8. Determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului;
9. Rezolvaţi problema în Excel;
10. Estimaţi punctual şi printr-un interval de încredere 95% nivelul prejudiciului, dacă distanţa între locul
incendiului şi staţia de pompieri ar fi de 6,5 zeci de kilometri (previziunea punctuală şi prin interval
de încredere).
Econometrie MRK
2
REZOLVARE
1. Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată
în zeci de km
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila endogenă)
Corelograma
Sintaxa Excel: Insert
Chart
XY(Scatter)
Corelograma
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
50.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X
(distanta de la locul incendiului la statia de pompieri, in zeci km)
Valo
rile
vari
ab
ilei
dep
en
den
te Y
(valo
are
a p
reju
dic
iulu
i, i
n m
ii E
ur)
Corelograma sugerează că există legătură directă şi liniară între cele două variabile.
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, XfY , o funcţie
liniară xxf .
Modelul liniar de regresie este XY .
2. Coeficienţii modelului de regresie liniră simplă
Pentru fiecare dintre cele n=15 incendii s-au notat valorile celor două variabile, X şi Y, obţinîndu-
se astfel seria de date nn yxyxyx ,,...,,,, 2211 sau niyx ii ,1,, . Pe baza acestui eşantion vom
determina estimatorii a şi b ai parametrilor şi ai modelului de regresie. Estimatorii a şi b reprezintă
soluţia sistemului ecuaţiilor normale:
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
yxxbxa
yxbna
11
2
1
11
Econometrie MRK
3
Rezolvarea sistemului folosind metoda determinanţilor:
aa si
bb ,
unde
n
i
i
n
i
i
n
i
i
xx
xn
1
2
1
1 este determinantul matricei sistemului de ecuaţii,
iar
n
i
i
n
i
ii
n
i
i
n
i
i
a
xyx
xy
1
2
1
11 ,
n
i
ii
n
i
i
n
i
i
b
yxx
yn
11
1 sunt minorii corespunzători celor două necunoscute.
2
11
2
111
2
11
2
111
2
1
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
b
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
i
a
xxn
yxyxn
b
xxn
yxxxy
a
Calculele intermediare sunt prezentate în tabelul de mai jos:
Valorile xi ale
variabilei X
Valorile yi ale
variabilei Y 2
ix 2
iy ii yx
x1=3,4 y1=26,2 (x1)2=11,56 (y1)
2=686,44 x1·y1=89,08
x2=1,8 y2=17,8 (x2)2=3,24 (y2)
2=316,84 x2·y2=32,04
x3=4,6 y3=31,3 (x3)2=21,16 (y3)
2=979,69 x3·y3=143,98
2,3 23,1 5,29 533,61 53,13
3,1 27,5 9,61 756,25 85,25
5,5 36,0 30,25 1296,00 198
0,7 14,1 0,49 198,81 9,87
3,0 22,3 9,00 497,29 66,9
2,6 19,6 6,76 384,16 50,96
4,3 31,3 18,49 979,69 134,59
2,1 24,0 4,41 576,00 50,4
1,1 17,3 1,21 299,29 19,03
6,1 43,2 37,21 1866,24 263,52
4,8 36,4 23,04 1324,96 174,72
x15=3,8 y15=26,1 (x15)2=14,44 (y15)
2=681,21 x15·y15=99,18
2,4915
1
i
ix
15
1
2,396i
iy
15
1
2 16,196i
ix
15
1
2 48,11376i
iy 65,147015
1
i
ii yx
Se obţine: 2779,102,4916,19615
65,14702,4916,1962,3962
aa
Econometrie MRK
4
9193,42,4916,19615
16,3962,4965,1470152
bb ,
prin urmare dreapta de regresie este de ecuaţie xxbay 9193,42779,10ˆ ,
ecuaţia de regresie liniară în eşantion este 15,1,9193,42779,10 iexexbay iiiii ,
iar valorile ajustate ale observaţiilor 15,1, iyi prin regresie sunt
15,1,9193,42779,10ˆ ixxbay iii .
Interpretarea valorilor coeficienţilor
b arată că valoarea prejudiciului creşte cu 4,9193 mii euro dacă distanţa dintre incediu şi staţia de
pompieri creşte cu o unitate, adică 10 km
a arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă
staţia de pompieri.
3. Validitatea modelului de regresie
Pentru testarea validităţii modelului se formulează cele două ipoteze:
H0: modelul de regresie nu este valid statistic,
cu alternativa
H1: modelul de regresie este valid statistic.
Statistica utilizată pentru a decide care dintre ipoteze se acceptă este:
1,~
1
knkFisher
kn
SSEk
SSR
MSE
MSRF sau 1,2
2/
2
2/
~
1
knk
e
xy
e
xyFisher
kn
k
s
sF ,
unde k este numărul de variabile explicative din modelul de regresie (în cazul nostru, k=1 deoarece avem
un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul
sau pragul de semnificaţie al testului, iar 1-α’ este nivelul de încredere al testului. Dacă nu se specifică,
vom considera în general că α’=0,05 (sau α’·100=5%), iar 1-α’=0,95 (sau (1-α’)·100=95%). Pentru
calculul statisticii calcF folosim tabelul ANOVA:
Econometrie MRK
5
Sursa
variaţiei
Suma pătratelor
(SS-Sum of Squares)
Grade de
libertate
(df -
degrees of
freedom)
Media pătratelor
(MS- Mean of
Squares)
Dispersiile
corectate
Valoarea
statisticii F Fcritic
Datorată
regresiei
(Regression)
n
ii
xy
yy
SSR
1
2
2/
ˆ k
k
SSRMSR
sau
ks
xy
xy
2/2
/
MSE
MSRF
sau
2
2
/
e
xy
calcs
sF
1,;' knkF
Reziduală
(Residual)
n
iii
e
yy
SSE
1
2
2
ˆ n – k – 1
1
kn
SSEMSE
sau
1
22
kns e
e
Totală
n
ii
y
yy
SST
1
2
2
n – 1
De asemenea, se poate calcula si dispersia de selectie a lui Y, adica 11
2
2
nn
SSTs
y
y .
Regula de decizie este:
dacă 1,;' knkcriticcalc FFF , adică Fcalc se găseşte în regiunea critică,
atunci respingem H0 şi acceptăm H1, că modelul de regresie este valid statistic.
Calculele intermediare sunt prezentate în tabelul următor:
Econometrie MRK
6
Nr.
crt. ix iy ii xy 9193,42779,10ˆ iii yye ˆ yyi 2yyi 22 ˆiii yye 2ˆ yyi
1 3,4 26,2 27,0035 -0,8035 -0,2133 0,0455 0,6456 0,3484
2 1,8 17,8 19,1326 -1,3326 -8,6133 74,1889 1,7759 53,0080
3 4,6 31,3 32,9067 -1,6067 4,8867 23,8798 2,5814 42,1640
4 2,3 23,1 21,5923 1,5077 -3,3133 10,9780 2,2732 23,2421
5 3,1 27,5 25,5277 1,9723 1,0867 1,1809 3,8898 0,7842
6 5,5 36,0 37,3341 -1,3341 9,5867 91,9048 1,7797 119,2628
7 0,7 14,1 13,7214 0,3786 -12,3133 151,6174 0,1433 161,0841
8 3,0 22,3 25,0358 -2,7358 -4,1133 16,9192 7,4846 1,8975
9 2,6 19,6 23,0681 -3,4681 -6,8133 46,4211 12,0276 11,1905
10 4,3 31,3 31,4309 -0,1309 4,8867 23,8798 0,0171 25,1762
11 2,1 24,0 20,6084 3,3916 -2,4133 5,8240 11,5027 33,6965
12 1,1 17,3 15,6891 1,6109 -9,1133 83,0522 2,5949 115,0078
13 6,1 43,2 40,2856 2,9144 16,7867 281,7933 8,4936 192,4415
14 4,8 36,4 33,8905 2,5095 9,9867 99,7342 6,2974 55,9091
15 3,8 26,1 28,9712 -2,8712 -0,3133 0,0982 8,2440 6,5431
15
1
2,396i
iy
15
1
2,396ˆi
iy
15
1
0i
ie
15
1
0i
i yy 52,911
2
ySST
751,69
2
eSSE
76,841
2/
xySSR
unde 4133,2615
15
1
i
iy
y . Se poate calcula și dispersia de selecție a prejudiciului (variabila Y): 108,651
2
n
SSTsy
Econometrie MRK
7
Tabelul ANOVA
Sursa
variaţiei
Suma pătratelor
(SS-Sum of Squares)
Grade
de
libertat
e
(df -
degrees
of
freedo
m)
Media pătratelor
(MS - Mean of
Squares)
Valoarea statisticii F Fcritic
Datorată
regresiei
(Regressio
n)
76,8412/ xySSR
k = 1
76,8412/ xysMSR
89,1562
2/
e
xy
calcs
s
MSE
MSRF
667,413,1;05,0 F
Reziduală
(Residual)
751,692 eSSE
n – k –
1 = 13 365,52 esMSE
Totală 52,9112 ySST
n – 1 =
14
Cum criticcalc FF 667,489,156 , respingem ipoteza nulă şi concluzionăm că modelul de
regresie este valid statistic
(modelul este semnificativ statistic sau modelul este corect specificat).
4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie
Pearson
n
i
n
i
ii
n
i
n
i
ii
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
ii
xy
yynxxn
yxyxn
ynyxnx
yxnyx
yyxx
yyxx
r
1
2
1
2
1
2
1
2
111
2
1
22
1
2
1
1
2
1
2
1
96098,02,39648,11376152,4916,19615
2,3962,4965,147015
22
xyr
Valoarea coeficientului de corelaţie Pearson, pozitivă şi foarte apropiată de 1, arată că între cele două
variabile există o legătura liniară directă şi puternică.
Econometrie MRK
8
5. Calculaţi raportul de corelaţie, testaţi validitatea acestuia şi interpretaţi rezultatul obţinut.
96098,052,911
76,8412
2/
y
xy
SST
SSRR
Testarea validităţii sau semnificaţiei raportului de corelaţie constă în testarea
H0: Raportul de corelaţie este nesemnificativ statistic
(variabila X nu are influenţă semnificativă asupra lui Y)
cu alternativa
H1: Raportul de corelaţie este semnificativ statistic
(semnificativ diferit de 0, adică variabila X are influenţă semnificativă asupra lui Y).
Statistica testului este 1,2
2
1
1
knkFisher
kn
R
k
R
F .
Valoarea calculată a statisticii testului este 89,156
1115
96098,01
1
96098,0
2
2
F ,
acceaşi valoare ca la testarea validităţii modelului de regresie folosind ANOVA.
Daca testearea se realizeaza la un prag de semnificaţie α’=0,05, atunci
67,413,1;05,01,'; FFF knkcritic .
Comparăm Fcalc=156,89 > 4,67=Fcritic, respingem ipoteza nulă H0 şi concluzionăm că raportul de
corelaţie este semnificativ diferit de zero, adică variabila X (distanţa) are o influenţă semnificativă asupra
variabilei Y (prejudiciul).
6. Coeficientul de determinaţie este 9235,052,911
76,8412
2/2
y
xy
SST
SSRR
sau 9235,096098,0 22 R şi arată că 92,35% (adică R2%) din variaţia totală a prejudiciului cauzat de
incendii este explicată de variaţia variabilei independente (distanţa între locul incendiului şi staţia de
pompieri).
7. Testarea semnificatiei parametrului α al modelului linear de regresie XY :
H0: α=0 (parametrul este nesemnificativ statistic)
H1: α≠0 (parametrul α este semnificativ statistic, adică semnificativ diferit de 0)
Statistica testului este )1(
kn
a
Students
at
,
unde
n
ii
en
ii
ea
xx
x
ns
xx
x
nss
1
2
2
1
2
22 11
este abaterea standard (eroarea standard) a
estimatorului a, 2
es este disperia reziduala sau a erorilor, iar 2
ee ss este abaterea standard reziduală
(eroarea standard reziduală sau a erorilor).
Econometrie MRK
9
Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică α=0, este
aa
calcs
a
s
at
0, deci 237,7
42,1
2779,10
a
calcs
at , cu sa=1,42.
Dacă nivelul de semnificaţie este α’=0,05, atunci regiunea critică a testului este
;;;,
;;
13;2
05,013;
2
05,01;
2
'1;
2
' tttt
ttR
knkn
criticcriticc
,
unde 1;
2
'
kn
critic tt este valoarea critica a testului t bilateral pentru testarea semnificatiei parametrilor unui
model liniar de regresie cu k variabile explicative si la un nivel de semnificatie ' .
Cum critickn
ttt
160,213;
2
05,01;
2
' , atunci ;160,2160,2;237,7 ccalc Rt , deci
respingen H0 şi concluzionăm ca parametrul α este semnificativ statistic.
Testarea semnificaţiei parametrului β al modelului linear de regresie XY :
H0: β=0 (parametrul este nesemnificativ statistic)
H1: β≠0 (parametrul β este semnificativ statistic, adică semnificativ diferit de 0)
Statistica testului este )1(
kn
b
Students
bt
,
unde
n
i
i
e
n
i
i
eb
xx
s
xx
ss
1
2
1
2
2 1 este abaterea standard (eroarea standard) a estimatorului b,
2
es este disperia reziduală, iar 2
ee ss este abaterea standard reziduală (eroarea standard reziduală).
Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică β=0, este
bb
calcs
b
s
bt
0, deci 56,12
39,0
9193,4
b
calcs
bt , cu sb=0,39.
Dacă nivelul de semnificaţie este α’=0,05, atunci regiunea critică a testului este
;;;,
;;
13;2
05,013;
2
05,01;
2
'1;
2
' tttt
ttR
knkn
criticcriticc
.
Cum critickn
ttt
160,213;
2
05,01;
2
' , atunci ;160,2160,2;56,12 ccalc Rt , deci respingen
H0 şi concluzionăm ca parametrul β este semnificativ statistic.
8. Intervalul de încredere (1-α’)·100% = 95% pentru parametrul α al modelului linear de regresie
XY , determinat pe baza eşantionului observat, este:
uiparametrul a 100%)'-(1 incredere de
uiintervalul a superioara limita
1;2
'
uiparametrul a 100%)α'-(1 incredere de
uiintervalul a inferioara limita
1;2
'
a
kna
knstasta
,
unde sa este eroarea standard a estimatorului a.
Econometrie MRK
10
În cazul nostru, a=10,2779, sa=1,42, α’=0,05, 160,213;
2
05,01;
2
'
ttkn
, deci intervalul [7,21; 13,34]
acoperă valoarea adevărată a parametrului α cu probabilitatea 0,95, adică intervalul de valori [7,21; 13,34]
mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se produce chiar lângă staţia de
pompieri.
Cum intervalul de încredere 95% determinat pentru parametrul α nu acoperă valoarea 0, atunci putem
spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru α ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Intervalul de încredere (1-α’)·100% = 95% pentru parametrul β al modelului linear de regresie
XY , determinat pe baza eşantionului observat, este:
uiparametrul a 100%)'-(1 incredere de
uiintervalul a superioara limita
1;2
'
β uiparametrul a 100%)α'-(1 incredere de
uiintervalul a inferioara limita
1;2
'
b
knb
knstbstb
,
unde sb este eroarea standard a estimatorului b.
În cazul nostru, b=4,9193, sb=0,39, α’=0,05, 160,213;
2
05,01;
2
'
ttkn
, deci intervalul [4,07; 5,76]
acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa devine mai
mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul [4,07; 5,76] mii
Eur, cu o probabilitate de 0,95.
Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea 0, atunci putem
spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru β ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
9. Rezolvarea în Excel:
În Excel, există modulul Data Analysis, opţiunea Regression care furnizează într-un output specific
toate aceste calcule prezentate până acum.
Econometrie MRK
11
Astfel, într-o foaie de lucru, se introduce setul de date { (x1,y1), (x2,y2),...., (xn,yn) }, în cazul nostru
n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis şi apoi Regression, dacă se
lucrează în Excel 2007. Dacă aveţi la dispoziţie Excel 2003, alegeţi din meniul principal Tools, apoi Data
Analysis şi apoi Regression.
În fereastra care va apare, trebuie:
1. să alegeţi care este şirul de valori corespunzătoare variabilei dependente Y (Input Y Range) şi care
este şirul de valori corespunzătoare variabilei independente X (Input X Range)
2. să specificaţi nivelulde încredere al testului, de obicei 95%
3. să precizaţi celula din foaia de lucru de la care se vor afişa rezultatele, adică outputul (Output Range)
Econometrie MRK
12
4. să bifaţi opţiunea Residuals şi, opţional, Line Fit Plots.
Output-ul este prezentat în tabelele următoare:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,9609 = R = raportul de corelaţie
R Square 0,9234= R2
= coeficientul de determinaţie
Adjusted R Square 0,9175
Standard Error 2,3163= se = eroarea standard sau abaterea standard a erorilor
Observations 15 = n = numărul de perechi de observaţii din eşantion
ANOVA
df SS MS F
Significance
F
Regression 1 = k 2
/ xySSR 841,7660 2
/ xys 841,7660 calcF 156,8860 1,2478E-08
Residual 13 = n-k-1 2
eSSE 69,7510 2
es 5,3650
Total 14 = n-1 2
ySST 911,5200
Coefficient
s
Standar
d
Error
t Stat P-value
Lower 95%
(Limita inferioară
a intervalului
de încredere
95%)
Upper 95%
(Limita
superioară
a intervalului
de încredere 95%)
Intercept 10,2779=a 1,42=sa 7,237=
a
calcs
at
6,59E-
06
7,21=
= akn
sta 1;
2
05,0
13,34=
= akn
sta 1;
2
05,0
X Variable
1 4,9193=b 0,39=sb
12,525=
b
calcs
bt
1,25E-
08
4,07=
= bkn
stb 1;
2
05,0
5,76=
= bkn
stb 1;
2
05,0
RESIDUAL OUTPUT
Observation Predicted Y ii xy 9193,42779,10ˆ Residuals iii yye ˆ
1 27,0037 -0,8037
2 19,1327 -1,3327
3 32,9068 -1,6068
4 21,5924 1,5076
5 25,5279 1,9721
6 37,3342 -1,3342
7 13,7215 0,3785
8 25,0359 -2,7359
9 23,0682 -3,4682
10 31,4311 -0,1311
Econometrie MRK
13
11 20,6085 3,3915
12 15,6892 1,6108
13 40,2858 2,9142
14 33,8907 2,5093
15 28,9714 -2,8714
y = 4.9193x + 10.278
R2 = 0.9235
0
5
10
15
20
25
30
35
40
45
50
0 1 2 3 4 5 6 7
Distanta, in zeci km (variabila X)
Va
loa
rea
pre
jud
iciu
lui,
in
mii
Eu
r (v
ari
ab
ila
Y)
valorile observate yi
valorile estimate ale lui yi
Linear (valorile observate yi)
Probleme propuse spre rezolvare
Problema 1. Pentru 8 agenţii de turism s-au înregistrat datele privind numărul biletelor vândute şi
profitul obţinut (mii RON). În urma analizei legăturii liniare dintre cele două variabile, s-au obţinut
următoarele rezultate:
ANOVA
df SS MS F Significance F
Regression … …………. 0,4382 ………… 0,0522
Residual 6 0,4508 ………..
Total … ………….
Coefficients Standard Error t Stat P-value
Intercept -0,435 0,8569 ………… 0,6298
Nr. bilete vândute 0,00138 …………. ………… 0,0522
Ştiind că dispersia numărului de bilete vândute este de 32796,79 se cere:
a) Scrieți ecuația de regresie și interpretați coeficienții.
b) Completați informaţiile lipsă din tabelele de mai sus.
c) Ce procent din variaţia profitului a fost determinat de influenţa numărului de bilete vândute?
d) Testați validitatea modelului de regresie pentru un nivel de semnificație de 10% ( 776,3criticF ).
e) Să se determine și să se interpreteze intervalele de încredere 90% pentru parametrii modelului.
Econometrie MRK
14
Problema 2. Pentru un mare magazin alimentar s-au cules date privind vânzările (mii RON) şi profitul
(mii RON) realizate în 9 luni ale anului 2007. În urma studierii legăturii liniare dintre cele două variabile, s-
au obţinut următoarele rezultate:
ANOVA
df SS MS F Significance F
Regression 1 0,0304 ……….. ………… 0,00007
Residual ... …………. 0,0004
Total 8 ………….
Coefficients Standard Error t Stat P-value
Intercept 0,0784 …………. ………… 0,0017
Val. Vânz. 0,0117 0,0014 …………. 7,8E-05
Ştiind că valoarea medie a vânzărilor este de 10 mii RON/luna, se cere:
a) Să se completeze informaţiile lipsă din tabelele de mai sus.
b) Să se testeze semnificaţia modelului liniar de regresie, pentru un nivel de semnificaţie de 5%.
c) Să se testeze semnificaţia parametrilor modelului, pentru acelaşi nivel de semnificaţie.
d) Ce procent din variaţia profitului a fost determinat de influenţa volumului vânzărilor?
Problema 3. Pentru a analiza dependenţa dintre suprafaţa cultivată (ha) şi producţia la hectar (q/ ha) s-au
înregistrat date referitoare la aceste variabile pentru 10 parcele. În urma prelucrării datelor (utilizând
EXCEL) şi a specificării ecuaţiei de regresie (în ipoteza legăturii liniare) care modelează dependenţa dintre
cele 2 variabile se obţine:
Supr. cultivată (ha) Producția la hectar (q/ha)
Mean 82,4000 Mean 24,6000
Standard Deviation 11,2960 Standard Deviation 7,5011
Sample Variance 127,6000 Sample Variance 56,2666
Sum 824,0000 Sum 246,0000
Count 10 Count 10
ii xy 576.08711.22ˆ , iar dispersia erorilor este 2es 15.656.
a) Validaţi modelul de regresie obţinut.
b) Determinaţi intervalele de încredere pentru parametrii ecuaţiei de regresie.
c) Analizaţi intensitatea legăturii dintre cele două variabile cu ajutorul unui indicator adecvat şi testaţi
semnificaţia acestuia.
Problema 4. Pentru un magazin de mobilă s-au cules date privind numărul de spoturi publicitare
difuzate şi numărul vizitatorilor (mii pers.) timp de 5 zile. Modelul de regresie obţinut în urma prelucrării
datelor este: iy =9,13+3,98xi. Se cunosc: varianţa datorată regresiei (sistematică)
n
iixy yy
1
22/ ˆ =740,8;
varianţa reziduală
n
iiie yy
1
22 ˆ =60. Să se testeze semnificaţia modelului de regresie folosind testul F,
pentru un nivel de semnificaţie α=0,05.
Problema 5. Pentru a analiza dacă între valoarea vânzărilor lunare şi vârsta agenţilor de vânzări, ai
unei mari companii ce comercializează produse cosmetice, există o legătură, un analist selectează aleator un
Econometrie MRK
15
eţantion de 15 persoane. În urma prelucrării în EXCEL a datelor culese pentru cele două variabile, s-au
obţinut rezultatele:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,1004
R Square 0,0100
Adjusted R Square 0,0660
Standard Error 5,2906
Observations 15
ANOVA
df SS MS F
Regression 1 ……. 3,7120 …………
Residual 13 ………… ………...
Total 14 367,6000
Coefficients Standard Error t Stat Lower 95% Upper 95%
Intercept 11,6734 ………….. ………. -0,1309 23,4777
Vârsta 0,0622 …………… ………. -0,3072 0,4317
a) Să se testeze validitatea modelului de regresie liniară pe baza căruia s-au obţinut prelucrările din
tabelele de mai sus.
b) Să se testeze semnificaţia parametrilor modelului pentru o probabilitate de 95% (tcritic=2,624).
Problema 6. O firmă ce organizează licitaţii pentru vânzarea unor antichităţi doreşte să determine
relaţia dintre preţul obţinut pentru articolele licitate (u.m.) şi numărul de persoane ce participă la licitaţie. În
ipoteza unui model de regresie liniară, rezultatele prelucrării în EXCEL sunt:
Regression Statistics
Multiple R 0,8602
R Square 0,7400
Adjusted R Square 0,7075
Standard Error 177,7908
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 719973,5000 719973,5000 22,7770 0,0014
Residual 8 252876,5000 31609,5600
Total 9 972850,0000
Coefficients Standard Error t Stat P-value
Intercept 1086,6910 174,4825 6,2280 0,0002
Mărimea audienței 9,3291 1,954748 4,7725 0,0014
a) Determinați modelul de regresie adecvat analizei dependendenței dintre cele două variabile.
b) Să se interpreteze rezultatele din tabele.
c) Determinaţi şi interpretaţi intervalele de încredere pentru parametrii modelului (tcritic=2,896).