MODELUL DE REGRESIE CLASIC
Ipotezele modelului de regresie liniară
Facultatea de CSIE, Specializarea Informatică Economică
Curs 5, 6 – 2, 9 noiembrie 2009
Conf.univ.dr. Cristina BOBOC
IV. Ipotezele modelului de regresie liniară
Pentru obţinerea unor estimatori de calitate ai parametrilor de regresie se fac, de obicei, şase presupuneri (ipoteze) standard:
1. Forma funcţională liniară: yi = + xi + i, i=1,n
2. Media zero a erorilor: μ(i)=0 i
3. Homoscedasticitatea: σ2(i)= constantă i
4. Non autocorelarea erorilor: Cov(i,j)=0 ij
5. Normalitatea erorilor: i sunt repartizate normal
2
Ipoteza 1: Forma funcţională
Forma generală: f(yi)= +g(xi)+i
Ipoteza 1: Forma funcţională
Ipoteza 1: Forma funcţională
Ipoteza 1: Forma funcţională
Ipoteza de linearitate a modelului include şi aditivitatea
erorilor:
y = + x + ,
Exemplu:
eAxy
Axy
ln(y)=ln(A)+ln(x)+
Nu poate fi transformat în model liniar
Ipoteza 2: media erorilor este zero
Eroarea este văzută ca suma efectelor individuale, cu semne diferite.
Dacă media erorilor este diferită de zero, ea poate fi considerată ca o parte sistematică a regresiei:
μ()= + x + = (+) + x + (-)
Această presupunere indică faptul că media valorilor Y, condiţionat de X:
(Y/X = Xi) = + Xi
adică nu există variabile omise asociate cu regresia în populaţie.
Ipoteza 3 : Homoscedasticitatea erorilorDefinire
a) Erori homoscedastic b) Erori heteroscedastice
Homoscedasticitatea:
σ2(i)= constantă i2
Ipoteza 3 : Homoscedasticitatea erorilor Definire
X
Y
Densitatea
1 + 2 Xi
X
Y
Densitatea
1 + 2 Xi
Ipoteza 3 : Homoscedasticitatea erorilorCauze de apariţie a heteroscedasticităţii
1. Modelele de învăţare din erori
2. Pe măsura creşterii veniturilor, cresc posibilităţile de
alegere în distribuirea acestora
3. Erorile de măsură
4. Strategiile de eşantionare
5. Transformarea incorectă a datelor
6. Specificarea eronată a formei funcţionale:
Ipoteza 3 : Homoscedasticitatea erorilor Consecinţele heteroscedasticităţii
Consecinţele heteroscedasticităţii asupra estimatorilor
obţinuţi prin metoda celor mai mici pătrate
Utilizarea metodei celor mai mici pătrate în condiţiile în care
ipoteza homoscedasticităţii nu este verificată conduce la
estimatori deplasaţi ai variaţiei coeficienţilor modelului liniar de
regresie şi estimatori ne-eficienţi ai coeficienţilor modelului
liniar de regresie, existând alţi estimatori cu varianţa mai mică.
Ipoteza 3 : Homoscedasticitatea erorilorDepistarea heteroscedasticităţii
Depistarea heteroscedasticităţii
Pentru depistarea heteroscedasticităţii pot fi
folosite metode empirice, formale sau informale:
metoda grafică
testul White
testul Goldfeld-Quandt
Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii
Metoda grafică
Se reprezintă grafic ei2 în funcţie de xi şi se observă dacă
există o legătură sistematică între acestea.
xi
ei2
Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii
Testul White Etapa 1. Se estimează parametrii modelului de regresie
multifactorial: Y=X prin metoda celor mai mici pătrate şi se obţine seria reziduurilor (ei)i=1,n
Etapa 2. Se explicitează seria (ei2)i=1,n în raport cu una
sau mai multe variabile exogene, astfel:
1.
2.
i
k
jjij
k
jjiji vxbxae
1
2
1
2
iiiiiiii vxxcxbxbxaxae 211222
2112211
2
Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii
Etapa 3. Ipotezele testului:H0: a1=...=ak=b1=...=bk=0 model homoscedastic
H1: ai 0 sau bj 0 model heteroscedastic
Se demonstrează că în cazul ipotezei nule, nR2 este repartizată 2r,
unde r este numărul de parametri din modelul erorilor folosit.Deci, statistica testului este:
LM=nR2 2r
unde: n este numărul observaţiilor folosite pentru estimarea parametrilor şi
erorilor R2 este raportul de determinare evaluat pentru unul din modelele
erorilor r este numărul de parametri din modelele erorilor
Etapa 4. Pentru r grade de libertate şi o probabilitate de garantare a rezultatelor de 95% se determină valoarea 2
,r . Dacă LM>2
,r atunci se respinge H0, deci modelul este heteroscedastic.
Dacă LM<2,r atunci se acceptă H0, deci modelul este
homoscedastic.
Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii
Observaţii: O creştere a lui r conduce la diminuarea puterii testului. Când sunt un număr mare de variabile exogene se
recomandă utilizarea modelului 1. Când sunt un număr moderat de variabile exogene se
recomandă utilizarea modelului 2.
Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii
Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii
Exemplul 2: Se consideră modelul de regresie ce descrie legătura, presupusă liniară, între valoarea investiţiilor realizate şi rata dobânzii, înregistrate în perioada 1995-2004.
Etapa 1 : Se estimează parametrii modelului liniar de regresie :
Etapa 2 : Se calculează erorile ei=yi- iar pentru acestea se estimează modelul :
şi se obţine:cu R2=0,568
Etapa 3: Se calculează statistica testului White :
>LM. Deci se acceptă ipoteza H0, modelul fiind homoscedastic.
An 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
Investiţii (mld. lei) 15424,9 24998,5 53540,1 67919,9 96630,4 151947,2 241153,6 322836 422535,1 526555,8
Rata dobânzii (%) 36,5 38,1 51,6 38,3 45,4 32,4 26,2 18,4 10,8 11,3
ii xy 11731013,554842ˆ
iy
iiii xbxbe 210
2
22 1842359788264420ˆ iii xxe
68,5568,010 LM
99,522;05,0
Ipoteza 3 : Homoscedasticitatea erorilorMăsuri corective ale heteroscedasticităţii
i2 cunoscut
Metoda celor mai mici pătrate ponderată
unde x0i=1 pentru orice i. i
i
i
i
i
i
i
i uxxy
1
00
***1
*0
*0
*iiii uxxy n1,i ,1)( * iuVar
Ipoteza 3 : Homoscedasticitatea erorilorMăsuri corective ale heteroscedasticităţii
deci variaţia erorii este proporţională cu
pătratul variabilei explicative, modelul se transformă astfel:
unde x0i=1 pentru orice i.
222ii x
i
i
i
i
i
i
x
u
x
x
x
y 1
00
*1
*0
*iii uxy
n1,i ,)()( 22
22*
i
i
i
ii x
x
x
uVaruVar
Ipoteza 3 : Homoscedasticitatea erorilorMăsuri corective ale heteroscedasticităţii
deci variaţia erorii este proporţională cu
variabila explicativă, modelul se transformă astfel:
unde x0i=1 pentru orice i.
ii x22
i
ii
i
i
i
i
x
ux
x
x
x
y 1
00
**1
*00
*iiii uxxy
n1,i ,)()( 22
*
i
i
i
ii x
x
x
uVaruVar
Ipoteza 3 : Homoscedasticitatea erorilorMăsuri corective ale heteroscedasticităţii
Transformarea logaritmică este adesea folosită pentru înlăturarea heteroscedasticităţii, deoarece reduce dispersia variabilelor iniţiale. Astfel se estimează prin metoda celor mai mici pătrate modelul:
iii uxy lnln 21
Ipoteza 4: Non autocorelarea erorilorDefinire
Variabilele aleatoare εi sunt statistic independente una de alta, adică
(non-autocorelarea reziduurilor).
Dacă există i ≠ j astfel încât cov(εi, εj) ≠ 0, spunem că erorile sunt autocorelate.
0,cov ji ji
Ipoteza 4: Non autocorelarea erorilorDefinire
timp
u
0
timp
u
timp
u
Ipoteza 4: Non autocorelarea erorilorCauzele apariţiei autocorelării erorilor
Absenţa uneia sau mai multor variabile explicative
importante
Modelul de regresie nu este corect specificat
Modele autoregresive
Transformarea datelor
Ipoteza 4: Non autocorelarea erorilorConsecinţele autocorelării erorilor
Utilizarea metodei celor mai mici pătrate în condiţiile în care erorile sunt autocorelate, conduce estimatori nedeplasaţi şi consistenţi, dar nu şi eficienţi, ai coeficienţilor modelului liniar de regresie, existând alţi estimatori cu varianţa mai mică.
Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor
Metoda grafică Testul Durbin Watson Testul Goldfeld-Quandt
Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor
Metoda grafică
Valorile erorilor observate pot fi reprezentate printr-o cronogramă. În cazul în care evoluţia temporală a variabilei reziduale urmează anumite pattern-uri, sugerează faptul că erorile sunt autocorelate.
Pentru identificarea unei autocorelaţii de ordinul 1 pentru erori, se pot reprezenta grafic printr-o corelogramă
valorile observate pentru ut şi ut-1.
Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor
Testul Durbin Watson detectează doar autocorelarea de ordin 1 şi se bazează pe
câteva ipoteze restrictive: modelul de regresie trebuie să cuprindă termen liber: în cazul în
care modelul nu are termen liber trebuie să se revină şi să se transforme datele pentru obţinerea unui model de regresie cu termen liber;
matricea X trebuie să fie nestochastică; erorile sunt determinate printr-un proces autoregresiv de ordin
1: ; erorile sunt presupuse a fi distribuite normal; modelul de regresie nu cuprinde ca variabilă explicativă,
variabila endogenă cu decalaj
Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor
Etapa 1. Se estimează parametrii modelului de regresie prin metoda celor mai mici pătrate şi se obţine seria reziduurilor (ei)i=1,n. Ipotezele ce trebuie testate sunt:
H0: = 0 şi H1: ≠ 0
unde este coeficientul de autocorelare a erorilor de ordin 1.
Etapa 2. Se calculează statistica Durbin Watson :
n
tt
n
ttt
e
eeDW
1
2
2
21)(
Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor
Etapa 3. Se determină valorile critice ale statisticii Durbin Watson, d1 şi d2, în funcţie de numărul de variabile exogene incluse în modelul de regresie (p), de numărul de observaţii (n) şi de pragul de semnificaţie ales ().
Etapa 4. Se compară statistica Durbin Watson cu valorile critice ale statisticii şi rezultă următoarele zone de decizie:
0<DW<d1 : erorile sunt autocorelate pozitiv; d1<DW<d2 : nu se poate spune dacă erorile sunt corelate pozitiv; d2<DW<4-d2 : erorile nu sunt autocorelate; 4-d2<DW<4-d1: nu se poate spune dacă erorile sunt corelate
negativ; 4-d1<DW<4 : erorile sunt autocorelate negativ.
Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor
Testul Durbin-Watson pentru α= 5 %.
n k = 1 k = 2 k = 3 k = 4 k = 5 d1 d2 d1 d2 d1 d2 d1 d2 d1 d2
15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21 20 1,20 1,41 1,10 1,94 1,00 1,68 0,90 1,83 0,79 1,99 30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83 40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79 50 1,50 1,59 1,46 1,
63 1,42 1,67 1,38 1,72 1,34 1,77
100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,37 1,78
Ipoteza 4: Non autocorelarea erorilorExemplu
Se consideră modelul de regresie ce descrie legătura, presupusă liniară, între rata de solvabilitate bancară şi totalul sumelor datorate către bănci în miliarde lei. Se doreşte testarea autocorelării erorilor folosind testul Durbin Watson.
Luna Rata solvabilitate Total sume datorate Luna Rata solvabilitate Total sume datorate
ian.02 28,18 166599 iun.03 22,82 296198
feb.02 27,5 172543 iul.03 22,48 296029
mar.02 27,24 184806 aug.03 21,88 314975
apr.02 26,11 196550 sep.03 21,36 321995
mai.02 27,47 201206 oct.03 20,72 336362
iun.02 27,09 206722 nov.03 20,62 341096
iul.02 27,26 208508 dec.03 21,09 364528
aug.02 26,73 215573 ian.04 21,24 354209
sep.02 26,22 220474 feb.04 20,99 370735
oct.02 25,77 227831 mar.04 20,46 386328
nov.02 24,86 241042 apr.04 20,06 397065
dec.02 25,04 252625 mai.04 20,1 407180
ian.03 24,97 257288 iun.04 20,34 435333
feb.03 24,36 260337 iul.04 19,86 458771
mar.03 25,02 268130 aug.04 19,57 467051
apr.03 23,42 278585 sep.04 19,74 484288
mai.03 23,26 286370
Ipoteza 4: Non autocorelarea erorilorMăsuri corective ale autocorelării erorilor
Dacă în urma aplicării unui test de diagnostic al autocorelaţiei erorilor, a rezultat prezenţa acesteia, se decide dacă aceasta nu este rezultatul unei erori de specificare a modelului. În acest caz dacă:
forma funcţionalei este necorespunzătoare, se alege o nouă funcţie de regresie;
au fost omise variabile importante pentru descrierea modelului, acestea sunt incluse în model;
variabilele necesită transformări suplimentare, acestea sunt realizate.
În cazul autocorelaţiei pure, se poate aplica metoda celor mai mici pătrate generalizată descrisă în continuare.
Ipoteza 4: Non autocorelarea erorilorMăsuri corective ale autocorelării erorilor
Se consideră modelul de regresie :
Se presupune că seria erorilor (ui)i=1,n, urmează un proces
autoregresiv de ordinul întâi:
Atunci:
Notând:
t
p
jjtjt uxy
10
ttt uu 1
t
p
jjtjt uxy
10 1
1101 )()1(
tt
p
jjtjtjtt uuxxyy
1
00
1*
1*
)1(
ttt
jtjtjt
ttt
uu
xxx
yyy
t
p
jjtjt xy
1
*0
*
Ipoteza 5: normalitatea erorilor
Se presupune că variabila aleatoare i este normal distribuită :
Distribuţia de probabilitate pentru i