Download - 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

MODELUL DE REGRESIE CLASIC

Ipotezele modelului de regresie liniară

Facultatea de CSIE, Specializarea Informatică Economică

Curs 5, 6 – 2, 9 noiembrie 2009

Conf.univ.dr. Cristina BOBOC

IV. Ipotezele modelului de regresie liniară

Pentru obţinerea unor estimatori de calitate ai parametrilor de regresie se fac, de obicei, şase presupuneri (ipoteze) standard:

1. Forma funcţională liniară: yi = + xi + i, i=1,n

2. Media zero a erorilor: μ(i)=0 i

3. Homoscedasticitatea: σ2(i)= constantă i

4. Non autocorelarea erorilor: Cov(i,j)=0 ij

5. Normalitatea erorilor: i sunt repartizate normal

2

Ipoteza 1: Forma funcţională

Forma generală: f(yi)= +g(xi)+i


Ipoteza de linearitate a modelului include şi aditivitatea

erorilor:

y = + x + ,

Exemplu:

eAxy

Axy

ln(y)=ln(A)+ln(x)+

Nu poate fi transformat în model liniar

Ipoteza 2: media erorilor este zero

Eroarea este văzută ca suma efectelor individuale, cu semne diferite.

Dacă media erorilor este diferită de zero, ea poate fi considerată ca o parte sistematică a regresiei:

μ()= + x + = (+) + x + (-)

Această presupunere indică faptul că media valorilor Y, condiţionat de X:

(Y/X = Xi) = + Xi

adică nu există variabile omise asociate cu regresia în populaţie.

Ipoteza 3 : Homoscedasticitatea erorilorDefinire

a) Erori homoscedastic b) Erori heteroscedastice

Homoscedasticitatea:

σ2(i)= constantă i2

Ipoteza 3 : Homoscedasticitatea erorilor Definire

X

Y

Densitatea

1 + 2 Xi

X

Y

Densitatea

1 + 2 Xi

Ipoteza 3 : Homoscedasticitatea erorilorCauze de apariţie a heteroscedasticităţii

1. Modelele de învăţare din erori

2. Pe măsura creşterii veniturilor, cresc posibilităţile de

alegere în distribuirea acestora

3. Erorile de măsură

4. Strategiile de eşantionare

5. Transformarea incorectă a datelor

6. Specificarea eronată a formei funcţionale:

Ipoteza 3 : Homoscedasticitatea erorilor Consecinţele heteroscedasticităţii

Consecinţele heteroscedasticităţii asupra estimatorilor

obţinuţi prin metoda celor mai mici pătrate

Utilizarea metodei celor mai mici pătrate în condiţiile în care

ipoteza homoscedasticităţii nu este verificată conduce la

estimatori deplasaţi ai variaţiei coeficienţilor modelului liniar de

regresie şi estimatori ne-eficienţi ai coeficienţilor modelului

liniar de regresie, existând alţi estimatori cu varianţa mai mică.

Ipoteza 3 : Homoscedasticitatea erorilorDepistarea heteroscedasticităţii

Depistarea heteroscedasticităţii

Pentru depistarea heteroscedasticităţii pot fi

folosite metode empirice, formale sau informale:

metoda grafică

testul White

testul Goldfeld-Quandt

Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii

Metoda grafică

Se reprezintă grafic ei2 în funcţie de xi şi se observă dacă

există o legătură sistematică între acestea.

xi

ei2


Testul White Etapa 1. Se estimează parametrii modelului de regresie

multifactorial: Y=X prin metoda celor mai mici pătrate şi se obţine seria reziduurilor (ei)i=1,n

Etapa 2. Se explicitează seria (ei2)i=1,n în raport cu una

sau mai multe variabile exogene, astfel:

1.

2.

i

k

jjij

k

jjiji vxbxae

1

2

1

2

iiiiiiii vxxcxbxbxaxae 211222

2112211

2


Etapa 3. Ipotezele testului:H0: a1=...=ak=b1=...=bk=0 model homoscedastic

H1: ai 0 sau bj 0 model heteroscedastic

Se demonstrează că în cazul ipotezei nule, nR2 este repartizată 2r,

unde r este numărul de parametri din modelul erorilor folosit.Deci, statistica testului este:

LM=nR2 2r

unde: n este numărul observaţiilor folosite pentru estimarea parametrilor şi

erorilor R2 este raportul de determinare evaluat pentru unul din modelele

erorilor r este numărul de parametri din modelele erorilor

Etapa 4. Pentru r grade de libertate şi o probabilitate de garantare a rezultatelor de 95% se determină valoarea 2

,r . Dacă LM>2

,r atunci se respinge H0, deci modelul este heteroscedastic.

Dacă LM<2,r atunci se acceptă H0, deci modelul este

homoscedastic.


Observaţii: O creştere a lui r conduce la diminuarea puterii testului. Când sunt un număr mare de variabile exogene se

recomandă utilizarea modelului 1. Când sunt un număr moderat de variabile exogene se

recomandă utilizarea modelului 2.



Exemplul 2: Se consideră modelul de regresie ce descrie legătura, presupusă liniară, între valoarea investiţiilor realizate şi rata dobânzii, înregistrate în perioada 1995-2004.

Etapa 1 : Se estimează parametrii modelului liniar de regresie :

Etapa 2 : Se calculează erorile ei=yi- iar pentru acestea se estimează modelul :

şi se obţine:cu R2=0,568

Etapa 3: Se calculează statistica testului White :

>LM. Deci se acceptă ipoteza H0, modelul fiind homoscedastic.

An 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

Investiţii (mld. lei) 15424,9 24998,5 53540,1 67919,9 96630,4 151947,2 241153,6 322836 422535,1 526555,8

Rata dobânzii (%) 36,5 38,1 51,6 38,3 45,4 32,4 26,2 18,4 10,8 11,3

ii xy 11731013,554842ˆ

iy

iiii xbxbe 210

2

22 1842359788264420ˆ iii xxe

68,5568,010 LM

99,522;05,0

Ipoteza 3 : Homoscedasticitatea erorilorMăsuri corective ale heteroscedasticităţii

i2 cunoscut

Metoda celor mai mici pătrate ponderată

unde x0i=1 pentru orice i. i

i

i

i

i

i

i

i uxxy

1

00

***1

*0

*0

*iiii uxxy n1,i ,1)( * iuVar


deci variaţia erorii este proporţională cu

pătratul variabilei explicative, modelul se transformă astfel:

unde x0i=1 pentru orice i.

222ii x

i

i

i

i

i

i

x

u

x

x

x

y 1

00

*1

*0

*iii uxy

n1,i ,)()( 22

22*

i

i

i

ii x

x

x

uVaruVar


deci variaţia erorii este proporţională cu

variabila explicativă, modelul se transformă astfel:

unde x0i=1 pentru orice i.

ii x22

i

ii

i

i

i

i

x

ux

x

x

x

y 1

00

**1

*00

*iiii uxxy

n1,i ,)()( 22

*

i

i

i

ii x

x

x

uVaruVar


Transformarea logaritmică este adesea folosită pentru înlăturarea heteroscedasticităţii, deoarece reduce dispersia variabilelor iniţiale. Astfel se estimează prin metoda celor mai mici pătrate modelul:

iii uxy lnln 21

Ipoteza 4: Non autocorelarea erorilorDefinire

Variabilele aleatoare εi sunt statistic independente una de alta, adică

(non-autocorelarea reziduurilor).

Dacă există i ≠ j astfel încât cov(εi, εj) ≠ 0, spunem că erorile sunt autocorelate.

0,cov ji ji

Ipoteza 4: Non autocorelarea erorilorDefinire

timp

u

0

timp

u

timp

u

Ipoteza 4: Non autocorelarea erorilorCauzele apariţiei autocorelării erorilor

Absenţa uneia sau mai multor variabile explicative

importante

Modelul de regresie nu este corect specificat

Modele autoregresive

Transformarea datelor

Ipoteza 4: Non autocorelarea erorilorConsecinţele autocorelării erorilor

Utilizarea metodei celor mai mici pătrate în condiţiile în care erorile sunt autocorelate, conduce estimatori nedeplasaţi şi consistenţi, dar nu şi eficienţi, ai coeficienţilor modelului liniar de regresie, existând alţi estimatori cu varianţa mai mică.

Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor

Metoda grafică Testul Durbin Watson Testul Goldfeld-Quandt


Metoda grafică

Valorile erorilor observate pot fi reprezentate printr-o cronogramă. În cazul în care evoluţia temporală a variabilei reziduale urmează anumite pattern-uri, sugerează faptul că erorile sunt autocorelate.

Pentru identificarea unei autocorelaţii de ordinul 1 pentru erori, se pot reprezenta grafic printr-o corelogramă

valorile observate pentru ut şi ut-1.


Testul Durbin Watson detectează doar autocorelarea de ordin 1 şi se bazează pe

câteva ipoteze restrictive: modelul de regresie trebuie să cuprindă termen liber: în cazul în

care modelul nu are termen liber trebuie să se revină şi să se transforme datele pentru obţinerea unui model de regresie cu termen liber;

matricea X trebuie să fie nestochastică; erorile sunt determinate printr-un proces autoregresiv de ordin

1: ; erorile sunt presupuse a fi distribuite normal; modelul de regresie nu cuprinde ca variabilă explicativă,

variabila endogenă cu decalaj


Etapa 1. Se estimează parametrii modelului de regresie prin metoda celor mai mici pătrate şi se obţine seria reziduurilor (ei)i=1,n. Ipotezele ce trebuie testate sunt:

H0: = 0 şi H1: ≠ 0

unde este coeficientul de autocorelare a erorilor de ordin 1.

Etapa 2. Se calculează statistica Durbin Watson :

n

tt

n

ttt

e

eeDW

1

2

2

21)(


Etapa 3. Se determină valorile critice ale statisticii Durbin Watson, d1 şi d2, în funcţie de numărul de variabile exogene incluse în modelul de regresie (p), de numărul de observaţii (n) şi de pragul de semnificaţie ales ().

Etapa 4. Se compară statistica Durbin Watson cu valorile critice ale statisticii şi rezultă următoarele zone de decizie:

0<DW<d1 : erorile sunt autocorelate pozitiv; d1<DW<d2 : nu se poate spune dacă erorile sunt corelate pozitiv; d2<DW<4-d2 : erorile nu sunt autocorelate; 4-d2<DW<4-d1: nu se poate spune dacă erorile sunt corelate

negativ; 4-d1<DW<4 : erorile sunt autocorelate negativ.


Testul Durbin-Watson pentru α= 5 %.

n k = 1 k = 2 k = 3 k = 4 k = 5 d1 d2 d1 d2 d1 d2 d1 d2 d1 d2

15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21 20 1,20 1,41 1,10 1,94 1,00 1,68 0,90 1,83 0,79 1,99 30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83 40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79 50 1,50 1,59 1,46 1,

63 1,42 1,67 1,38 1,72 1,34 1,77

100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,37 1,78

Ipoteza 4: Non autocorelarea erorilorExemplu

Se consideră modelul de regresie ce descrie legătura, presupusă liniară, între rata de solvabilitate bancară şi totalul sumelor datorate către bănci în miliarde lei. Se doreşte testarea autocorelării erorilor folosind testul Durbin Watson.

Luna Rata solvabilitate Total sume datorate Luna Rata solvabilitate Total sume datorate

ian.02 28,18 166599 iun.03 22,82 296198

feb.02 27,5 172543 iul.03 22,48 296029

mar.02 27,24 184806 aug.03 21,88 314975

apr.02 26,11 196550 sep.03 21,36 321995

mai.02 27,47 201206 oct.03 20,72 336362

iun.02 27,09 206722 nov.03 20,62 341096

iul.02 27,26 208508 dec.03 21,09 364528

aug.02 26,73 215573 ian.04 21,24 354209

sep.02 26,22 220474 feb.04 20,99 370735

oct.02 25,77 227831 mar.04 20,46 386328

nov.02 24,86 241042 apr.04 20,06 397065

dec.02 25,04 252625 mai.04 20,1 407180

ian.03 24,97 257288 iun.04 20,34 435333

feb.03 24,36 260337 iul.04 19,86 458771

mar.03 25,02 268130 aug.04 19,57 467051

apr.03 23,42 278585 sep.04 19,74 484288

mai.03 23,26 286370

Ipoteza 4: Non autocorelarea erorilorMăsuri corective ale autocorelării erorilor

Dacă în urma aplicării unui test de diagnostic al autocorelaţiei erorilor, a rezultat prezenţa acesteia, se decide dacă aceasta nu este rezultatul unei erori de specificare a modelului. În acest caz dacă:

forma funcţionalei este necorespunzătoare, se alege o nouă funcţie de regresie;

au fost omise variabile importante pentru descrierea modelului, acestea sunt incluse în model;

variabilele necesită transformări suplimentare, acestea sunt realizate.

În cazul autocorelaţiei pure, se poate aplica metoda celor mai mici pătrate generalizată descrisă în continuare.

Ipoteza 4: Non autocorelarea erorilorMăsuri corective ale autocorelării erorilor

Se consideră modelul de regresie :

Se presupune că seria erorilor (ui)i=1,n, urmează un proces

autoregresiv de ordinul întâi:

Atunci:

Notând:

t

p

jjtjt uxy

10

ttt uu 1

t

p

jjtjt uxy

10 1

1101 )()1(

tt

p

jjtjtjtt uuxxyy

1

00

1*

1*

)1(

ttt

jtjtjt

ttt

uu

xxx

yyy

t

p

jjtjt xy

1

*0

*

Ipoteza 5: normalitatea erorilor

Se presupune că variabila aleatoare i este normal distribuită :

Distribuţia de probabilitate pentru i

Download - 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Top Related