regresia simpla

22
2. Modelul simplu de regresie si regresia multifactoriala  2.1 Istoricul termenului Termenul de re gr esie a fost introdus de Francis Galton şi a fo st leg at de pr oblema rela ie i pri vind în l im ea p rin ilor ş i a co pi ilor, cu alte cuvinte: ţ ă ţ ă ţ   în l imea copiilo r cu p rin i neaşt eptat de înal i sau neaşt eptat de scunzi ă ţ ă ţ ţ  tinde spre o în l ime medie a popula iei, rela ie cunoscut sub denumirea ă ţ ţ ţ ă  de legea regresiei universale a lui Galt on. A ceast lege a fos t con firmat de ă ă  Karl Pearson, care a aduna t mai mu lt de 1000 de înregist r ri ale în l imii ă ă ţ  membril or f amiliilo r şi gr up urilor . El a g si t c în l imea medie a fiilor dintr- ă ă ă ţ un grup cu ta i înal i a fost mai mic decât în l imea ta ilor şi c media ţ ţ ă ă ţ ţ ă   în l imii fiilor unui grup cu p rin i scunzi a fost mai mare decât în l imea ă ţ ă ţ ă ţ  p rin ilor, astfe l c regresia fiilor scunzi ş i î nal i tinde c tre o medie a ă ţ ă ţ ă   în l imii tuturor b rba ilor. ă ţ ă ţ 2.2.Definirea şi caracterizarea analizei de regresie şi a modelului general Analiza de regresie se ocup aş adar cu descrierea şi evaluarea ă  leg turii dintre o variabil dependent sau e xp licat ş i una sau mai multe ă ă ă ă  variabile independente sau explicative în scopul de a determina forma şi dir ec ia le g tur ii dintre variabi le pr ecu m şi d e a p reviziona e vol u ia medie a ţ ă ţ  popu la iei cercetate. (T. Andrei, S Stancu, A I Iacob; E Tuşa, Introducere în ţ  econ omet rie utiliz ând EV iews, Editura Economic , 2008, ă p.49) Forma ge neral a modelului de regr esi e dintr e variabile le y şi x este ă  dat de rela ia: ă ţ Y= f(x i ), [1] unde f(x i ) est e o func ie de variabila x ţ i . În cazul regresiei simple i =1, deci avem o singur variabil , în cazul re gr esie multiple, i=i ......m, caz în care avem m ă ă  variabile explicative.  În cazul în care leg tura dintre cele dou variabile este descris ă ă ă complet, prin to i factorii care intervin într-un astfel de fenomen, cum este ţ  cazul în fizic , spunem c le g tura este determinat pr in intermediul unei ă ă ă ă  

Upload: hgfeurwi-kfhgerugh

Post on 05-Apr-2018

246 views

Category:

Documents


0 download

TRANSCRIPT

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 1/22

2. Modelul simplu de regresie si regresia multifactoriala 

2.1 Istoricul termenului

Termenul de regresie a fost introdus de Francis Galton şi a fost legat de

problema rela iei privind în l imea p rin ilor şi a copiilor, cu alte cuvinte:ţ ă ţ ă ţ  

 în l imea copiilor cu p rin i neaşteptat de înal i sau neaşteptat de scunziă ţ ă ţ ţ  

tinde spre o în l ime medie a popula iei, rela ie cunoscut sub denumireaă ţ ţ ţ ă  

de legea regresiei universale a lui Galton. Aceast lege a fost confirmat deă ă  

Karl Pearson, care a adunat mai mult de 1000 de înregistr ri ale în l imiiă ă ţ  

membrilor familiilor şi grupurilor. El a g sit c în l imea medie a fiilor dintr-ă ă ă ţ

un grup cu ta i înal i a fost mai mic decât în l imea ta ilor şi c mediaţ ţ ă ă ţ ţ ă  

 în l imii fiilor unui grup cu p rin i scunzi a fost mai mare decât în l imeaă ţ ă ţ ă ţ  

p rin ilor, astfel c regresia fiilor scunzi şi înal i tinde c tre o medie aă ţ ă ţ ă  

 în l imii tuturor b rba ilor.ă ţ ă ţ

2.2.Definirea şi caracterizarea analizei de regresie şi a modeluluigeneral

Analiza de regresie se ocup aşadar cu descrierea şi evaluareaă  

leg turii dintre o variabil dependent sau explicat şi una sau mai multeă ă ă ă  

variabile independente sau explicative în scopul de a determina forma şi

direc ia leg turii dintre variabile precum şi de a previziona evolu ia medie aţ ă ţ  

popula iei cercetate. (T. Andrei, S Stancu, A I Iacob; E Tuşa, Introducere înţ  

econometrie utilizând EViews, Editura Economic , 2008,ă p.49)

Forma general a modelului de regresie dintre variabilele y şi x esteă  

dat de rela ia:ă ţ

Y= f(xi), [1]

unde f(xi) este o func ie de variabila xţ i. În cazul regresiei simple i =1, deci avem o

singur variabil , în cazul regresie multiple, i=i......m, caz în care avem mă ă  

variabile explicative.

 În cazul în care leg tura dintre cele dou variabile este descrisă ă ă 

complet, prin to i factorii care intervin într-un astfel de fenomen, cum esteţ  

cazul în fizic , spunem c leg tura este determinat prin intermediul uneiă ă ă ă  

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 2/22

ecua ii de tip determinist, aşa cum apare în ecua iaţ ţ [1].

 În economie îns , nu se cunosc to i factorii care influen eaz un proces sauă ţ ţ ă  

un fenomen, ceea ce face ca leg tura dintre variabila dependentă ă 

(endogen ) y şi variabile independent (exogen ) x s nu genereze valoriă ă ă ă  

unice, dar poate fi descris în termeni probabilistici, deci dependen a dintreă ţ  

variabile este stocastic sau aleatoare.ă

 În cazul dependen ei stocastice, forma general a modelului deţ ă  

regresie devine:

Y= f(xi)+ ,ε [2]

Unde este eroarea de specificaε ieţ ce provine din faptul c nu suntă  

cunoscu i to i factorii şi influen a celor necunoscu i se reg seşte în acestţ ţ ţ ţ ă  termen (omiterea unor factori) la care se adaug efectul factorilor calitativiă  

imposibil de m surat, erorile în specificarea în termeni de structura aă  

modelului, lipsa unei specifica ii func ionale /rela ia dintre variabile nu esteţ ţ ţ  

liniar ) şi erorile în înregistrarea, observarea fenomenă elor.

Deşi analizele statistice lucreaz cu dependen a unei variabile de alta,ă ţ  

aceasta nu implic în mod necesar rela ia de cauzalitate. O rela ie statistică ţ ţ ă 

puternic , sau sugestiv , poate s nu implice o conexiune de cauzalitate.ă ă ă

De asemenea, legat dar diferit conceptual de analiza de regresieă ă  

este analiza de corela ie, aceasta din urm având ca scop s m soareţ ă ă ă  

gradul sau puterea asocierii liniare dintre dou variabile.ă

 

Yt

Xt

t10t XaaY +=  

ut

Y

X

•  •  •  • 

•  •  • •  •  •  •  • •  •  •  •  • 

•  • 

XaaY 10 +=  

2.3 Modelul clasic de regresie liniară

Pentru abordarea acestui subiect ne vom referi în primul rând la regr esia simpl , sauă  

bivariabil , nu din considerente practice ci pentru c regresiile multiple suntă ă  

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 3/22

o extensie a cazului simplu în care variabila dependent (regresat în cazulă ă  

de mai sus consumul final al popula iei –ţ cfs, pentru cazul teoretic o vom nota y) este

legat de o singur variabil explicativ (regresor, notat pentru cazulă ă ă ă  

teoretic cu x iar în cazul concret de mai sus este salariul mediu brut lunar pe

economie, adic -ă salb).

Din teorie se ştie c veniturile şi consumul evolueaz independent, şiă ă  

s accept m pentru început ipoteza c la nivelul întregii popula ii consumulă ă ă ţ  

depinde liniar de venit. În acest caz putem nota cu M(y, x) valoarea

anticipat a consumului final al popula iei, calculat ca valoare medieă ţ ă a

consumului pentru toate familiile cu venituri x, iar în ipoteza de liniaritate, putem scrie:

M(y/x) = a0 +a1X [3]

Parametrul a1 este considerat înclina ia marginal spre consum aţ ă  

popula ieţ i înregistrate, iar a0 este înclina ia spre consum a popula iei a c rorţ ţ ă  

venit este zero, considerând c şi aceă ast popula ie este nevoit s aib ună ţ ă ă ă  

consum de subzisten fie din utilizarea economiilor agonisite fie dinţă  

 împrumut.

Valoarea anticipat a consumului final al popula iei (M(y/x)) difer deă ţ ă  

valoarea real a consumului final (notat y în cazul teoretic) şi atunci ecua iaă ţ  se rescrie inând seama de aceast valoare neobservat a abaterii ce oţ ă ă  

not m cuă , ceea ce se scrie:ε

y = M(y/x)+ ε [4]

Dac se acceptă ă ipoteza de liniaritate din ecua ia [3], şi rela ia dintreţ ţ  

valoarea anticipat şi valoarea real a variabilei y, atunci se poate scrieă ă  

ecua ia [5], careţ este ecua ia drepteiţ de regresie:

y = a0 +a1X+  ε [5]Ipoteza de liniaritate poate fi interpretat în cel mai simplu mod caă  

liniaritate ca liniaritate în variabile şi în parametri, ca liniaritate dintre

regresant (variabila dependent ) şi regresor (variabila independent ) şi dintreă ă  

parametrii a0 şi a1aşa cum este în cazul ecua iilor [3] şi [5].ţ

Dac este de forma:ă  Y =b+alnX atunci este neliniar în raport cu variabila

explicativ dară este liniar în raport cu cei doi parametri.

Dac îns modelul este de forma:ă ă Y= b+ln a*X acesta este liniar în raport

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 4/22

cu variabila explicativă dar este neliniar în raport cu cei doi parametri.

Modelele neliniare ce se pot transforma în modele liniare printr-o serie

de transform ri eă lementare astfel:

• modelul Log-Log sau dublu logaritmic:yt = a *xi 

b , prin:

logyt = loga + blog xi

transformare ce conduce la un model liniar în raport cu variabilele logyi şi log xi .

• Modelul exponen ial sau modelul log:ţ

yt = a *xbi

logyi = loga + xi log b.

O serie de modele neliniare nu pot fi scrise sub forma unor modele

liniare prin simple transform ri elementare, procedeele de transformareă  

fiind mai complexe şi nu fac obiectul acestei prezent ri.ă

Estimarea parametrilor din

În cazul seriilor de timp, ecua ia de regresie cuprinde şi variabila timp,ţ  

notat t, iar ecua ia se rescrie:ă ţ

Yt = a0 +a1Xt+εt  [6]

Seriile de timp ce sunt valori ale variabilei observate la momente diferite de timp,

ridic o problem extrem de delicat şi anume aceea a sta ionarit ii seriiloră ă ă ţ ăţ  

de timp. O serie de timp este sta ionar dac valoarea medie şi varian aţ ă ă ţ  

acesteia nu variaz sistematic în timp.ă

2.4 Metode de rezolvare a ecua iei de regresieţ

Determinarea parametrilor ecua iei de regresie se poate realiza prinţ  

mai multe metode, cum ar fi metoda general a momă entelor, metoda celor

mai mici p trate, metoda verosimilit ii maxime şi altele.ă ăţ  În continuare vom

prezenta metoda celor mai mici p trate.ă

2.4. 1.Metoda celor mai mici p trate (OLS)ă

Metoda cea mai simpl de determinare a parametrilor dreptei deă  regresie este metoda celor mai mici p trate, ce const în minimizareaă ă  

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 5/22

sumei p tratului erorilor. Se utilizeaz p tratul erorilor în scopul de a evitaă ă ă  

compensarea erorilor pozitive cu cele negative în cazul unei simple

 însum ri. care îns implic acceptarea unor ipoteze şi a unor propriet i aleă ă ă ăţ  

estimatorilor. Grafic, criteriul aplicat în cazul metodei celor mai mici p trateă  

este de a g si dreapta care asigur cea mai bun ajustare a puncteloră ă ă  

empirice (dreapta de regresie) prin minimizarea sumei p tratelor abateriloră  

dintre punctele de pe grafic şi punctele care au aceeaşi abcis pe dreaptaă  

de regresie, abaterile fiind m surate vertical.ă

 

Yt

Xt

t10t XaaY +=  

ut

Y

X

•  •  •  • •  •  • 

•  •  •  •  • •  •  •  •  • 

•  • 

XaaYˆ

10 +=  

Figura 1: Dreapta de regresie şi variabila reziduală

Analitic, se noteaz F(ă 10 ˆ,ˆ aa ) suma p tratelor abaterilor u dintre valorileă  

 înregistrate ale variabilei Y şi valorile calculate Y  şi atunci:

( ) ( ) ( )∑∑∑===

−−=−==n

1t

2t10t

n

1t

2

tt

n

1t

2t10 XaaYYYua,aF

[7]

 În func ia F, valorileţ 10 ˆ,ˆ aa sunt necunoscute, (deoarece valorile Xt şi Yt sunt valorile

din eşantion) iar pentru minimizarea func iei F este necesar a se calculaţ  

derivatele par iale de ordinul 1 şi se egaleaz cu zero (ce sunt condi iile deţ ă ţ  optim).

( ) ( ) ( )[ ]

( ) ( ) ( )[ ]

=+−−=∂∂

=+−−=∂∂

=

=

0XaaYX2a,aFa

0XaaY12a,aFa

n

1tt10tt10

1

n

1tt10t10

0

[8]

Prin rearanjarea ecua iilor [8] se ob ine un sţ ţ istem de ecua ii normale ţ  :

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 6/22

 

+=

+=

∑ ∑ ∑

∑∑

= = =

==n

1t

n

1t

n

1t

2t1t0tt

n

1tt10

n

1tt

XaXaYX

XaanY

[9]

În sistem se cunoaşte n care este dimensiunea eşantionului (seriilor), iar

∑ t  X , ∑ t Y 

; t t Y  X ∑ şi∑2t  X 

se pot calcula pe baza eşantionului, avem un

sistem de dou ecua ii cu dou necunosă ţ ă cute ce se poate rezolva.

Sistemul (7-9) poate fi scris:

=−

=−

∑∑

=

=n

1ttt

n

1tt

0uX2

0u2

echivalent cu [10]

 

=

=

=

=n

1t

tt

n

1tt

0uX

0u

[11]

Dac se noteaz mediile variabileloră ă , X  Y  , not m xă t =X- , X  şi yt = Y-Y  ,

devia iile de la medie, atunci putem scrie rela iile de calcul pentruţ ţ 0a

1a

astfel:

t t  X aY a 10 ˆˆ −= [12]

Dac se calculeaz :ă ă X = n

 X n

t t 

∑=1

şi n

Y n

t t 

∑== Υ 1

, atunci:

2

11

2

1 111

1

1

ˆ

  

  

 −

−=

∑∑

∑ ∑∑

==

= ==

n

n

n

n

t t t 

n

 X n

 X 

Y  X n

Y  X 

a

= ∑∑

−−2)(

))((

 X  X 

Y Y  X  X 

t t 

= ∑∑

2t 

t t 

 x

 y x

[13]

2.4.2 Acurate ea ajust riiţ ă

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 7/22

 În mod evident, un model este cu atât mai bun cu cât explic mai mult dină  varia ia lui Y, pentru întreg eşantionul analizat. Pentru a evita compensareaţ  abaterilor faş de medie, de obicei se calculeaz varia ia total a luiY.ă ă ţ ă

Varia ia total a lui Y  ţ ă (VT):

( )∑=

−=n

1t

2t YYVT

[14]

Varia ia total explicat de model ţ ă ă (VTM):( )∑

=−=

n

1t

2

t YYVTM[15]

Varia ia rezidual ţ ă (VTR):∑

==

n

1t

2tuVTR 

. [16]Se demonstreaz c :ă ă

– dac estimatorii sunt determina i pe baza metodei celor mai mici p trateă ţ ă

– iar ecua ia de regresie con ine şi termenul liber, atunciţ ţ

VT = VTM + VTR:

( ) ( ) ∑∑∑===

+−=−n

1t

2t

n

1t

2

t

n

1t

2t uYYYY

[17]

Coeficientul de determinare R2:

( )

( ) ( )∑

=

=

=

=

−=

−==

n

1t

2t

n

1t

2t

n

1t

2t

n

1t

2

t2

YY

u

1

YY

YY

VT

VTMR 

[18]

0 ≤ R 2 ≤ 1

• R 2 sau R-squared

R 2 m soar statistic succesul regresiei în predic ia valorilor variabileiă ă ţ  

dependente în cadrul perioadei alese, şi poate fi interpretat ca partea

variabilei dependente explicat prin variabilele independente. Statistic,ă  

valoarea ar fi 1 dac ecua ia ar realiza o predic ie perfect şi zero cândă ţ ţ ă  predic ia nu este mai bun decât media simpl a variabilei dependente.ţ ă ă

• R 2 ajustat

O problem cuă R 2 ca m sur a eficien ei regresiei este c nu scade dacă ă ţ ă ă 

se adaug mai multe variabile independente. În cazuri extreme se poateă  

ob ine o valoare 1 pentruţ R 2  dac se adaug atâtea variabileă ă  

independente câte observa iiţ are seria.

R 2  ajustat penalizeaz valoarea luiă R 2  dac se adaug variabileă ă  

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 8/22

suplimentare care nu contribuie la explicitarea mai bun a modelului. Ră 2

ajustat nu este niciodat mai mare decât Ră 2 şi poate scade dac seă  

adaug variabile independente, iar pentă ru modelele slab explicitate poate ajunge

chiar la valori negative.

Formula de calcul este:

k T 

T  R R

−−

−−=1

)1(1 22

2.5 Ipotezele modelului liniar de regresie unifactorialModelul liniar de regresie se bazeaz pe urm toarele ipoteze a c ror violareă ă ă  

conduce la respingerea modelului. Setul de ipoteze formulate asupra

variabilelor reziduale şi asupra variabilei explicative prezentate sintetic în

tabelul de mai jos. De men ionat c ipotezele 4-8 se refer la distribu iaţ ă ă ţ  

erorilor.

Ipoteza Expresia

matematică

Explica iiţ Violarea

1.Liniaritatea modelului Yt = a0 +a1Xt+εt Oricare ar fi cuplul Xt

Yt, leg tura dintreă  cele dou esteă  

liniar , modelulă  este liniar înparametri şi învariabila X

Regresori greşi i;ţ  neliniaritate

2.Variabila X aredispersia nenulă şi finită

Var(Xt) ≠ 0 Nu toatevariabileleexogene suntegale între ele,adic dispersiaă  de selec ie aţ  variabilei

trebuie s fie ună  num r finită  pozitiv

Erori în variabile

3.Variabila X nu estealeatoare

Cov(Xs, εt ) =0 Eroarea esteindependentă de variabilaexplicativă

Autoregresie

4. Erorile sunt aleatoriicu media zero

M(εt)=0, M= mediasau E(εt)=0 unde Eeste speran aţ

Speran aţ  matematic aă  erorii este nul ,ă  deci eroareamedie este zero.

Abateri constante,modelul nu este binespecificat

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 9/22

5.Homoscedasticitate, dispersiaerorii esteconstantă

Var (εt)=σ2 = constant Erorile εt suntidentic distribuite,cu o dispersieconstant şiă finită

Heteroscedasticitate

6.Erorile sunt

independente

Cov(εt,εs)=0 pentru

orice t ≠ s

Erorile nu sunt

autocorelate,deci covarian aţ  dintre oricaredou valori aleă  variabilei deabatere estezero

Autocorela ieţ

7.Erorile sunt normaldistribuite

εt ~ N(0, σ2) Fiecare variabilă aleatoare esteaproximativdistribuită normal în jurulmediei

8.Rela iile nu suntţ  liniare

0)( 2 ≠−∑ t t  X  X  Num rulă  observa iilorţ  trebuie s fieă  mai mare decâtnum rulă  variabilelor

Multicoliniaritate

Ipotezele 6 şi7 pot fi scrise concentrat: matricea de varian - covarian aţă ţă  

erorilor este

M (ε’ )=ε σ2ε I unde σ2

ε este valoarea comun a dispersiei erorilor iar I esteă  

matricea unitate.

Ipotezele 4-7 pot fi însumate prin afirma ia: abaterile erorilorţ εt sunt

presupuse independente, normal distribuite, de medie zero şi dispersie

constant , oricare ar f ă i t.

2.6. Propriet ile estimatorilor în cazul metodei celor maiăţ  mici p trate(OLS)ă

Modelul de regresie bazat pe metoda celor mai mici p trate seă  

bazeaz pe o serie de propriet i ale estimatorilor.ă ăţ

Proprietatea Explica iiţ

1. Estimatorii 0a şi 1a sunt liniari

Deoarece valorile variabilei X suntconstante, se demonstreaz că ă 

estimatorii sunt combina ii liniareţ  ale valorilor de selec ie Yţ t

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 10/22

2.Estimatorii sunt nedeplasa iţ Dac variabila exogen X nu esteă ă  aleatoare, sau dac este aleatoareă  dar este independent de variabilaă  de abatre εt, atunci estimatorii ob inu iţ ţ  prin OLS sunt nedeplasa i.ţ

3.Estimatorii sunt consisten iţ Este specific selec iilor de volumă ţ  mare, un estimator este consistentdac pe m sur ce creşte m rimeaă ă ă ă  observa iilor valoarea estimatoruluiţ  se apropie de de valoareaparametrului estimat.

4.Estimatorii nedeplasa i suntţ  

eficien iţ

Un estimator al unui parametru esteeficient dac nu este deplasat şi nuă  exist un altr estimator nedeplasată  care are o dispersie mai mic .ă Pentrunum r mare de observa ii seă ţ  analizeaz proprietatea de eficienă ţă asimptotic . Un estimator esteă  asimptotic eficient dac esteă  consistent şi nu exist un altă  estimator consistent care are odispersie mai mic .ă

5. Estimatorii sunt normal distribui iţ Dac erorile sunt variabile aleratoareă  distribuite normal, atunci distribu iaţ  pentru selec ii repetate aleţ  

estimatorilor 0a şi 1a   este deasemenea normal .ă

6.Estimatorii sunt de verosimiliate maximă Un estimator este verosimil dacă 

genereaz valori plauzibile pentruă  

variabila endogen . Sunt de maximă ă 

verosimilitate acei estimatori care

fiind fiind fixate valorile Xt,

genereaz cu o probabilitate maximă ă 

valorile observate ale variabileiendogene Yt.

Principalele propriet i ale modelului liniarăţ de regresie în condi iile înţ  

care parametrii sunt estima i prin metoda celor mai mici p trate suntţ ă

• Proprietatea 1

Estimatorul coeficientului dreptei de regresie determinat prin aplicarea

metodei celor mai mici p trate este un estimator nedeplasat şi deă  dispersie minim ,ă

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 11/22

Ceea ce înseamn c :ă ă

E( a ) =a,

Var( a ) = ∑=−

n

i

i x x1

2

2

)ˆ(

ε σ  

Urm rind ultima rela ie rezult c varian a estimatorului este cu atât maiă ţ ă ă ţ  

mic cu cât varian a caracteristicii exogene este mai mare.ă ţ

 În practic se calculeaz o singur estima ie, luână ă ă ţ d în considerare seriile

disponibile, deplasarea estimatorului a este calculat pe baza rela iei:ă ţ

B( a )= a-E( a ). Pentru un estimator nedeplasat aceast rela ie este egală ţ ă 

cu zero. În egal m sur , în estimarea unui parametru ne intereseaz folosireaă ă ă ă  

unor estimatori de dispersie cât mai mic .ă

Sunt trei factori care pot reduce varian a estimatorului:ţ• creşterea volumului eşantionului;• reducerea varian ei variabilei reziduale;ţ• utilizarea unor serii pentru variabilele explicative cu grad mai mare de dispersie.

• Proprietatea 2.

Estimatorul ob inut în urma aplic rii celor mai mici p trate (nota ie ls înţ ă ă ţ  

programul EViews) este un estimator de dispersie minim , printreă  

estimatorii nedeplasa i, exprima i ca func ie liniar de seria de valori:ţ ţ ţ ă

y1 y2 y3....... yn.

Aceast proprietate se mai numeşte şi teorema Gauss-Markov, iară  

estimatorul ce satisface aceast proprietate se numeşte estimatoră  

eficient.

Sintetic se exprim :ă

var( a *)=).ˆvar()( 2222 awaw i

ii

i ≥−+ ∑∑ ε ε σ  σ  

unde w reprezint ponderile combina iei liniare ale seriei.ă ţ

Egalitatea celor dou varian e are loc numai dac aă ţ ă i =wi.

• Proprietatea 3.Dac variabila rezidual urmeaz reparti ia normal , atunci estimatorulă ă ă ţ ă  

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 12/22

a urmeaz o reparti ie normal de medie a şi abatere standard:ă ţ ă

 x

an σ  

σ  σ  

ε 1

*ˆ =

unde s-a notat cu xσ   abaterea standard a variabilei exogene şi cu ε σ   abaterea

standard a variabilei reziduale. Pentru a se ob ine cea mai bun estimareţ ă  

a dreptei de regresie se recomand s se reduc abaterea standard aă ă ă  

estimatorului pantei de regresie. Abaterea standard este direct

propor ional cu gradul de varia ie a observa iilorţ ă ţ ţ y1 y2 y3....... yn, în jurul dreptei

de regr esie şi invers propor ional cu num rul de observa ii şi gradul deţ ă ă ţ  

varia ie al valorilor caracteristicii exogeneţ x1

x2

x3.......

xn.

Cu cât valorile variabilei exogene sunt mai dispersate, cu atât precizia

estim rii este mai mare(gradul de dispersie a seriei valoriloră  

caracteristicilor exogene este m surat, de regul , prin abaterea standardă ă  

a seriei).

Prin intermediul  xσ   se m soar efectul de pârghie.ă ă

• Proprietatea 4.Estimatorul termenului liber al dreptei de regresie ob inut prin aplicareaţ  

metodei celor mai mici p trate este un estimator nedeplasat de variană ţă 

minimă.

• Proprietatea 5

Matricea de covarian a estimatorilor modelului liniar de regresiţă e a şi b  este reprezentat prin:ă

    

  

)ˆvar()ˆ,ˆcov()ˆ,ˆcov()ˆvar(

bab

baa

• Proprietatea 6Estimatorul  a converge în probabilitate c tre parametrul a, şi în egală ă 

m sur estimatorul termenului liber al modelului clasic de regresieă ă b  converge în probabilitate c tre b.ă

Proprietatea 7

Covarian a luiţ   a şi  y pentru un xi fixat este nul .ă

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 13/22

2.7 Regresia multiplă

Model de regresie linear cu dependen e multiple:ă ţ

Yt = a0 + a1X1t + a2X2t + … + akXkt + et, t = 1, 2, …, n [19]

2.7.1. Estimarea parametrilor din modelul linear multifactorial

+++++=

+++++=

+++++=+++++=

+++++=

nknkn22n110n

ikiki22i110t

33kk23213103

22kk22212102

11kk21211101

eXaXaXaaY

eXaXaXaaY

eXaXaXaaY

eXaXaXaaY

eXaXaXaaY

[20]

Introducem urm toarele nota ii:ă ţ

 

     

 

 

 

 

=

 

     

 

 

 

 

=

 

     

 

 

 

 

=

 

     

 

 

 

 

=

n

3

2

1

k

2

1

0

knn2n1

3k2313

2k2212

1k2111

n

3

2

1

e

e

e

e

e,

a

a

a

a

A,

XXX1

XXX1

XXX1

XXX1

X,

Y

Y

Y

Y

Y

unde:– Y este un vector coloan , de dimensiuni nă  × 1, care are drept componente cele n

 înregistr ri ale variabilei explicate (endogene),ă – X este o matrice de dimensiuni n ×  (k+1), care con ine în prima coloan (ataşatţ ă ă 

termenului liber) constanta 1, iar în celelalte k coloane înregistr rileă  pentru fiecare dintre cele k variabile explicative;

– A este un vector coloan , de dimensiuni (k+1)ă  × 1, care include cei k+1

 parametri ai modelului;– e este un vector coloan , de dimensiuni nă  × 1, care include cele n valori ale

variabilei de abatere (erorile din ecua ie de regresie)ţ

Sistemul (20) poate fi scris matriceal astfel: Y = XA + e [21]

Valorile estimate:

Yt = â0 + â1X1ţ + â2X2ţ + … + âkXkţ [22]

Variabila rezidual :ă

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 14/22

Yt = Ŷt + ut, [23]

sau Yt = â0 + â1X1ţ + â2X2ţ + … + âkXkţ + ut, [24]

Matricea: Y = XÂ + u [25]

unde

      

 

 

 

 

=

      

 

 

 

 

=

n

3

2

1

k

2

1

0

u

u

u

u

u,

a

a

a

a

A

Metoda celor mai mici p trate:ă

( )

( )∑

∑∑

=

==

−−−−−=

=−==

n

1t

2ktkt22t110t

n

1t

2tt

n

1t

2t

XaXaXaaY

YYuF

[26]

Matriceal F = u'u = (Y – XÂ)'(Y – XÂ) = Y'Y – Y'XÂ – Â'X'Y + Â'X'XÂ

Deoarece 1,11,1k1k,nn,11,nn,1k1k,1 gAX'YY'X'A =⋅=⋅⋅ ++++ unde  g  este un scalar,

expresia F se scrie: F = Y'Y – 2Â'X'Y + Â'X'XÂ [27]

Rezolvare:0AX'X2Y'X2

A

F=+−=

∂∂

[28]

(matricea X'X este pozitiv definit ).ă

X'XÂ = X'Y [29]

 = (X'X)-1X'Y [30]4.4. Teste privind semnifica ia estimatorilorţ

   

 

 

 

 

−−−

=−

22

11

00

aa

aa

aa

AA

, ( ) ( )221100 aaaaaaAA −−−=′

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 15/22

( )( )( ) ( ) ( ) ( )( )

( ) ( ) ( ) ( ) ( )

( ) ( ) ( )( ) ( )     

 

 

 

 

−−−−−−−−−−−−−−−

=′

−−2

2211220022

22112

110011

220011002

00

aaaaaaaaaa

aaaaaaaaaa

aaaaaaaaaa

AAAA

Var(Â) = M[(Â – A)(Â – A)'] =

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )    

 

 

 

 

21202

21101

10100

aVar a,aCova,aCov

a,aCovaVar a,aCova,aCova,aCovaVar 

Cazul general:

( ) ( )( )

( ) ( )( )[ ] ( )( )[ ]

( )( )[ ] ( ) ( )( )[ ]

( )( )[ ] ( )( )[ ] ( )     

 

 

 

 

 

−−−−−

−−−−−

−−−−−

=

=

−−=

2kk11kk00kk

kk11

2

110011

kk0011002

00

aaMaaaaMaaaaM

aaaaMaaMaaaaM

aaaaMaaaaMaaM

AAAAMAVar 

Deoarece M(âi) = ai, Var(Â), matricea varian – covarian a vectoruluiţă ţă  estimatorilor  se poate scrie:

( )

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )    

  

 

 

 

 

=

k1k0k

k1101

k0100

aVar a,aCova,aCov

a,aCovaVar a,aCov

a,aCova,aCovaVar 

AVar 

4- 12

Pornind de la rela ia (4ţ -17): ( ) e'XX'XAA 1−+= , echivalent cuă  

( ) e'XX'XAA 1−=− şi de la faptul c (X'X)ă -1 este o matrice simetric ,ă  matricea Var(Â) poate fi calculat astfel:ă

( ) ( )( ) ( ) ( )[ ]11 X'XX'ee'XX'XMAAAAMAVar  −−=

−−=

) ( ) ( ) ( )11

X'XX'eeM'XX'XAVar −−

= 4- 12( ) ( ) 2

e2tt eMeVar  σ== , constant oricare ar fiă t şi

Cov(ei, e j) = M(ei, e j) = 0, oricare ar fi i ≠ j.

( ) n2e I'eeM σ= 4- 12

) ( ) ( ) ( )

( ) ( )

( ) 12e

112e

1n

2e

1

X'X

X'XX'XX'X

X'XXI'XX'XAVar 

−−

−−

σ=

=σ=

=σ=

4- 12 Not m dă ij elementul situat la intersec ia dintre liniaţ i şi coloana j, atunci dij = d ji.

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 16/22

R ezult c dispersia estimatorului âă ă i, notată2ai

σ, este dat de expresia:ă

ii2e

2a d

iσ=σ

4- 12

unde

k,0i =.Abaterea standard a estimatorului âi se calculeaz prin extragerea r d ciniiă ă ă  

p trate din dispersia estimatorului respectiv:ă

iiea di

σ=σ4- 12

 Tot din compararea rela iilor (4ţ -19) şi (4-22) rezult :ă

( ) ( )  ji,da,aCov ij2e ji ≠∀σ=

4- 12adic , pentru a calcula covarian a dintre estimatorii âă ţ i şi â j se înmul eşteţ

Dar, în rela iile de calcul (4ţ -23), (4-24) şi (4-25), dispersia erorilor2eσ  

nu este cunoscut .ă  Se demonstreaz c :ă ă

u'u1kn

1s2

u −−=

, 1kn

us

n

1t

2t

2u −−

=∑

=

4- 12

este un estimator nedeplasat al dispersiei erorilor  ( ) 2e

2usM σ= .

 În aceste condi ii, un estimator nedeplasat al matricei Var(Â),ţ  matricea de varian – covarian a vectorului estimatorilor Â, se calculeazţă ţă ă astfel:

( )

12

u

2

A X'XsS

= 4- 12

deoarece( ) )AVar SM 2

A=

.

Dispersia de selec ieţ2ai

s:

ii2u

2a dss

i=

4- 12

unde k,0i = .

Testul unilateral

Pasul 1: Se formulează H0: ai = a, H1: ai > a.Pasul 2: Se calculeaz statisticaă

i

ia

ia s

aat

−=

,Pasul 3: Din tabelul statisticii Student, pornind de la num rul gradelor deă  

libertate (n–k–1) şi de la nivelul de semnifica ie ales (ţ α), se

selecteaz o vală oare∗

α− ,2ntastfel încât ( ) α=> ∗ttP .

Pasul 4: Dacă∗> tt

ia atunci se respinge H0

şi admitem c parametrul aăi

estesemnificativ mai mare decât a. Dac ipoteza alternativ este Hă ă 1: ai < a,

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 17/22

atunci se respinge H0 dacă∗−< tt

ia ∗−< tt  De obicei, valoarea a este stabilit la nivelul aă = 0, astfel încât se testează 

ipoteza H0: ai = 0 (variabilele Xi şi Y sunt independente). Respingerea acesteiipoteze înseamn acceptarea faptului c , statistic, exist o leg tur întreă ă ă ă ă  

variabila endogen Y şi variabila explicativ Xă ă i.Pentru exemplificarea modului de calcul a dispersiei de selec ie aţ  

variabilei reziduale (ca estimator nedeplasat al dispersiei erorilor), adispersiei estimatorilor şi a abaterilor standard în cazul numeric prezentat întabelul 4-1 este necesar ca tabelul 4-2 s fie completat cu o coloană ă 

suplimentar , necesar pentru calculul bloculuiă ă ∑ 2tu

. Calculele sunt prezentateîn tabelul 4-3.

t Yt Ŷtut

2tu

1 2.0 2.476 -0.476 0.2269

2 0.5 1.077 -0.577 0.33273 1.5 1.378 0.122 0.01484 3.0 2.959 0.041 0.00175 1.0 1.716 -0.716 0.51246 0.0 0.045 -0.045 0.00217 2.1 1.936 0.164 0.02688 1.8 1.809 -0.008 0.00019 3.0 2.988 0.013 0.000210 0.7 0.812 -0.112 0.012611 0.5 0.380 0.120 0.014412 1.0 0.916 0.084 0.007113 1.4 1.859 -0.459 0.210614 1.2 1.372 -0.172 0.029615 0.8 0.189 0.612 0.373916 2.3 2.516 -0.216 0.046617 3.5 3.528 -0.027 0.000818 3.8 3.003 0.797 0.635519 1.8 1.764 0.036 0.001320 2.6 2.717 -0.117 0.013621 0.8 0.773 0.027 0.000822 1.2 0.905 0.295 0.0871

23 4.2 3.144 1.056 1.114924 0.8 0.645 0.155 0.024125 2.5 3.115 -0.615 0.3786

Suma: 44.0 44.0 0.000 4.0689

Pornind de la valorile din tabelul 4-3, se calculeaz :ă

18495.0325

0689.4

1kn

us

25

1t

2t

2u =

−=

−−=

∑=

28935.05645.118495.0dss00

2

u

2

a0

=⋅==

02669.01443.018495.0dss 112u

2a1

=⋅==

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 18/22

01323.00715.018495.0dss 222u

2a2

=⋅==unde doo, d11 şi d22 sunt elementele de pe diagonala principal a matricei (X'X)ă -1.Abaterile standard se calculeaz prin extragerea r d cinii p trate dină ă ă ă  valorile dispersiilor corespunz toare:ă

430058.0su =53792.0s

0a =16338.0s

1a =11502.0s

2a =Pentru testarea semnifica iei parametrilor din modelulţ linear de

regresie multipl se procedeaz astfeă ă l:(a) Se calculeaz statisticile corespunz toare pentru estimatoriiă ă  parametrilor

69.353792.0

984.1

s

at

0

0a

0a ===

70.216338.0

441.0

s

at

1

1a

1a ===

56.511502.0

639.0

s

at

2

2a

2a −=

−==

(b) Din tabelul distribu iei t–Student unilaterale, pentru n–k–1ţ = 22 gradede libertate şi α = 0.05 pragul de încredere, se identific valoarea critică ă t* = 1.717.

4.5. Acurate ea ajust rii. Criterii pentru specificarea modeluluiţ ă  multifactorialCalculul coeficientului de determinare multipl R2ă

( )∑

=

=

−−=−==

n

1t

2

t

n

1t

2

t

2

YY

u

1VT

VTR 1

VT

VTMR 

4- 12

Calculul coeficientului de determinare corectat2

( )22 R 11kn

1n1R  −

−−−

−=4- 12

t Yt ( ) 2t

YY −

1 2.0 0.062 0.5 1.593 1.5 0.074 3.0 1.545 1.0 0.58

6 0.0 3.107 2.1 0.12

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 19/22

t Yt ( ) 2t

YY −

8 1.8 0.009 3.0 1.5410 0.7 1.12

11 0.5 1.5912 1.0 0.5813 1.4 0.1314 1.2 0.3115 0.8 0.9216 2.3 0.2917 3.5 3.0318 3.8 4.1619 1.8 0.0020 2.6 0.7121 0.8 0.92

22 1.2 0.3123 4.2 5.9524 0.8 0.9225 2.5 0.55

Suma 44.0 30.08

 În aplicarea rela iilor (4ţ -33) şi (4-34) se ine seama de faptul cţ ă volumul selec iei este nţ = 25, iar num rul variabilelor explicative este kă = 2.

De asemenea, se utilizeaz un rezultat prezentat în tabelul 4ă -3:

0689.4u

25

1t

2

t =∑=În aceste condi ii, coeficientul de determinare calculat potrivit rela ieiţ ţ  

(4-33) este:

8647.008.30

0689.41R 2 =−=

iar un estimator nedeplasat pentru coeficientul de determinare corectat2

R  , calculat potrivitrela iei (4ţ -34), este

( ) 8524.08647.01

22

241R 2 =−⋅−=

 Cu excep ia situa iei în care Rţ ţ 2 = 1, coeficientul de determinare ajustat

2R  este

întotdeauna mai mic decât coeficientul de determinare R 2. Mai mult, deşi R2 este o

m rime pozitiv subunitar ,ă ă ă2

R  poate lua valori negative. De exemplu, dacă volumul selec iei este nţ = 25, num rul variabilelor explicative kă = 3, iarcoeficientul de determinare este R2 = 0.1, atunci, prin aplicarea formulei (4-34) se

deduce2

R  = -0.0286. O valoare negativ a coeficientului de determinareă  ajustat semnific faptul c modelul nu descrie întră ă -un mod satisf c toră ă  evolu ia variabilei endogene.ţ

2.7.2 Criterii pentru specificarea modelului multifactorial

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 20/22

Un criteriu imediat pentru a decide dac admitem sau nu în model oă  variabil suplimentar este urm torul:ă ă ă dac prin includerea unei (unor)ă  variabile suplimentare suma p tratelor reziduurilor scade mai repede decât ă  num rul gradelor de libertate, din punct de vedere econometric se justifică ă re inerea în model a variabilei (variabilelor) respective ţ  .

Unul dintre cele mai cunoscute teste este criteriul informa ional Akaike ţ  (Akaikeinformation criterion – AIC). Acest criteriu este definit astfel:

( ) ( )

n

1k2n

1t

2t

n

1k2

eun

1e

n

VTR AIC

+

=

+

⋅   

  

 =⋅ 

  

  = ∑

[31]

sau, în expresie logaritmică

( )( )

n

1k2

n

ulnAICln

2t +

+  

 

 

 

 = ∑

Un alt test cunoscut este criteriul Schwartz :

n

1kn

1t

2t

n

1k

nun

1n

n

VTR SCHWARTZ

+

=

+

⋅   

  

 =⋅ 

  

  = ∑

[32]

Se poate demonstra urm toarea proprietate:ă dac valoarea absolut aă ă  testului t pentru un parametru din ecua ia de regresie linear multipl este ţ ă ă  mai mic decât 1, atunci, eliminând din model variabila explicativ ă ă 

asociat , valoarea coeficientului de determinare corectat ă2

R  va creşte;dac se elimin o variabil pentru care t statistic este mai mare decât 1,ă ă ă  

valoarea coeficientului de determinare corectat 2

R    se va reduce (Ramanathan, R.,1992, pag. 170).

2.7.3. MulticolinearitateaExist o rela ie linear între valorile variabilelor explicative.ă ţ ă

Consecin e ale multicolinearit iiţ ăţS presupunem c în ecua ia de regresie:ă ă ţ

eXaXaaY 22110 +++= [33]

între variabilele X1 şi X2 exist o rela ie de f ă ţ orma

( ) t, bXaX t1t2 ∀+= [34]

unde a şi b sunt parametrii cunoscu i. Dac se înlocuieşte 4ţ ă -38 în rela ia 4ţ -37se ob ine:ţ

( ) ( ) eX baaaaa

eXaXaaY

12120

22110

++++==+++=

[35]sau

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 21/22

eXY 1 +β+α= [36]

unde

+=β

+=α

 baa

aaa

21

20

[37]

Pe baza datelor din eşantionul selectat, se determin estimatoriiă α şi

β , pentru parametrii α respectiv β din ecua ia de regresie. Din nefericire, oricât deţ  buni ar fi estimatorii respectivi, este imposibil de calculat valorile â0, â1 şi â2

corespunz tori rela iei ini iale.ă ţ ţ Aceasta deoarece sistemul cu necunoscutele â0, â1 şi â2 .

+=β

+=α

 baaˆ

aaaˆ

21

20

[38]

este nedeterminat (are dou ecua ii şi trei necunoscute).ă ţ

Consecin e ale multicolinearit iiţ ăţ

a. Dac dou sau mai multe variabile explicative din modelulă ă  de regresie multipl sunt perfect corelate, estimatoriiă  parametrilor nu pot fi calcula i prin metoda celor mai miciţ  

p trate.ăb. Dac anumite variabile explicative sunt relativ puternică  

corelate, estimatorii ob inu i prin metoda celor mai miciţ ţ  p trate sunt lineari, normal distribui i, nedeplasa i,ă ţ ţ  consisten i şi de maxim verosimilitate.ţ ă

c. Efectul multicolinearit ii se manifest în creşterea abaterii standard aăţ ă  estimatorilor calcula i pentru parametriţ i modelului, ceea ce reduce valoareatestului t statistic (Student). Aceasta face estimatorii mai pu in semnificativiţ  (posibil chiar nesemnificativi). Totuşi, testul t r mâne valid.ă

d. Se reduce precizia estimatorilor calcula i pentru parametrii modelului, înţ  

sensul c abaterea standard mare duce la creşterea intervalului deă   încredere în care sunt garanta i parametrii.ţ

e. Deoarece covarian a între variabilele explicative corelateţ  relativ puternic poate fi mare (în valoare absolut ),ă  interpretarea parametrilor individuali este dificil .ă

Identificarea multicolinearit iiăţ

a. Coeficien ii de corela ie linear , calcula i pentru perechile deţ ţ ă ţ  variabile explicative din model, sunt mari în valoareabsolut (sunt, în modul, apropiaă ţi de +1).

 b. Determinantul matricei (X'X) are valori în apropierea lui zero.c. Coeficientul de determinare R 2 este mare, iar valorile testelor t (Student), calculate pentru

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 22/22

 parametrii modelului sunt mici.d. Estimatorii parametrilor sunt sensibili la specificarea modelului.e. Aplicarea unor proceduri formale.Atenuarea multicolinearit iiăţ

a. Eliminarea unor variabile explicative

b. Realizarea unor observa ii suplimentare asupra variabilelorţ  din model (se m reşte volumul eşantionului)ă

c. Prelucrarea primar a datelor (calculul ritmurilor de modificare, aă  sporurilor, indicilor, logaritmarea valorilor observate etc.)

d. Regresia ridge

2.8. Erori de specificare a modelului multifactorial de regresielinearăOmiterea unor variabile explicative importantea. Dac o variabil important omis este corelat cel pu in cuă ă ă ă ă ţ  

o variabil inclus în model, atunci estimatorii parametriloră ă  re inu i în model sunt deplasa i şi nu sunt consisten iţ ţ ţ ţ

b. Chiar dac variabilele omise nu sunt corelate cu variabileleă  re inute în model, estimatorul termenului liber (âţ 0) este, îngeneral, deplasat

c. Dispersiile estimate pentru parametrii variabilelor re inute în modelţ  sunt estimatori deplasa i ai dispersiilor reale şi, în consecin , testulţ ţă t 

privind semnifica ia estimatorilor nu este validţIncluderea unor variabile nerelevante

a. Dac o variabil explicativ nerelevant este inclus înă ă ă ă ă  model, atunci estimatorii parametrilor pentru toate celelaltevariabile din model sunt nedeplasa i şi consisten iţ ţ

b. Dispersiile estimate pentru parametrii variabilelor din model sunt maimari decât în cazul neincluderii variabilelor nerelevante şi deciestimatori nu sunt eficien iţ

c. Deoarece dispersiile estimate pentru parametrii modelului sunt nedeplasate, testul t 

privind semnifica ia estimatorilor este validţ