modelul de regresie 1. regresia – scurt istoric al termenului sir francis galton(1822-1911) –...

72
MODELUL DE REGRESIE 1

Post on 19-Dec-2015

221 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

1

MODELUL DE REGRESIE

Page 2: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

2

Regresia – scurt istoric al termenului• Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene,

este cel care a introdus termenii de regresie şi corelaţie statistică• Originea regresiei ca metodă statistică se află în studiile sale de genetică

aplicată în studiul plantelor- 1877• Plantînd boabe dintr-un anumit soi de mazăre dulce a observat că există o

legătură liniară între diametrele acestor boabe şi diametrele boabelor recoltate de la noile plante. El a numit iniţial panta acestei drepte “coefficient of reversion”, schimbîndu-i apoi numele în “coefficient of regression”.

• Termenul de regresie provine de la descoperirile sale în domeniul eredităţii: în general, progeniturile indivizilor geniali au abilităţi care îi aşază mai degrabă la nivelul mediei; de asemenea, înalţimea copiilor proveniţi din taţi foarte înalţi se apropie mai mult de înălţimea medie decît înălţimea taţilor.

Page 3: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

3

Modele

• Un model este o reprezentare a unui anumit fenomen• Model matematic - o reprezentare matematică a unui

fenomen• De cele mai multe ori un model descrie legăturile

existente între două sau mai multe variabile• În general, sînt două clase de modele:

– Modele deterministe– Modele probabiliste

Page 4: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

4

• Modele deterministe– Exprimă o relaţie

exactă între variabile– Teoretic, eroarea de

previziune este nulă

– Exemplu: Principiul al doilea al

mecanicii newtoniene:F = m.a

• Modele probabiliste– Componenta deterministă– Componenta aleatoare– Eroarea de previziune este

nenulă– Componenta aleatoare

poate fi datorată factorilor obiectivi, ce nu sînt incluşi în model

– Exemplu: Volumul vînzărilor=10 * Cheltuielile cu publicitatea + Componenta aleatoare

Page 5: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

5

Tipuri de modele probabiliste

ProbabilisticModels

RegressionModels

CorrelationModels

OtherModels

ProbabilisticModels

RegressionModels

CorrelationModels

OtherModels

Modele probabiliste

Modele de regresie

Modele de corelatie

Alte

modele

Page 6: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

6

Regresia – metodă de modelare a legăturilor dintre variabile

• În general, orice fenomen este rezultatul acţiunii unuia sau mai multor factori

• Exprimarea matematică:

1( ,..., )nY f X X

Variabila dependentă

(variabila endogenă)

Variabile independente

(variabile exogene/explicative)

Variabila reziduală

Page 7: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

7

Exemplu: Legea lui Keynes privind legătura dintre venit şi consum

• Suma cheltuită pentru consum depinde de:– mărimea venitului pe de o parte– alte obiective în funcţie de circumstanţe (de exemplu

investiţiile)– alte nevoi subiective

• „O persoană este dispusă de regulă şi în medie să îşi crească consumul pe măsura creşterii venitului dar nu în aceeaşi măsură”

• Modelul de regresie: C=+V+ , unde 0<<1 .

0 1dC

dV

Page 8: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

8

Ipotezele modelului de regresie(Ipotezele Gauss-Markov)

• 1. Normalitatea– Valorile Y sînt normal distribuite pentru orice X

– Erorile sînt normal distribuite cu medie zero E(εi)=0 i • 2. Homoscedasticitatea (dispersie constantă)

• 3. Necorelarea erorilor E(εi εk)=0 (i<>k)

• 4. Liniaritatea• 5. Variabilele sînt măsurate fără eroare

– (caracter nestochastic)

2 2

iE

XY ii

( , ) 0, ,i jCov X i j

Page 9: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

9

Forma funcţională• Ipoteza de linearitate nu este atât de restrictivă pe cât pare.

Aceasta se referă la felul în care parametrii intră în ecuaţie, nu neapărat la relaţia între variabilele x şi y.

• În general modele pot fi linearizate.• y=a+bx• y=a+bz, z=ex

• y=a+br, r=1/x• y=a+bq, q=ln(x)

y= xβ ln(y)=+ln(x)• Forma generală: f(yi)= +g(xi)+i

• Contra exemplu: nu poate fi transformat în model liniar.

1y

x

Page 10: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

10

Modele ce pot fi linearizate

-400

-200

0

200

400

600

800

1000

-1 0.003 0.008 0.013 0.018 0.023 0.028 0.033 0.038 0.043 0.048 0.053 0.058 0.063 0.068X

Y

xba

1 xbea

bxa

xba ln

Page 11: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

11

• Ipoteza că media erorilor este zero: E(i)=0 i, este naturală atâta timp cât este văzută ca suma efectelor individuale, cu semne diferite. Dacă media erorilor este diferită de zero, ea poate fi considerată ca o parte sistematică a regresiei:media erorilor fiind acum nulă.

• Ipoteza de homoscedasticitate: Var(i)=2 constantă i

• Se consideră un model care descrie consumul unor gospodării în funcţie de venitul acestora. În acest caz, consumul gospodăriilor mari pot varia mult mai mult faţă de consumul gospodăriilor cu venituri mici. Deci ipoteza de homoscedasticitate nu este respectată.

E()= 0+ 1x + = (0 +) + 1x + (-)

Page 12: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

12

Exemplu de încălcare a ipotezei de homoscedasticitate

Functia de consum

0

200

400

600

800

1000

1200

200 300 400 500 600 700 800 900 1000

venit

co

nsu

m

Page 13: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

13

• Necorelarea erorilor: E(ij)=0 ijAceastă ipoteză nu implică faptul că yi şi yj sunt necorelate, ci faptul că deviaţiile observaţiilor de la valorile lor aşteptate sunt necorelate.

• Ipoteza de normalitate a erorilor i N(0,2)

Este o ipoteză de lucru, tehnică, ce permite obţinerea unor estimatori “buni”.

• Dacă ipotezele precedente sînt respectate, vom obţine estimatori B.L.U.E. (Best Linear Unbiased Estimators)

Page 14: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

14

Ipotezele de normalitate şi homoscedasticitate Ipotezele de normalitate şi homoscedasticitate

Y

f(e)

X

X 1X 2

Page 15: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

15

Variaţia erorilor în jurul dreptei de regresie

X1

X2

X

Y

f(e)

Valorile y sînt normal distribuite în jurul dreptei de regresie.

Pentru fiecare valoare x, dispersia în jurul dreptei de regresie este

constantă.

Dreapta de regresie

Page 16: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

16

Clasificarea modelelor de regresie

Modelede regresie

LinearNon-

Linear

2+ Variabile2+ Variabileexplicativeexplicative

Simple Multiple

Linear

1 Variabilă1 Variabilăexplicativăexplicativă

Non-Linear

Page 17: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

17

Tipuri de modele de regresie

Legătură liniară directă

Legătură liniară inversă

Legătură neliniară

Absenţa vreunei legături

Page 18: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

18

Modelul de regresie liniară simplă

Page 19: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

19

Modelul lui Keynes la nivelul economiei SUA

1930

1932

1934

1936

1938

1940

1942

1944

1946

1948

1950

1952

1954

1956

1958

1960

1962

1964

1966

1968

1970

1972

1974

1976

1978

1980

1982

1984

1986

1988

1990

1992

1994

0.0

1000.0

2000.0

3000.0

4000.0

5000.0

6000.0

Real Consumption Expenditures ($ Billions, 1992) Real Disposable Income ($ Billions 1992)

Page 20: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

20

Regresia folosind EXCEL

Accesăm meniul TOOLS>DATA ANALYSIS>REGRESSION

Page 21: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

21

Corelograma(Scatter plot)

• Graficul punctelor de coordonate (Xi,Yi), i=1,n.

0.0 1000.0 2000.0 3000.0 4000.0 5000.0 6000.00.0

500.0

1000.0

1500.0

2000.0

2500.0

3000.0

3500.0

4000.0

4500.0

5000.0

Real Consumption Expenditures ($ Billions, 1992)

Page 22: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

22

Modelul de regresie liniară simplă

iii XY 10

intercept (termenul constant)

Panta dreptei de regresie

Variabila de perturbaţie

Variabila dependentă(răspuns)

Variabila independentă

(explicativă)

Pe baza corelogramei este rezonabil să presupunem că media variabilei Y depinde de X printr-o relaţie liniară:

Atunci modelul de regresie liniară simplă este dat de relaţia următoare:

Page 23: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

23

Dacă presupunem că media şi dispersia lui sînt 0 şi 2, atunci media lui Y pentru o valoare particulară a lui X este dată de relaţia:

Dispersia lui Y pentru o valoare particulară a lui X este dată de relaţia:

Media şi dispersia variabilei dependente

Page 24: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

24

• La nivelul populaţiei regresia se reduce la exprimarea mediei condiţionate a lui Y:

unde 1 are semnificaţia unui coeficient de elasticitate: arată modificarea lui Y la o modificare cu o unitate a lui x.• De asemenea, variabilitatea lui Y pentru o valoare

particulară x este determinată de dispersia variabilei reziduale, 2.

• Există o distribuţie a valorilor lui Y pentru fiecare x şi dispersia acestei distribuţii este constantă pentru orice x.

Page 25: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

25

Distribuţia condiţionată a lui Y

Y

X

Dreapta de regresie

Page 26: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

26

i = Eroarea

Y

X

Modelul de regresie liniară la nivelul populaţiei

Valoarea observată

Valoarea observată

YX iX 0 1

Y Xi i i 0 1

(E(Y))

Page 27: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

27

Modelul de regresie liniară la nivelul eşantionului

0

0 1ˆ ˆ

i iY X

Yi

= Valoarea estimată a lui Y pentru observaţia i

Xi = Valoarea lui X pentru observaţia i

= Estimatorul termenului liber 0

= Estimatorul pantei 11

Page 28: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

28

Estimarea parametrilor modelului de regresie• Metoda celor mai mici pătrate(M.C.M.M.P.) – Ordinary Least

Squares(O.L.S.)

• Presupunem că avem n perechi de observaţii (x1, y1), (x2, y2), …, (xn, yn).

• Ideea este să minimizăm distanţa dintre valorile estimate şi valorile reale

• Ne reamintim că deci

22

1 1

ˆ minˆn n

ii ii i

L Y Y

0 1ˆ ˆ

i iY x

Page 29: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

29

Ilustrare grafică

2

Y

X

1 3

4

^^

^^

Y X2 0 1 2 2

Y Xi i 0 1

2 2 2 2 21 2 3 4

1

ˆ ˆ ˆ ˆ ˆLS minimizează n

ii

Page 30: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

30

• Condiţiile de minim:

• Simplificînd, obţinem sistemul de ecuaţii normale

Page 31: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

31

Estimatorii modelului de regresie

xy

s

s

s

YX

x

xy

x

10

221

ˆˆ

),cov(ˆ

Page 32: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

32

Notaţii

• Valoarea estimată: • Valoarea reziduală(reziduul):

Page 33: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

33

• Dacă notăm suma pătratelor erorilor de regresie

atunci un estimator al varianţei variabilei reziduale este

Estimatorul dispersiei modelului

Page 34: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

34

Proprietăţile estimatorilor modelului de regresie

0 1 0 1

0 0 1 1

22

0

ˆ ˆ şi sînt estimatori nedeplasaţi ai parametrilor şi

ˆ ˆ ( ) şi ( )

-Dispersiile celor doi estimatori sînt date de relaţiile

1ˆ V( )

E E

x

n S

2

1

2 2

1

0 1

ˆ V( )

unde ( ) şi este dispersia variabilei reziduale

ˆ ˆ-Estimatorii şi urmează o distribuţie normală

xx

xx

n

xx ii

S

S x x

Page 35: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

35

Nedeplasarea estimatorilor OLS

• Presupunem că modelul de regresie la nivelul populației este liniar y = b0 + b1x + ε

• Fie {(xi, yi): i=1, 2, …, n un eșantion de n observații. Atunci putem formula modelul de regresie la nivelul eșantionului yi = b0 + b1xi + εi

• Presupunem E(ε|x) = 0 și atunci E(εi|xi) = 0• Presupunem că există variație în xi

Page 36: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

36

• Pentru a discuta despre deplasarea estimatorilor, aceștia trebuie exprimați în funcție de parametrii din populație

21 ,ˆ xxS unde

S

yxxixx

xx

ii

0

.

11

1

2

10

10

10

xx

ii

iixx

iiii

iiiii

iiiii

iiiii

S

xx

atunci sixxS numarator la avem deci

xxxxx sixx Dar

xxxxxxx

xxxxxxx

xxxyxx

Page 37: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

37

Nedeplasarea lui

111

11

iixx

iixx

ii

EdS

E

atunci ,dS

încît astfel ,xxd Fie

1

Page 38: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

38

Nedeplasarea estimatorilor

• Estimatorii OLS pentru b1 și b0 sînt nedeplasați• Demonstrația caracterului de estimator nedeplasat

depinde de 4 ipoteze – dacă oricare din aceste ipoteze nu este îndeplinită, atunci nedeplasarea nu este neapărat adevărată

Page 39: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

39

Dispersia estimatorilor OLS

• Presupunem Var(ε|x) = s2 (Homoskedasticity)• Var(ε|x) = E(ε2|x)-[E(ε|x)]2

• E(ε|x) = 0, deci s2 = E(ε2|x) = E(ε2) = Var(ε)• Astfel s2 este dispersia necondiționată, numită

dispersia erorilor• s este abaterea standard a erorilor• Rezultă: E(y|x)=b0 + b1x și Var(y|x) = s2

Page 40: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

40

..

x1 x2

Cazul homoskedastic

E(y|x) = b0 + b1x

y

f(y|x)

Page 41: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

41

.

x x1 x2

yf(y|x)

Cazul heteroskedastic

x3

..

E(y|x) = b0 + b1x

Page 42: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

42

Dispersia estimatorilor OLS

1

22

2

22

2222

222

11

ˆ1

11

11

VarS

SS

dS

dS

VardS

dVarS

udS

VarVar

xxxx

xx

ixx

ixx

iixx

iixx

iixx

Page 43: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

43

Dispersia estimatorilor OLS

• Dispersia pantei modelului de regresie este direct proporțională cu dispersia erorilor

• Cu cît dispersia lui xi este mai mare, cu atît dispersia pantei este mai mică

• Cu cît volumul eșantionului este mai mare, cu atît dispersia pantei este mai mică

Page 44: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

44

Estimarea dispersiei erorilor

• Nu cunoaștem dispersia erorilor, s2, întrucît nu observăm de fapt erorile εi

• Valorile observate sînt reziduurile modelului de regresie, ei

• Putem folosi reziduurile pentru a estima dispersia erorilor

Page 45: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

45

Estimarea dispersiei erorilor

2/2

ˆˆ

ˆˆ

ˆˆ

22

2

1100

1010

10

nSSRen

este pentru nedeplasat estimator un Atunci

xx

xye

i

i

iii

iii

Page 46: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

46

Y

Population LineX

Sample 1 Line

Sample 2 Line

Distribuţia estimatorului pantei de regresie

1

•All Possible Sample Slopes

• Sample 1: 2.5• Sample 2: 1.6 • Sample 3: 1.8• Sample 4: 2.1 : :Very large number of sample slopes

Sampling Distribution

1

1S

^

^

Page 47: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

47

Eroarea standard a estimatorilor2

2 2 1

2

21

1

ˆÎntrucît varianţa reziduală se estimează prin putem avea o estimare2

a erorii standard a celor doi estimatori:

ˆ ˆ( )ˆ - ( )df 2

n

ii

xx

xx

e

n

SVSE

n S

22

220

0

1ˆ( ) 1ˆ ˆ - ( )

df 2xx

xx

xn SV x

SEn n S

Erorile standard vor fi folosite la testarea semnificaţiei parametrilor modelului de regresie

Page 48: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

48

Testul t pentru panta dreptei de regresie(slope)

• Valoarea critică:

• Caz particular: 0 1

1

: 0(nu există legătură liniară)

: 0( există legătură liniară)A

H

H

00 1 1

01 1

:

:A

H

H

0 0 0 01 1 1 1 1 1 1 1

22 2 21

1 1 1

2

1

ˆ ˆ ˆ ˆ

ˆ( ) ˆ/( 2) / ( ) / 2

( )

n n n

i i ii i ixx

n

ii

tSE

e n e x x nS

x x

/ 2; 2nt

Page 49: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

49

Exemple de acceptare a ipotezei

0 1: 0(nu există legătură liniară)H

Page 50: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

50

Exemple de respingere a ipotezei

0 1: 0(nu există legătură liniară)H

Page 51: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

51

Testul t pentru termenul liber(intercept)

00 0 0

00 0

:

:A

H

H

0 0

0 0 0 0

20 2

0 00 0 0 0

22

221

21

1

ˆ ˆ

ˆ( ) 1ˆ

ˆ ˆ

1/( 2)

1/ 2

( )

xx

n

nii xx

i ni

ii

tSE x

n S

xe n

xn S e nn x x

/ 2; 2nt • Valoarea critică:

Page 52: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

52

Intervale de încredere pentru parametrii modelului

• Pentru termenul liber(intercept)

• Pentru panta dreptei de regresie(slope)

unde este estimatorul dispersiei modelului.

1 / 2, 2 1 1 1 / 2, 2 1

2 22 2

1 / 2, 2 1 1 / 2, 2

ˆ ˆ ˆ ˆ( ) ( )

ˆ ˆˆ ˆ

n n

n nxx xx

t SE t SE

x xt t

S S

0 / 2, 2 0 0 0 / 2, 2 0

2 22 2

0 / 2, 2 0 0 / 2, 2

ˆ ˆ ˆ ˆ( ) ( )

1 1ˆ ˆˆ ˆ

n n

n nxx xx

t SE t SE

x xt t

n S n S

2

2 1ˆ2

n

ii

e

n

Page 53: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

53

Teorem a G auss-M arkov

• Estimatorii obţinuţi prin metoda celor mai mici pătrate sînt B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai mică decît cei obţinuţi prin MCMMP.

1 1 1 11

2 2 2 1

1 1 1

Conform OLS, estimatorul pantei este o combinaţie liniară de valorile variabilei dependente:

( )( ) ( ) ( ) ( )ˆ

( ) ( ) ( )

n n n n

i i i i i i i ni i i i

i in n ni

i i ii i i

y y x x y x x y x x y x xy

x x x x x x

'

0 11 1 1 1

'1

1 1

' ' 2 21

1 1

Fie un alt estimator liniar.

Pentru ca E( ) , e necesar ca 0 şi 1.

Rezultă , deci varianţa sa este V( ) .

Fie

n n n n

i i i i i i ii i i i

n n

i i ii i

n n

i i ii i

q y q q x q

q q x

q q

v

' 2 2

1

2 2 2 2 2 2 2 21

1 1 1

, atunci şi avem V( ) ( )

ˆ( 2 ) ( ) ( ).***

n

i i i i i i i ii

n n n

i i i i i i ii i i

q q v v

v v v V QED

Page 54: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

54

Exemplu-consumul ca funcţie de venit

• Panta dreptei de regresie este pozitivă, deci există o legătură directă între consum şi venit.

• În plus, dacă venitul creşte cu o unitate,consumul va creşte cu 0.91 unități.

• Doar panta dreptei de regresie este semnifcativ diferită de zero.

• P-value – probabilitatea ipotezei ca parametrul estimat să fie egal cu zero; dacă P-value este mai mic decît pragul de semnificaţie atunci respingem această ipoteză.

Coefficients Standard

Error t Stat P-

value Lower 95%

Upper 95%

Intercept -23.5441 13.94967 -1.68779 0.0963 -51.4117 4.323573 Real Disposable Income ($ Billions 1992) 0.915665 0.00542 168.9331 0.0000 0.904837 0.926493

Page 55: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

55

Analiza varianţei pentru modelul de regresie

• Dacă între X şi Y nu există nici o legătură, atunci putem face predicţii privind valoarea medie a lui Y pentru orice valoare a lui X

• Dacă există o legătură între X şi Y, în ce măsură cunoaşterea valorilor lui X poate explica abaterea variabilei dependente de la media sa?

• Abaterea totala = abaterea explicata + Abaterea reziduala

)Y-(Y )Y-Y( )Y-(Y iiiiˆˆ

Page 56: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

56

Descompunerea variaţiei

Xi

Y i = β

^0 + β

^1X i

Y

X

Y

SST = (Yi - Y)2

SSE =(Yi - Yi )2

SSR = (Yi - Y)2

__

_

X

Page 57: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

57

ANOVA pentru regresie2

ii2

i2

i)Y(Y)YY()Y(Y ˆˆ

SST = SSR + SSE

SST = Total Sum of Squares

Măsoară variaţia valorilor observate Yi în jurul mediei Y_

SSR = Regression Sum of Squares

Măsoară variaţia explicată de modelul de regresie

SSE = Error Sum of Squares

Măsoară variaţia ce poate fi atribuită altor factori, diferiţi de variabila explicativă X

Page 58: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

58

Coeficientul de determinaţie R2

• Este o măsură a proporţiei varianţei explicate de model

• R2 este afectat de creşterea numărului de parametri; de aceea pentru modele cu multi parametri se calculează R2 ajustat, care are aceeaşi interpretare.

2 2

2 1 12 2

ˆ( )1 0,1

( ) ( )

n n

i ii i

i ii i

y y eSSR

RSST y y y y

2 2 1 11 (1 ) 1 ,1

1 1adj

n nR R

n k n k

Page 59: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

59

Exemplu-consumul ca funcţie de venit

2

1ˆ2

n

ii

e

n

• Modelul explică 99.7% din variaţia consumului

Standard Error :

Regression Statistics Multiple R 0.998881 R Square 0.997762 Adjusted R Square 0.997727 Standard Error 59.29206 Observations 66

Page 60: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

60

Observaţii

• R2 este adesea folosit pentru a alege cel mai bun model din punctul de vedere al varianţei explicate.

• Comparaţiile de acest fel trebuie făcute între modele de aceeaşi natură.

Page 61: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

61

Foarte important!!

• Pentru modele de regresie fără termen liber, de tipul R2 nu mai are semnificaţia de proporţie a varianţei explicate.• Exemplu: considerăm două astfel de modele

• Deşi ar părea că modelul al doilea este mai performant, nu sînt argumente pentru a susţine această ipoteză

y x

1 1 1 12 1 2 1

2 2 2 2

, unde şi i i i i

y xy y x x

y x

Page 62: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

62

Coeficientul de determinaţie şi coeficientul de corelaţie liniară

R2 = 1, R2 = 1,

R2 = .8, R2 = 0,Y

Yi = b0 + b1Xi

X

^

YYi = b0 + b1Xi

X

^Y

Yi = b0 + b1Xi

X

^

Y

Yi = b0 + b1Xi

X

^

r = +1 r = -1

r = +0.9 r = 0

Page 63: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

63

Tabelul ANOVASource of Variation

Sum of Squares df Mean Square

F

Regression

2

1

ˆ( )n

ii

SSR y y

k-1 MSR=1

SSR

k

MSR

MSE

Error

2 2

1 1

ˆ( )n n

i i ii i

SSE y y e

n-k MSE=SSE

n k

Total

ii yySST 2)(

n-1 1n

SST

Testul

este folosit la verificarea validităţii modelului. Un model este valid dacă proporţia varianţei explicate prin model este semnificativă. Ipoteza nulă pentru testul F in cazul acesta este cea de model nevalid.

1,1 ~ k n k

SSRkF FSSEn k

k-numărul de parametrii ai modelului

Page 64: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

64

ANOVA

Regression StatisticsMultiple R 0.998880586R Square 0.997762426Adjusted R Square 0.997727464Standard Error 59.29206039Observations 66

ANOVAdf SS MS F Significance F

Regression 1 100328138.6 100328138.6 28538.40325 0.000Residual 64 224995.0992 3515.548425Total 65 100553133.7

Page 65: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

65

Predicţia folosind modelul de regresie

• 1. Tipuri de predicţii– Estimări punctuale– Estimări pe intervale de încredere

• 2. Care e obiectul predicţiei?– Media populaţiei E(Y) pentru o valoare particulară a lui X– Valoarea individuală (Yi) pentru o valoare particulară a lui

X

Page 66: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

66

Ce prezicem

Mean Y, E(Y)

YY Individual

Prediction, Y

E(Y) = 0 + 1X

^

XXP

Page 67: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

67

Interval de încredere pentru media lui Y

ˆ ˆ/ 2, 2 / 2, 2

22

2 1ˆ

2

1

ˆ ˆ( )

unde

1ˆ ˆ şi

2

n nY Y

n

ip i

nY

ii

Y t S E Y Y t S

ex xS

n nx x

Page 68: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

68

Factori care afectează lungimea intervalului de încredere

• 1. Nivelul de încredere (1 - )– Creşterea nivelului de încredere duce la creşterea intervalului de

încredere• 2. Dispersia datelor (σ)

– Creşterea dispersiei duce la creşterea intervalului de încredere• 3. Volumul eşantionului

– Creşterea volumului eşantionului duce la micşorarea intervalului de încredere

• 4. Distanţa lui Xp faţă de mediaX

– Creşterea acestei distante duce la creşterea intervalului de încredere

Page 69: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

69

Distanţa lui Xp faţă de mediaX

Sample 2 Line

Y

XX1 X2

Y_ Sample 1 Line

Dispersie mai mare decît la X1

X

Page 70: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

70

Interval de predicţie pentru valori particulare

/ 2, 2 / 2, 2ˆ ˆ

22

2 1ˆ

2

1

ˆ ˆ

unde

1ˆ ˆ1 şi

2

n P nY Y Y Y

n

iP i

nY Y

ii

Y t S Y Y t S

ex x

Sn nx x

Page 71: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

71

Predicţia

Expected(Mean) Y

Y

Y i= 0

+ 1X i

Y we're trying to predict

Prediction, Y

E(Y) = 0 + 1X

^

XXP

Page 72: MODELUL DE REGRESIE 1. Regresia – scurt istoric al termenului Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, este cel care

72

Intervale de încredere pentru predicție

X

Y

X

Y i= 0

+ 1X i

^

XP

_

^^