curs01

34
MODELUL REGRESIEI SIMPLE

Upload: mihai-daniel

Post on 19-Nov-2015

213 views

Category:

Documents


0 download

DESCRIPTION

curs01

TRANSCRIPT

  • MODELUL REGRESIEI SIMPLE

  • n funcie de numrul de factori a cror variaie se consider n explicarea variaiei fenomenului efect, y, exist: - regresie simpl: cnd se consider variaia unui singur factor: y=f(x) i- regresie multipl: cnd se consider variaia mai multor variabile explicative: y=f(x1, x2, , xk).

    Metoda regresiei analizeaz relaiile existente ntre variabila explicat i variabilele explicative, pe baza datelor observate pentru aceste variabile. Se poate stabili care din factori au o influen semnificativ, gradul lor de esenialitate i cunoscnd influena variabilelor factoriale asupra variaiei fenomenului explicat, se pot face previziuni ale valorilor variabilei y pentru anumite valori date ale variabilelor x.

  • Metoda celor mai mici ptrate - ipoteze

    Metoda celor mai mici ptrate, atribuit matematicianului german Carl Friederich Gauss, este una din cele mai des utilizate metode de estimare a ecuaiilor de regresie a sondajelor statistice. Principiul acestei metode const n minimizarea sumei ptratelor abaterilor valorilor empirice fa de cele teoretic estimate, adic minimizarea sumeiptratelor reziduurilor. Aplicarea acestei metode se bazeaz pe urmtoarele ipoteze presupuse adevrate:

    1. Modelul este liniar n xi (sau n oricare transformare a lui xi).2. Valorile lui xi sunt observate fr erori (xi este nealeator).3. Media (operatorul E) erorilor este zero: E(i / xi)=0Aceast ipotez spune de fapt c toi factorii neexplicitai de model, i dealtfel cuprini n i, nu afecteaz n mod sistematic valoarea medie a lui y, adic valorile lor pozitive se anuleaz cu cele negative astfel nct efectul lor mediu asupra lui y este zero.4. Homoscedasticitatea sau variaia (V dispersia, varian) egal a erorilor 2.

    Variana erorilor pentru fiecare xi (variana condiionat a lui i) este un numr pozitiv constant i egal cu 2 sau altfel spus, populaiile lui y, corespunztoare valorilor xi, au aceeai varian. Situaia opus se numete heteroscedasticitate i se poate nota: , i unde variana nu mai este constant, i=1,n.

  • 5. Nu exist corelaia (covariana) erorilor. pentru oricare i j.

    Pentru anumite valori date xi, abaterile oricror dou valori y de la valoarea lor medie nu prezint nici o tendin.

    6. Erorile sunt independente de variabila explicativ. Nu exist corelaie ntre erori i valorile x.

    pentru c din ipoteza 3.

    Modelul de regresie este corect specificat. O investigaie econometric ncepe prin specificarea modelului econometric. Problemele sunt: ce variabile ar trebui incluse n model, care este forma funcional a modelului (este liniar n parametri, n variabile sau ambele?)

  • Proprietile estimatorilor metodei celor mai mici ptrate Estimatorii metodei celor mai mici ptrate au urmtoarele proprieti:

    liniari, adic o funcie liniar a unei variabile aleatoare, cum ar fi variabila y n modelul de regresie;

    nedeplasai, media estimatorului din toate eantioanele posibile, de volum n sau valoarea ateptat a estimatorului este egal cu valoarea adevrat a parametrului, ;

    eficieni, adic are variana minim.

    Teorema lui Gauss-Markov se enun astfel:Date fiind ipotezele modelului liniar clasic de regresie, estimatorii celor mai mici ptrate, din clasa estimatorilor liniari nedeplasai, au varian minim; se poate spune c sunt BLUE (Best Linear Unbiased Estimators).

  • Liniaritatea liniaritatea n variabile - cu un neles natural nseamn c media condiional (n sensul de valoarea medie ateptat - n econometrie, apare termenul de speran matematic) a variabilei y este o funcie liniar a lui xi. Operatorul de speran matematic se noteaz cu litera E. Dreapta de regresie a populaiei reprezint tendina medie i se scrie: E(y/xi)=a0 + a1xi.

    liniaritatea n parametrii este cnd distribuia condiional a variabilei y, E(y/xi) este o funcie liniar a parametrilor, adic toi sunt la puterea 1, in timp ce variabilele x pot sau nu s fie liniare.

    Termenul de regresie liniar nsemn ntotdeauna, liniaritatea n parametrii necunoscui; indiferent dac exist liniaritate n variabilele explicative.

    Astfel, exemple de modele liniare sunt: E(y/xi)=a0 + a1xi, liniar n parametrii i n variabile i E(y/xi)=a0 + a1xi2, liniar n parametrii i neliniar n variabile.

    Un model neliniar n parametrii este: .Pentru regresia liniar este relevant termenul de liniaritate n parametrii.

  • Liniaritatea estimatorului

    unde

    Estimatorul este o funcie liniar a variabilei y, valorile ki servind ca ponderi ale valorilor centrate fa de medie ale variabilei y.

  • Proprietile ponderilor ki sunt:a) valorile ki sunt nealeatoare, pentru c se presupune c i valorile xi sunt nealeatoare;b) ; este evident, la numrtor .

    c) ; (1)

    d) .

  • Aceste proprieti se pot verifica pe baza definiiei lui ki:

    b)

    c)

    d)

  • d)

    Se nlocuiete valoarea yi cu funcia de regresie a populaiei, n definiia combinaiei liniare a estimatorului , i innd seama de proprietile ponderilor ki, rezult:

  • Liniaritatea estimatorului

    (2)

    Pentru c o proprietate a valorilor ki este c sunt valori nealeatoare, rezult c pot fi considerate constante i trecnd la medie, E, relaia obinut anterior, devine: , pentru c din ipoteze .Astfel s-a demonstrat ca estimatorul este un estimator nedeplasat pentru a1. La fel se poate demonstra i pentru .

  • Liniaritatea estimatorului

    Folosind relaia (2) i ipoteza se obine:

    Aplicnd operatorul medie se poate demonstra ca i este un estimator nedeplasat pentru .

  • Liniaritatea estimatorului

  • Proprietile ponderilor wi sunt:

    1.

    2.

    3.

  • Dispersia reziduurilor

    Precizia estimatorilor modelului de regresie liniar simpl se msoar prin erorile lor standard. Aceste erori se obin prin extragerea rdcinii ptrate din dispersiile estimatorilor.Formulele varianelor estimatorilor se obin n funcie de estimatorul varianei (dispersiei) reziduurilor sau simplu, . Estimatorul dispersiei reziduurilor se obine prin raportarea sumei ptratelor reziduurilor la numrul gradelor de libertate n-2:

  • Varianele estimatorilor

  • Precizia i erorile standard ale estimatorilorAbaterile estimatorilor sunt:

    Dependena estimatorilor se msoar prin covariana lor:

  • Estimatori liniari nedeplasai cu

    Se definete un alt estimator liniar i nedeplasat pentru parametrul , fiind tot o medie ponderat cu alte ponderi vi, nu n mod intenionat egale cu ponderile ki:

    Pentru ca s fie un estimator nedeplasat, trebuie s fie ndeplinit condiiile: i .

  • Estimatori liniari nedeplasai i eficieni

    pentru c .

    este constant este minim cnd .

  • n caz contrar i estimatorul nu va mai fi de varian minim. Dac exist un estimator de varian minim acela este cel al metodei celor mai mici ptrate. n mod similar se poate arta i pentru c este estimatorul de varian minim pentru parametrul .

    distribuia lui distribuia lui distribuia lui i

  • Tabela de regresie simpl

    cuprinde n sumarul su, SUMMARY OUTPUT, trei pri: Regression Statistics, tabelul ANOVA i informaiile despre estimatorii coeficienilor modelului liniar.

    Regression Statistics conine informaii cu caracter general despre variabilele implicate n analiza de regresie: coeficientul de corelaie multipl Multiple R, care la regresia simpl este coeficientul de corelaie liniar simpl, r; coeficientul de determinaie R2, numit R Square arat validitatea modelului.Adjusted R Square care este R2 ajustat cu un anumit numr de grade de libertate; Standard Error este eroarea medie standard a valorilor teoretice ale lui y i se calculeaz ca o abatere medie ptratic a valorilor empirice fa de cele teoretice:

    Observations reprezint n este numrul de observri ale variabilei dependente, care este egal cu numrul de valori ale variabilei (variabilelor) independente xi.

  • Coeficientul de determinaie.

    R2 arat n ce msur modelul ales explic variaia lui Y, altfel spus, este o msur a validitii modelului. 0 < R2 < 1, cu ct este mai apropiat de 1 cu att modelul este mai bun.

  • Raportul de corelaieRaportul de corelaie are semnul coeficientului de regresie b, i are aceeai semnificaie ca i coeficientul de corelaie, r.

  • Coeficientul de corelaie -1 < r < 1

    r =

    n

    i

    n

    i

    i

    i

    n

    i

    n

    i

    i

    i

    n

    i

    n

    i

    n

    i

    i

    i

    i

    i

    xy

    y

    y

    n

    x

    x

    n

    y

    x

    y

    x

    n

    r

    1

    2

    1

    2

    1

    2

    1

    2

    1

    1

    1

  • Tabelul de analiz a varianei pentru regresia simpl

    Testul Fisher este un test de verificare a semnificaiei globale a regresiei, n cazul regresiei multiple. n cazul regresiei simple, aceast semnificaie se reduce la semnificaia influenei variabilei x asupra variaiei caracteristicii variabilei y.

    Dac , se respinge ipoteza de egalitate a varianelor (H0 ipoteza nul), variabila x fiind semnificativ pentru variaia variabilei y. n caz contrar se accept aceast ipotez de egalitate a varianelor.

    Sursa variaieiSuma ptratelorGradelibertatePtrate mediireziduuri

    x

    Totaln-2

    1

    n-1SSR/(n-2)

    SSE/1

  • Informaiile despre estimatorii coeficienilor modeluluin coloana Coefficients - valorile estimate ale coeficienilor modelului liniar , i=1,k, Intercept - estimatorul termenului constant, 0, care poate fi zero dac s-a optat pentru Constant is Zero i estimatorii coeficienilor variabilelor explicative: 1, ..., n la X Variable 1, X Variable 2, ... n ordinea declarrii variabilelor explicative;Standard Error, abaterile standard ale estimatorilor; arat cu ct variaz n medie, n plus sau n minus valorile estimate ale coeficienilor fa de parametrii pe care i estimeaz valorile Student, t*, pentru fiecare estimator, pentru verificarea semnificaiei acestuia fa de 0;P-value, corespunztoare pragului de semnificaie , ncepnd de la care valoarea estimatorului este semnificativ diferit de zero,limitele intervalului de ncredere ale estimatorilor: inferioar Lower 95% i superioar Upper 95%, cu o probabilitate de 95%, implicit, iar la cerere se pot solicita i alte valori ale probabilitii: 99%, 90%, etc.

  • Funcii de regresie a populaiei i a eantioanelor Funcia de regresie a populaiei Funcia de regresie a eantioanelor

    yi yi i ei E(y/x) E(y/xi)

  • Consecine ale ipotezelor: construirea testelor

    teste de verificare a semnificaiei estimatorului varianei erorilor i intervalul de ncredere al estimatorului varianei erorilor, ca fiind consecine ale ipotezei de normalitate a erorilor;teste de verificare a semnificaiei estimatorilor i ai parametrilor i din ecuaia de regresie a populaiei, precum i intervalul lor de ncredere, estimat cu o anumit probabilitate;testul Fisher de verificare a semnificaiei globale a regresiei.

  • Testul de semnificaie al estimatorului Estimatorul varianei erorilor , notat este: .

    Ipoteza de normalitate a erorilor implic: urmeaz o lege cu n-2 grade de libertate.

    i urmeaz o lege normal centrat redus N(0,1).

    urmeaz o lege cu n-2 grade de libertate.

    Rezult c: i urmeaz o lege Student cu n-2 grd. lib.

    Testul de semnificaie al estimatorilor i intervalele de ncredere ale acestora apar ca fiind consecine ale ipotezei de normalitate a erorilor.

  • Teoria testelor statistice: raia Studentipoteza nulH0: ipoteza alternativ H1: Dac se respinge ipoteza nul H0, la un prag fixat, atunci estimatorul este considerat ca fiind semnificativ diferit de 0. Pragul de semnificaie cel mai des utilizat este =0.05, adic un risc de a respinge H0, n mod nentemeiat, de 5%.raie Student

  • Intervalul de ncredere al estimatorilor H0 cu probabilitatea P=1-H1H1/2/2I

    Intervalul de ncredere al parametrului este:

  • Intervalul de ncredere al previziunii cu modelul regresiei simple

    Se calculeaz variana erorii de previziune care permite determinarea unui interval de ncredere pentru previziune.

  • Previziuni cu modelul regresiei simple

    Abaterea medie ptratic a erorii de previziune este:

    Rezult intervalul de ncredere IC al variabilei y la n+1: