regresie

24
VALOARE MEDIE CONDITIONATA MODELE DE REGRESIE; ESTIMAREA PARAMETRILOR REGRESIEI LINIARE Problema: Pentru perechea de variabile aleatoare (X; Y )= (efect, cauza), cum evidentiem dependenta lor (cantitativ si cal- itativ)? Exemplu: (X; Y )= (valoarea tensiunii arteriale sistolice, nivelul colesterolului) COEFICIENT DE CORELATIE Fie (X; Y ) pentru care exista momentele de ordinul 2: Reamintim denitiile covariantei si a coecientului de corelatie: cov (X; Y )= M ((X M (X)) (Y M (Y ))) = M (XY ) M (X) M (Y ) = cov (X; Y ) p D 2 (X) D 2 (Y ) Proprietate: jj 1 (rezulta din inegalitatea Schwartz) =1; corelatie pozitiva maxima = 1; corelatie negativa maxima =0; necorelare Repartitii asociate: P (X; Y ) 1 = 8 > < > : P x2A P y2B p (x; y) (x;y) ; rep. discreta sau f (x; y) l 2 ; rep. continua P X 1 (C 1 )= 8 < : P (X; Y ) 1 (C 1 B) ; rep. discreta sau P (X; Y ) 1 (C 1 R) ; rep. continua 1

Upload: ilie-marius

Post on 08-Nov-2015

218 views

Category:

Documents


0 download

TRANSCRIPT

  • VALOARE MEDIE CONDITIONATA

    MODELE DE REGRESIE; ESTIMAREAPARAMETRILOR REGRESIEI LINIARE

    Problema:Pentru perechea de variabile aleatoare (X;Y ) = (efect,

    cauza), cum evidentiem dependenta lor (cantitativ si cal-itativ)?Exemplu: (X;Y ) = (valoarea tensiunii arteriale sistolice,

    nivelul colesterolului)

    COEFICIENT DE CORELATIE

    Fie (X;Y ) pentru care exista momentele de ordinul 2:Reamintim denitiile covariantei si a coecientului decorelatie:

    cov (X;Y ) =M ((X M (X)) (Y M (Y ))) =M (XY )M (X)M (Y )

    =cov (X;Y )pD2 (X)D2 (Y )

    Proprietate: jj 1 (rezulta din inegalitatea Schwartz)

    = 1; corelatie pozitiva maxima

    = 1; corelatie negativa maxima

    = 0; necorelare

    Repartitii asociate:

    P (X;Y )1 =

    8>:Px2A

    Py2B

    p (x; y) (x;y); rep. discretasau

    f (x; y) l2; rep. continua

    P X1 (C1) =8

  • P Y 1 (C2) =8
  • Teorema (existenta si unicitate)

    Fie (;K; P ) ; F K; F corp borelian.a) Daca X este o variabila aleatoare nenegativa, atunci

    exista o variabila aleatoare nenegativa M (X j F) astfel in-cat

    i) M (X j F) este F -masurabila

    ii)

    ZA

    M (X j F) dP =ZA

    XdP 8A 2 F

    In particular, daca X este integrabila rezulta ca M (X j F)este integrabila.M (X j F) este unica (P a:s:) variabila aleatoare cu pro-

    prietatile i) si ii):b) Daca X este o variabila aleatoare integrabila, atunci

    exista si este unica (P a:s:) o variabila aleatoare integra-bila M (X j F) ; cu proprietatile i) si ii):

    Demonstratie:a) :

    Demonstram intai unicitatea: Daca exista g1; g2 vari-abile aleatoare cu proprietatile i) si ii); rezultaZ

    A

    g1dP =

    ZA

    g2dP 8A 2 F

    Dar g1; g2 sunt Fmasurabile. Rezulta g1 = g2 P a:s:

    Fie X variabila aleatoare nenegativa si e

    : F ! R+ (A) =

    ZA

    XdP

    este o masura nita, absolut continua in raport cuPjF : Rezulta din teorema Radon - Nicodym ca exista ounica aplicatie

    g : ! R+

    3

  • Fmasurabila, asa incat

    (A) =

    ZA

    gdPjF 8A 2 F

    Aplicam Lema:ZA

    gdPjF =Z

    IA gdPjF =Z

    IA gdP =ZA

    gdP

    Deci ZA

    XdP =

    ZA

    gdP 8A 2 F

    Vom nota aceasta unica aplicatie cu g = M (X j F) si ovom numi "media lui X conditionata de F".b) :Fie X variabila aleatoare integrabila. Atunci

    X = X+ X;

    cu X+ si X pozitive, integrabile, X+ = max fX; 0g ; X =max fX; 0g :Din a), (9) (!)M (X+ j F) ;M (X j F)variabile aleatoare neneg-

    ative, integrabile, cu proprietatile i) si ii): Luam

    M (X j F) =M X+ j FM X j F ;care satisface prorpietatile din enuntul teoremei.

    CAZURI PARTICULARE

    A 2 K; X = 1A: Atunci notam

    M (1A j F) = P (A j F)

    Y variabila aleatoare, F = B (Y ) = Y 1 (B) : Atunci notam

    M (X j B (Y )) =M (X j Y )

    A 2 K; X = 1A si F = B (Y ) : Atunci notam

    M (1A j B (Y )) = P (A j Y )

    4

  • VERSIUNE A MEDIEI CONDITIONATE

    Fie X si Y variabile aleatoare, cu X nenegativa sauintegrbila.Se numeste versiune a mediei conditionate M (X j Y ) func-

    tia masurabila

    M (X j Y = y) : R ! Rcu proprietatea

    M (X j Y = y) Y =M (X j Y ) P a:s:

    Propozitie

    Fie X si Y variabile aleatoare, cu X nenegativa sauintegrabila. Functia masurabila ' : R ! R este versiune amediei conditionate M (X j Y ) daca si numai dacaZ

    B

    ' (y) dP Y 1 (y) =Z

    Y 1(B)

    XdP; 8B 2 B

    Demonstratie:

    ' Y = M (X j Y ) P a:s: ,ZA

    ' Y dP =ZA

    M (X j Y ) dP; 8A 2 B (Y )

    Dar B (Y ) = Y 1 (B) : Deci, pentru orice B 2 BZB

    ' (y) dP Y 1 (y) =Z

    Y 1(B)

    ' Y dP =Z

    Y 1(B)

    M (X j Y ) dP =Z

    Y 1(B)

    XdP

    MODALITATI DE CALCUL PENTRU M (X j Y = y)

    (a) Cazul repartitiilor discretePresupunem

    P Y 1 =Xk2I

    P (Y = ak) fakg

    P (Y = ak) > 0 8k;Xk2I

    P (Y = ak) = 1

    5

  • cu I cel mult numarabila. Aratam ca

    M (X j Y = ak) = 1P (Y = ak)

    ZfY=akg

    XdP:

    Notam cu ' o functie Bmasurabila, asa incat

    ' (ak) =1

    P (Y = ak)

    ZfY=akg

    XdP; k 2 I

    Notam suportul lui P Y 1 cu A = fak; k 2 Ig : Fie B 2 B:AvemZB

    ' (y) dP Y 1 (y) =Z

    B\A' (y) dP Y 1 (y) =

    Xak2B\A

    ' (ak) P (Y = ak) =

    =X

    ak2B\A

    ZfY=akg

    XdP =

    ZY 1(B)

    XdP

    Aplicand propozitia anterioara, obtinem c.t.d.

    Daca presupunem chiar mai mult, si anume ca (X;Y )este un vector aleator cu repartitie discreta

    P (X;Y )1 =Xx2A0

    Xy2A

    p (x; y) f(x;y)g

    A0 = fa0k; k 2 IgA = fak; k 2 Ig

    atunci

    M (X j Y = ak) =Xk2I

    a0k P (X = a0k; Y = ak)

    P (Y = ak)=Xk2I

    a0k P (X = a0k j Y = ak)

    (b) Cazul repartitiilor continuePresupunem ca (X;Y ) are densitatea de repartitie f (x; y) :

    NotamfY (y) =

    ZR

    f (x; y) dx

    Aratam ca

    M (X j Y = y) =ZR

    x f (x; y)fY (y)

    dx

    6

  • Observam ca denitia este corecta pentru y cu fY (y) > 0:In punctele in care fy (y) = 0 se ia M (X j Y = y) egala cu oconstanta arbitrara.Notam functia masurabila

    ' (y) =

    ZR

    x f (x; y)fY (y)

    dx

    Fie B 2 BZB

    ' (y) dP Y 1 (y) =ZB

    0@ZR

    x f (x; y)fY (y)

    dx

    1A fY (y) dy ==

    ZRB

    x f (x; y) dxdy =Z

    RRx 1B (y) f (x; y) dxdy =

    =

    Z

    (1B Y ) XdP =Z

    Y 1(B)

    XdP

    Aplicand propozitia anterioara, obtinem c.t.c.

    Notatie (densitatea de repartitie conditionata a lui X)

    f (x j y) = f (x; y)fY (y)

    M (X j Y = y) =ZR

    x f (x j y) dx

    DenitieFie vectorul aleator (X;Y ) cu componente integrabile.

    Se numeste regresia lui X in Y functia

    y !M (X j Y = y)

    Regresia este liniara daca

    M (X j Y = y) = a+ by

    Dreapta de regresie este data de ecuatia

    x = a+ by

    7

  • REGRESIA LINIARA PENTRUMODELUL NORMAL BIDIMENSIONAL

    Fie urmatorii parametri:

    =x; y

    0 2 R2 =

    2x xyxy

    2y

    =

    2x xy

    xy 2y

    ;

    matrice simetrica, pozitiv denita.Vectorul aleator (X;Y )0 are o repartitie normala bidi-

    mensionala N (2;;) daca are densitatea de repartitie

    f (x:y) =1

    2q2x

    2y (1 2)

    exp( 12 (1 2)

    "x xx

    2 2x x

    x y yy

    +

    y yy

    2#)

    Proprietatea 1

    Repartitiile marginale ale lui N (2;;) sunt

    P X1 = N x; 2x ; P Y 1 = N y; 2yDemonstratie:Adunand si scazand 2

    yyy

    2la exponent obtinem

    f (x:y) =1q

    22yp22x (1 2)

    exp(

    1

    22x (1 2)x

    x +

    xy

    y y

    2 122y

    y y

    2)Repartitia marginala a lui Y este

    fY (y) =

    ZR

    f (x; y) dx =1q22y

    exp

    122y

    y y

    2

    Analog se obtine si repartitia marginala a lui X:

    8

  • Proprietatea 2

    Repartitia lui X conditionata de Y este normala,

    N

    x +

    xy

    y y

    ;2x

    1 2

    Proprietatea rezulta imediat, calculand

    f (x j y) = f (x; y)fY (y)

    Corolar

    M (X j Y = y) = x + xy

    y y

    D2 (X j Y = y) = 2x

    1 2

    Rezulta ca, pentru modelul normal bidimensional, re-gresia lui X in Y este liniara, iar ecuatia dreptei de regresieeste

    x =

    x

    xyy

    +

    xy y

    ESTIMAREA PARAMETRILOR DREPTEI DEREGRESIE

    (a) Fara specicarea repartitiei lui (X;Y )

    Fie vectorul aleator (X;Y )0 pentru care facem ipoteza

    M (X j Y = y) = a+ by

    astfel incat ecuatia dreptei de regresie este x = a+ by:Fie observatiile (Xi; Yi)0 ; = 1; :::; n; care sunt vectori aleatori

    independenti, identic repartizati ca si (X;Y )0 si e (xi; yi)0i = 1; :::; n datele statistice corespunzatoare.

    M (Xi j Y1 = y1; :::; Yi = yi; :::; Yn = yn) =M (Xi j Yi = yi) = a+ byiLucrand cu repartitia conditionata, apare modelul liniar

    ndimensionalXi = (a+ byi) + Zi; i = 1; :::; n

    9

  • unde Z1; :::; Zn sunt variabile aleatoare indep, de mediezero. Aplicam metoda celor mai mici patrate:

    SS (a; b) =nXi=1

    (xi a byi)2

    Sistemul de ecuatii normale @SS@a = @SS@b = 0 se scrie subforma 8>>>:

    na+ bnPi=1

    yi =nPi=1

    xi

    anPi=1

    yi + bnPi=1

    y2i =nPi=1

    xiyi

    Determinantul matricii sistemului liniar este egal cuzero doar in cazul degenerat (cand toti yi = y; 8i), caz careapare cu probabilitatea zero:

    =

    n

    nPi=1

    yinPi=1

    yinPi=1

    y2i

    = nnXi=1

    y2i (ny)2 = nnXi=1

    (yi y)2 > 0

    Notatie:

    s2x =1

    n

    nXi=1

    (xi x)2

    s2y =1

    n

    nXi=1

    (yi y)2

    sxy =1

    n

    nXi=1

    (xi x) (yi y)

    r =sxysxsy

    Solutia unica a sistemului de ecuatii normale estebb = sxy

    s2y= r

    sxsyba = xbb y

    Obtinem dreapta de regresie de selectie

    x x = r sxsy(y y)

    10

  • Estimatorii obtinuti prin metoda celor mai mici pa-trate,

    bb (X1; :::; Xn) = 1nPi=1

    (yi y)2nXi=1

    Xi X

    (yi y) = 1nP

    i=1

    (yi y)2nXi=1

    Xi (yi y)

    ba (X1; :::; Xn) = X bb (X1; :::; Xn) ysunt nedeplasati (medierea conditionata):

    Mbb j Y1 = y1; :::; Yn = yn = b

    M (ba j Y1 = y1; :::; Yn = yn) = aPutem calcula valoarea minima a sumei abaterilor pa-

    tratice,SSmin =

    nXi=1

    xi babbyi2 notat= SSresid

    (b) Cu specicarea repartitiei normale a lui (X;Y )

    Fie vectorul aleator (X;Y )0 pentru care facem ipotezaca urmaza o repartitie normala bidimensionala N (2;;) :Utilizand proprietatile modelului, avem

    D2 (Xi j Y1 = y1; :::; Yn = yn) = 2x1 2 ; i = 1; :::; n

    Proprietatea 3.

    Variabila aleatoare

    SSresid =

    nXi=1

    Xi babbyi2

    are proprietatea1

    2x (1 2) SSresid 2 (n 2)

    Rezulta din Proprietatea 8 de la "Estimarea para-metrilor" (metoda celor mai mici patrate).

    11

  • In continuare facem o analiza a surselor de variabili-tate ale datelor, utilizand modelul regresiei liniare(ANOVA pentru dreapta de regresie)

    In acest moment dispunem de urmatoarele valori:

    yi; i = 1; ::; n; valorile observate ale covariatei (ale vari-abilei "cauza")

    xi; i = 1; :::; n; valorile observate ale variablei raspuns("efect")

    bxi = ba+bb yi; i = 1; :::; n; predictorii dati de modelul regre-siei liniare (tted values)

    xi bxi; i = 1; :::; n; reziduuriIntroducem urmatoarele "sume de abateri patratice"

    (sum of squares):

    SSresid =nXi=1

    (xi bxi)2 = nXi=1

    xi babbyi2

    SSregresie =nXi=1

    ( bxi x)2SStotal =

    nXi=1

    (xi x)2

    (vom utiliza aceste notatii atat pentru valorile numericecalculate ale SSurilor, cat si pentru variabilele aleatoarecorespunzatoare)

    Proprietatea 4 (ecuatia ANOVA)

    SStotal = SSregresie + SSresid

    Demonstratie:

    SStotal =nXi=1

    (xi bxi + bxi x)2 == SSresid + SSregresie + 2

    nXi=1

    (xi bxi) ( bxi x)12

  • nXi=1

    (xi bxi) ( bxi x) = nXi=1

    xi babbyiba+bbyi x =

    =nXi=1

    xi x+bby bbyixbby +bbyi x =

    = bb nXi=1

    h(xi x)bb (yi y)i (yi y) =

    = bbnsxy sxys2y ns2y

    = 0

    Cunoastem repartitia variabilei aleatoare 12x(12) SSresid(proprietatea 3).Ne propunem sa stabilim repartitiile variabilelor aleatoare

    1

    2x (1 2) SSregresie si 1

    2x (1 2) SStotal;

    in situatia in care am avea

    b = 0

    13

  • AUXILIAR: TEOREMA LUI COCHRAN

    Propozitie (rezultat algebric, pentru variabile scalare)

    Fie vectorul y = (y1; :::; yN )0 2 RN : Presupunem ca suma depatrate

    NXi=1

    y2i

    se descompune in suma a m forme patratice

    qj =NX

    ;=1

    aj yy ; j = 1; :::m;

    NXi=1

    y2i =

    mXj=1

    qj ;

    unde, pentru orice j = 1; :::;m;

    Aj =

    aj

    ;=1;:::;N

    este matrice simetrica, de rang rj :O conditie necesara si sucienta ca sa existe o trans-

    formare ortogonalaz = By

    asa incatqj =

    r1+:::+rjXk=r1+:::+rj1+1

    z2k; j = 1; :::m

    este car1 + :::+ rm = N

    Demonstratie:

    " =) "Presupunem ca exista transformarea z = By; B0B = I; cu

    proprietatea din enunt. Transformarea

    (y1; :::; yN ) ! (z1; :::; zr1+:::+rm)

    trebuie sa e nesingulara. Rezulta

    r1 + :::+ rm N

    14

  • Scriem matriceal relatia de descompunere din ipoteza

    y0y =mXj=1

    y0Ajy

    RezultamXj=1

    Aj = I

    rang

    0@ mXj=1

    Aj

    1A = NDar

    rang

    0@ mXj=1

    Aj

    1A mXj=1

    rang (Aj) =mXj=1

    rj

    DeciN r1 + :::+ rm

    "(= "Vom construi matricea B intr-o forma partitionata,

    B =

    0BBBBBB@B1::::::::::::Bm

    1CCCCCCAPentru i = 1 :A1 este NNdimensionala, simetrica, de rang r1:Rezulta

    ca exista o matrice nesingulara D0 asa incat

    D0A1D00 =

    24 Iq 0 00 Ir1q 00 0 0

    35unde q este numarul de valori proprii pozitive ale lui A1 si(r1 q) este numarul de valori proprii negative ale lui A1.Notam

    D0 = D10D = kdk

    15

  • si avem

    A1 = D0

    24 Iq 0 00 Ir1q 00 0 0

    35DRetinem

    b(1) = d ; = 1; :::; r1; = 1; :::; N

    B1 =

    b(1)

    =1;:::;r1; =1;:::;N

    Consideram transformarea liniara denita de aceastamatrice,

    z =NX=1

    b(1)y ; = 1; :::; r1

    z(1) = (z1; :::; zr1)0= B1y

    Atunci

    q1 = y0A1y = y0D0

    24 Iq 0 00 Ir1q 00 0 0

    35Dy == z21 + :::+ z

    2q z2q+1 ::: z2r1

    q1 =

    r1X=1

    cz2; c 2 f1; 1g:

    Pentru i arbitrar:

    In mod analog obtinem

    z =

    NX=1

    b(i)y ; = r1 + :::+ ri1 + 1; :::; r1 + :::+ ri

    Bi =

    b(i)

    =r1+:::+ri1+1;:::;r1+:::+ri;

    =1;:::;N

    qi =

    r1+:::+riX=r1+:::+ri1+1

    cz2; c 2 f1; 1g:

    AtuncimXi=1

    qi =NX=1

    cz2; c 2 f1; 1g:

    16

  • DarmXi=1

    qi = y0y > 0 8y 6= 0

    DeciNP=1

    cz2 este pozitiv denita si deci c = 1 8 = 1; :::; N:

    Am obtinutqi =

    r1+:::+riX=r1+:::+ri1+1

    z2; i = 1; :::;m

    Formam matricea B = kbk ; de dimensiune N N; parti-tionata in componentele Bi: Avem

    z =

    NX=1

    b y ; = 1; :::; N

    NX=1

    y2 =NX=1

    z2

    Ultima relatie este echivalenta cu

    y0y =(By)0 (By) = y0B0By;

    deci B0B = I; adica transformarea este ortogonala.

    TEOREMA LUI COCHRAN

    Fie Y1; :::; YN variabile aleatoare independente, identicrepartizate N (0; 1) : Notam Y = (Y1; :::; YN )0 : Presupunem caY0Y se descompune in suma a m forme patratice

    Qi = Y0AiY;i = 1; :::;m;

    cu Ai =

    a(i)

    ;=1;:::;Nmatrici simetrice, de rang ri; i = 1; :::;m;

    asa incatY0Y =

    mXi=1

    Qi:

    O conditie necesara si sucienta ca variabilele aleatoareQi sa e repartizate 2 (ri) ; i = 1; :::;m si Qi sa e indepen-denta de Qj pentru orice i 6= j este ca

    r1 + :::+ rm = N

    17

  • Demonstratie

    " =) "Aceasta implicatie rezulta cu aceleasi argumente ca

    cele utilizate in demonstrarea implicatiei similare dinrezultatul algebric."(= "Folosind rezultatul algebric rezulta ca exista o trans-

    formare Z = BY; B = kbk ; asa incat

    Qi =

    r1+:::+riX=r1+:::+ri1+1

    Z2; i = 1; :::;m

    Z =NX=1

    b Y ; = 1; :::; N

    Din proprietatile combinatiilor liniare de variabile in-dependente, repartizate normal rezulta ca Z este repar-tizata N (0; 1) pentru orice = 1; :::; N si Z1; :::; ZN sunt inde-pendente. Atunci, din avem Qi 2 (ri) ; i = 1; :::;m si, dinasociativitatea independentei, Qi este independenta de Qjpentru orice i 6= j:

    Corolar 1Fie Y1; :::; Yk variabile aleatoare independente, identic

    repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0 : O conditie nece-sara si sucienta caY0AY sa e repartizata 2 este ca A2 = A;caz in care numarul de grade de libertate este egal curang(A):

    Corolar 2.Fie Y1; :::; Yk variabile aleatoare independente, identic

    repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0 : Presupunem caY0Y =Q1 +Q2; unde

    Q1 = Y0AY 2 (r)

    Atunci Q2 2 (k r) :

    Corolar 3.Fie Y1; :::; Yk variabile aleatoare independente, identic

    repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0 : Fie Q;Q1; Q2 forme

    18

  • patratice in Y asa incat Q = Q1 + Q2; Q 2 (a) ; Q1 2 (b) :Atunci Q2 2 (a b) :

    Corolar 4.Fie Y1; :::; Yk variabile aleatoare independente, identic

    repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0 : Fie Y0A1Y 2 (a)si Y0A2Y 2 (b) : O conditie necesara si sucienta ca celedoua forme patratice sa e independente este ca A1A2 = 0:

    ============================================

    Revenim la ANOVA pentru dreapta de regresie:

    Proprietatea 5.

    Daca b = 0; atunci1

    2x (1 2) SSregresie 2 (1)

    1

    2x (1 2) SStotal 2 (n 1)

    iar variabilele 12x(12) SSregresie si1

    2x(12) SSresid sunt indepen-dente (in raport cu repartitia conditionata).

    Demonstratie:

    Daca b = 0; atunci repartitia conditionata a lui Xi esteNa; 2x

    1 2 ; 8i:

    (i) Ne ocupam intai de SSregresie

    SSregresie =

    nXi=1

    cXi X2 = nXi=1

    ba+bbyi X2 = nXi=1

    X bby +bbyi X2 =

    =bb2 nX

    i=1

    (yi y)2 = 1nPi=1

    (yi y)2

    nXi=1

    (yi y)Xi!2;

    SSregresie =1

    nPi=1

    (yi y)2(X1; :::; Xn) B

    0BB@X1::Xn

    1CCA19

  • undeB = k(yi y) (yj y)ki;j=1;:::;n

    notat= kbijk

    Presupunem ca nu suntem in cazul degenerat si obser-vam ca pentru 1 i < j n avem

    yj yyi y

    0BB@b1i::bni

    1CCA0BB@b1j::bnj

    1CCA = 0Deci rang (B) = n (n 1) = 1. Prin calcul direct se verica

    1

    ns2yB

    2=

    1

    ns2yB

    Cum1

    2x (1 2)SSregresie =

    1p

    2x (1 2)X

    !0 1ns2y

    B

    1p2x (1 2)

    X

    !

    putem aplica Corolarul 1 si obtinem faptul ca1

    2x (1 2)SSregresie 2 (1) :

    (ii) Continuam cu variabila aleatoare SStotal :

    SStotal =nXi=1

    Xi X

    2Putem scrie

    SStotal =nXi=1

    Xi X

    Xi =

    1

    n2(X1; :::; Xn) A

    0BB@X1::Xn

    1CCAunde A = kaijki;j=1;:::;n ; aii = n (n 1) ; aij = n pentru i 6= j:Aplicam succesiv transformarile elementare pe coloane

    ( Ci ! Ci Ci+1, i = 1; :::; n 1 ) si obtinem

    1

    n2A =

    0BBBBBB@0 0 ::::: 0 1=n1 1 ::::: 0 1=n0 1 ::::: 0 1=n::::: ::::: ::::: ::::: :::::0 0 ::::: 1 1=n0 0 ::::: 1 1 1=n

    1CCCCCCA20

  • Notam eC1; :::; eCn coloanele acestei matrice si observam ca1

    neC1 + 2

    neC2 + :::::+ n 1

    neCn1 + eCn = 0

    iar eC1; :::; eCn sunt vectori liniar independenti. Deci rang 1n2A =n 1:Rezulta ca

    1

    2x (1 2)SStotal 2 (n 1) :

    (iii) Prin calcul direct se verica relatia1

    n2A 1

    ns2yB

    1ns2y

    B = 0

    Cum avem si1

    2x (1 2)SSresid =

    1

    2x (1 2)(SStotal SSregresie) ;

    1

    2x (1 2)SSregresie =

    1

    2x (1 2) 1s2y(X1; :::; Xn) B

    0BB@X1::Xn

    1CCA 2 (1) ;

    1

    2x (1 2)SSresid =

    1

    2x (1 2)(X1; :::; Xn)

    1

    n2A 1

    ns2yB

    0BB@X1::Xn

    1CCA 2 (n 2) ;putem aplica Corolar 4 si obtinem independenta vari-abilelor 12x(12)SSregresie si

    12x(12)SSresid:

    21

  • TABELUL ANOVA PENTRU DREAPTA DEREGRESIE

    Sursa de variabilitate SS Grade de libertate SS (mean SS)abaterile predictorilor de la x SSregresie 1 SSregresie = SSregresie

    reziduuri aleatoare SSresid n 2 SSresid = 1n2SSresidabaterile observatiilor de la x SStotal n 1

    FUNCTII IN R

    > cauza c (y1; :::; yn)> efect c (x1; :::; xn)> model lm (efect cauza)

    Functia lm returneaza

    coe cientsba;bb

    summary: statistica descriptiva pentru reziduuri

    fxi bxi; i = 1; :::; ng> anova(model)

    Functia anova returneaza tabelul ANOVA si teste pen-tru ipoteza fb = 0g despre care discutam in ultima parte acursului.

    22

  • APLICATIE

    longley {datasets} R DocumentationLongleys Economic Regression Data

    DescriptionAmacroeconomic data set which provides a well-known

    example for a highly collinear regression.

    Usagelongley

    FormatA data frame with 7 economical variables, observed

    yearly from 1947 to 1962 (n=16).GNP.deator: GNP implicit price deator (1954=100)GNP: Gross National Product.Unemployed: number of unemployed.Armed.Forces: number of people in the armed forces.Population: noninstitutionalizedpopulation >= 14

    years of age.Year: the year (time).Employed: number of people employed.

    The regression lm(Employed ~.) is known to be highlycollinear.Alegem ca variabila raspuns Employed, cu covariata

    Population

    > X Y model1 model1Call:lm(formula = X ~Y)Coe cients:(Intercept)...........Y8.3807 .........0.4849

    23

  • > summary(model1)Call:lm(formula = X ~Y2)Residuals:

    Min........ .......1Q.......... Median....... 3Q .............Max-1.4362 ...-0.9740 .........0.2021...... 0.5531 ......1.9048

    Coe cients:

    ....................Estimate .....Std. Error...... t value.......Pr(>jtj)(Intercept) ...8.3807 .......4.4224 ..........1.895 ........0.079 .Y................ 0.4849 ........0.0376 ..........12.896 .....3.69e-09

    Residual standard error: 1.013 on 14 degrees of freedomMultiple R-Squared: 0.9224, Adjusted R-squared: 0.9168F-statistic: 166.3 on 1 and 14 DF,p-value: 3.693e-09

    p-value < 0.05, deci modelul regresiei liniare este corect

    > anova(model1)Analysis of Variance Table

    Response: X...................Df...... Sum Sq........Mean Sq .......F value........Pr(>F)

    Y........ ........1....... 170.643 ......170.643 .......166.30 ......3.693e-09Residuals ...14 ......14.366 .........1.026

    24