regresie
TRANSCRIPT
-
VALOARE MEDIE CONDITIONATA
MODELE DE REGRESIE; ESTIMAREAPARAMETRILOR REGRESIEI LINIARE
Problema:Pentru perechea de variabile aleatoare (X;Y ) = (efect,
cauza), cum evidentiem dependenta lor (cantitativ si cal-itativ)?Exemplu: (X;Y ) = (valoarea tensiunii arteriale sistolice,
nivelul colesterolului)
COEFICIENT DE CORELATIE
Fie (X;Y ) pentru care exista momentele de ordinul 2:Reamintim denitiile covariantei si a coecientului decorelatie:
cov (X;Y ) =M ((X M (X)) (Y M (Y ))) =M (XY )M (X)M (Y )
=cov (X;Y )pD2 (X)D2 (Y )
Proprietate: jj 1 (rezulta din inegalitatea Schwartz)
= 1; corelatie pozitiva maxima
= 1; corelatie negativa maxima
= 0; necorelare
Repartitii asociate:
P (X;Y )1 =
8>:Px2A
Py2B
p (x; y) (x;y); rep. discretasau
f (x; y) l2; rep. continua
P X1 (C1) =8
- P Y 1 (C2) =8
-
Teorema (existenta si unicitate)
Fie (;K; P ) ; F K; F corp borelian.a) Daca X este o variabila aleatoare nenegativa, atunci
exista o variabila aleatoare nenegativa M (X j F) astfel in-cat
i) M (X j F) este F -masurabila
ii)
ZA
M (X j F) dP =ZA
XdP 8A 2 F
In particular, daca X este integrabila rezulta ca M (X j F)este integrabila.M (X j F) este unica (P a:s:) variabila aleatoare cu pro-
prietatile i) si ii):b) Daca X este o variabila aleatoare integrabila, atunci
exista si este unica (P a:s:) o variabila aleatoare integra-bila M (X j F) ; cu proprietatile i) si ii):
Demonstratie:a) :
Demonstram intai unicitatea: Daca exista g1; g2 vari-abile aleatoare cu proprietatile i) si ii); rezultaZ
A
g1dP =
ZA
g2dP 8A 2 F
Dar g1; g2 sunt Fmasurabile. Rezulta g1 = g2 P a:s:
Fie X variabila aleatoare nenegativa si e
: F ! R+ (A) =
ZA
XdP
este o masura nita, absolut continua in raport cuPjF : Rezulta din teorema Radon - Nicodym ca exista ounica aplicatie
g : ! R+
3
-
Fmasurabila, asa incat
(A) =
ZA
gdPjF 8A 2 F
Aplicam Lema:ZA
gdPjF =Z
IA gdPjF =Z
IA gdP =ZA
gdP
Deci ZA
XdP =
ZA
gdP 8A 2 F
Vom nota aceasta unica aplicatie cu g = M (X j F) si ovom numi "media lui X conditionata de F".b) :Fie X variabila aleatoare integrabila. Atunci
X = X+ X;
cu X+ si X pozitive, integrabile, X+ = max fX; 0g ; X =max fX; 0g :Din a), (9) (!)M (X+ j F) ;M (X j F)variabile aleatoare neneg-
ative, integrabile, cu proprietatile i) si ii): Luam
M (X j F) =M X+ j FM X j F ;care satisface prorpietatile din enuntul teoremei.
CAZURI PARTICULARE
A 2 K; X = 1A: Atunci notam
M (1A j F) = P (A j F)
Y variabila aleatoare, F = B (Y ) = Y 1 (B) : Atunci notam
M (X j B (Y )) =M (X j Y )
A 2 K; X = 1A si F = B (Y ) : Atunci notam
M (1A j B (Y )) = P (A j Y )
4
-
VERSIUNE A MEDIEI CONDITIONATE
Fie X si Y variabile aleatoare, cu X nenegativa sauintegrbila.Se numeste versiune a mediei conditionate M (X j Y ) func-
tia masurabila
M (X j Y = y) : R ! Rcu proprietatea
M (X j Y = y) Y =M (X j Y ) P a:s:
Propozitie
Fie X si Y variabile aleatoare, cu X nenegativa sauintegrabila. Functia masurabila ' : R ! R este versiune amediei conditionate M (X j Y ) daca si numai dacaZ
B
' (y) dP Y 1 (y) =Z
Y 1(B)
XdP; 8B 2 B
Demonstratie:
' Y = M (X j Y ) P a:s: ,ZA
' Y dP =ZA
M (X j Y ) dP; 8A 2 B (Y )
Dar B (Y ) = Y 1 (B) : Deci, pentru orice B 2 BZB
' (y) dP Y 1 (y) =Z
Y 1(B)
' Y dP =Z
Y 1(B)
M (X j Y ) dP =Z
Y 1(B)
XdP
MODALITATI DE CALCUL PENTRU M (X j Y = y)
(a) Cazul repartitiilor discretePresupunem
P Y 1 =Xk2I
P (Y = ak) fakg
P (Y = ak) > 0 8k;Xk2I
P (Y = ak) = 1
5
-
cu I cel mult numarabila. Aratam ca
M (X j Y = ak) = 1P (Y = ak)
ZfY=akg
XdP:
Notam cu ' o functie Bmasurabila, asa incat
' (ak) =1
P (Y = ak)
ZfY=akg
XdP; k 2 I
Notam suportul lui P Y 1 cu A = fak; k 2 Ig : Fie B 2 B:AvemZB
' (y) dP Y 1 (y) =Z
B\A' (y) dP Y 1 (y) =
Xak2B\A
' (ak) P (Y = ak) =
=X
ak2B\A
ZfY=akg
XdP =
ZY 1(B)
XdP
Aplicand propozitia anterioara, obtinem c.t.d.
Daca presupunem chiar mai mult, si anume ca (X;Y )este un vector aleator cu repartitie discreta
P (X;Y )1 =Xx2A0
Xy2A
p (x; y) f(x;y)g
A0 = fa0k; k 2 IgA = fak; k 2 Ig
atunci
M (X j Y = ak) =Xk2I
a0k P (X = a0k; Y = ak)
P (Y = ak)=Xk2I
a0k P (X = a0k j Y = ak)
(b) Cazul repartitiilor continuePresupunem ca (X;Y ) are densitatea de repartitie f (x; y) :
NotamfY (y) =
ZR
f (x; y) dx
Aratam ca
M (X j Y = y) =ZR
x f (x; y)fY (y)
dx
6
-
Observam ca denitia este corecta pentru y cu fY (y) > 0:In punctele in care fy (y) = 0 se ia M (X j Y = y) egala cu oconstanta arbitrara.Notam functia masurabila
' (y) =
ZR
x f (x; y)fY (y)
dx
Fie B 2 BZB
' (y) dP Y 1 (y) =ZB
0@ZR
x f (x; y)fY (y)
dx
1A fY (y) dy ==
ZRB
x f (x; y) dxdy =Z
RRx 1B (y) f (x; y) dxdy =
=
Z
(1B Y ) XdP =Z
Y 1(B)
XdP
Aplicand propozitia anterioara, obtinem c.t.c.
Notatie (densitatea de repartitie conditionata a lui X)
f (x j y) = f (x; y)fY (y)
M (X j Y = y) =ZR
x f (x j y) dx
DenitieFie vectorul aleator (X;Y ) cu componente integrabile.
Se numeste regresia lui X in Y functia
y !M (X j Y = y)
Regresia este liniara daca
M (X j Y = y) = a+ by
Dreapta de regresie este data de ecuatia
x = a+ by
7
-
REGRESIA LINIARA PENTRUMODELUL NORMAL BIDIMENSIONAL
Fie urmatorii parametri:
=x; y
0 2 R2 =
2x xyxy
2y
=
2x xy
xy 2y
;
matrice simetrica, pozitiv denita.Vectorul aleator (X;Y )0 are o repartitie normala bidi-
mensionala N (2;;) daca are densitatea de repartitie
f (x:y) =1
2q2x
2y (1 2)
exp( 12 (1 2)
"x xx
2 2x x
x y yy
+
y yy
2#)
Proprietatea 1
Repartitiile marginale ale lui N (2;;) sunt
P X1 = N x; 2x ; P Y 1 = N y; 2yDemonstratie:Adunand si scazand 2
yyy
2la exponent obtinem
f (x:y) =1q
22yp22x (1 2)
exp(
1
22x (1 2)x
x +
xy
y y
2 122y
y y
2)Repartitia marginala a lui Y este
fY (y) =
ZR
f (x; y) dx =1q22y
exp
122y
y y
2
Analog se obtine si repartitia marginala a lui X:
8
-
Proprietatea 2
Repartitia lui X conditionata de Y este normala,
N
x +
xy
y y
;2x
1 2
Proprietatea rezulta imediat, calculand
f (x j y) = f (x; y)fY (y)
Corolar
M (X j Y = y) = x + xy
y y
D2 (X j Y = y) = 2x
1 2
Rezulta ca, pentru modelul normal bidimensional, re-gresia lui X in Y este liniara, iar ecuatia dreptei de regresieeste
x =
x
xyy
+
xy y
ESTIMAREA PARAMETRILOR DREPTEI DEREGRESIE
(a) Fara specicarea repartitiei lui (X;Y )
Fie vectorul aleator (X;Y )0 pentru care facem ipoteza
M (X j Y = y) = a+ by
astfel incat ecuatia dreptei de regresie este x = a+ by:Fie observatiile (Xi; Yi)0 ; = 1; :::; n; care sunt vectori aleatori
independenti, identic repartizati ca si (X;Y )0 si e (xi; yi)0i = 1; :::; n datele statistice corespunzatoare.
M (Xi j Y1 = y1; :::; Yi = yi; :::; Yn = yn) =M (Xi j Yi = yi) = a+ byiLucrand cu repartitia conditionata, apare modelul liniar
ndimensionalXi = (a+ byi) + Zi; i = 1; :::; n
9
-
unde Z1; :::; Zn sunt variabile aleatoare indep, de mediezero. Aplicam metoda celor mai mici patrate:
SS (a; b) =nXi=1
(xi a byi)2
Sistemul de ecuatii normale @SS@a = @SS@b = 0 se scrie subforma 8>>>:
na+ bnPi=1
yi =nPi=1
xi
anPi=1
yi + bnPi=1
y2i =nPi=1
xiyi
Determinantul matricii sistemului liniar este egal cuzero doar in cazul degenerat (cand toti yi = y; 8i), caz careapare cu probabilitatea zero:
=
n
nPi=1
yinPi=1
yinPi=1
y2i
= nnXi=1
y2i (ny)2 = nnXi=1
(yi y)2 > 0
Notatie:
s2x =1
n
nXi=1
(xi x)2
s2y =1
n
nXi=1
(yi y)2
sxy =1
n
nXi=1
(xi x) (yi y)
r =sxysxsy
Solutia unica a sistemului de ecuatii normale estebb = sxy
s2y= r
sxsyba = xbb y
Obtinem dreapta de regresie de selectie
x x = r sxsy(y y)
10
-
Estimatorii obtinuti prin metoda celor mai mici pa-trate,
bb (X1; :::; Xn) = 1nPi=1
(yi y)2nXi=1
Xi X
(yi y) = 1nP
i=1
(yi y)2nXi=1
Xi (yi y)
ba (X1; :::; Xn) = X bb (X1; :::; Xn) ysunt nedeplasati (medierea conditionata):
Mbb j Y1 = y1; :::; Yn = yn = b
M (ba j Y1 = y1; :::; Yn = yn) = aPutem calcula valoarea minima a sumei abaterilor pa-
tratice,SSmin =
nXi=1
xi babbyi2 notat= SSresid
(b) Cu specicarea repartitiei normale a lui (X;Y )
Fie vectorul aleator (X;Y )0 pentru care facem ipotezaca urmaza o repartitie normala bidimensionala N (2;;) :Utilizand proprietatile modelului, avem
D2 (Xi j Y1 = y1; :::; Yn = yn) = 2x1 2 ; i = 1; :::; n
Proprietatea 3.
Variabila aleatoare
SSresid =
nXi=1
Xi babbyi2
are proprietatea1
2x (1 2) SSresid 2 (n 2)
Rezulta din Proprietatea 8 de la "Estimarea para-metrilor" (metoda celor mai mici patrate).
11
-
In continuare facem o analiza a surselor de variabili-tate ale datelor, utilizand modelul regresiei liniare(ANOVA pentru dreapta de regresie)
In acest moment dispunem de urmatoarele valori:
yi; i = 1; ::; n; valorile observate ale covariatei (ale vari-abilei "cauza")
xi; i = 1; :::; n; valorile observate ale variablei raspuns("efect")
bxi = ba+bb yi; i = 1; :::; n; predictorii dati de modelul regre-siei liniare (tted values)
xi bxi; i = 1; :::; n; reziduuriIntroducem urmatoarele "sume de abateri patratice"
(sum of squares):
SSresid =nXi=1
(xi bxi)2 = nXi=1
xi babbyi2
SSregresie =nXi=1
( bxi x)2SStotal =
nXi=1
(xi x)2
(vom utiliza aceste notatii atat pentru valorile numericecalculate ale SSurilor, cat si pentru variabilele aleatoarecorespunzatoare)
Proprietatea 4 (ecuatia ANOVA)
SStotal = SSregresie + SSresid
Demonstratie:
SStotal =nXi=1
(xi bxi + bxi x)2 == SSresid + SSregresie + 2
nXi=1
(xi bxi) ( bxi x)12
-
nXi=1
(xi bxi) ( bxi x) = nXi=1
xi babbyiba+bbyi x =
=nXi=1
xi x+bby bbyixbby +bbyi x =
= bb nXi=1
h(xi x)bb (yi y)i (yi y) =
= bbnsxy sxys2y ns2y
= 0
Cunoastem repartitia variabilei aleatoare 12x(12) SSresid(proprietatea 3).Ne propunem sa stabilim repartitiile variabilelor aleatoare
1
2x (1 2) SSregresie si 1
2x (1 2) SStotal;
in situatia in care am avea
b = 0
13
-
AUXILIAR: TEOREMA LUI COCHRAN
Propozitie (rezultat algebric, pentru variabile scalare)
Fie vectorul y = (y1; :::; yN )0 2 RN : Presupunem ca suma depatrate
NXi=1
y2i
se descompune in suma a m forme patratice
qj =NX
;=1
aj yy ; j = 1; :::m;
NXi=1
y2i =
mXj=1
qj ;
unde, pentru orice j = 1; :::;m;
Aj =
aj
;=1;:::;N
este matrice simetrica, de rang rj :O conditie necesara si sucienta ca sa existe o trans-
formare ortogonalaz = By
asa incatqj =
r1+:::+rjXk=r1+:::+rj1+1
z2k; j = 1; :::m
este car1 + :::+ rm = N
Demonstratie:
" =) "Presupunem ca exista transformarea z = By; B0B = I; cu
proprietatea din enunt. Transformarea
(y1; :::; yN ) ! (z1; :::; zr1+:::+rm)
trebuie sa e nesingulara. Rezulta
r1 + :::+ rm N
14
-
Scriem matriceal relatia de descompunere din ipoteza
y0y =mXj=1
y0Ajy
RezultamXj=1
Aj = I
rang
0@ mXj=1
Aj
1A = NDar
rang
0@ mXj=1
Aj
1A mXj=1
rang (Aj) =mXj=1
rj
DeciN r1 + :::+ rm
"(= "Vom construi matricea B intr-o forma partitionata,
B =
0BBBBBB@B1::::::::::::Bm
1CCCCCCAPentru i = 1 :A1 este NNdimensionala, simetrica, de rang r1:Rezulta
ca exista o matrice nesingulara D0 asa incat
D0A1D00 =
24 Iq 0 00 Ir1q 00 0 0
35unde q este numarul de valori proprii pozitive ale lui A1 si(r1 q) este numarul de valori proprii negative ale lui A1.Notam
D0 = D10D = kdk
15
-
si avem
A1 = D0
24 Iq 0 00 Ir1q 00 0 0
35DRetinem
b(1) = d ; = 1; :::; r1; = 1; :::; N
B1 =
b(1)
=1;:::;r1; =1;:::;N
Consideram transformarea liniara denita de aceastamatrice,
z =NX=1
b(1)y ; = 1; :::; r1
z(1) = (z1; :::; zr1)0= B1y
Atunci
q1 = y0A1y = y0D0
24 Iq 0 00 Ir1q 00 0 0
35Dy == z21 + :::+ z
2q z2q+1 ::: z2r1
q1 =
r1X=1
cz2; c 2 f1; 1g:
Pentru i arbitrar:
In mod analog obtinem
z =
NX=1
b(i)y ; = r1 + :::+ ri1 + 1; :::; r1 + :::+ ri
Bi =
b(i)
=r1+:::+ri1+1;:::;r1+:::+ri;
=1;:::;N
qi =
r1+:::+riX=r1+:::+ri1+1
cz2; c 2 f1; 1g:
AtuncimXi=1
qi =NX=1
cz2; c 2 f1; 1g:
16
-
DarmXi=1
qi = y0y > 0 8y 6= 0
DeciNP=1
cz2 este pozitiv denita si deci c = 1 8 = 1; :::; N:
Am obtinutqi =
r1+:::+riX=r1+:::+ri1+1
z2; i = 1; :::;m
Formam matricea B = kbk ; de dimensiune N N; parti-tionata in componentele Bi: Avem
z =
NX=1
b y ; = 1; :::; N
NX=1
y2 =NX=1
z2
Ultima relatie este echivalenta cu
y0y =(By)0 (By) = y0B0By;
deci B0B = I; adica transformarea este ortogonala.
TEOREMA LUI COCHRAN
Fie Y1; :::; YN variabile aleatoare independente, identicrepartizate N (0; 1) : Notam Y = (Y1; :::; YN )0 : Presupunem caY0Y se descompune in suma a m forme patratice
Qi = Y0AiY;i = 1; :::;m;
cu Ai =
a(i)
;=1;:::;Nmatrici simetrice, de rang ri; i = 1; :::;m;
asa incatY0Y =
mXi=1
Qi:
O conditie necesara si sucienta ca variabilele aleatoareQi sa e repartizate 2 (ri) ; i = 1; :::;m si Qi sa e indepen-denta de Qj pentru orice i 6= j este ca
r1 + :::+ rm = N
17
-
Demonstratie
" =) "Aceasta implicatie rezulta cu aceleasi argumente ca
cele utilizate in demonstrarea implicatiei similare dinrezultatul algebric."(= "Folosind rezultatul algebric rezulta ca exista o trans-
formare Z = BY; B = kbk ; asa incat
Qi =
r1+:::+riX=r1+:::+ri1+1
Z2; i = 1; :::;m
Z =NX=1
b Y ; = 1; :::; N
Din proprietatile combinatiilor liniare de variabile in-dependente, repartizate normal rezulta ca Z este repar-tizata N (0; 1) pentru orice = 1; :::; N si Z1; :::; ZN sunt inde-pendente. Atunci, din avem Qi 2 (ri) ; i = 1; :::;m si, dinasociativitatea independentei, Qi este independenta de Qjpentru orice i 6= j:
Corolar 1Fie Y1; :::; Yk variabile aleatoare independente, identic
repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0 : O conditie nece-sara si sucienta caY0AY sa e repartizata 2 este ca A2 = A;caz in care numarul de grade de libertate este egal curang(A):
Corolar 2.Fie Y1; :::; Yk variabile aleatoare independente, identic
repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0 : Presupunem caY0Y =Q1 +Q2; unde
Q1 = Y0AY 2 (r)
Atunci Q2 2 (k r) :
Corolar 3.Fie Y1; :::; Yk variabile aleatoare independente, identic
repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0 : Fie Q;Q1; Q2 forme
18
-
patratice in Y asa incat Q = Q1 + Q2; Q 2 (a) ; Q1 2 (b) :Atunci Q2 2 (a b) :
Corolar 4.Fie Y1; :::; Yk variabile aleatoare independente, identic
repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0 : Fie Y0A1Y 2 (a)si Y0A2Y 2 (b) : O conditie necesara si sucienta ca celedoua forme patratice sa e independente este ca A1A2 = 0:
============================================
Revenim la ANOVA pentru dreapta de regresie:
Proprietatea 5.
Daca b = 0; atunci1
2x (1 2) SSregresie 2 (1)
1
2x (1 2) SStotal 2 (n 1)
iar variabilele 12x(12) SSregresie si1
2x(12) SSresid sunt indepen-dente (in raport cu repartitia conditionata).
Demonstratie:
Daca b = 0; atunci repartitia conditionata a lui Xi esteNa; 2x
1 2 ; 8i:
(i) Ne ocupam intai de SSregresie
SSregresie =
nXi=1
cXi X2 = nXi=1
ba+bbyi X2 = nXi=1
X bby +bbyi X2 =
=bb2 nX
i=1
(yi y)2 = 1nPi=1
(yi y)2
nXi=1
(yi y)Xi!2;
SSregresie =1
nPi=1
(yi y)2(X1; :::; Xn) B
0BB@X1::Xn
1CCA19
-
undeB = k(yi y) (yj y)ki;j=1;:::;n
notat= kbijk
Presupunem ca nu suntem in cazul degenerat si obser-vam ca pentru 1 i < j n avem
yj yyi y
0BB@b1i::bni
1CCA0BB@b1j::bnj
1CCA = 0Deci rang (B) = n (n 1) = 1. Prin calcul direct se verica
1
ns2yB
2=
1
ns2yB
Cum1
2x (1 2)SSregresie =
1p
2x (1 2)X
!0 1ns2y
B
1p2x (1 2)
X
!
putem aplica Corolarul 1 si obtinem faptul ca1
2x (1 2)SSregresie 2 (1) :
(ii) Continuam cu variabila aleatoare SStotal :
SStotal =nXi=1
Xi X
2Putem scrie
SStotal =nXi=1
Xi X
Xi =
1
n2(X1; :::; Xn) A
0BB@X1::Xn
1CCAunde A = kaijki;j=1;:::;n ; aii = n (n 1) ; aij = n pentru i 6= j:Aplicam succesiv transformarile elementare pe coloane
( Ci ! Ci Ci+1, i = 1; :::; n 1 ) si obtinem
1
n2A =
0BBBBBB@0 0 ::::: 0 1=n1 1 ::::: 0 1=n0 1 ::::: 0 1=n::::: ::::: ::::: ::::: :::::0 0 ::::: 1 1=n0 0 ::::: 1 1 1=n
1CCCCCCA20
-
Notam eC1; :::; eCn coloanele acestei matrice si observam ca1
neC1 + 2
neC2 + :::::+ n 1
neCn1 + eCn = 0
iar eC1; :::; eCn sunt vectori liniar independenti. Deci rang 1n2A =n 1:Rezulta ca
1
2x (1 2)SStotal 2 (n 1) :
(iii) Prin calcul direct se verica relatia1
n2A 1
ns2yB
1ns2y
B = 0
Cum avem si1
2x (1 2)SSresid =
1
2x (1 2)(SStotal SSregresie) ;
1
2x (1 2)SSregresie =
1
2x (1 2) 1s2y(X1; :::; Xn) B
0BB@X1::Xn
1CCA 2 (1) ;
1
2x (1 2)SSresid =
1
2x (1 2)(X1; :::; Xn)
1
n2A 1
ns2yB
0BB@X1::Xn
1CCA 2 (n 2) ;putem aplica Corolar 4 si obtinem independenta vari-abilelor 12x(12)SSregresie si
12x(12)SSresid:
21
-
TABELUL ANOVA PENTRU DREAPTA DEREGRESIE
Sursa de variabilitate SS Grade de libertate SS (mean SS)abaterile predictorilor de la x SSregresie 1 SSregresie = SSregresie
reziduuri aleatoare SSresid n 2 SSresid = 1n2SSresidabaterile observatiilor de la x SStotal n 1
FUNCTII IN R
> cauza c (y1; :::; yn)> efect c (x1; :::; xn)> model lm (efect cauza)
Functia lm returneaza
coe cientsba;bb
summary: statistica descriptiva pentru reziduuri
fxi bxi; i = 1; :::; ng> anova(model)
Functia anova returneaza tabelul ANOVA si teste pen-tru ipoteza fb = 0g despre care discutam in ultima parte acursului.
22
-
APLICATIE
longley {datasets} R DocumentationLongleys Economic Regression Data
DescriptionAmacroeconomic data set which provides a well-known
example for a highly collinear regression.
Usagelongley
FormatA data frame with 7 economical variables, observed
yearly from 1947 to 1962 (n=16).GNP.deator: GNP implicit price deator (1954=100)GNP: Gross National Product.Unemployed: number of unemployed.Armed.Forces: number of people in the armed forces.Population: noninstitutionalizedpopulation >= 14
years of age.Year: the year (time).Employed: number of people employed.
The regression lm(Employed ~.) is known to be highlycollinear.Alegem ca variabila raspuns Employed, cu covariata
Population
> X Y model1 model1Call:lm(formula = X ~Y)Coe cients:(Intercept)...........Y8.3807 .........0.4849
23
-
> summary(model1)Call:lm(formula = X ~Y2)Residuals:
Min........ .......1Q.......... Median....... 3Q .............Max-1.4362 ...-0.9740 .........0.2021...... 0.5531 ......1.9048
Coe cients:
....................Estimate .....Std. Error...... t value.......Pr(>jtj)(Intercept) ...8.3807 .......4.4224 ..........1.895 ........0.079 .Y................ 0.4849 ........0.0376 ..........12.896 .....3.69e-09
Residual standard error: 1.013 on 14 degrees of freedomMultiple R-Squared: 0.9224, Adjusted R-squared: 0.9168F-statistic: 166.3 on 1 and 14 DF,p-value: 3.693e-09
p-value < 0.05, deci modelul regresiei liniare este corect
> anova(model1)Analysis of Variance Table
Response: X...................Df...... Sum Sq........Mean Sq .......F value........Pr(>F)
Y........ ........1....... 170.643 ......170.643 .......166.30 ......3.693e-09Residuals ...14 ......14.366 .........1.026
24