c12
Post on 20-Oct-2015
12 Views
Preview:
DESCRIPTION
TRANSCRIPT
ECONOMETRIE
CURS 12
IAŞI- 2012 -
IPOTEZE ALE MODELULUI DE REGRESIE ŞI PROBLEME ALE ÎNCĂLCĂRII LOR
Ipoteze asupra componentei aleatoare:1. Media variabilei reziduale este nulă2. Homoscedasticitatea 3. Normalitatea erorilor4. Autocorelarea erorilor
Ipoteze asupra componentei deterministe:1. Coliniaritatea
Testarea ipotezei de homoscedasticitate
Testarea homoscedaticitatii se poate face cu ajutorul testelor:
pentru modele simple: Testul Glejer Testul corelaţiei neparametrice dintre valoarea absolută a
erorilor estimate şi variabila independentă (Spearman) Testul Goldfeld-Quandt
pentru modele multiple: Testul Breusch-Pagan-Godfrey Testul White
Testul Breusch-Pagan-GodfreyPlecand de la ipoteza ca exista o legatura multipla liniara intre variabila
Y si variabilele X1 si X2 descrisa de relatia: Y=β0+β1X1+β2X2+ε, testarea homoscedasticitatii presupune parcurgerea urmatoarilor pasi:
estimarea parametrilor modelului de regresie liniara multipla: β0;β1 si β2
pe baza modelului estimat se obtin valorile erorii de modelare; construirea modelului auxiliar de regresie:
ei2=α0 +α1X1+ α2X2+u
se estimeaza raportul de determinatie a modelului auxiliar (Rα2). Pe baza
acestuia se caluleaza valoarea statisticii χ2 = n Rα2 care va fi comparata cu o
valoare teoretica χ2α, k-1, unde k reprezinta numarul parametrilor din modelul
auxiliar; prin compararea valorii teoretice cu cea calculata a statisticii χ2 se va accepta/
respinge ipoteza de homoscedasticitate a erorilor:
χ2 < χ2α, k-1=>AH0 respectiv χ2 ≥χ2
α, k-1=>RH0
Estimarea parametrilor modelului de baza
SAL – salariul curent anual ($) ->YSAL0 – salariul anual la angajare ($) -> X1
ED – nivelul educatie (ani de scoala)-> X2
Forma modelului liniar multiplu de estimat:SAL = β0+ β1*SAL0 + β2*ED+ε
Modelul estimat:SAL = -7808.71415718 +1.67263052172*SAL0 + 1020.3901421*ED+ε
Heteroskedasticity Test: Breusch-Pagan-Godfrey F-statistic 27.28751 Prob. F(2,471) 0.0000 Obs*R-squared 49.21954 Prob. Chi-Square(2) 0.0000 Scaled explained SS 245.2163 Prob. Chi-Square(2) 0.0000 Test Equation: Dependent Variable: ε^2 Method: Least Squares Date: 01/15/13 Time: 20:38 Sample: 1 474 Included observations: 474 Var. Coefficient Std. Error t-Statistic P β0 -1.31E+08 40991028-3.2033800.0015 SAL0 6150.668 1375.365 4.472026 0.0000 ED 6452228 3752366 1.719509 0.0862 R-sq. 0.103839 Mean dependent var 60401068 Adjusted R-sq. 0.100033 S.D. dependent var 1.92E+08 S.E. of reg. 1.82E+08 Akaike info criterion 40.88563 Sum sq. resid 1.56E+19 Schwarz criterion 40.91197 Log likelihood -9686.895 Hannan-Quinn criter. 40.89599 F-statistic 27.28751 Durbin-Watson stat 1.796592 Prob(F-statistic) 0.000000
Testul WhiteTestul White urmeaza acelasi algoritm ca
in cazul testului Breusch-Pagan-Godfrey, singura diferenta consta in faptul ca se utilizeaza o alta forma mult mai complexa a modelului auxiliar:
ei2=α0 +α1X1+ α2X2+α3X1X2+ α4X1
2+ α5X2 2+u
Calculul statisticii χ2 si luarea deciziei se realizeaza ca in cazul testului precedent.
Heteroskedasticity Test: WhiteF-statistic11.97360 Prob. F(5,468) 0.0000Obs*R-sq. 53.75859 Prob. Chi-Square(5) 0.0000Scaled expl. SS 267.8303 Prob. Chi-Square(5) 0.0000Test Equation:Dependent Variable: ε^2Method: Least SquaresDate: 01/15/13 Time: 23:19Sample: 1 474Included observations: 474Variable Coefficient Std. Error t-Statistic Prob. β0 -2.13E+08 1.67E+08 -1.275593 0.2027SAL0 13826.12 9771.187 1.414989 0.1577SAL0^2 -0.138886 0.082003 -1.693663 0.0910SAL0*ED 72.27410 765.1561 0.094457 0.9248ED 9214356. 26870194 0.342921 0.7318ED^2 -291287.7 1381016. -0.210923 0.8330R-sq. 0.113415 Mean dependent va 60401068Adj R-sq 0.103943 S.D. dependent var 1.92E+08S.E. of reg 1.82E+08 Akaike info criterion 40.88755Sum sq. res 1.55E+19 Schwarz criterion 40.94022Log likelihood -9684.348 Hannan-Quinn criter 40.90826F-statistic 11.97360 Durbin-Watson stat 1.799331Prob(F-statistic) 0.000000
TESTAREA COLINIARITĂŢII (1) Ipoteza de necoliniaritate presupune că între variabilele independente
ale unui model de regresie nu există o legătură de tip liniar Probleme:- identificarea gradului de coliniaritate,- stabilirea cauzelor încălcării ipotezei, - stabilirea efectelor coliniarităţii, - testarea ipotezei de coliniaritate şi -- corectarea modelului în cazul existenţei acesteia.Grade de coliniaritate:1. Coliniaritate perfectă dacă există p constante , nu toate nule, 2. Coliniaritate imperfectă dacă are loc relaţia:
unde u este o variabilă aleatoare care respectă ipotezele modelului clasic de regresie.
0X...XX pp2211
0uX...XX pp2211
TESTAREA COLINIARITĂŢII (2)Identificarea coliniarităţii Testarea coeficienţilor de regresie în cazul unui model cu un coeficient de determinaţie ridicat (de obicei peste 0.8). Dacă coeficienţii de regresie sunt nesemnificativ diferiţi de zero, atunci ipoteza de necoliniaritate este încălcată. Testarea coeficienţilor de corelaţie bivariaţi pentru variabilele independente din modelul de regresie Dacă aceşti coeficienţi au valori ridicate (de regulă, peste 0.8), atunci există posibilitatea coliniarităţii între variabilele independente. Estimarea şi testarea parametrilor modelelor de regresie auxiliară dintre variabilele independente . Ipoteza de necoliniaritate este încălcată dacă aceşti coeficienţi de regresie sunt semnificativ diferiţi de zero. Detectare a coliniarităţii pe baza a doi indicatori (utilizati în SPSS): - Tolerance - VIF (Variance Inflation Factor).
TESTAREA COLINIARITĂŢII (3)
10,008,006,004,002,000,00
X1
20,00
15,00
10,00
5,00
0,00
X2
R Sq Linear = 1
Figura 1. Reprezentarea grafică a coliniarităţii perfecte dintre două variabile independente, X1 şi
X2
TESTAREA COLINIARITĂŢII (4)
14,0012,0010,008,006,004,002,000,00
X1
20,00
15,00
10,00
5,00
0,00
X2
R Sq Linear = 0,902
Figura 2. Reprezentarea grafică a coliniarităţii imperfecte dintre două variabile independente, X1 şi X2
TESTAREA COLINIARITĂŢII (5)
Matricea corelaţiilor - arată valoarea coeficienţilor de corelaţie dintre variabile, considerate două câte două.
Valori ridicate ale coeficienţilor de corelaţie, mai mari de 0.8, arată existenţa coliniarităţii puternice între variabilele independente.
Exemplu: Correlations
1 ,161 -,213
,566 ,446
15 15 15
,161 1 -,494
,566 ,061
15 15 15
-,213 -,494 1
,446 ,061
15 15 15
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
X1
X2
X3
X1 X2 X3
TESTAREA COLINIARITĂŢII (6)
Indicatorul Tolerance se defineşte prin relaţia:
este raportul de determinaţie din modelul de regresie auxiliar, construit pe baza variabilelor independente, în care variabila j este considerată variabila dependentă, iar celelalte variabile factoriale sunt considerate variabile independente.
Dacă TOL = 1, nu există coliniaritate, iar dacă TOL = 0 suntem în situaţia
extremă, de coliniaritate perfectă.
21 jj RTOL 2jR
TESTAREA COLINIARITĂŢII (6)
Indicatorul VIF (Variation Inflation Factor) se defineşte prin relaţia:
Lipsa coliniarităţii dă o valoare VIF = 1 Existenţa coliniarităţii determină o valoare mare a indicatorului, în cazul unei
coliniarităţi perfecte avem relaţia
În practică, se consideră că o valoare VIF>10 (dupa alti autori VIF>5) indică prezenţa coliniarităţii.
2
1
(1 )jj
VIFR
2 1,jR VIF
Exemplu: În urma analizei legăturilor dintre variabilele independente ale unui model de regresie, s-au obţinut următoarele rezultate:
TESTAREA COLINIARITĂŢII (9)
Coefficientsa
5.787 1.773 3.263 .001
2.459 .104 .558 23.623 .000 .904 1.106
-.059 .190 -.008 -.309 .757 .835 1.198
.115 .018 .154 6.263 .000 .831 1.203
(Constant)
Highest Year ofSchool Completed
Number of Children
Age of Respondent
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: R's Occupational Prestige Score (1980)a.
Exemple
Pentru ecuaţia Y = α0 + α1D1 + α2D2 sunt valabile următoarele afirmaţii: a) este ecuaţia corespunzatoare unui model
ANOVA b) este ecuatia corespunzătoare unui model
ANCOVA c) D1 şi D2 sunt variabile distribuite normal d) D1 şi D2 pot apare ca urmare a construirii
unui model de regresie între Y şi o variabilă nominală cu trei categorii
Testul Fisher poate fi utilizat pentru: Verificarea ipotezei de homoscedasticitate verificarea semnificaţiei raportului de corelaţie verificarea ipotezei de multicoliniaritate a variabilelor independente verificarea corectitudinii modelului de regresie ales
Prin autocorelare înţelegem că variabilele independente Xi din model sunt corelate între ele erorile de modelare nu sunt independente erorile de modelare sunt corelate cu una sau mai multe variabile
independente
O agenţie imobiliară efectuează un studiu privind influenţa pe care o are Suprafaţa apartamentelor (X) şi a Vechimea apartamentelor (Apartamente noi, Apartamente vechi (D1) şi Apartamente foarte vechi (D2)) asupra Preţul de vânzare a apartamentelor.
Rezultatele modelării sunt prezentate în tabelul de mai sus. Se poate considera că:
modelul prezentat este un model de tip ANCOVA modelul prezentat este un model de tip ANOVA apartamentele vechi nu determină diferenţe semnificative de preţ faţă de
apartamentele noi Apartamentele vechi costa mai mult cu 8326.245 lei decat cele foarte vechi
Pentru un eşantion de 20 de angajaţi ai unei firme s-au înregistrat vechimea la locul actual de muncă (ani), sexul persoanei şi venitul familiei angajatului (mil.). În urma modelării celor trei variabile a rezultat tabelul de mai jos. Pe care dintre următoarele afirmaţii le consideraţi ca fiind corecte?
Vechimea angajaţilor de sex masculin este mai mare, în medie, decât cea a angajaţilor de sex feminin cu 0,493 ani
Vechimea medie a angajaţilor de sex feminin este de 6,335 ani, in conditiile unui venit nul
Între vechimea angajaţilor şi venitul familiei acestora există o legătură directă
Coefficientsa
6.335 .325 19.473 .000
-.493 .198 -.025 -2.489 .013
.072 .001 .579 56.829 .000
(Constant)
sexul persoanei
venitul familiei
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Vechimea la locul actual de muncaa.
În urma modelării Acceleraţiei autoturismelor în funcţie de Puterea motorului printr-un model compus a rezultat o eroare de modelare pentru care am obţinut următorii indicatori statistici descriptivi:
Pe baza datelor din tabel alegeţi afirmaţiile adevărate:
media nu diferă semnificativ de zero distribuţia erorilor nu este normală distribuţia seriei este autocorelată
Statistics
Unstandardized Residual1415
102
-.0030732
.29692224
11.16917
.005
.065
-.248
.130
Valid
Missing
N
Mean
Std. Error of Mean
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
În urma modelării Salariului în funcţie de Vechime, pentru verificarea ipotezelor de regresie s-a obtinut rezultatul de mai jos. Pentru un risc asumat de 5%, care dintre urmatoarele afirmatii sunt adevarate?
Erorile sunt homoscedastice Variatia erorii de modelare este influentata semnificativ de
variatia variabilei Vechime Variantele erorii de modelare sunt egale si constante Modelul este heteroscedastic
Coefficientsa
65.656 1.429 45.931 .000
-2.034 .126 -.418 -16.126 .000
(Constant)
Vechime
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Erorile in valoare absolutaa.
top related