econo me trie
TRANSCRIPT
UNIVERSITATEA TRANSILVANIA BRASOV
FACULTATEA DE STIINTE ECONOMICE
SPECIALIZAREA: FINANTE BANCI
ANUL : II, GRUPA 8551
-2007-
PREZENTARE GENERALA
Proiectul de fata prezinta analiza influentei pe care variabilele
explicative x1, x2, x3, x4, x5, x6, x7 o exercita asupra variabilei y = “numarul
total de studenti inscrisi la cursuri de zi in cadrul universitatilor din
Romania”.
Astfel, se va presupune ca numarul de studenti din cadrul
universitatilor din Romania, inscrisi la cursuri de zi depinde de urmatoarele
7 variabile independente:
numarul institutiilor de invatamant superior de pe teritoriul Romaniei;
numarul de facultati din cadrul universitatilor romane;
populatia Romaniei cu varsta cuprinsa intre 19 – 25 ani;
numarul absolventilor de licee;
numarul total de studenti inscrisi in cadrul universitatilor romane;
populatia totala a Romaniei;
personalul didactic din invatamantul superior
Analiza parcurge patru etape principale, si anume:
1. Culegerea datelor
2. Formalizarea relatiilor
3. Estimarea parametrilor
4. Testarea modelului
2
CAP.1 Culegerea datelor
Datele centralizate in tabelul nr. 1 (anexa 1) sunt preluate din
Anuarele Statistice ale Romaniei din anii 1990, 1994, 1998, 2002, 2003
si reprezinta valorile anuale ale variabilei de explicat(endogena) – Y,
respectiv ale variabilelor explicative(exogene) – X in perioada 1987 –
2002.
Semnificatia variabilelor alese este urmatoarea:
Y = numarul total de studenti inscrisi la cursuri de zi in cadrul universitatilor
din Romania;
X1 = numarul institutiilor de invatamant superior de pe teritoriul Romaniei;
X2 = numarul de facultati din cadrul universitatilor romane;
X3 = populatia Romaniei cu varsta cuprinsa intre 19 – 25 ani;
X4 = numarul absolventilor de licee;
X5 = numarul total de studenti inscrisi in cadrul universitatilor romane;
X6 = populatia totala a Romaniei;
X7 = personalul didactic din invatamantul superior.
CAP.2 Formalizarea relatiilor si estimarea parametrilor
Evolutia variabilei Y este urmarita in functie de influenta celor 7
factori prezentati mai sus, intre variabila Y si variabilele X existand
urmatoarea relatie:
Y = f(X1, X2, X3, X4, X5, X6, X7)
Yt = a0 + a1X2t + a2X2t + a3 X3t + a4 X4t + a5 X5t + a6 X6t + a7 X7t + εt,
3
unde a0,1,2,3,4,5,6,7 = parametrii modelului si εt = eroarea de
observare(necunoscuta)
Deoarece datele culese se refera la o perioada reprezentativa, ele fiind
limitate la teritoriul tarii noastre, parametrii modelului vor fi estimati, astfel
incat sa se obtina valori cat mai apropiate de cele ale parametrilor specifici
colectivitatii generale (se utilizeaza metoda celor mai mici patrate).
In vedera efectuarii calculelor necesare in acest sens, se va apela la
programul Microsoft Excel.
Urmarindu-se studiul influentei celor 7 variabile explicative asupra
variabilei dependente Y, aceasta se va prezenta initial in urmatoarea forma:
Yt = a0 + a1X1t + a2X2t + a3 X3t + a4 X4t + a5 X5t + a6 X6t + a7 X7t + εt
Dupa estimarea parametrilor, prin intermediul functiei „Regression”
din meniul Tools – Data Analisys al programului Microsoft Excel, se va
obtine o noua forma a modelului. Aceasta contine estimatorii parametrilor
(â0,1,2,3,4,5,6,7), preluati din tabelul de regresie (vezi anexa 2):
Yt = -470103,028 + 142,408X1t - 19,256X2t + 0,008 X3t – 0,201 X4t +
0,542 X5t + 0,016 X6t + 8,907 X7t + εt
CAP.3 Testarea modelului
Testarea modelului prezentat are la baza efectuarea unei serii de teste
statistice (Fisher, Student) in vederea determinarii variabilelor explicative ce
exercita o influenta semnificativa asupra lui Y si eliminarii celor care nu
influenteaza in mod semnificativ variabila Y.
Testele statistice sunt urmate de efectuarea testului de stabilitate
(testul Chow) pentru esantionul ales si a celui pentru imbunatatirea
4
modelului, care consta in introducerea si analiza unei variabile auxiliare
„Dummy”.
In continuare se vor efectua o serie de teste pentru depistarea
multicoliniaritatii (Farrar-Glauber), a autocorelatiei erorilor (Durbin-
Watson) si pentru studiul heteroscedasticitatii modelului (Golfed-Quandt).
Testarea modelului se incheie cu realizarea de previziuni.
A. Ecuatia de analiza a variantei si coeficientul de determinatie:
a)Aceasta ecuatie exprima relatia dintre variabilitatea totala(SCT), cea
explicativa(SCE) si reziduuri(SCR).Calculul acestor variabile sunt
prezentate in anexa 3.Cu cat valoarea lui SCE se apropie mai mult de
valoarea SCT, cu atat modelul e mai bine construit.
SCT = SCE + SCR Σ(yt – ymed)2 = Σ(yest – ymed)2 + Σ(yt – yest)2
In cazul nostru ecuatia devine:
234780509369,437 = 234593608242,262 + 186901127,176
b)Coeficientul de variatie este dat de formula:
R2 = SCE/SCT = 1 – SCR/SCT = 0,999204 = 99,9204%
In practica se utilizeaza o valoare corectata a coeficientului, si anume:
R2 =1 – ((n-1)/(n-k-1)*(1-R2)) = 0,998507 = 99,8507%
Se observa ca cele doua valori ale coeficientului sunt apropiate, iar
variatia numarului total de studenti inscrisi la cursuri de zi(Y) este explicata
in proportie de 99,92% de variatia variabilelor explicative(X).
R2 are o semnificatie mai mare cu cat nr. de observari creste.
Datele sunt preluate din tabelul de regresie (vezi anexe):
SCE = Regression ; SCR = Residuals ; SCT = Total ; R2 = R Square ; R2 =
Adjusted R Square.
5
B. Testul FISHER (de semnificatie globala):
Se formuleaza ipotezele:
H0 : SCE =O
H1 : SCE # 0
F* > F αn-k-1 → se acceptă H1, adică ansamblul variabilelor explicative
introduse în model influenţeaza semnificativ variabila de explicat cu o
probabilitate de 1-α
F* < F αn-k-1→se accepta H0, adică ansamblul variabilelor explicative
introduse în model nu au o influenţă semnificativă asupra variabilei de
explicat
α = prag de semnificaţie
k = numărul variabilelor explicative
n = numărul de observări
n-k-1 = grade de libertate
F* = valoarea din tabelul cu repartiţia Fisher-Snedecor(F) pentru k, n-
k-1 grade de libertate şi un prag de semnificaţie α
F* = SCE/k
SCR/(n-k-1)
F* = 1434,485 F*>F0,057,8 , se acepta ipoteza H1 (ansamblul variabilelor
F αn-k-1 = 3,5 explicative influenteaza semnificativ variabila y)-
6
C. Testul STUDENT:
Se aplica pentru a compara valoarea unui parametru a i cu o valoare
fixată a(de obicei 0).
Ipoteze:
H0 : ai = 0
H1 : ai # 0
t*âi < t α /2n-k-1 → se acceptă H0, adică valoarea parametrului nu este
semnificativ diferită de zero, cu o probabilitate p= 1- α ; variabila explicativa
atasata parametrului nu influenteaza semnificativ variabila de explicat –
variabila X respectiva se elimina din model
t*âi > t α /2n-k-1 → se accepta H1, adica valoarea parametrului este
semnificativ diferită de zero, cu o probabilitate p= 1- α ; variabila explicativa
atasata parametrului influenteaza semnificativ variabila de explicat, de aceea
ea va ramane in cadrul modelului
Tabelul urmator prezinta comparatia dintre ratia Student (t*âi) si
valoarea tabelara(t α/2n-k-1 ), indicand variabilele explicatve ce trebuie
eliminate din model:
var.
Explicativa t*âi t α /2n-k-1
7
X1 0,3371 2,7515
X2 -0,1650 2,7515
X3 0,6098 2,7515
X4 -1,4859 2,7515
X5 5,5634 2,7515
X6 1,1253 2,7515
X7 4,8132 2,7515
Variabilele explicative ce raman in cadrul modelului sunt cele cu ratia
Student (preluata din tabelul de regresie – anexa 4) mai mare decat valoarea
lui t α /2n-k-1 , unde α=0,05, n=16(nr. de observari) si k=7(nr. variabilelor
explicative) , si anume:
X5 = numarul total de studenti inscrisi in cadrul universitatilor
X7 = personalul didactic din invatamantul superior
Astfel, modelul va avea o noua forma, coeficientii initiali fiind
inlocuiti de cei preluati din tabelul de regresie obtinut pentru noul model cu
doua variabile explicative ( vezi anexa 4) Yt = -9889,47 + 0,517 X5t +
8,844 X7t + εt
D. Testul CHOW (de stabilitate a modelului):
Modelul se poate considera ca fiind stabil pe intreaga perioada sau se
considera doua subperioade distincte de estimare.
Stabilitatea coeficientilor se rezuma la a testa daca exista o diferenta
semnificativa intre SCR pe ansamblul perioadei si suma SCR1 + SCR2,
calculate subperioadele 1 si 2.
Ipoteze:
H0: SCR = SCR1 + SCR2
H1: SCR ≠ SCR1 + SCR2
8
Daca se accepta ipoteza H0, inseamna ca modelul este stabil pe
intreaga perioada, iar divizarea pe subperioade nu imbunatateste calitatea
modelului.
In caz contrar, dacab se accepta H1, modelul este instabil pe intreaga
perioada.
Se aplica testul Fisher, ce consta in calculul lui F* si compararea
valorii sale cu Fαk+1;n-2k-2, in vederea alegerii uneia dintre ipotezele de mai sus.
F* = {[SCR-( SCR1 + SCR2)]/(k+1)}/[( SCR1 + SCR2)/(n-2k-1)]
F* = 0,895 F* < F0,053,10 → se accepta ipoteza H0, deci modelul
F0,053,10 = 3,708 este stabil pe intreaga perioada
E. Analiza unei variabile explicative calitative (Dummy):
In analiza regresiei se intampla deseori ca variabila de explicat sa fie
influentata nu numai de variabile cuantificabile, ci si de variabile de natura
calitativa. Aceste variabile, care pot avea valorile 0 sau 1, se numesc
variabile „Dummy” sau „binare”, „dihotomice”.
In cazul de fata se va analiza influenta mediului de provenienta al
studentilor(rural sau urban) asupra numarului total de studenti inscrisi la
cursuri de zi.
Astfel, la tabelul ce contine variabilele Y si X se va adauga o coloana
ce contine valorile variabilei Dummy(Di): 1 daca in anul respectiv numarul
studentilor din mediul urban inscrisi la cursuri de zi era superior celui
reprezentat de studentii din mediul rural si 0 in caz contrar.
Din tabelul de regresie obtinut pentru modelul cu 3 variabile
explicative(X 5, X 7, Di) se extrage valoarea lui t*â3 , comparandu-se cu
valoarea ratiei Student tα/2n-k-1. (vezi anexa 5)
9
t*â3 = 1,109
tα/2n-k-1 = t0,05/2
12 = 2,56
t*â3 < tα/2n-k-1 → mediul de provenienta al studentilor nu influenteaza
in mod semnificativ nr. total de studenti inscrisi la
cursuri de zi.
F. Testul FARRAR-GLAUBER (detectarea multicoliniaritatii):
Doua variabile se numesc coliniare daca valorile observate pentru una
din ele se pot obtine din valorile observate pentru cealalta printr-o
transformare liniara. Daca exista o astfel de legatura intre variabile, seriile se
numesc multicoliniare.
Pentru detectarea multicoliniaritatii se va aplica testul Farrar-Glauber:
In prima etapa se calculeaza determinatul coeficientilor de corelatie
liniara intre seriile explicative:
D = 1 rx1x2 = 1 0,3464 = 0,88
rx2x1 1 0,3464 1
*calculele se efectueaza in Microsoft Excel: coeficientii rx1x2 si rx2x1 se
obtin cu ajutorul functiei „CORREL”, iar determinantul se calculeaza
apeland la functia „MDETERM”.
Ipotezele:
H0: D = 1
H1: D ≠ 1
Testarea acestor ipoteze se face printr-un test χ2 , care consta in
calculul lui χ2* si compararea valorii obtinute cu χ2αk+2.
χ2* = -[n-1-1/2*(k+2)]*lnD = 1,6618
10
χ2αk+2 = 9,49
χ2* < χ2α
k+2 → se accepta ipoteza H0, asadar nu exista prezumtia de
coliniaritate, variabilele explicative X5 si X7 nefiind puternic
corelate intre ele.
G. Testul DURBIN-WATSON (detectarea autocorelatiei erorilor):
Prin termenul de autocorelatie se defineste corelatia dintre termenii
unei serii de observari ordonati in timp, daca seria este cronologica, sau
ordonati in spatiu daca seria este instantanee.
Autocorelaţia erorilor se datorează omiterii unei variabile explicative
importante sau în cazul specificării greşite a modelului.
Evoluţia erorilor pentru perioada analizata este infatisata in graficul
de mai jos:
Evolutia erorilor
-15000
-10000
-5000
0
5000
10000
1 3 5 7 9 11 13 15
n
et
Residuals
Observations
Se aplica testul Durbin-Watson, ce consta in calculul lui DW dupa
formula: DW = Σ(et-e t-1)2/ Σet2 si compararea valorii sale cu d si d, valori
tabelare pentru α=0,05, n=16 si k=2.calculele efectuate pentru calcularea lui
11
DW sunt in anexa 3 ( calculul pt et si et-1) iar valorile lui d sunt trecute in
anexa 7.
DW 2,1466
d1 0,982
d2 1,539
DW = 2,1466 → DW ه (d2 , 4-d2 ) → nu există o autocorelaţie a
erorilor.
H. Testul GOLDFELD-QUANDT(pentru studiul heteroscedasticităţii):
Ca si multicoliniaritatea, in practica este necesara detectarea
heteroscedasticitatii. Prin heteroscedasticitatea se înţelege faptul că erorile
de observare sunt legate de o variabilă explicativă introdusă în model.
Detectarea heteroscedasticitatii se poate face prin aplicarea testului
Goldfeld-Quandt, in cadrul caruia ipoteza H0 este cea de homoscedasticitate,
iar cea alternativa H1, cea de heteroscedasticitate.
Ipoteze:
H0: SCR1 = SCR2
H1: SCR1 ≠ SCR2
Prima etapa consta in ordonarea observarilor in functie de variabila
explicativa ce se presupune a fi cauza heteroscedasticitatii.
Vor fi omise o parte din observari din centrul acestei serii de date –
¼, in cazul nostru 16/4 = 4. Asadar se vor obtine doua tabele distincte, pt.
primele 6 observari si pt. ultimele 6 (vezi anexa 8) si implicit doua tabele de
regresie.
12
Se compara valoarea obtinuta pt. F* cu valoarea lui Fαn1-k-1;n2-k-1.
F* = [SCR2 /(n2–k-1)]/[SCR1/(n1-k-1)]
F* = 1,0865
Fαn1-k-1;n2-k-1 = F0,05
3;3 = 9,2766
F* < Fαn1-k-1;n2-k-1 → modelul este homoscedastic (variatia erorilor nu depinde
de variatia lui x5)
CAP 4. Previziuni
Pentru realizarea de previziuni este necesara analiza cazului in
care numarul observarilor se mareste de la 16 la 17 prin adaugarea la
modelul initial a doua variabile explicative, x1t+1 = 657344 si x2t+1 = 29006.
In acest caz se calculeaza valoarea lui Y estimat(previzionat):
Yn+1 = -97557,543 + 0,517 x1t+1 + 9,004 x2t+1 = 504014,1858
Deoarece valoarea reala a lui Y este alta decat cea
previzionata, este necesara determinarea unui interval de incredere: (Yn+1-E,
Yn+1+E), unde E este valoarea obtinuta din formula:
E = tα/2n-k-1*sqrt[σ2*(Xtranspus* (Xtranspus *X)-1*Xn+1)],
unde matricea Xn+1 = 1
657344
29006
*in vederea efectuarii calculelor necesare se utilizeaza functiile
„TRANSPOSE”, „MINVERSE” si „SQRT” din Excel.
In final se obtine E = 336812,4132, valoare ce se incadreaza in
intervalul de incredere (325662,2699, 682366,1017) cu o probabilitate de 95%.
13
CAP 5. Concluzii
Pornind de la modelul initial Yt = -470103,028 +
142,408X1t - 19,256X2t + 0,008 X3t – 0,201 X4t + 0,542 X5t + 0,016 X6t +
8,907 X7t + εt, care a fost restrans la Yt = -97557,543 + 0,517 X5t + 9,004 X7t
+ εt si dupa efectuarea testelor statistice prezentate anterior, precum si dupa
realizarea unei previziuni, se pot desprinde urmatoarele concluzii:
variatia numarului total de studenti inscrisi la cursuri de zi(Y) este
explicata in proportie de 99,92% de variatia variabilelor
explicative(X).
variabilele care nu influenteaza in mod semnificativ numarul total de
studenti inscrisi la cursuri de zi (eliminate din cadrul modelului) sunt
urmatoarele:
X1 = numarul institutiilor de invatamant superior de pe teritoriul
Romaniei;
X2 = numarul de facultati din cadrul universitatilor romane;
X3 = populatia Romaniei cu varsta cuprinsa intre 19 – 25 ani;
X4 = numarul absolventilor de licee;
X6 = populatia totala a Romaniei
modelul prezinta stabilitate pentru intreaga perioada analizata
variabila binara „mediul de provenienta a studentilor” nu influenteaza
semnificativ modelul
variabilele explicative X5 si X7 nu sunt puternic corelate intre ele
nu exista o autocorelatie a erorilor
14
modelul este homoscedastic (variatia erorilor nu depinde de variatia
variabilei explicative x5)
eroarea cu care a fost calculat Yn+1 are valoarea E = 336812,4132, insa
numarul de observari(16) este redus, eroarea scazand odata cu
sporirea nr. de observari.
Se poate asadar afirma ca de studenti inscrisi la cursuri de zi depinde direct
de numarul total de studenti inscrisi in cadrul universitatilor romane si de
personalul didactic din invatamantul superior.
15