econometrie
TRANSCRIPT
UNIVERSITATEA “AUREL VLACIU” ARAD
FACULTATEA DE ŞTIINŢE ECONOMICE
SPECIALIZAREA: FINANŢE BĂNCI
E C O N O M E T R I E
Titular curs:
Lector univ. Drd. Săbău Florentina Simona
1
Cuprins
Capitolul 1 Introducere în econometrie
1.1 Obiective 3
1.2 Prezentare sintetică 3
1.2.1 Scurt istoric privind apariţia şi dezvoltarea econometriei 3
1.2.2 Definiţiile econometriei 4
1.2.3 Locul şi rolul econometriei în sistemul ştiinţelor economice
6
1.2.4 Noţiuni şi concepte fundamentale ale econometriei 8
1.3 Întrebări 15
1.4 Probleme rezolvate 16
1.5. Probleme propuse 37
1.6. Bibiliografie 40
Capitolul 2 Testarea ipotezelor statistice
2.1 Obiective 41
2.2 Prezentare sintetică 41
2.2.1 Concepte şi erori în testarea ipotezelor statistice 41
2.2.2. Testarea ipotezei privind media populaţiei generale (μ) pentru eşantioane de volum mare
45
2.2.3 Testarea ipotezei privind diferenţa dintre două medii pentru eşantioane de volum mare
49
2.2.4.Testarea ipotezei privind media populaţiei generale (μ) pentru eşantioane de volum redus
51
2
2.2.5.Testarea ipotezei privind proporţia populaţiei pentru eşantioane mari
52
2.2.6. Testarea ipotezei privind diferenţa dintre două medii pentru eşantioane de volum redus
53
2.2.7. Testarea ipotezei privind dispersia unei populaţii 55
2.2.8.Testarea ipotezei privind raportul dintre două dispersii 56
2.3 Întrebări 58
2.4.Probleme rezolvate 60
2.5.Bibiliografie 66
Capitolul 3 Modelul de regresie
3.1 Obiective 67
3.2 Prezentare sintetică 67
3.2.1 Specificarea unui model de regresie 67
3.2.2 Modelul de regresie clasic 67
3.3 Întrebări 74
3.4 Probleme rezolvate 79
3.5.Bibiliografie 80
3
Capitolul 1
Introducere în econometrie
1.1 OBIECTIVE: introducerea studenţilor în sfera şi
noţiunile specifice econometriei
1.2 PREZENTARE SINTETICĂ:
1.2. 1 Scurt istoric privind apariţia şi dezvoltarea
econometriei
Un moment important în constituirea şi dezvoltarea Econometriei ca
disciplină economică de frontieră, apărută în domeniile de interferenţă ale
teoriei economice, statisticii şi matematicii, se consideră anul 1930
(29 decembrie), când s-a înfiinţat la Cleveland Societatea de Econometrie
(Econometric Society), avându-i ca iniţiatori pe: Irving Fischer -
preşedinte, L. V. Bortkiewicz, R. Frisch, H. Hotelling, L. Schumpeter,
N. Wiener şi alţii.
Un rol deosebit în dezvoltarea şi popularizarea econometriei l-a avut
revista acestei societăţi, „Econometrica", care apare trimestrial,
începând din ianuarie 1933.
Etimologic, termenul de econometrie provine din cuvintele greceşti:
eikonomia (economie) şi metren (măsură). El a fost introdus (1926) de
către Ragnar Frisch, economist şi statistician norvegian, prin analogie cu
termenul „biometrie", folosit de Fr. Galton şi K. Pearson la sfârşitul
4
secolului XIX, care desemna cercetările biologice ce utilizau
metodele statisticii matematice.
Dar nu cei care au introdus termenul şi au înfiinţat Societatea de
Econometrie au şi „inventat" această disciplină.
Sub aspect istoric, studierea cantitativă a fenomenelor economice
este mult mai veche. Printre precursorii econometriei moderne pot fi
citaţi: F. Quesnay, W. Petty, Gregory King, A. Cournot, Leon Walras, E.
Engel, A. Marshall, R. A. Fisher, K. Pearson şi alţii.
În perioada contemporană, contribuţii importante la dezvoltarea
econometriei au fost aduse de:
- în domeniul analizei economice a cererii: M.
Friedman,T. Haavelmo, R. Stone, H. Wald, ş.a.;
- în domeniul funcţiilor de producţie: C. W. Cobb, P. H. Douglas,
K. J. Arrow, G. Tintner;
- în domeniul modelelor macroeconomice: A. S. Goldberger,
O. Onicescu, V. Kantarevici, L. R. Klein, J. Tinbergen, H. Theil1;
- în domeniul metodelor de analiză a datelor sau al econometriei
„fără modele": T. W. Anderson, J. P. Benzécri, H. Hotelling, R. A. Fisher
şi alţii.
În momentul actual, impulsionată puternic de revoluţia
tehnico-ştiinţifică - cu realizări de vârf în domeniul calculatoarelor
electronice - econometria a devenit un instrument metodologic de bază,
indispensabil teoriei şi practicii economice pentru investigarea riguroasă a
fenomenelor şi proceselor economice.1 Numele scrise cu italice îi desemnează pe laureaţii Premiului Nobel în econometrie
5
1.2. 2 Definiţiile econometriei
Dezvoltarea rapidă a econometriei a generat formularea mai
multor definiţii cu privire la domeniul acestei discipline economice.
Totuşi, marea majoritate a acestora poate fi încadrată în următoarele
trei grupe:
a) definiţia istorică;
b) definiţia restrictivă;
c) definiţia extinsă.
a) Definiţia istorică a econometriei a fost formulată de R.
Frisch în primul număr al revistei „Econometrica", în ianuarie
1933: „experienţa a arătat că fiecare din următoarele trei puncte de
vedere, al statisticii, al teoriei economice şi al matematicii, este o
condiţie necesară, dar nu şi suficientă, pentru o înţelegere efectivă a
realităţilor cantitative din economia modernă; unificarea lor este
aceea care asigură eficienţa. Econometria este tocmai această
unificare".
Conform acestei definiţii, susţinătorii ei consideră că prin
econometrie se înţelege studierea fenomenelor economice pe baza
datelor statistice cu ajutorul modelelor matematicii.
b) Definiţia restrictivă propusă de Cowles Commission
for Research in Economics (Chicago, 1940-1950), consideră că nu
există econometrie dacă investigarea fenomenelor economice nu
se face cu ajutorul modelelor aleatoare (stochastice).
6
Susţinătorii acestei definiţii, L. R. Klein, E. Malinvaud, G.
Rottier, includ în domeniul econometriei numai cercetările
economice care utilizează metodele inducţiei statistice - teoria
estimaţiei, verificarea ipotezelor statistice - la verificarea relaţiilor
cantitative formulate în teoria economică cu privire la fenomenele
sau procesele economice cercetate.
Conform acestor definiţii, un studiu econometric presupune:
-existenţa prealabilă a unei teorii economice privind
fenomenul, procesul sau sistemul economic cercetat, pe baza
căreia se construieşte modelul economic, care reprezintă
formalizarea ipotezelor teoriei economice cu privire la
fenomenul, procesul sau sistemul investigat;
-posibilitatea aplicării metodelor inducţiei statistice la
verificarea ipotezelor teoriei economice; construirea modelului
econometric şi rezolvarea acestuia.
Această definiţie restrictivă exclude din domeniul
econometriei cercetările economice care nu se fundamentează pe:
-o teorie economică - implicită sau explicită privind
modelul econometric al fenomenului, procesului sau sistemului
studiat;
-o interpretare aleatoare a modelului respectiv.
Astfel, analiza seriilor cronologice, modelul lui Leontief
(B.L.R.) ca şi statistica economică (care se fundamentează pe
metoda balanţelor) nu intră în sfera de cuprindere a econometriei:
7
prima, deoarece existenţa unei teorii economice nu este necesară,
iar ultimele două, fiindcă nu permit aplicarea metodelor inducţiei
statistice.
c) Definiţia extinsă a econometriei, promovată de
economiştii din ţările anglo-saxone, ţine seama de puternica
dezvoltare, apărută după 1950, a metodelor cercetării operaţionale:
teoria optimului, teoria stocurilor, teoria grafelor, teoria deciziilor,
teoria jocurilor, etc.
Prin econometrie, în sensul larg al termenului, se înţelege
econometria, definită în mod restrictiv, adică, include domeniile
menţionate atunci când ea este înţeleasă în sens restrictiv, la care se
adaugă metodele cercetării operaţionale. În prezent, în domeniul
econometriei se includ şi tehnicile moderne de analiză a datelor sau
analiza marilor tabele.
Deoarece încă nu s-a cristalizat o concepţie unitară privind
„frontierele" econometriei, în manualele sau tratatele de
econometrie, autorii, de regulă, îşi menţionează concepţia pe baza
căreia şi-au structurat lucrările.
În ţara noastră, atât în literatura de specialitate, deşi rareori se
fac precizări exprese, cât şi prin structura planurilor de învăţământ
de la facultăţile economice, econometria este concepută şi aplicată
ca metodă generală de investigare cantitativă a fenomenelor şi
proceselor economice -adică, în accepţiunea largă a termenului.
8
Un domeniu mai puţin abordat, atât teoretic, cât şi practic, îl
constituie metodele econometriei, în sensul restrictiv al
termenului, respectiv modelele aleatoare (stochastice).
Modelele deterministe, utilizate în mod curent şi de multă
vreme în teoria şi practica economică din ţara noastră, sunt de multe
ori inadecvate pentru a explica şi, mai ales, pentru a prognoza
pertinent evoluţia fenomenelor, proceselor sau sistemelor
economice, elemente dinamice prin natura lor.
De asemenea, în studiile mult mai recente, se insistă asupra
faptului că studiul seriilor de timp privind evoluţia fenomenelor
economice nu poate fi independent de teoria economică. Se au în
vedere, în acest sens, nu atât determinarea şi extragerea
econometrică a tendinţei, cât şi aspectele legate de efectul întârziat
în timp, propagarea impulsului unor variabile exogene asupra
variabilei prognozate, natura oscilaţiilor de diferite frecvenţe etc.
Acestea sunt motivele care au determinat ca modelele dinamice -
bazate pe analiza evoluţiei în timp a fenomenelor economice - să-şi
găsească locul în arsenalul modelelor econometrice prezentate în
acest curs.
1.2. 3 Locul şi rolul econometriei în sistemul ştiinţelor
economice
Apariţia şi rapida afirmare a econometriei trebuie înţeleasă şi
explicată prin prisma raportului dialectic dintre teorie şi practică, a
9
conexiunii inverse pozitive ce se manifestă între elementele acestui
raport.
Dezvoltarea continuă şi dinamică a forţelor de producţie sub
impactul progresului ştiinţific şi tehnic modifică condiţiile şi
interdependenţele din producţie, repartiţie, circulaţie şi consum, ceea ce,
pe plan teoretic şi practic, creează probleme dificile privind explicarea
şi dirijarea evoluţiei fenomenelor economico-sociale către anumiţi
indicatori ţintă, formulaţi şi urmăriţi de o anumită politică economică.
Necesitatea elaborării unor instrumente de investigare şi de
sporire a eficienţei metodelor de organizare, dirijare şi conducere a
economiei, pe de o parte, şi succesele metodelor statistico-matematice în
alte domenii ale ştiinţei - fizică, chimie, astronomie etc. - pe de altă
parte, au determinat adoptarea de către ştiinţele economice a acestor
metode.
Econometria s-a format şi se dezvoltă nu în urma unui proces de
diversificare a ştiinţei economice, ci prin integrarea dintre teoria
economică, matematică şi statistică.
În cadrul aceastei triade, teorie economică - matematică - statistică,
locul central îl ocupă teoria economică. Deşi penetrarea ştiinţei
economice de către metodele statistico-matematice reprezintă un progres
calitativ, nu trebuie uitat faptul că fenomenele economice, pe lângă
componenta lor cuantificabilă, conţin aspecte care nu pot fi
reprezentate prin cantitate. Aceste particularităţi ale fenomenelor
10
economice constituie, în general, limitele econometriei în sistemul
ştiinţelor economice.
De remarcat că raporturile econometriei cu ştiinţele economice nu
sunt numai de dependenţă.
Într-adevăr, un model econometric nu se poate elabora dacă nu s-a
constituit o teorie economică a obiectului cercetat. Similitudinea sa
formală cu obiectul economic investigat depinde de nivelul de
abstractizare a teoriei, de definirea univocă şi operaţională a noţiunilor şi
categoriilor economice, de scopurile urmărite de teoria economică -
scopuri euristice sau de dirijare privind obiectul studiat.
Modelul astfel construit reprezintă o verigă intermediară între
teorie şi realitate. El reprezintă o cale de confruntare a teoriei cu
practica, singurul mod de experimentare pe baza căruia ştiinţa
economică îşi poate fundamenta ipotezele, din moment ce obiectul său
de cercetare poate fi numai observat, nu şi izolat şi cercetat în
laborator.
Prin această experimentare, mijlocită de modelul econometric,
ştiinţele economice validează, renunţă sau elaborează metode noi, îşi
confruntă problemele de semantică şi semiotică economică,
îmbogăţindu-şi în felul acesta sistemul de informaţii privind structura şi
evoluţia obiectului economic.
În prezent, tipologia metodelor econometrice utilizate de ştiinţele
economice este extrem de vastă. Folosirea din ce în ce mai amplă a
acestor modele la investigarea fenomenelor economice se datorează
11
progreselor însemnate făcute în domeniul metodelor de estimare a
parametrilor modelelor şi al testelor de verificare pe care se
fundamentează acestea şi, nu în ultimul rând, al utilizării
calculatoarelor electronice care permit rezolvarea operativă a celor
mai complexe modele econometrice.
Particularizând legăturile econometriei cu unele dintre disciplinele
economice, este necesar să subliniem corespondenţa dintre modelarea
econometrică şi previziune. Previziunea macro sau microeconomică
reprezintă un domeniu care utilizează în mare măsură rezultatele
simulării şi, mai ales, ale predicţiei econometrice. Activitatea de
previziune a economiei este aceea care „oferă" o serie de elemente
utile elaborării modelului privind, îndeosebi, etapa de specificare a
acestuia. În această etapă, previziunea defineşte variabilele endogene
(rezultative) şi pachetul variabilelor exogene corespunzătoare
obiectivelor urmărite în funcţie de informaţiile statistice existente.
Econometria, la rândul ei, contribuie la obţinerea variantelor
economice, oferind informaţii cu privire la comportamentul
variabilelor endogene în diverse alternative de acţionare a pârghiilor
economice. În acest fel, previziunii economice i se oferă o perspectivă
în legătură cu ceea ce s-ar putea întâmpla în viitor, fie şi în linii mari, în
raport cu diferitele variante ale politicii economice care ar putea fi
aplicate.
Menţionăm, de asemenea, legătura econometriei cu sistemul
financiar-contabil, domeniu în care modelarea pătrunde tot mai mult -
12
vezi modelele ARCH. De asemenea, trebuie remarcat faptul că, la
elaborarea modelelor econometrice, se recomandă, cu o tot mai mare
insistenţă, introducerea relaţiilor financiar-bancare, ca fiind deosebit de
semnificative pentru descrierea mecanismelor economice.
Domeniul cooperării economice internaţionale, ca, de altfel, şi cel
privind comerţul interior, domeniu în care previziunile sunt greu de
realizat, altfel decât cu ajutorul metodelor statistice, reprezintă, de
asemenea, sectoare ale economiei ce pot beneficia de rezultatele
econometriei în ceea ce priveşte planificarea şi eficientizarea
activităţilor desfăşurate. Este totodată necesar să subliniem frecvenţa
tot mai mare a aplicării metodelor econometrice în lucrări din domeniul
biologiei, medicinei, demografiei şi, în special, în domeniul
marketingului, managementului sau viitorologiei.
În concluzie, se poate reţine ideea că metoda econometriei este
metoda modelării sau metoda modelelor. Modelul econometric - expresie
formală, inductivă a unei legităţi economice - reprezintă un mijloc de
cunoaştere a unui obiect economic, iar modelarea econometrică este o
metodă care conduce la obţinerea de cunoştiinţe sau informaţii noi
privind starea, structura (conexiunile dintre elemente) şi evoluţia unui
proces sau sistem economic.
1.2. 4 Noţiuni şi concepte fundamentale ale econometriei
Metoda modelelor sau metoda modelării reprezintă principalul
instrument de investigare econometrică a fenomenelor econometrice.
13
Dar, modelarea sau metoda modelelor nu constituie o noutate în
ştiinţa economică. Tabloul economic al economistului fiziocrat F.
Quesnay (1738), legile lui Engel (1857), coeficientul de elasticitate
formulat de Marshall (1890) reprezintă momente istorice de la care
cercetarea economică trece de la etapa descriptivă la etapa de
explicare formală a cauzelor şi formelor de manifestare ale fenomenelor
economice.
În general, MODELUL reprezintă un instrument de cercetare
ştiinţifică, o imagine convenţională, homomorfă, simplificată a
obiectului supus cercetării.
Fiind o construcţie abstractă, în care se neglijează proprietăţile
neesenţiale, modelul este mai accesibil investigaţiei întreprinse de
subiect, aceasta fiind una din explicaţiile multiplelor utilizări pe care
modelul le are în epoca contemporană.
Utilizat în economie, modelul - imagine abstractă, formală a unui
fenomen, proces sau sistem economic - se construieşte în concordanţă
cu teoria economică, rezultând modelul economic.
Modelul economic, reproducând în mod simbolic teoria economică
a obiectivului investigat, prin transformarea sa în model econometric,
devine un obiect supus cercetării şi experimentării (verificării), de la
care se obţin informaţii noi privind comportamentul fenomenului
respectiv.
În acest mod, reprezentările econometrice, spre deosebire de
modelele economice care explică structura fenomenului sau procesului
14
economic de pe poziţia teoriei economice, au întotdeauna o finalitate
practică, operaţională, ele devenind instrumente de control şi dirijare,
de simulare şi de previziune a fenomenelor economice.
VARIABILELE care formează structura unui sistem
econometric, după natura lor, pot fi:
a) variabile economice;
b) variabila eroare (aleatoare), u;
c) c) variabila timp, t.
a) Variabilele economice, de regulă, se împart în variabile
explicate, rezultative sau ENDOGENE, Yi, i = 1,n , şi variabile
explicative, factoriale sau EXOGENE, Xj, j = 1,k, independente de
variabilele endogene Yi ; (n = numărul variabilelor rezultative; k =
numărul variabilelor factoriale). În cazul modelelor de simulare sau de
prognoză, variabilele Xj se mai împart în variabile exogene
predeterminate (variabile de stare a sistemului -c a p a c i t a t e a d e
p r o d u c ţ i e a u n e i î n t r e p r i n d e r i , s a u c u lag - xt-1, yt-1) şi
variabile instrumentale sau de comandă economică (dobânda,
impozitul pe profit etc.)
b) Variabila ALEATOARE, u, sintetizează ansamblul
variabilelor, cu excepţia variabilelor Xj, care influenţează variabila
endogenă Yi, dar care nu sunt specificate în modelul econometric.
Aceste variabile (factori), pe baza ipotezelor teoriei economice, sunt
considerate factori întâmplători (neesenţiali), spre deosebire de
15
variabilele Xj, care reprezintă factorii determinanţi (esenţiali) ai
variabilei Yi.
De asemenea, variabila eroare reprezintă eventualele erori de
măsură - erori întâmplătoare şi nu sistematice - conţinute de datele
statistice privind variabilele economice.
Pe baza acestor premise economice se acceptă că variabila
aleatoare „U" urmează o lege de probabilitate L(u), în acest scop
formulându-se o serie de ipoteze statistice cu privire la natura
distribuţiei acestei variabile, ipoteze statistice care vor trebui testate cu
teste statistice adecvate fiecărei ipoteze.
c) Variabila TIMP, t, se introduce în anumite modele econometrice
ca variabilă explicativă a fenomenului endogen Yi, imprimându-se
acestora un atribut dinamic, spre deosebire de modelele statice.
Deşi timpul nu poate fi interpretat ca variabilă concretă
(economică), se recurge la această variabilă explicativă (fictivă) din două
motive:
- în primul rând, timpul, ca variabilă econometrică,
permite identificarea unor regularităţi într-un proces evolutiv, ceea ce
constituie un prim pas spre specificarea precisă a unor variabile care
acţionează în timp;
- în al doilea rând, el reprezintă măsura artificială a acelor
variabile care acţionează asupra variabilei Y care, fiind de natură
calitativă, nu pot fi cuantificate şi, ca atare, nici specificate în
modelul econometric.
16
Un exemplu cunoscut în acest sens îl constituie funcţia de
producţie Cobb -Douglas cu progres tehnic autonom:
Q = A · Kα · Lß · ect · u (1.3.1)
unde:
Q = volumul fizic al producţiei;
K = capitalul;
L = forţa de muncă;
e = numărul natural;
t = timpul;
u = variabilă aleatoare;
A, α, β şi c = parametrii funcţiei,
c estemăsura econometrică a influenţei progresului tehnic asupra
volumului producţiei.
Sursa de date - Variabilele economice se introduc într-un
model econometric cu valorile lor reale sau empirice (yi = y1, y2, — ,yn; xi
= x1, x2,..., xn; n = numărul unităţilor observate). Aceste valori ale
variabilelor unui model se pot obţine pe două căi: fie pe baza
sistemului informaţional statistic (banca de date), fie prin efectuarea de
observări statistice special organizate - de tipul anchetelor statistice.
O problemă fundamentală care se ridică în această etapă o
reprezintă calitatea datelor statistice, respectiv autenticitatea şi
veridicitatea acestora. Dacă un model economic se construieşte cu date
17
false sau afectate de erori de măsură, el va căpăta aceste deficienţe,
fiind compromis sub aspect operaţional.
Deoarece problema autenticităţii datelor economice ţine de
domeniul statisticii economice, ne vom rezuma numai a aminti că datele
statistice care privesc variabilele economice specificate în model trebuie
să fie culese fără erori sistematice de observare şi de prelucrare,
îndeplinind condiţiile de omogenitate. Omogenitatea datelor presupune:
- colectarea lor de la unităţi statistice omogene;
- reprezentarea aceloraşi definiţii şi metodologii de calcul cu
privire la sfera de cuprindere ale acestora în timp sau în spaţiu;
- descrierea evoluţiei fenomenelor într-un interval de timp în care
nu s-au produs modificări fundamentale privind condiţiile de
desfăşurare a procesului analizat;
- exprimarea variabilelor în aceleaşi unităţi de măsură, condiţie
care se referă, în mod special, la evaluarea indicatorilor economici în
preţuri comparabile sau preţuri reale.
„Materia primă" pentru calcule economice o constituie seriile
cronologice (serii de timp sau serii dinamice), mai rar seriile teritoriale,
ale variabilelor economice respective, preluate sau construite pe baza
băncii de date statistice existente.
O serie cronologică se construieşte prin observarea variabilelor Y
şi X pe perioade egale de timp (t = 1,2,.., T, t reprezentând luni,
trimestre, ani) la aceeaşi unitate economică:
18
T 1 2 ... T
Xt x1 x2 ...
xT
y t y1 y2
... yT
În comparaţie cu aceasta, o serie de spaţiu rezultă prin observarea
variabilelor Y şi X într-o anumită perioadă de timp - lună, trimestru,
semestru, an - la un anumit număr de unităţi socio-economice
omogene, i = 1,n, unde n = numărul unităţilor de acelaşi profil, ce
aparţin aceluiaşi sector economic etc. O astfel de serie se prezintă, de
regulă, sub următoarea formă:
Xi x1 x2
... xn
Yi y1
y2 ...
yn
Într-un model econometric, un fenomen economic X={xi},i = 1,n
poate fi introdus cu următoarele valori:
1) Valori reale sau empirice, xi = (x1, x2,.., xn), valori exprimate în
unităţi de măsură specifice naturii fenomenului X, ele fiind mărimi
concrete şi pozitive, deci aparţin sistemului numerelor raţionale.
19
Vectorul valorilor lui X, xi= (x1, x2,.., xn), poate fi definit prin doi
parametri:
- media aritmetică a variabilei X
(1.3.2)
- abaterea medie patratica a variabilei X
(1.3.3)
fiind dispersia variabilei.
De obicei, se considera ca variabila X urmeaza o distributie
normala de medie si de abatere medie patratica σx : L(x) = N( , σx).
2) Valorile centrate :
Aceste valori sunt tot mărimi concrete, dar ele aparţin sistemului
numerelor reale având atât valori pozitive cât şi negative.
Se poate demonstra uşor că aceste valori centrate au media egală
cu zero, iar dispersia lor este egală cu dispersia valorilor reale:
20
(1.3.4)
(1.3.5)
3) Valori centrate şi normate sau abateri standard:
Media si dispersia acestor valori este:
(1.3.6)
(1.3.7)
În plus faţă de aceste două proprietăţi L(x**) = N(0;1) 2 , abaterile
standard sunt mărimi abstracte (adimensionale). Aceste calităţi conduc,
atât la diminuarea calculelor statistice cu aceste valori, cât şi la
2 Relaţia L(x**) = N(0;1) se citeşte: variabila urmează legea de probabilitate
normală având media egală cu zero iar abaterea medie pătratică este egală cu unu (legea normală, centrată şi redusă).
21
efectuarea de comparaţii între distribuţiile mai multor fenomene
economice de naturi diferite.
Un model econometric poate fi format dintr-o singură relaţie sau
dintr-un sistem de relaţii statistice. Aceste relaţii pot fi: relaţii de
identitate sau deterministe, relaţii de comportament, relaţii tehnologice
şi relaţii instituţionale.
Relaţiile de identitate sunt de tipul ecuaţiilor de balanţă folosite în
„Sistemul de balanţe ale economiei naţionale"
Relaţiile de comportament sunt acele ecuaţii stochastice care
reflectă şi modelează un proces de luare a deciziei, care încearcă să
descrie răspunsul variabilei endogene Y, sub forma deciziei, la un set de
valori ale variabilelor exogene. De exemplu, într-un model
macroeconomic, relaţiile de comportament se referă la dependenţe
privind consumul, investiţiile, importul şi exportul, sistemul de preţuri,
cererea monetară, etc.
Relaţiile tehnologice descriu atât imperativele de ordin tehnologic
privind producţia cât şi relaţiile tehnico-economice existente în
producţie, forţa de muncă şi fondurile de producţie ale unei unităţi, ale
unei ramuri sau ale economiei naţionale. Aceste relaţii tehnologice sunt
reprezentate de cunoscutele funcţii de producţie de diferite tipuri.
Relaţiile instituţionale sunt folosite pentru a explica în mod
determinist sau stochastic fenomenele care sunt determinate fie de lege,
fie de tradiţie sau fie de obiceiuri. Din rândul acestora fac parte, de
22
exemplu, ecuaţiile care explică stabilirea impozitelor sau a cotizaţiilor
în funcţie de venit.
Tipologia modelelor econometrice este extrem de vastă. Totuşi, un
model econometric poate fi construit prin intermediul unei singure
ecuaţii de comportament, tehnologice sau instituţionale, sau cu ajutorul
unui sistem de ecuaţii de genul celor patru relaţii, menţionate mai sus,
denumite modele cu ecuaţii multiple.
Testele statistice3 sunt instrumente de lucru indispensabile
investigaţiei econometrice. Necesitatea utilizării acestora este
determinată de faptul că demersul econometric constă într-o înşiruire
logică de ipoteze privind semnificaţia variabilelor exogene, a calităţii
estimaţiilor obţinute, a gradului de performanţă a modelelor
construite. Acceptarea sau respiungerea ipotezelor formulate în
econometrie se poate face cu ajutorul mai multor teste, cele mai uzuale
fiind: testul χ2, testul t, testul F etc.
Pe lângă aceste teste statistice, în practica curentă, în diverse
domenii, se foloseşte frecvent un test denumit „testul erorii". În general,
aplicarea acestui test presupune compararea a două valori:
0 = valoarea observată sau estimată;
T = valoarea teoretică, aşteptată sau prognozată.
Pe baza celor două valori se definesc:
- eroarea absolută, ;
3 Vezi- ipoteză statistică, test, eroare de gradul 1 şi gradul 2, preg de semnificaţie, nivel de semnificaţie- Dicţionar statistic economic, D.C.S., Bucureşti, 1969
23
- eroarea relativă,
Se construiesc cele două ipoteze:
H0: 0 ≈ T ;
H1: 0 ≠ T.
Stabilindu-se arbitrar o valoare absoluta (Ea) sau relativa (Er) 4 de
echivalare a celor doua valori, (0) si (T), regula de (alegere) decizie a
celor doua ipoteze este urmatoarea:
24 este acceptată ipoteza H0 dacă Ea ≤ ea sau Er ≤ er . → cele două
valori, (0) şi (T), sunt echivalente, adică diferenţele dintre ele sunt
întâmplatoare şi nu sistematice;
24 este acceptată ipoteza H1 dacă Ea > ea sau Er > er . → cele doua
valori, (0) si (T), diferă semnificativ si nu pot fi considerate ca
echivalente, respectiv extrase din aceeaşi urnă sau dintr-o colectivitate
omogenă.
Acest test al erorii este utilizat în mod curent în domeniul analizei
statistico-economice a variatiei în timp şi/sau în spaţiu a unui fenomen
economic, dar poate fi aplicat şi în domeniul econometriei, dar cu
discernamânt şi nu în mod excesiv.
4 Un astfel de test şi criteriu de decizie se utilizează în comerţul cu produse îmbuteliate sau ambalate pentru care, de regulă, criteriul de decizie este de 5% din volumul sau greutatea , T, a ambalajului
24
1.3. Întrebări
1. Care este definiţia istorică a econometriei formulată
de catre R. Frisch?
2. Care este definiţia extinsă a econometriei promovată
de economiştii din ţările anglo-saxone?
3. Definiţi modelul economic.
4. Definiţi variabilele economice.
5. Definiţi variabilele aleatoare.
25
6. Care sunt cele două motive pentru care se recurge la
variabila timp?
7. Ce presupune omogenitatea datelor?
8. Care sunt relaţiile statistice ce formează un model
econometric? Definiţi-le.
9. Cu ce valori poate fi introdus un fenomen economic
într-un model econometric?
10. C
e presupune testul erorii?
1.4. Probleme rezolvate
A. Caz privind asocierea a două variabile alternative (binare)
O societate comercială se aprovizionează de la 2 furnizori A şi B.
După primirea ultimelor două loturi de piese se ştie că:
26
-furnizorul A a trimis 400 de piese din care 60 au fost rebuturi;
- furnizorul B a trimis 600 de piese din care 70 au fost rebuturi.
Conducerea societăţii ar dori să renunţe la furnizorul A pe
motivul unei calităţi inferioare a produselor sale în raport cu cele ale
furnizorului B. Este corectă această decizie?
Rezolvare:
Fundamentarea statistică a deciziilor corecte se poate realiza
prin sistematizarea datelor într-un tabel de forma:
Tabelul 1.
Denumirea
furnizorul
ui (x )
Calitatea pieselor
(y )
Total
(N )Rebuturi bune
A 60 340 400B 70 530 (n ) 600
Total ( N ) 130 870 1000 (N)
unde:
X = { x }, i = variabila independentă,
x = furnizorul A,
x2 = furnizorul B,
Y = {y } , j = variabila dependentă,
y = piese rebut,
27
y = piese bune,
n = frecvenţele condiţionate ale variabilei Y, de exemplu:
n = piesele rebut trimise de furnizorul A,
n = piesele bune trimise de furnizorul B.
În urma acestei sistematizări a rezultat o serie statistică
bidimensională, cu două variabile binare X şi Y, rezultând două
distribuţii marginale:
şi două distribuţii condiţionate ale variabilei Y (calitatea pieselor) în
funcţie de furnizori:
N = frecvenţele marginale ale variabilei X,
N = frecvenţele marginale ale variabilei Y,
N = N = N = n = numărul total al observaţiilor.
În cazul unei distribuţii bidimensionale, în funcţie de modul de
distribuire al frecvenţelor n , se poate constata:
a) independenţă totală între cele două variabile dacă
28
n = = ct sau n = =ct ;
b)o dependenţă strictă între cele două variabile dacă frecvenţele
condiţionate n se distribuie numai pe diagonala principală a tabelului
(corelare pozitivă, x cu y şi x2 cu y ) sau numai pe diagonala secundară a
tabelului (corelare negativă, x cu y şi x2 cu y ), pentru celelalte
rubrici ale tabelului aceste frecvenţe fiind egale cu zero;
c) o dependenţă statistică dacă frecvenţele condiţionate n se
distribuie într-un mod diferit de cele două cazuri a) şi b); în această
situaţie, analiza statică va conduce fie la acceptarea cazului a)
(independenţă), fie la acceptarea cazului c) (dependenţă slabă, medie,
puternică etc).
Analizând datele din tabelul 1.1.1. se observă că
distribuţia frecvenţelor condiţionate n se încadrează în cazul c). Deci,
în cadrul acestei probleme, decizia corectă poate fi luată pe baza a cel
puţin trei procedee statistice.
a) Testul diferenţei două medii
Se ştie că dacă:
t = t ,
29
cele două medii şi sunt semnificativ diferite de zero şi, invers, = dacă:
t = < t
unde:
ta = argumentul distribuţiei normale, dacă n 30 , sau
argumentul distribuţiei Student, dacă n < 30;
= pragul de semnificaţie (riscul) cu ajutorul căruia se alege
decizia corectă; de regulă, în economie se lucrează cu un prag de
semnificaţie de 0,05 (5%) sau, cel mult, de 0,01 (1%).
În cazul de faţă, aplicarea acestui test constă în
efectuarea următoarelor calcule:
- calculul procentului mediu al rebuturilor pe fiecare furnizor:
f = = = 0,15 sau 15% f = = = 0,1167 sau
11,67%
-calculul dispersiilor:
= f (1 - f ) = 0,15 0,85 = 0,1275
= f (1 - f ) = 0,1167 0,8833 = 0,1031
-alegerea pragului de semnificaţie şi preluarea valorii acestuia
din tabelul distribuţiei respective; pentru = 0,05,din tabela
distribuţiei normale se preia valoarea t = 1,96 .
30
- compararea valorii empirice a variabilei tc cu valoarea sa teoretică
t :
t = =1,5
- interpretarea testului:
Deoarece t = 1,5 < t = 1,96 rezultă că între calitatea pieselor
livrate de cei doi furnizori, cu o probabilitate de 0,95 (95%), nu se poate
accepta o diferenţă semnificativă şi, ca atare, nu este corectă decizia de a
se renunţa la furnizorul A pe motivul unei mai slabe calităţi a pieselor.
b) Testul
Aplicarea testului constă în compararea unei valori empirice
cu o valoare teoretică , unde:
= pragul de semnificaţie;
v= (k-1)(m - 1) = numărul gradelor de libertate, m fiind numărul
de grupe în funcţie de variabila Y (y ,,j = ), iar k este numărul de
grupe în funcţie de variabila X (x ,i = ), preluat din tabela
distribuţiei în funcţie de un prag de semnificaţie şi de numărul
gradelor de libertate . În acest caz, pentru = 0,05 şi = (2 - 1)(2
- 1) =1, din tabel rezultă =3,84,iar pentru = 0,01 rezultă =
6,63 .
Valoarea empirică a variabilei aleatoare se calculează cu relaţia:
=
31
unde:
nij = frecvenţele reale, i = 1,2, j =1,2;
n* = frecvenţele teoretice în cazul independenţei totale a celor două
variabile x şi y ;
n =
- calculul acestor frecvenţe teoretice rezultă din următoarele relaţii:
n = =
n = =
n =
n =
-calculul valorii empirice:
=
=
Utilizarea testului se bazează pe următoarele reguli de decizie:
- dacă < , rezultă că cele două variabile X şi Y sunt
independente;
32
- dacă , rezultă că cele două variabile X şi Y nu sunt
independente.
Deoarece = 2,36 < =3,84, rezultă că cele două variabile sunt
independente, deci calitatea pieselor nu depinde de tipul furnizorilor şi, ca
atare, nici decizia de a rezilia contractul cu furnizorul A nu este
justificată.
c) În cazul unei grupări combinate de 2x2, adică 2 variabile care
au 2 variante, analiza statistică a legăturii dintre acestea se poate
face şi cu ajutorul coeficientului de asociere al lui Yulle, definit prin
relaţia:
cu abaterea medie pătratică:
Acest coeficient este definit în intervalul , având
semnificaţia:
= -1 corelaţie strict negativă între variabile;
= 0 independenţă între variabile;
= 1 corelaţie strict pozitivă între variabile.
33
Pentru cazul analizat, valorile acestor indicatori sunt:
Ştiind că variabila este o variabilă aleatoare ce urmează o
distribuţie normală N(0, ), valoarea
empirică se acceptă că este semnificativ diferită de zero
daca, rezulta ca intre cele doua variabilesemnificativ diferită de zero
dacă
rezultă că între cele doua variabile există o legătură, iar dacă <
rezultă că valoarea lui nu este semnificativ diferită de zero, ceea ce
presupune că cele două variabile sunt independente.
Ştiind că t = 1,96 iar valoarea = =1,55< t =1,96 ,
rezultă că cele două variabile sunt independente, situaţie care conduce la
aceeaşi concluzie ca
şi în cazul punctelor a) şi b): rezilierea contractului cu furnizorul A nu
poate fi justificată de aprecierea unei calităţi mai slabe a produselor
acestuia.
B. Caz privind asocierea a două variabile calitative nealternative
34
În urma efectuării unui sondaj statistic s-au obţinut următoarele date
privind distribuţia pe ramuri ale economiei naţionale a şomerilor, grupaţi
pe trepte de calificare:
Tabelul 1
Ramur
i ale
econo
Trepte de calificare a
şomerilor
Total
persoa
ne
necalific
aţi
calificare
medie şi
calificare
superioa
Industrie400
500
257
200
143
100800
Construcţ
ii
100
100
64
50
36
50200
Alte
ramu
ri
200
100
129
200
71
100400
Total
persoan700 450 250 1400 (N)
Analizaţi datele din tabel şi precizaţi dacă se poate admite o asociere
între profilul ramurilor economice şi calificarea şomerilor.
Rezolvare:
Datele problemei se referă la dependenţa dintre două variabile
nominale - ramurile economiei naţionale) şi -
trepte de calificare ale şomerilor) ale căror variante sunt în număr mai
mare de două (k=3>2, m= 3>2)- cazul unui tabel de k m rubrici.
35
Deoarece frecvenţele condiţionate nu sunt nici constante pe liniile
tabelului şi nici distribuite numai pe rubricile diagonalei principale sau
secundare, distribuţia acestora arată că poate fi acceptată ipoteza unei
dependenţe statistice între cele două variabile. În acest caz, acceptarea
sau respingerea ipotezei de dependenţă statistică dintre cele două
variabile se poate face cu ajutorul testului . Utilizarea acestui test
presupune următoarele operaţii:
-preluarea valorii teoretice a variabilei din tabel în funcţie de un
prag de semnificaţie şi de numărul gradelor de libertate
respectiv pentru = 0,05 şi = (3-1)(3-1)=4 din
tabelă rezultând , iar pentru = 0,01, .
- calculul valorii empirice a variabilei aleatoare cu ajutorul
relaţiei:
=
unde: n = frecvenţele reale, i = j=
= frecvenţele teoretice în cazul independenţei totale a celor
două variabile X şi Y;
Pe baza datelor din tabel, aceste frecvenţe teoretice sunt egale cu:
36
-compararea valorii empirice cu valoarea sa teoretică:
Deoarece = 160 > rezultă că ipoteza de
independenţă dintre variabile nu poate fi acceptată şi, deci, distribuţia
şomerilor pe trepte de calificare este influenţată de structura pe ramuri
ale economiei naţionale. Cu alte cuvinte, trecerea în şomaj a salariaţilor
nu s-a făcut întâmplător, predominând şomerii necalificaţi, urmând cei cu
pregătire medie şi, pe ultimul loc, şomerii cu pregătire superioară
C. Caz privind asocierea dintre o variabilă calitativă
independentă şi o variabilă numerică dependentă
37
O întreprindere de automobile poate să-şi echipeze vehiculele
cu două tipuri de pneuri A şi B. În urma încercării a două loturi de
100 de pneuri din fiecare tip au rezultat următoarele date:
Tabelul.3.
Tipuri
de
pneuri
Rezistenţa la uzură (1000 km
parcurşi) Totalsub
25
25-30 30-35 35-
40
40-
45
peste
45A 2 8 20 40 20 10 100B 17 13 40 20 8 100
Total 19 21 60 60 28 12 200 (N)
Recomandaţi întreprinderii ce tip de pneu va trebui să
folosească, ştiind că preţul de vânzare a celor două tipuri de pneuri este
acelaşi.
Rezolvare:
Această problemă abordează cazul dependenţei dintre două variabile
de natură diferită. Variabila cauzală X -
tipurile de pneuri, este o caracteristică nominală, în timp ce variabila
efect Y - rezistenţa la uzură, este o variabilă numerică.
Rezolvarea acestei probleme presupune parcurgerea a două etape:
- prima etapă se referă la acceptarea sau respingerea ipotezei
de dependenţă dintre cele două variabile;
- a doua etapă urmează numai în cazul acceptării ipotezei de
dependenţă între variabile şi necesită alegerea tipului de pneu cu cea
38
mai mare rezistenţă la uzură; se deduce uşor că în cazul
independenţei dintre cele două variabile, rezistenţa la uzură nu
depinde de tipul pneului, întreprinderea putând utiliza oricare dintre
ele.
O astfel de problemă poate fi rezolvată cu ajutorul mai multor
procedee statistice - testul , testul diferenţei dintre două medii şi
metoda analizei variaţiei.
Deoarece primele două procedee au fost deja expuse (vezi
problemele A şi B) şi, în plus, acestea necesită calcule suplimentare,
pentru etapa a doua recomandăm abordarea unor probleme de acest tip cu
ajutorul metodei analizei variaţiei.
Metoda analizei variaţiei se fundamentează pe discuţia următoarelor
distribuţii:
- distribuţia marginală a variabilei
- distribuţiile condiţionate ale variabilei Y în funcţie de variantele
variabilei factoriale
Pe baza acestor distribuţii se calculează trei mărimi:
- varianţa totală (sau dispersia totală ) calculată
pe baza distribuţiei marginale a lui Y cu ajutorul relaţiei:
39
unde:
reprezintă media distribuţiei marginale,iar sunt mediile
condoţionate ale variabilei Y in funcţie de variantele variabilei factoriale
X.
Această mărime, , măsoară variaţia totală a variabilei Y generată
de influenţa întregului complex de factori ce o determină.
- varianţa dintre grupe este măsura variaţiei variabilei Y generată
de variaţia caracteristicii factoriale X. Această mărime se calculează cu
relaţia:
- varianţa reziduală este o mărime care exprimă variaţia
caracteristicii Y generată de factorii consideraţi aleatori, exceptând
influenţa factorului X. Relaţia de calcul a acestei mărimi este:
Se poate demonstra că între cele trei mărimi există relaţia:
= +
40
Raportând relaţia de mai sus la se obţine contribuţia relativă a
factorului esenţial
şi a factorilor întâmplători la explicarea variaţiei totale.
100=
Indicatorul poartă numele de raport de
corelaţie empirică şi exprimă intensitatea legăturii dintre cele două
variabile. Se deduce uşor că acest indicator este definit în
intervalul
Interpretarea valorilor raportului de corelaţie empirică se face pe
baza următoarelor reguli:
41
Dacă datele provin dintr-o cercetare selectivă, înainte de a explica
variaţia lui Y şi a interpreta valoarea raportului de corelaţie empirică
va trebui să se verifice semnificaţia rezultatelor. Testarea
semnificaţiei rezultatelor se face cu ajutorul testului “F” - testul Fisher-
Snedecor.
Rezultatele se consideră semnificative (R este semnificativ diferit
de zero) dacă există inegalitatea:
unde: , reprezintă valoarea empirică a variabilei
Fisher-Snedecor;
, este valoarea teoretică preluată din tabela
distribuţiei Fisher-Snedecor în funcţie de un prag de
semnificaţie şi de numărul gradelor de libertate şi .
Pe baza datelor din tabelul 4 se vor calcula indicatorii necesari
aplicării metodei analizei variaţiei:
- calculul rezistenţei medii la uzură şi a dispersiei pentru
pneurile de tip A.
Fie: k = mărimea intervalului de grupare, k=5;
a= mărimea centrului de interval cu frecvenţa maximă, a=37,5.
42
k = 5, a = 37,5
Tabelul. 4
43
- calculul rezistenţei medii la uzură şi al dispersiei ) pentru
pneurile de tip B.
k = 5, a= 32,5 Tabelul 5
Rezistenţa la
uzură (1000
km parcurşi)
20-25 22,5 17 -2 -34 6825-30 27,5 13 -1 -13 1330-35 32,5 40 0 0 035-40 37,5 20 1 20 2040-45 42,5 8 2 16 3245-50 47,5 2 3 6 18Total - 100 - -5 151
- calculul rezistenţei medii la uzură şi al dispersiei pe
ansamblul celor două tipuri de pneuri (distribuţia marginală a variabilei
Y).
Tabelul 6
Rezistenţa la
uzură
(1000 km
parcurşi)
20-25 22,5 19 -2 -38 7625-30 27,5 21 -1 -21 2130-35 32,5 60 0 0 035-40 37,5 60 1 60 6040-45 42,5 28 2 56 11245-50 47,5 12 3 36 108Total - 200 - 93 377
- calculul varianţelor:
Varianţa totală
Varianţa dintre grupe:
Varianţa reziduală:
- interpretarea rezultatelor se realizează utilizând tabelul analizei
variaţiei:
Tabelul 7
Sursa
de
Măsura
variaţiei
Nr.
grade
Dispersi
a
Valoarea testului
Varian
ţa
dintre
grupe
k-1=1
F0,05;1;198=3,
89
F0,01;1;198=6,
76
Varian
ţa
rezidu
N-
ală k=198 - -
Varian
ţa
totală
N-
1=199
- - -
Deoarece testul Fisher-Snedecor arată că rezultatele obţinute nu
sunt întâmplătoare, cu un prag de semnificaţie de 1%
ci sistematice, se vor calcula contribuţia
relativă a factorului X - marca pneurilor, la explicarea variaţiei variabilei
Y şi raportul de corelaţie empirica (R):
Întrucât marca pneurilor explică în mică măsură variaţia totală
a uzurii pneurilor, respectiv numai 15,89%, iar raportul de corelaţie are
o valoare de asemenea mică, 0,399, rezultă faptul că tipul de pneuri nu
reprezintă un factor important al uzurii şi, prin urmare, ierarhizarea
pneurilor nu se poate face în funcţie de acest factor. Din acest punct de
vedere, întreprinderea de automobile îşi poate echipa vehiculele cu orice
tip de pneu, eventual alegerea putându-se realiza după alţi factori:
facilităţi de aprovizionare, renumele mărcii etc.
D Caz privind corelaţia dintre două variabile numerice
În urma unui studiu statistic efectuat asupra unui eşantion de 110
societăţi comerciale cu acelaşi profil a rezultat următoarea distribuţie
a acestora în funcţie de capitalul social şi de profitul brut realizat:
Tabelul 8
Grupe de
societăţi după
mărimea
Grupe de societăţi după profitul
brut (mii.lei)
Total
sub
30
30-
50
50-
70
70-
90
90-
11
110
-
130
-
pes
te sub 50 7 2 1 - - - - - 1050 - 100 2 10 9 4 - - - - 25100 - 150 1 4 15 10 6 4 - - 40150 - 200 - - - 5 9 4 2 - 20peste 200 - - - - 3 7 5 15
Total 10 16 25 19 15 11 9 5 110
(N)Pe baza acestor rezultate se poate considera că mărimea profitului
brut depinde în mod hotărâtor de capitalul social al societăţilor de acest
profil?
Rezolvare:
Tabelul 8 poartă numele de tabel de corelaţie deoarece în cadrul
acestuia, a fost sistematizată distribuţia celor 110 societăţi în funcţie de
două variabile numerice:
X - capitalul social al societăţilor comerciale - variabilă
factorială;
Y - profitul brut al societăţilor comerciale - variabilă
rezultativă.
Un astfel de tabel se foloseşte în scopul acceptării sau respingerii
ipotezei de lucru, respectiv din ansamblul factorilor de influenţă ai
variabilei Y, factorul X este factorul hotărâtor, determinant al variabilei
Y.
Fiind o serie bidimensională analiza acesteia se efectuează după
aceleaşi principii prezentate în aplicaţia A. Deoarece frecvenţele se
distribuie cu cele mai mari valori de-a lungul diagonalei principale, dar
înregistrând valori şi la stânga şi la dreapta faţă de această diagonală,
rezultă că între cele două variabile se manifestă o legătură statistică în
sens direct.
În acest caz, discuţia legăturii statistice se poate face cu ajutorul mai
multor procedee cum ar fi:
a) metoda analizei variaţiei ;
b) şi metoda regresiei.
Întrucât metoda regresiei necesită precizări suplimentare, care vor fi
făcute în capitolul următor, caracterizarea statistică a dependenţei dintre
capitalul social şi profitul brut al societăţilor se va face numai cu ajutorul
metodei analizei variaţiei. Utilizarea sa în acest scop va decurge în mod
analog cu aplicarea sa din problema precedentă:
- calculul mediilor parţiale 5 - numărul grupelor de societăţi
după mărimea capitalului) şi al dispersiilor parţiale
profitul mediu brut şi dispersia societăţilor comerciale
al căror capital este mai mic de 50 mii lei (a=20; K=20).
Tabelul
9
Profitul
brut
(mii. lei)
10-30 7 20 0 0 030-50 2 40 1 2 250-70 1 60 2 2 4Total 10 - - 4 6
pentru celelalte grupe de societăţi comerciale în funcţie de capital,
profiturile medii brute şi dispersiile corespunzătoare s-au
calculat pe baza distribuţiilor condiţionate respective, rezultând
următoarele valori:
mii. lei/s.c.;
mii. lei/s.c.;
mii. lei/s.c.;
mii. lei/s.c.;
profitul mediu brut pe ansamblul celor 110 societăţi
comerciale şi dispersia aferentă au fost calculate pe baza
distribuţiei marginale a variabilei rezultative, obţinându-se
următoarele valori:
= 79,45 mii. lei/s.c.; = 14508,
-calculul varianţelor:
varianţa totală:
varianţa dintre grupe:
varianţa reziduală:
- interpretarea rezultatelor se realizează utilizând tabelul
analizei variaţiei:
Tabelul 10
Sursa
de
variaţ
Măsura
variaţiei
Nr.
grade
de
Dispersi
a
corectat
Valoarea testului F
Varian
ţa
dintre
grupe
k-1=1
Varian
ţa
rezidu
N-
k=108
- -Varian
ţa
totală
N-
1=109
- - -
Deoarece testul Fisher-Snedecor indică faptul că rezultatele
sunt semnificative cu un prag de semnificaţie de 1%
, se vor calcula contribuţia relativă a
factorului X - capitalul social, la explicarea variaţiei variabilei Y
şi raportul de corelaţie empirică (R):
Deoarece mărimea capitalului social al societăţilor comerciale
explică 73,65% din variaţia profitului brut al acestora, iar raportul de
corelaţie are o valoare de 0,858 (apropiată de limita maximă 1) rezultă
că acest factor determină în mare măsură profitul brut al societăţilor de
acest profil.
1.5. Probleme propuse
A. Într-o secţie de prelucrare a unei întreprinderi există două
prese (A şi B), pe fiecare din ele prelucrându-se câte un lot de piese de
acelaşi tip.
Datorită diminuării cererii acestui produs întreprinderea trebuie să
renunţe la una din prese. Să se menţioneze la care presă trebuie să se
renunţe cunoscând următoarele rezultate obţinute în urma unei selecţii:
- dintr-un lot de 1000 de piese executate la presa A, 2,5% au fost
rebuturi;
- dintr-un lot de 800 de piese executate la presa B, 4,5% au fost
rebuturi.
B. O fabrică de frigidere primeşte motoare de la trei furnizori
diferiţi. În ultimii 5 ani s-au efectuat o serie de înregistrări referitoare la
gravitatea problemelor constatate la motoarele returnate de clienţi pentru
service în timpul perioadei de garanţie. Aceste defecţiuni au fost
clasificate în trei categorii: minore, majore şi "înlocuit".
În tabelul următor sunt prezentate datele culese aleator referitoare la
tipurile de defecţiuni constatate la motoarele returnate, grupate pe
furnizori:
Furnizo
ri
Tipul defecţiunii: Total
motoare minoră majoră înlocuit
A 15 25 18 58B 8 16 10 34C 18 26 20 64
Apreciaţi dacă se poate admite că există o diferenţă calitativă
semnificativă între motoarele livrate de cei trei furnizori.
C. În urma prelucrării datelor unui sondaj statistic s-au obţinut
următoarele rezultate:
Dimensiu Rata profitului (%) Numărul sub 5 5-10 10-
15
15-
20
peste
20mici - 13 17 40 15 85mijlocii 4 16 30 20 15 65
mari 2 8 15 12 8 45
Pe baza acestor date, se poate accepta ipoteza că
rentabilitatea societăţilor comerciale este invers proporţională cu
mărimea lor?
D Rezultatele obţinute în urma unui sondaj efectuat în vederea
stabilirii dacă între vârsta unui şofer şi numărul abaterilor de
circulaţie efectuate de către acesta există vreo legătură sunt
ilustrate în tabelul următor:
Vârst
a
Numărul de abateri0 1-2 3-4 5 şi
18-25 6 24 20 1026-50 12 18 6 451-75 4 16 8 3
Poate fi considerată ca semnificativă vârsta persoanelor în
explicarea numărului de abateri de circulaţie efectuate?
E. O societate comercială care desface zilnic un produs
(lapte) trebuie să încheie un contract cu furnizorul privind
aprovizionarea zilnică. La fiecare litru vândut în ziua respectivă
firma câştigă 2000 lei şi pierde 500 lei dacă nu-l desface în ziua
respectivă. O statistică a desfacerilor din anul trecut se
prezintă astfel:
Cerere
(litri
Num
ăr de 90 80100 120130 60150 50160 30200 20
Total 360
Acceptând că distribuţia cererii pe zilele anului este relativ stabilă,
recomandaţi cantitatea cu care trebuie să se aprovizioneze zilnic firma
pentru a obţine profit maxim.
BIBLIOGRAFIE
1. Andrei, T. - Statistică şi econometrie Editura
Economică, Bucureşti, 2004.
2. Bourbonnais R , Econometrie , Ed. Dunod ,
Paris , 1998
3. Dormont B , Introduction a l’econometrie ,
Ed. Montchrestien , Paris , 1999
4. Florea I.(coordonator), Culegere de modele
econometrice, Ed. Muntele Sion,2000.
5. Iacob, A.I., Tănăsoiu, O. Econometrie, Studii de
caz, Ed. ASE, Bucureşti, 2005.
Capitolul 2
Testarea ipotezelor statistice
2.1.OBIECTIVE: introducerea studenţilor în sfera şi noţiunile
specifice testării ipotezelor statistice
2.2.PREZENTARE SINTETICĂ:
2.2.1. Concepte şi erori în testarea ipotezelor statistice
În statistică, ipotezele apar întotdeauna în perechi: ipoteza nulă şi
ipoteza alternativă. Ipoteza statistică ce urmează a fi testată se numeşte
ipoteză nulă şi este notată, uzual, H0. Ea constă întotdeauna în admiterea
caracterului întâmplător al deosebirilor, adică în presupunerea că nu
există deosebiri esenţiale. Respingerea ipotezei nule care este testată
implică acceptarea unei alte ipoteze. Această altă ipoteză este numită
ipoteză alternativă, notată H1. Cele două ipoteze reprezintă teorii,
mutual exclusive şi exhaustive, asupra valorii parametrului populaţiei
sau legii de repartiţie. Spunem că ele sunt mutual exclusive deoarece
este imposibil ca ambele ipoteze să fie adevărate. Spunem că ele sunt
exhaustive, deoarece acoperă toate posibilităţile, adică ori ipoteza nulă,
ori ipoteza alternativă trebuie să fie adevărată.
Procedeul de verificare a unei ipoteze statistice se numeşte test sau
criteriu de semnificaţie. O secvenţă generală de paşi se aplică la toate
situaţiile de testare a ipotezelor statistice. Ipotezele se vor schimba,
tehnicile statistice aplicate se vor schimba, dar procesul rămâne acelaşi şi
anume:
1). Se identifică ipoteza statistică specială despre parametrul
populaţiei sau legea de repartiţie (H0). Ipoteza statistică – numită şi
ipoteză nulă – reprezintă status quo-ul, ceea ce este acceptat până se
dovedeşte a fi fals.
2). Întotdeauna ipoteza nulă este însoţită de ipoteza alternativă (de
cercetat), H1, ce reprezintă o teorie care contrazice ipoteza nulă. Ea va fi
acceptată doar când există suficiente dovezi, evidenţe, pentru a se
stabili că este adevărată.
După natura posibilităţilor de construire a ipotezelor nule şi
alternative, deosebim ipoteze alternative simple sau compuse. Astfel,
dacă ipoteza nulă constă în afirmaţia că parametrul θ al unei distribuţii
este egal cu o anumită valoare θ0, iar ipoteza alternativă constă în
afirmaţia că parametrul este egal cu θ1, avem o ipoteză alternativă
simplă, iar dacă ipoteza alternativă constă în afirmaţia că parametrul θ ia
una din mai multe valori, , atunci avem o ipoteză
alternativă compusă.
3). Se calculează indicatorii statistici în eşantion, utilizaţi pentru a
accepta sau a respinge ipoteza nulă şi se stabileşte testul statistic ce va fi
utilizat drept criteriu de acceptare sau de respingere a ipotezei nule.
4). Se stabileşte regiunea critică, Rc. Regiunea critică reprezintă
valorile numerice ale testului statistic pentru care ipoteza nulă va fi
respinsă. Regiunea critică este astfel aleasă încât probabilitatea ca ea să
conţină testul statistic, când ipoteza nulă este adevărată să fie α, cu α mic
(α=0.01 etc). Verificarea ipotezei nule se face pe baza unui eşantion de
volum n, extras din populaţia X, care este o variabilă aleatoare. Dacă
punctul definit de vectorul de sondaj x1,x2,…,xn cade în regiunea critică Rc,
ipoteza H0 se respinge, iar dacă punctul cade în afara regiunii critice Rc,
ipoteza H0 se acceptă. Regiunea critică este delimitată de valoarea
critică, C – punctul de tăietură în stabilirea acesteia.
În baza legii numerelor mari, numai într-un număr foarte mic de
cazuri punctul rezultat din sondaj va cădea în Rc, majoritatea vor cădea în
afara regiunii critice. Nu este însă exclus ca punctul din sondaj să cadă în
regiunea critică, cu toate că ipoteza nulă despre parametrul populaţiei
este adevărată. Cu alte cuvinte, atunci când respingem ipoteza nulă,
trebuie să ne gândim de două ori, deoarece există două posibilităţi: ea
este falsă într-adevăr şi ea este totuşi adevărată, deşi pe baza datelor din
sondaj o respingem.
La fel şi pentru situaţia în care acceptăm ipoteza nulă H0. Când
ipoteza nulă nu poate fi respinsă (nu există suficiente dovezi pentru a fi
respinsă), sunt două posibilităţi: ipoteza nulă este adevărată şi ipoteza
nulă este totuşi falsă, greşită deşi nu am respins-o. De aceea, este mai
corect să spunem că pe baza datelor din eşantionul studiat, nu putem
respinge ipoteza nulă, decât să spunem că ipoteza nulă este
adevărată.
Eroarea pe care o facem eliminând o ipoteză nulă, deşi este
adevărată, se numeşte eroare de genul întâi. Probabilitatea comiterii
unei astfel de erori reprezintă riscul de genul întâi (α) şi se numeşte
nivel sau prag de semnificaţie.
Nivelul de încredere al unui test statistic este (1-α) iar în expresie
procentuală, (1-α)100 reprezintă probabilitatea de garantare a
rezultatelor.
Eroarea pe cere o facem acceptând o ipoteză nulă, deşi este falsă, se
numeşte eroare de genul al doilea, iar probabilitatea (riscul) comiterii
unei astfel de erori se notează cu β. Puterea testului statistic este (1-β).
Tabelul de mai jos ilustrează legătura dintre decizia pe care o luăm
referitor la ipoteza nulă şi adevărul sau falsitatea acestei ipoteze.
Erorile în testarea ipotezelor statistice
Decizia de
acceptare
Ipoteza adevărată
H0 H1
0 1 2
H0 Decizie corectă
(probabilitate 1-
α)
Eroare de gen II
(risc β)
H1 Eroare de gen I
(risc α)
Decizie corectă
(probabilitate 1-β)
Cu cât probabilităţile comiterii erorilor de genul întâi şi de genul al
doilea sunt mai mici, cu atât testul este mai bun. Acest lucru se poate
realiza prin mărirea volumului eşantionului, n. Nivelurile riscurilor se
stabilesc în funcţie de considerente economice şi de natura testului.
Am văzut că:
α= P(respingere H0 ׀ H0 este corectă)=P(eroare de gen I)
β= P(acceptare H0 ׀ H0 este falsă)=P(eroare de gen II)
Alegerea nivelului (pragului) de semnificaţie depinde şi de costurile
asociate cu producerea unei erori de genul I.
Spre exemplu, pragul de semnificaţie ales de o firmă ce fabrică
îngheţată, interesată în greutatea medie a cutiilor de îngheţată va putea fi
diferit de pragul de semnificaţie ales de o companie farmaceutică,
interesată de cantitatea medie a unui ingredient activ dintr-un tip de
medicament. Evident, costul în prima situaţie prezentată este mult mai
mic, comparativ cu costul asociat în cazul producerii unei erori de genul
I pentru compania farmaceutică: o cantitate prea mică de ingredient activ
poate face medicamentul ineficient; o cantitate prea mare de ingredient
activ poate cauza efecte secundare, dăunătoare sau poate avea, chiar,
efecte letale.
Similar, există costuri asociate cu producerea unei erori de genul al
II-lea. Între eroarea de genul I şi eroarea de genul al II-lea există o
legătură, o condiţionare. O modalitate de a vizualiza această legătură este
să presupunem că există doar două distribuţii care ne interesează. O
distribuţie corespunde ipotezei nule H0, iar cealaltă corespunde ipotezei
alternativei H1. În acest caz, presupunem că şi ipoteza nulă şi cea
alternativă sunt ipoteze simple. Într-o manieră uşor de înţeles, să
considerăm că ipoteza nulă este de forma H0: μ=μ0, iar ipoteza alternativă
este de forma H1:μ=μ1 (vezi fig):
Legătura dintre probabilităţile α şi β
Pe grafic se observă că cele două distribuţii se suprapun şi, din
procesul de testare a ipotezei nule, pot rezulta două tipuri de erori.
Eroarea de genul I apare atunci când respingem ipoteza nulă H0, în
situaţia în care, de fapt, aceasta este adevărată. Adică, deşi distribuţia lui
este cea corespunzătoare ipotezei H0, respingem H0, deoarece media de
sondaj este mai mare decât valoarea critică, C şi se situează în regiunea
critică. Probabilitatea comiterii unei astfel de erori () este aria de sub
curba de distribuţie H0 care se situează la dreapta valorii critice C.
Eroarea de genul al doilea apare atunci când nu respingem (adică
acceptăm) H0, deşi H1 în loc de H0 este corectă. În acest caz, deşi
distribuţia lui este cea corespunzătoare ipotezei H1, acceptăm H0
deoarece media de sondaj este mai mică decât valoarea critică, C (nu se
află în regiunea critică). Probabilitatea comiterii unei astfel de erori (β)
este aria de sub curba de distribuţie H1 care se situează la stânga valorii
critice, C.
Dacă alegem un prag de semnificaţie, α, mai mic (adică reducem
riscul comiterii unei erori de genul întâi), va creşte β ( riscul comiterii
unei erori de genul al doilea). Cu toate acestea, prin creşterea volumului
n al eşantionului, este posibil să reducem riscul β, fără a creşte riscul α.
Cum , o dată cu creşterea volumului n al eşantionului, aba-
terile medii pătratice ale distribuţiilor pentru H0 şi H1 devin mai mici şi,
evident, atât α, cât şi β descresc (vezi fig.).
α şi β când volumul eşantionului n' > n
5) După ce am stabilit pragul de semnificaţie şi regiunea critică,
trecem la pasul următor, în care vom face principalele presupuneri
despre populaţia sau populaţiile ce sunt eşantionate (normalitate etc.).
6) Se calculează apoi testul statistic şi se determină valoarea sa
numerică, pe baza datelor din eşantion.
7) La ultimul pas, se desprind concluziile: ipoteza nulă este fie
acceptată, fie respinsă, astfel:
a) dacă valoarea numerică a testului statistic cade în
regiunea critică (Rc), respingem ipoteza nulă şi
concluzionăm că ipoteza alternativă este adevărată. Vom şti
că această decizie este incorectă doar în 100 α % din cazuri;
b) dacă valoarea numerică a testului nu cade în regiunea
critică (Rc), se acceptă ipoteza nulă H0.
Ipoteza alternativă poate avea una din trei forme (pe care le vom
exemplifica pentru testarea egalităţii parametrului „media colectivităţii
generale“, μ cu valoarea μ0):
i) să testăm dacă parametrul din colectivitatea generală (media μ)
este egal cu o anumită valoare (inclusiv zero, μ0), cu alternativa media
diferită de valoarea μ0. Atunci:
H0: μ = μ0
H1: μ ≠ μ0 (μ < μ0 sau μ > μ0);
şi acest test este un test bilateral;
ii) să testăm ipoteza nulă μ = μ0, cu alternativa media μ este mai
mare decât μ0.
H0: μ = μ0
H1: μ > μ0
care este un test unilateral dreapta;
iii) să testăm ipoteza nulă μ = μ0, cu alternativa media μ este mai
mică decât μ0.
H0: μ = μ0
H1: μ < μ0
care este un test unilateral stânga.
Regiunea critică pentru testul bilateral diferă de cea pentru testul
unilateral. Când încercăm să detectăm o diferenţă faţă de ipoteza nulă, în
ambele direcţii, trebuie să stabilim o regiune critică Rc în ambele cozi
ale distribuţiei de eşantionare pentru testul statistic. Când efectuăm un
test unilateral, vom stabili o regiune critică într-o singură parte a
distribuţiei de eşantionare, astfel (vezi fig.):
μ μ μ
a) b) c)
Regiunea critică pentru a) test bilateral; b) test
unilateral stânga; c) test unilateral dreapta
2.2.2. Testarea ipotezei privind media populaţiei generale
(μ) pentru eşantioane de volum mare
Utilizarea eşantioanelor de volum mare (n > 30) face posibilă
aplicarea teoremei limită centrală. Putem întâlni teste unilaterale sau
bilaterale, astfel:
i) în cazul testului bilateral, ipotezele sunt:
H0: μ = μ0 (μ - μ0=0)
H1: μ ≠ μ0 (μ - μ0≠0) (adică μ < μ0 sau μ > μ0);
Testarea se face pe baza mediei eşantionului şi, pentru a o efectua,
este nevoie să construim un test cu un nivel de semnificaţie α prestabilit.
Utilizând teorema limită centrală am văzut că dacă volumul eşantionului
este mare, media eşantionului este aproximativ normal distribuită. De
aceea, variabila aleatoare z urmează o distribuţie normală standard.
Dacă pragul de semnificaţie (α) este stabilit, putem determina
valoarea zα/2, pentru care P(z> z α/2)= α/2. Aceasta înseamnă că regiunea
critică Rc este dată de:
Rc: z< - z α/2 sau z> z α/2
Regula de decizie este, deci:
Respingem H0 dacă
sau
ii) pentru testul unilateral dreapta, ipotezele sunt:
H0: μ = μ0 (μ - μ0=0)
H1: μ > μ0 (μ - μ0>0);
Testul statistic calculat este:
Regiunea critică este dată de:
Rc: z > zα
Regula de decizie este:
Respingem ipoteza H0 dacă
iii) Pentru testul unilateral stânga, ipotezele sunt:
H0: μ = μ0 (μ - μ0=0)
H1: μ < μ0 (μ - μ0<0);
Testul statistic calculat este:
Regiunea critică este dată de:
Rc: z < –zα
Regula de decizie este:
Respingem ipoteza H0 dacă :
Să remarcăm că în nici una dintre aceste situaţii nu trebuie făcută o
presupunere specială, deoarece teorema limită centrală ne asigură că
testul statistic va fi aproximativ normal distribuit, indiferent de forma
distribuţiei din colectivitate.
2.2.3.Testarea ipotezei privind diferenţa dintre două
medii pentru eşantioane de volum mare
Multe cazuri de analiză statistică implică o comparaţie între mediile
a două colectivităţi generale. Spre exemplu, un patron al unui restaurant
doreşte să vadă dacă există diferenţe între vânzările realizate înainte şi
după o campanie de publicitate, un grup de consumatori doreşte să vadă
dacă există o diferenţă semnificativă între consumul electric pentru două
tipuri de cuptoare cu microunde etc.
În aceste situaţii, un estimator al diferenţei (μ1- μ2) este diferenţa
dintre mediile eşantioanelor ( ).
Proprietăţile distribuţiei de eşantionare a diferenţei ( ) sunt:
a) distribuţia de eşantionare pentru ( ) este aproximativ
normală pentru eşantioane de volum mare (n1 > 30 şi n2 > 30);
b) media distribuţiei de eşantionare a lui ( ) este (μ1 – μ2);
c) dacă cele două eşantioane sunt independente, abaterea medie
pătratică a distribuţiei de eşantionare este:
unde şi sunt dispersiile celor două populaţii eşantionate, iar n1
şi n2 sunt volumele eşantioanelor respective.
Mărimea lui indică variabilitatea în valorile , aşteptată în
distribuţia de eşantionare, datorită întâmplării.
În cazul în care dispersiile celor două populaţii eşantionate sunt
egale, = = , abaterea medie pătratică a distribuţiei de eşantionare va
avea forma:
În aceste condiţii, ipotezele statistice ce urmează a fi testate vor fi:
i) test bilateral
H0: (μ1- μ2) = D
H1: (μ1- μ2) ≠ D
[(μ1- μ2)>D sau (μ1- μ2)<D]
ii) test unilateral dreapta
H0: (μ1- μ2) = D
H1: (μ1- μ2) > D
iii) test unilateral stânga
H0: (μ1- μ2) = D
H1: (μ1- μ2) < D
unde D reprezintă diferenţa ipotetică dintre mediile populaţiilor,
deseori egală cu 0.
Testul statistic utilizat are forma:
Regiunea critică este dată de:
i) z< - z α/2 sau z> z α/2
ii) z> z α
iii) z< - z α
2.2.4.Testarea ipotezei privind media populaţiei generale (μ)
pentru eşantioane de volum redus
În afaceri, multe decizii trebuie luate pe baza unor in-formaţii foarte
limitate, adică pe baza datelor provenite din eşantioane mici (de volum
redus, n≤30). În aceste situaţii, efectul imediat este acela că forma
distribuţiei de eşantionare a mediei depinde, acum, de forma populaţiei
generale din care a fost extras eşantionul. În cazul eşantionului de volum
redus se utilizează testul statistic t. Distribuţia de eşantionare a lui va fi
normală (sau aproximativ normală), în cazul eşantioanelor de volum
redus, doar dacă colectivitatea generală este distribuită normal (sau
aproximativ normal).
Pe de altă parte, dacă nu se cunoaşte dispersia din colectivitatea
generală ( ), atunci dispersia eşantionului ( ), poate să nu ofere o
aproximare foarte bună a lui (în cazul eşantioanelor mici). Ca atare, în
locul statisticii z care necesită cunoaşterea (sau o bună aproximare) a lui ,
vom folosi statistica:
,
unde: .
Elementele procesului de testare a ipotezelor statistice privind media
colectivităţii generale (μ) pe baza datelor din eşantioane de volum
redus, devin atunci:
- pentru test bilateral;
H0: μ = μ0,
H1: μ ≠ μ0 (μ < μ0 sau μ > μ0);
- pentru test unilateral dreapta;
H0: μ = μ0,
H1: μ > μ0,
- pentru test unilateral stânga;
H0: μ = μ0,
H1: μ < μ0.
Testul statistic utilizat:
.
Presupunerea specială ce trebuie făcută este aceea că po-pulaţia
generală este normal sau aproximativ normal distribuită.
Regiunea critică este dată de:
i) t > t α/2,n-1 sau t < - t α/2,n-1,
ii) t > t α,n-1,
iii) t < - t α,n-1.
2.2.5.Testarea ipotezei privind proporţia populaţiei
pentru eşantioane mari
Ne amintim că, pentru variabile alternative, media în eşantion era
notată cu f (proporţia succeselor), dispersia f(1-f), iar abaterea medie
pătratică . De asemenea, despre distribuţia de eşantionare a
proporţiei ştim că proporţia eşan-tionului (f) este aproximativ normal
distribuită, de medie p şi eroare standard , pentru n mare ( şi
):
şi .
Pentru testarea ipotezelor statistice privind proporţia este necesar să
lucrăm cu eşantioane mari(n>100).
Exemplu
Cum proporţia f este aproximativ normal distribuită, rezultă că variabila
standardizată este aproximativ normal standardizat distribuită.
(Atenţie! Dacă volumul eşantionului este mic, distribuţia de eşantionare a
proporţiei nu este o distribuţie t şi orice inferenţă asupra lui p trebuie să se
bazeze pe distribuţia lui f, care este o distribuţie binomială!)
Ipotezele nule şi alternative pentru testarea proporţiei se construiesc
în aceeaşi manieră cu ipotezele pentru testarea mediei . Adică, ipoteza
nulă indică faptul că p este egală cu o valoare specificată:
,
în timp ce ipoteza alternativă răspunde la una dintre cele trei
întrebări:
- dacă proporţia este diferită de valoarea specificată (test bilateral):
;
- dacă proporţia este mai mare decât valoarea specificată (test
unilateral dreapta): ;
- dacă proporţia este mai mică decât valoarea specificată (test
unilateral stânga): .
Testul statistic pentru proporţia p este:
.
Regiunea critică (Rc) este dată de:
sau pentru testul bilateral;
pentru testul unilateral dreapta;
pentru testul unilateral stânga.
Aşadar, regula de decizie este: se respinge ipoteza nulă şi se acceptă
ipoteza alternativă, dacă z se situează în regiunea critică (Rc) stabilită în
funcţie de probabilitatea dorită de garantare a rezultatelor .
2.2.6. Testarea ipotezei privind diferenţa dintre două medii
pentru eşantioane de volum redus
În cazul în care dorim să testăm semnificaţia diferenţei dintre mediile
a două eşantioane de volum redus, va trebui să construim, ca şi în cazul
anterior, o statistică t, Student. Pentru aceasta vom presupune că:
- ambele colectivităţi generale din care s-au extras eşan-tioanele sunt
normal sau aproximativ normal distribuite;
- dispersiile în cele două colectivităţi generale sunt egale;
- eşantioanele aleatoare sunt selectate independent unul de celălalt.
În condiţiile în care presupunem că cele două colectivităţi generale au
dispersii egale ( = = ), un estimator al dispersiei (variabilităţii)
totale din cele două populaţii combinate este:
sau
.
Aşadar, dispersia combinată este media aritmetică pon-derată a
dispersiilor celor două eşantioane, şi .
Dacă dispersiile nu sunt egale (σ2x1≠σ2
x2), atunci testul statistic are
forma:
cu gradele de libertate:
Ipotezele statistice vor fi, în aceste condiţii:
- pentru test bilateral;
H0: μ1 = μ2 (μ1- μ2 = D),
H1: μ1 ≠ μ2 (μ1- μ2 ≠ D),
- pentru test unilateral dreapta;
H0: μ1 = μ2 (μ1- μ2 = D),
H1: μ1 > μ2 (μ1- μ2 > D),
- pentru test unilateral stânga;
H0: μ1 = μ2 (μ1- μ2 = D),
H1: μ1 < μ2 (μ1- μ2 < D).
Testul statistic t va avea forma:
.
Regiunea critică este dată de:
- pentru test bilateral: t< –t sau t> t ;
- pentru test bilateral dreapta: t> t ;
- pentru test bilateral stânga: t< – t .
Trebuie să facem o remarcă asupra presupunerilor privind
normalitatea distribuţiei în colectivitatea generală: teoria statistică a
dezvoltat teste pentru verificarea normalităţii distribuţiilor, teste prin
care se verifică ipoteza nulă conform căreia legea de repartiţie este cea
normală N(μ, σ2), cu μ şi parametrii necunoscuţi ce urmează a fi
estimaţi pe baza datelor eşantionului considerat. Cele mai cunoscute teste
pentru verificarea normalităţii sunt testul χ2 de concordanţă cu legea
normală, testul Kolmogorov - Smirnov, testul de normalitate al lui
Lilliefors (vezi Trebici, V. (coord.) — Mică enciclopedie de statistică,
Editura Ştiinţifică şi Enciclopedică, Bucureşti, 1985).
Dacă ipoteza nulă nu este acceptată, vom putea apela la teste sta-
tistice neparametrice, în cadrul cărora nu se fac presu-puneri speciale
asupra formei distribuţiei.
2.2.7. Testarea ipotezei privind dispersia unei populaţii
Aşa cum am văzut în capitolul anterior, suma pătratelor diferenţelor
(care este, de fapt, egală cu sau pentru eşantioane
mici), împărţită la dispersia colectivităţii generale, are o distribuţie hi-
pătrat ( ) (dacă populaţia eşantionată este normal distribuită).
Aşadar, testul statistic utilizat în testarea ipotezei privind este:
,
care are o distribuţie cu (n-1) grade de libertate, când populaţia
eşantionată este normal distribuită, cu dispersia .
Valoarea lui pentru care aria de sub curbă (situată la dreapta ei)
este egală cu α, se noteaza . Nu putem folosi notaţia pentru a
reprezenta punctul la care aria din stânga este α, deoarece statistica
este întotdeauna mai mare decât zero. Dar reprezintă punctul pentru
care aria de sub curbă situată la stânga lui este α.
Spre exemplu:
Ipoteza nulă este:
cu ipoteze alternative:
- pentru test bilateral ,
- pentru test unilateral drept ,
- pentru test unilateral stâng .
Regiunea critică este dată de:
sau pentru test bilateral,
pentru test unilateral dreapta,
pentru test unilateral stânga.
Factorii ce identifică testul privind dispersia unei populaţii:
Obiectiv: caracterizarea unei colectivităţi;
Aspectul vital: variabilitatea;
Tipul datelor: cantitative.
2.2.8.Testarea ipotezei privind raportul dintre două dispersii
Am văzut că testarea ipotezei privind dispersia poate fi utilizată
pentru a trage concluzii privitoare la consistenţa unor procese economice
ori privitoare la riscurile asociate. În acest subcapitol vom compara două
dispersii, ceea ce ne va permite să comparăm consistenţa a două procese
sau riscurile a două portofolii de investiţii etc.
Statisticienii testează, adesea, egalitatea dintre două dispersii înainte
de a decide ce procedeu să folosească în verificarea ipotezei privind
diferenţa dintre două medii.
Vom compara dispersiile a două populaţii, determinând raportul
dintre ele. În consecinţă, parametrul ce ne interesează este . Dacă
dispersia eşantionului este (aşa cum am văzut) un estimator nedeplasat şi
consistent al dispersiei colectivităţii generale, să notăm că raportul
este estimator punctual al raportului de dispersii .
Distribuţia de eşantionare a raportului este o distribuţie F, dacă
eşantioanele au fost extrase independent din populaţii normal distribuite.
Valoarea lui F pentru care aria de sub curbă (situată la dreapta ei) este
α, se notează cu Fα (cu gradele de libertate gl1 şi gl2).
Din matematică ştim că raportul dintre două variabile hi-pătrat
independente împărţite la gradele lor de libertate are o distribuţie F.
Gradele de libertate ale distribuţiei F sunt identice cu gradele de libertate
ale celor două distribuţii hi-pătrat. Atunci:
,
cu şi grade de libertate.
În cele ce urmează, ipoteza nulă este întotdeauna specificată ca
egalitatea între două dispersii, adică sub forma egalităţii raportului cu
unitatea.
.
Ipoteza alternativă poate fi construită astfel: fie că raportul este diferit
de 1, fie mai mare, fie mai mic decât 1.
Tehnic, testul statistic este , dar în condiţiile ipotezei nule,
adică , testul statistic devine: , care urmează o distribuţie F
cu şi grade de libertate.
Regiunea critică este dată de:
sau pentru test bilateral,
pentru test unilateral dreapta,
pentru test unilateral stânga.
gl1 = n1 –1gl2 = n2 –1
2.3. Întrebări
1. Cum apar în statistică ipotezele?
2. Cum se stabileşte regiunea critică, Rc pentru
testul bilateral?
3. Cum se stabileşte regiunea critică, Rc pentru
testul unilateral ?
4. În testarea ipotezei privind media populaţiei
generale (μ) pentru eşantioane de volum mare , în
cazul testului bilateral, care sunt ipotezele ?
5. În testarea ipotezei privind diferenţa dintre
două medii pentru eşantioane de volum mare, care
sunt proprietăţile distribuţiei de eşantionare a
diferenţei ( ) ?
2.4.Probleme rezolvate
Exemplu 1 - Testarea ipotezei privind media populaţiei generale (μ) pentru eşantioane de volum mare
Presupunem că un fabricant de materiale de construcţii
comercializează ciment în pungi, care trebuie să conţină 12 kg/pungă.
Pentru a detecta eventuale abateri în ambele sensuri de la această
cantitate, selectează 100 de pungi, pentru care calculează kg, sx=
0,5 kg. Pentru α = 0,01 (grad de încredere (1- α)100=99%) să se
determine dacă se acceptă ipoteza nulă, aceea că greutatea pungilor este
în medie de 12 kg.
H0: μ = 12
H1: μ ≠ 12 ( μ < 12 sau μ > 12);
z α/2=z0,005=2,575
Regiunea critică: z< - z α/2 sau z> z α/2
Cum z = - 3,0 < - 2,575 rezultă că sunt suficiente evidenţe pentru a
respinge ipoteza nulă H0 şi a accepta ipoteza alternativă, aceea că
greutatea pungilor diferă, în medie, de 12 kg.
Exemplu 2 : Testarea ipotezei privind diferenţa dintre două medii pentru eşantioane de volum mare
Managerul unui restaurant doreşte să determine dacă o campanie de
publicitate a dus la creşterea veniturilor medii zilnice. Au fost
înregistrate veniturile pentru 50 de zile înainte de desfăşurarea campa-
niei. După desfăşurarea campaniei şi trecerea unei perioade de 20 de zile
pentru ca această campanie să îşi facă efectul, se înregistrează veniturile
pentru 30 de zile. Aceste două eşantioane vor permite testarea ipotezei
privind efectul campaniei asupra veniturilor. Din prelucrarea datelor
pentru cele două eşantioane, rezultă:
Înainte de campanie După campanie
n1=50 n2=30
mil. lei mil. lei
s1=2,15 mil. lei s2=2,38 mil. lei
Dorim să vedem dacă veniturile au crescut (μ2> μ1), aşadar, vom
efectua un test unilateral stânga:
H0: μ1 = μ2 (μ1 - μ2 = 0)
H1: μ1 < μ2 (μ1 - μ2 < 0)
Pentru un prag de semnificaţie α = 0,05 (probabilitate de garantare a
rezultatelor (1- α)100=95%, zα=z0,05=1,645. Să notăm că regiunile critice,
pentru cele mai comune valori ale lui α sunt date de (vezi tab.):
Regiumile critice pentru diferite valori
α Test
unilateral
stânga
Test
unilateral
dreapta
Test bilateral
0 1 2 3
0,10 z < - 1,28 z > 1,28 z < - 1,645 sau z >
1,645
0,05 z < - 1,645 z > 1,645 z < - 1,96 sau z >
1,96
0,01 z < - 2,33 z > 2,33 z < - 2,575 sau z >
2,575
Presupunând că cele două eşantioane (înainte şi după campanie)
sunt independente, vom calcula testul z:
Cum valoarea calculată nu este mai mică decât –z0,05= –1,645,
rezultă că nu ne aflăm în regiunea critică. Eşantioanele nu oferă aşadar,
suficiente dovezi (la α = 0,05) pentru ca managerul restaurantului să
concluzioneze că veniturile au crescut în urma campaniei de publicitate.
Exemplu 3 - testarea ipotezei privind media populaţiei generale (μ)
pentru eşantioane de volum redus
Conducerea unei companii apelează la 5 experţi pentru a previziona
profitul companiei în anul curent. Valorile previzionate sunt: 2,60; 3,32;
1,80; 3,43; 2,00 (miliarde lei, preţurile anului anterior).
Ştiind că profitul companiei în anul anterior a fost de 2,01 mld. lei,
sunt suficiente dovezi pentru a concluziona că media previziunilor
experţilor este semnificativ mai mare decât cifra anului anterior (pentru α
= 0,05)?
Media previziunilor experţilor este mld. lei, cu dispersia:
şi abaterea medie pătratică:
mld. lei.
Elementele procesului de testare a ipotezei statistice sunt:
H0: μ = 2,01,
H1: μ > 2,01 (test unilateral dreapta).
.
În scopul folosirii statisticii t, vom face presupunerea că populaţia
generală din care s-a extras eşantionul este normal distribuită.
Cum tα,n-1 = t0,05;4 = 2,132, regiunea critică este dată de t>tα,n-1. Cum
t=1,874< t0,05;4=2,132, nu putem trage concluzia că media profitului previ-
zionată de cei 5 experţi pentru anul curent este semnificativ mai mare decât
profitul anului trecut, de 2,01 mld. lei.
Exemplu 4 : testarea ipotezei privind proporţia populaţiei pentru
eşantioane mari
Managerul unui laţ de magazine consideră în urma unei analize
financiare că - pentru un nou produs - comercializarea este profitabilă,
dacă procentul cumpărătorilor care ar dori să achiziţioneze produsul este
mai mare de 12%. El selectează 400 de cumpărători potenţiali şi află că
52 dintre aceştia vor achiziţiona produsul. Pentru o probabilitate de 99%
sunt suficiente dovezi care să convingă managerul să comercializeze
produsul?
Ipotezele sunt:
,
(test unilateral dreapta).
Testul statistic este:
.
Cum şi , rezultă că nu ne aflăm în regiunea critică
(Rc), nu avem suficiente dovezi să respingem ipoteza nulă, deci procentul
nu este mai mare de 12%.
Exemplu 5 : testarea ipotezei privind diferenţa dintre două medii
pentru eşantioane de volum redus
Presupunem că dorim să testăm ipoteza conform căreia între două
mărci de autoturisme nu există diferenţe semni-ficative privind
cheltuielile de funcţionare. Pentru aceasta 20 de posesori de autoturisme
(8 posesori ai primei mărci şi 12 po-sesori ai celei de-a doua) sunt rugaţi
să ţină, cu acurateţe, evidenţa cheltuielilor de funcţionare pe o perioadă
de un an de zile. Pentru α=0,1 (probabilitate de garantare a rezultatelor
(1-α)100 = 90%) să se testeze această ipoteză, dacă rezultatele prelucrării
datelor în eşantioane sunt:
Marca 1 Marca 2
n1=8 n2=12
mil. lei mil. lei
sx1=0,485 mil. lei sx2=0,635 mil. lei
3379,0
2128
635,0112485,018s
222c
Ipotezele statistice sunt:
H0: μ1 = μ2 (μ1- μ2 = 0),
H1: μ1 ≠ μ2 (μ1- μ2 ≠ 0) [μ1> μ2 sau μ1< μ2].
Testul statistic este:
5943,1
2653,0
423,0
12
1
8
13379,0
0273,5696,5t
Cum tα/2,n1+n2-2= t0,05;18 = 1,734, se observă că t < tα/2,n1+n2-2, aşadar nu ne
aflăm în regiunea critică.
Rezultă, deci, că nu există suficiente dovezi pentru a concluziona că
sunt diferenţe semnificative între cheltuielile de funcţionare ale celor
două mărci de autoturisme.
Exemplu 6 : testarea ipotezei privind dispersia unei populaţii
Pentru următoarele date privind cererea unui produs (selectate
dintr-o colectivitate normal distribuită), să se testeze (pentru o
probabilitate de 95%), ipotezele:
,
.
Datele sunt: 85, 59, 66, 81, 35, 57, 55, 63, 63, 66.
În eşantion: , .
.
Testul statistic este:
.
Cum , şi vom respinge ipoteza nulă şi
vom accepta ipoteza alternativă, .
Exemplu 7 : testarea ipotezei privind raportul dintre două
dispersii
Un analist doreşte să compare împrăştierea veniturilor pe familie,
pentru colectivitatea turiştilor ce preferă turismul litoral, cu împrăştierea
veniturilor, pentru colectivitatea turiştilor ce preferă turismul balnear.
Presupunând că distribuţiile veniturilor (mil. lei), în cele două colectivităţi
sunt aproximativ normale au fost selectate două eşantioane, de volum 60 şi
50 de persoane, iar abaterile medii pătratice (mil. lei) sunt: şi
. Se utilizează o probabilitate de garantare a rezultatelor de 95%.
Ipotezele statistice sunt:
,
.
Testul statistic are valoarea:
.
Regiunea critică (pentru ) este dată de:
.
Cum ipoteza nulă se respinge (aceea că raportul dintre
dispersii este 1) şi se acceptă ipoteza alternativă. Acest lucru înseamnă că
se acceptă ipoteza conform căreia împrăştierea veniturilor pentru turiştii
din zona litorală este semnificativ mai mare decât cea a turiştilor din
zona balneară.
În general - dacă la numărător se trece dispersia cea mai mare - testul
F este un test unilateral dreapta.
2.5. BIBLIOGRAFIE
1. Andrei, T. - Statistică şi econometrie Editura Economică, Bucureşti, 2004.
2. Bourbonnais R , Econometrie , Ed. Dunod , Paris , 1998
3. Dormont B , Introduction a l’econometrie , Ed. Montchrestien , Paris , 1999
4. Florea I.(coordonator), Culegere de modele econometrice, Ed. Muntele Sion,2000.
5. Iacob, A.I., Tănăsoiu, O. Econometrie, Studii de caz, Ed. ASE, Bucureşti, 2005.
6. Pecican, E.... Econometrie pentru economişti, Ed. Economică, Bucureşti, 2004.
Capitolul 3
3.1.OBIECTIVE: introducerea studenţilor în sfera şi noţiunile
specifice
modelului de regresie,
3.2.PREZENTARE SINTETICĂ:
3.2.1 Specificarea unui model de regresie
Un studiu econometric începe cu o serie de presupuneri teoretice
despre anumite aspecte ale economiei.
Investigaţiile empirice furnizează estimatori pentru parametri
necunoscuţi ai modelului.
Keynes: C=f(x)
Suma cheltuită pentru consum depinde de:
mărimea venitului pe de o parte
alte obiective în funcţie de circumstanţe (de exemplu investiţiile)
alte nevoi subiective
Legea psihologică fundamentală: „o persoană este dispusă de
regulă şi în medie să îşi crească consumul pe măsura creşterii venitului
dar nu în aceeaşi măsură”
un nivel absolut mai mare al venitului va tinde de regulă să
mărească diferenţa între venit şi consum:
Presupunerea cea mai simplă: C=+X, 0<<1 este o relaţie
deterministă neadecvată.
În model trebuie inclus şi factorul aleator:
C=f(X,)
Modelul cel mai simplu:
C=+X+
Modelul general ce trebuie estimat are forma:
yi = + xi + i, i=1,n
unde: - xi este nestochastic (situaţie experimentală)
- analistul alege valorile regresiei xi şi apoi observă yi
Valoarea parametrului arată modificarea proporţională a
variabilei efect (Y) la modificarea cu o unitate a variabilei cauză (X).
Valoarea parametrului arată punctul în care linia interceptează
(taie) axa OY
i reprezintă componenta reziduală (eroarea aleatoare) pentru
fiecare unitate, adică partea din valoarea variabilei Y care nu poate fi
măsurată prin relaţia sistematică existentă cu variabila X.
Modelul liniar unifactorial y=1+0,5x
Modelul probabilistic conţine:
a) componenta deterministică, adică partea din valoarea lui Yi care
poate fi determinată cunoscând valoarea Xi ( + Xi = Yi')
b) componenta reziduală care nu poate fi determinată cunoscând
valoarea individuală Xi (i)
Atunci,
Yi = + Xi + i
Yi = componenta predictibilă (detrministică) + eroarea aleatoare
Yi = Yi' + i
Dacă datele disponibile provin dintr-un eşantion avem la dispoziţie n
perechi de observaţii (x1, y1), (x2,y2), ... (xn, yn), pe care le vom folosi
pentru estimarea parametrilor ecuaţiei de regresie liniară simplă, şi .
Modelul de regresie liniară în eşantion este yi = a + bxi + ei
cu componenta predictibilă:
a şi b sunt estimatorii punctului de intercepţie () şi pantei liniei drepte
(), obţinuţi pe eşantion
ei este valoarea reziduală (pentru unitatea i) în eşantion:
ei = yi – (a + bxi)
Abaterea ei de la linia de regresie
Ipotezele modelului de regresie liniară
Pentru a obţine proprietăţile dorite ale estimatorilor regresiei, se fac, de
obicei, cinci presupuneri (ipoteze) standard pentru modelul din populaţia
generală:
Ipotezele ce trebuie verificate:
1. Forma funcţională: yi = + xi + i, i=1,n
2. Normalitatea erorilor: i N(0,2)
3. Media zero a erorilor: μ(i)=0 i
4. Homoscedasticitatea: σ2i)=2 constantă i
5. Non autocorelarea erorilor: Cov(i,j)=0 ij
6. Necorelarea între regresor şi erori: Cov(xi,j)=0 i şi j
Ipoteza 1: Forma funcţională
a. y=a+bx
a. y=a+bz, z=ex
b. y=a+br, r=1/x
c. y=a+bq, q=ln(x)
-400
-200
0
200
400
600
800
1000
-1 0.003 0.008 0.013 0.018 0.023 0.028 0.033 0.038 0.043 0.048 0.053 0.058 0.063 0.068X
Y
xba
1 xbea
bxa
xba ln
Fig. - Modele ce pot fi linearizate
Sau y=Ax ln(y)=+ln(x)
Forma generală: f(yi)= +g(xi)+i
Contra exemplu: nu poate fi transformat în model liniar.
Erorile
Ipoteza de linearitate a modelului include şi aditivitatea erorilor.
Forma modelului:
y = + x + ,
De exemplu modelul se transformă prin logaritmare în
modelul liniar: ln(y)=ln(A)+ln(x)+ .
Însă modelul nu mai poate fi transformat în model liniar.
Dacă ipoteza de linearitate este verificată, variabila dependentă
observată este suma a două elemente:
- un termen nestochastic: +x
- o variabilă aleatoare
Ipoteza 2: normalitatea erorilor
Se presupune că variabila aleatoare i este normal distribuită :
Distribuţia de probabilitate pentru i
Ipoteza 3: media erorilor este zero: μ( i)=0 i
Este naturală atâta timp cât este văzută ca suma efectelor
individuale, cu semne diferite.
Dacă media erorilor este diferită de zero, ea poate fi considerată ca
o parte sistematică a regresiei:
μ()= + x + = (+) + x + (-)
media erorilor este acum nulă.
Această presupunere indică faptul că media valorilor Y, condiţionat
de X, (Y/X = Xi) = + Xi, adică nu există variabile omise asociate cu
regresia în populaţie.
Ipoteza 4 (de homoscedasticitate): Var( i)= 2 constantă i
Dispersia reziduurilor în populaţie este constantă peste toate
valorile Xi
Functia de consum
0
200
400
600
800
1000
1200
200 300 400 500 600 700 800 900 1000
venit
con
sum
a) constantă b) constantă
Dispersia reziduurilor a) constantă; b) constantă
Discuţie:
Profiturile firmelor mari vor varia mult mai mult ca profiturile
firmelor mici.
variaţia cheltuielilor gospodăriilor în funcţie de venit sau de
mărimea lor poate fi diferită.
Ipoteza 5: Non autocorelarea erorilor: μ( ij)=0 i j
Această ipoteză nu implică faptul că yi şi yj sunt necorelate, ci
faptul că deviaţiile observaţiilor de la valorile lor aşteptate sunt
necorelate.
Variabilele aleatoare i sunt statistic independente una de alta, adică
= 0, pentru i j. Acest lucru înseamnă că eroarea asociată cu o
valoare a variabilei Y nu are nici un efect asupra erorilor asociate cu alte
valori ale lui Y;
nu există deci corelaţie între reziduuri;
OBSERVAŢIE: De asemenea este convenabil a considera că
erorile sunt independente şi normal distribuite cu medie zero şi
variaţie constantă pentru obţinerea de rezultate statistice exacte.
Estimarea parametrilor modelului de regresie clasic
Parametrii necunoscuţi ai reacţiei stochastice sunt cei ce trebuie
estimaţi:
yi = + xi + i, i=1,n
Modelul estimat va fi scris:
Eroarea asociată unui punct i este:
i = yi - - xi
Pentru orice valori estimate a şi b, erorile estimate vor fi:
ei = yi - a - bxi
Pentru estimarea parametrilor şi pe baza datelor observate,
un criteriu natural este cel de maximizare a potrivirii modelului cu
datele observate, deci de minimizare a erorilor observate:
Condiţiile de ordin 1 de minimizare a funcţiei sunt:
Rămâne de verificat dacă este verificată condiţia de ordin 2, adică
soluţia găsită este un punct de minim. Matricea derivatelor parţiale de
ordin doi trebuie să fie pozitiv definită:
Deci matricea este pozitiv definită.
3.2.2 Modelul de regresie clasic
Evaluarea validităţii modelului de regresie clasic
Estimatorii a (intercepţia) şi b (panta) ai parametrilor şi sunt daţi de :
Se observă că obţinem din ecuaţia:
împărţind prin n :
şi, înlocuind în ecuaţia :
pe xi cu deviaţia obţinem:
Cum primul termen situat în partea stângă a ecuaţiei este egal cu zero, rezultă:
şi în final:
Estimatorul a (intercepţia) poate lua valori negative sau pozitive.
Estimatorul b (panta liniei drepte) numit şi coeficient de regresie
are întotdeauna semnul indicatorului sxy,
sxy este covarianţa între x şi y.
Linii de regresie cu a) pantă pozitivă b) pantă negativă c) pantă egală cu zero
În evaluarea validităţii modelului se verifică dacă variaţia lui x este
un bun predictor pentru variaţia lui y.
Doi indicatori alternativi pot fi utilizaţi pentru a măsura calitatea
ajustării pentru regresia statistică :
Abaterea medie pătratică (eroarea standard) a reziduurilor
(măsură absolută a calităţii ajustării pe baza regresiei în eşantion)
Coeficientul de determinaţie (indicator relativ).
Este necesar să analizăm componentele indicatorilor de variaţie a lui y.
În aplicarea metodei regresiei, sunt asociate variabilei dependente y
două medii:
media totală ( ) şi
media condiţionată ( ).
variaţia (abaterea) totală ( ) poate fi împărţită în :
abaterea neexplicată de model ( ) şi
abaterea explicată ( ), astfel:
Abaterea ( ) nu poate fi explicată de linia de regresie, deoarece
atunci când xi se modifică, ambele valori yi şi se modifică;
abaterea ( ) poate fi explicată, deoarece când xi se schimbă,
rămâne constant
Abaterea valorilor individuale yi de la medie
Prin ridicarea la pătrat a fiecărei abateri şi însumarea pentru toate observaţiile, obţinem:
Putem nota:
= varianţa totală, suma pătratelor abaterilor totale.
= varianţa neexplicată, suma pătratelor erorilor.
= varianţa explicată, suma pătratelor abaterilor dato-
rate regresiei.
Vom avea, atunci:
se mai notează:
Variaţia variabilei dependente y este definită în termeni de deviaţie de la valoarea ei medie:
Deci: SST = SSR + SSE
Variaţia totală = Variaţia de regresie + Variaţia reziduală
Putem calcula şi discuta cei doi indicatori ai calităţii ajustării astfel :
tabelul ANOVA este pentru testarea calităţii ajustăriiTabelul ANOVA
Sursa
variaţiei
Suma pătratelor Grade de libertate
Media pătratelor (dispersia corectată)
0 1 2 3Datorată regresiei
Reziduală
k
n – k – 1
Totală n – 1
Unde:
k reprezintă numărul variabilelor independente luate în consideraţie
(pentru regresia liniară simplă, k = 1).
Dacă se împart varianţele la (n – 1), avem:
relaţie care poate fi scrisă ca
deoarece:
abaterea medie pătratică a erorilor în eşantion este:
unde este un estimator nedeplasat al dispersiei reziduurilor . o
mărime relativă a calităţii ajustării, prin exprimarea ponderilor
dispersiilor (explicată şi reziduală) în dispersia totală este:
Coeficientul de determinaţie este:
Raportul reprezintă proporţia variaţiei totală care este explicată de linia de regresie.
Sau se poate scrie
Coeficientul de determinare ca proporţia variaţiei explicată de
modelul de regresie în variaţia totală:
R2 = 0 dacă b=0, , deci dacă ecuaţia de regresie este o dreaptă
orizontală. În acest caz variabila x nu are putere explicativă.
R2 = 1 dacă punctele determinate de observaţiile făcute asupra
variabilelor x şi y se află toate pe o dreaptă, caz în care erorile vor fi
zero.
În cazul în care toate valorile lui y se află pe o dreaptă verticală, R2
nu are nici o semnificaţie şi nu poate fi calculat.
Aşadar, R2 reprezintă măsura în care variabila independentă, X,
explică variaţia variabilei rezultative Y.
Coeficientul de determinaţie nu este ajustat cu gradele de libertate.
Dacă utilizăm estimatorii nedeplasaţi şi , obţinem valoarea ajustată
a coeficientului de determinaţie .
Valoarea lui este întotdeauna mai mică decât valoarea lui R2.
Observaţii:
1. R2 poate fi interpretat ca procentul variaţiei lui y explicată de
variaţia veriabilei x doar pentru cazul în care metoda celor mai mici
pătrate este aplicată modelului liniar de regresie.
2. Pentru orice model coeficientul R2 poate fi calculat ca:
unde
3.3. Probleme rezolvate
Exemplu : Modelul de regresie clasic I. Estimarea parametrilor
Ecuaţiile normale pentru exemplul din primul paragraf privind
consumul şi veniturile sunt:
Deci:
C = -67,58 + 0,98 V
Interpretare:
1. La o variaţie a venitului cu o unitate monetară, consumul va
varia în aceeaşi direcţie cu 0,98 unităţi monetare.
2. Termenul liber se interpretează în general ca nivelul variabilei
dependente pentru cazul în care variabila independentă este zero. În
cazul exemplificat, valoarea termenului liber este negativă, iar consumul
nu poate fi negativ, deci singura interpretare ce poate fi dată este că va
avea loc a consumul de la un nivel al venitului de: 67,58/0,98=69.
II. Determinarea coeficientului de determinare
Pentru exemplul anterior se mai cunosc:
Scc=64972,12; Sxx=67192,44; Sxc=65799,34
SST = Scc = 64972,12
SSR = b2Sxx = 0,979267*67192,44 = 64435,12
SSE = SST-SSR = 64972,12 - 64435,12 = 537
Deci: R2 = SSR/SST = 64435,13/64972,12 = 0,99173
Interpretare:
1. 99,17% din variaţia consumului este datorată variaţiei venitului.
2. 99,17% din variaţia consumului este explicată de modelul de
regresie.
III. Testarea coeficientului de determinare
Tabelul ANOVA
Sursa
variaţiei
Măsura
variaţiei
Numărul
gradelor de
libertate
Suma
pătratelor
Variaţia de
regresie
64435,12 1 64435,12
Variaţia
reziduală
537 8 67,124
Variaţia
totală
64972,12 9 7219,12
Fcalc = 64435,12/67,124 = 959,94
F0,95;1,8 = 5,32
Fcalc F0,95;1,8 deci R2 este reprezentativ.
Bibliografie generală
1. Andrei, T. - Statistică şi econometrie Editura
Economică, Bucureşti, 2004.
2. Bourbonnais R , Econometrie , Ed. Dunod , Paris ,
1998
3. Dormont B , Introduction a l’econometrie , Ed.
Montchrestien , Paris , 1999
4. Florea I.(coordonator), Culegere de modele
econometrice, Ed. Muntele Sion,2000.
5. Green W H , Econometric Analysis , Ed. Pretince
Hall , Londra , 1997
6. Giraud R , Chaix N , Econometrie , Ed. P.U.F. ,
Paris , 1989
7. Gourieroux C , Monfort J , Statistique et modeles
econometriques , Ed. Economica , Paris , 1989
8. Iacob, A.I., Tănăsoiu, O. - Modele econometrice
Volumul I, Ed. II rev., Ed. ASE, Bucureşti, 2005.
9. Iacob, A.I., Tănăsoiu, O. Econometrie, Studii de
caz, Ed. ASE, Bucureşti, 2005.
10. Pecican E., Econometrie, Ed. Intercredo, Deva,
1997.
11. Pecican, E.... Econometrie pentru economişti, Ed.
Economică, Bucureşti, 2004.