econometrie, probleme rezolvate si propuse.pdf
TRANSCRIPT
CAP. I. TESTARI DE IPOTEZE
Problema 1
Patronul unei firme de prestări servicii doreşte să fluidizeze servirea clienţilor şi, până în prezent,
el presupunea că timpul de servire a clienţilor este normal distribuit, de medie 130 de minute şi abatere
medie pătratică 15 minute. El este de acord cu abaterea medie pătratică, dar se îndoieşte de faptul că
durata medie de servire a unui client este 130 minute. Pentru a studia această problemă, înregistrează
timpii de servire pentru 100 de clienţi. Timpul mediu obţinut în eşantion este 120 minute. Poate
patronul să concluzioneze, la o probabilitate de 99%, că timpul mediu este diferit de 130 minute.
În această problemă, parametrul ce ne interesează este timpul mediu în colectivitatea generală şi
ipotezele de testat sunt:
.130:
,130:
1
0
H
H
Trebuie, aşadar, să răspundem la întrebarea: “Este media de 120 minute suficient de diferită de
valoarea 130, pentru a ne permite să concluzionăm că media populaţiei nu este egală cu 130 minute?”
Vom putea să respingem ipoteza nulă dacă media eşantionului este suficient de diferită, relativ la
valoarea 130. Dar, interpretările nu sunt evidente. Dacă în eşantion obţineam media 1300 sau 1,3
atunci diferenţele erau clare. De asemenea, dacă media eşantionului era 130,1 atunci egalitatea era şi
ea evidentă.
Distribuţia de eşantionare a mediei x este normală sau aproximativ normală, cu media şi
abaterea medie pătratică ns / . Ca rezultat, putem standardiza x şi calcula
5,1
130
100/15
130
xxz .
Regiunea de respingere (critică) o putem specifica astfel:
Se respinge H0, dacă 005.0zz sau 005.0zz .
În exemplul nostru, 575,2005.02/ zz
67,65,1
130120z
.
Cum 005.0575,267,6 zz , rezultă că sunt suficiente dovezi pentru a respinge ipoteza
nulă H0 şi a accepta ipoteza alternativă, aceea că timpul mediu de servire a unui client este diferit de
130 minute.
Problema 2
Conducerea unei companii apelează la 5 experţi pentru a previziona profitul companiei în anul curent.
Valorile previzionate sunt: 2,60; 3,32; 1,80; 3,43; 2,00 (miliarde lei, preţurile anului anterior).
Ştiind că profitul companiei în anul anterior a fost de 2,01 mld. lei, sunt suficiente dovezi pentru a
concluziona că media previziunilor experţilor este semnificativ mai mare decât cifra anului anterior
(pentru α = 0,05)?
Media previziunilor experţilor este 63,2x mld. lei, cu dispersia:
5507,0
4
203,2
1
2
2
n
xxs
i
x şi abaterea medie pătratică: 74,02 xx ss mld. lei.
Elementele procesului de testare a ipotezei statistice sunt:
H0: μ = 2,01,
H1: μ > 2,01 (test unilateral dreapta).
874,15/74,0
01,263,2
ns
x
s
xt
xx
.
În scopul folosirii statisticii t, vom face presupunerea că populaţia generală din care s-a extras
eşantionul este normal distribuită. Cum tα,n-1 = t0,05;4 = 2,132, regiunea critică este dată de t>tα,n-1. Cum
t=1,874< t0,05;4=2,132, nu putem trage concluzia că media profitului previzionată de cei 5 experţi pentru
anul curent este semnificativ mai mare decât profitul anului trecut, de 2,01 mld. lei.
Problema 3
Presupunem că pentru 100 de observaţii asupra unei variabile aleatoare X s-a obţinut media 110x şi
abaterea standard 60.
a) Testaţi ipoteza nulă că µ=100, cu alternativa µ>100, utilizând = 0,05.
b) Testaţi ipoteza nulă că µ = 100, cu alternativa µ 100, utilizând = 0,05. Comparaţi rezultatele
celor două teste.
Rezolvare:
a) n = 100;
110x ;
sx = 60;
= 0,05.
Considerăm:
H0: µ = µ0=100,
H1: µ > µ0=100.
Se aplică testul z unilateral dreapta:
1
/
0 zns
xP
x
Regiunea critică va fi dată de:
n
szx x 0
645,105,0 z
870,109645,1100
601000
n
sz x
Cum 110x > 109,870, suntem în regiunea critică deci se respinge H0.
b) H0: µ = 100;
H1: µ 100.
Se aplică testul z bilateral.
1
/ 2
0
2
zns
xzP
x
;
96,12
05,0 z .
Limitele intervalului de încredere sunt:
n
szx
n
sz xx
2
0
2
0 ;
76,1196,1100
60
2
zn
sx ;
.76,11124,88
;76,1110076,11100
x
x
Întrucât ne aflăm în intervalul de încredere, se acceptă ipoteza H0.
Problema 4
Un producător de detergenţi industriali preambalează produsul la cutii ce trebuie să aibă, în medie, 12 kg.
El doreşte să verifice corectitudinea ambalării şi hotărăşte să organizeze un sondaj de n=100 observaţii
(cutii), pentru care obţine greutatea medie 85,11x kg, cu o abatere medie pătratică sx=0,5 kg. Să se
testeze ipoteza conform căreia în medie cutiile au câte 12 kg, cu alternativa că greutatea este diferită
de 12 kg. (<12 kg sau >12 kg), pentru o probabilitate de 95%.
Rezolvare:
H0: 120 kg;
H1: 12 kg ( 12 kg sau 12 kg).
Testul statistic: 0,310/5,0
1285,11
/
00
ns
x
s
xz
xx
.
Nivelul de încredere: 1 - = 0,95.
Pragul de semnificaţie: = 0,05, din care rezultă /2 = 0,025 (deoarece avem test bilateral).
96,1025,02/ zz .
Regiunea de respingere: 96,12/ z sau 96,12/ z .
Cum 2/zzcalc , rezultă că ipoteza nulă este respinsă şi se acceptă ipoteza alternativă, aceea că în
cutii se află o cantitate de detergenţi semnificativ diferită de 12 kg.
Problema 5
Într-o cercetare prin sondaj aleator privitoare la transportul în comun, au fost selectate 100 de persoane
pentru care s-a calculat valoarea medie a biletelor cumpărate într-o lună pentru transport în comun
urban de 110 u.m, cu o abatere medie pătratică de 60 u.m.
a) Testaţi ipoteza nulă, aceea conform căreia valoarea medie a biletelor cumpărate într-o lună, în
colectivitatea generală, este 1000 u.m, cu ipoteza alternativă 1000 u.m, utilizând un
nivel de încredere 1 - = 0,95 (probabilitatea (1-)100 = 95%).
b) Testaţi ipoteza nulă 1000 u.m, cu ipoteza alternativă 1000 u.m, cu aceeaşi
probabilitate. Interpretaţi rezultatele.
Rezolvare:
a) H0: 1000 u.m
H1: 1000 u.m.
Testul statistic: 67,110/60
100110
/
00
ns
x
s
xz
xx
Nivelul de încredere: 1 - = 0,95.
Pragul de semnificaţie: = 0,05 (test unilateral dreapta)
645,105,0 zz
Cum zzcalc , rezultă că ipoteza nulă este respinsă ( 1000 u.m.) şi se acceptă ipoteza
alternativă ( 1000 u.m.).
b) H0: 1000 u.m.;
H1: 1000 u.m.
Test statistic: 67,110/60
100110
/
00
ns
x
s
xz
xx
.
Nivelul de încredere 1 - = 0,95.
Pragul de semnificaţie = 0,05, din care rezultă /2 = 0,025 (deoarece avem test bilateral).
96,1025,02/ zz
Cum 2/zzcalc , (1,67 < 1,96), rezultă că se acceptă ipoteza nulă (valoarea medie a biletelor
cumpărate nu este semnificativ diferită de 100 u.m.).
CAP. 2. METODA ANALIZEI DISPERSIONALE ANOVA
Problema 1.
Un producător de sucuri de mere a realizat un nou produs: concentrat lichid. Acest nou produs are
următoarele avantaje faţă de vechiul produs: este mai practic de utilizat, are o calitate cel puţin la fel
de bună şi cost semnificativ mai mic.
Pentru a decide pe care dintre cele trei avantaje să-şi axeze strategia de marketing, directorul
acestui departament a realizat un studiu în trei oraşe. În oraşul A campania de publicitate s-a axat pe
uşurinţa de utilizare a noului produs. În oraşul B campania de publicitate s-a axat pe calitatea noului
produs. În oraşul C campania de publicitate s-a axat pe preţul mai mic al noului produs. În toate cele 3
oraşe s-a înregistrat numărul de bucăţi vândute în 20 de săptămâni.
Directorul de marketing ar dori să ştie dacă există diferenţe semnificative între numărul de bucăţi
vândute, în medie pe săptămână, în cele trei oraşe după terminarea campaniei de publicitate.
In urma prelucrarii datelor si a aplicarii metodei analizei dispersionale, s-au obtinut urmatoarele rezultate:
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 57512.23 2 28756.12 3.233 0.047 3.159
Within Groups 506983.5 57 8894.447
Total 564495.7 59
Identificarea metodei: Datele sunt cantitative şi problema revine la a compara mediile celor trei
populaţii. Ipotezele ce trebuie testate sunt: H0: μ1 = μ2 = μ3 cu alternativa H1: cel puţin două medii sunt
diferite.
MSB=28756,12
SSW=506983,5
Completarea coloanei Df:
r-1=3-1=2
n-r=60-3=57
n-1=60-1=59
Completarea coloanei SS:
Stim ca MSB=SSB/(r-1), de unde derulta ca: SSB=MSB * (r-1) =28756,12 * 2 = 57512,23
SST=SSB+SSW=57512,23 + 506983,5 = 564495,7
Completarea coloanei MS:
MSW=SSW/(n-r) = 506983,5 / 57 = 8894,447
Fcalc= MSB/MSW=28756,12 / 8894,447 = 3,233
Cum Fcalc (3,233) >Fcrit (3,159), rezulta ca se respinge H0, se accepta H1, deci exista diferente semnificative
intre vanzarile medii din cele trei orase, asadar strategia de marketing aleasa a influentat semnificativ variatia
vanzarilor.
CAP. 3. REGRESIA LINIARA
Problema 1.
O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi
distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-
o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la
valoarea prejudiciului (mii Euro) şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri (zeci km). In
urma prelucrarii datelor cu programul EXCEL, s-au obtinut urmatoarele rezultate:
Regression Statistics
Multiple R R = 0,9609 raportul de corelaţie
R Square R2 = 0,9234 coeficientul de determinaţie
Adjusted R Square 0,9175
Standard Error Se= MSE = 2,3163 abaterea standard a erorilor
Observations n = 15 volumul eşantionului
Coefficients
Standard
Error t Stat P-value Lower 95% Upper 95%
Intercept a = 10,2779
sa =
1,4202 tcalc(α) = 7,2365 0,000007 Lim_inf(α) = 7,2096 Lim_sup(α) = 13,3462
Distanta
(zeci km) b = 4,9193
sb =
0,3927 tcalc(β) = 12,5254 0,000000012 Lim_inf(β) = 4,0708 Lim_sup(β) = 5,7678
a) Determinaţi modelul de regresie liniara in esantion si interpretaţi valorile coeficienţilor modelului;
b) Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie (α’) de 5% (pentru o probabilitate
de 95%, pentru care Fcritic=4,67);
c) Testati ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de semnificaţie de
5% (tcritic=2,16);
d) Determinaţi intervalele de încredere 95% pentru parametrii modelului;
e) Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;
f) Măsuraţi intensitatea legăturii dintre cele două variabile folosind raportul de corelaţie;
g) Estimaţi nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5 zeci de
kilometri.
REZOLVARE
a) Variabilele sunt:
ANOVA
df SS MS F Significance F
Regression k = 1 SSR = 841,7664 MSR = 841,7664 Fcalc = 156,8861 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = 5,3654
Total n-1 = 14 SST = 911,5173
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată în zeci
de km
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila endogenă)
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, XfY , o funcţie liniară
xxf . Modelul liniar de regresie este XY .
Valorile coeficientilor sunt:
2779,10a
9193,4b
(se preiau don coloana „Coefficients” a ultimului tabel), sau cu functiile Excel:
intercept(valorile lui Y; valorile lui X), ce returneaza valoarea lui „a”.
slope(valorile lui Y; valorile lui X) ce returneaza valoarea lui „b”.
prin urmare dreapta de regresie este de ecuaţie xxbay 9193,42779,10ˆ ,
ecuaţia de regresie liniară în eşantion este 15,1,9193,42779,10 iexexbay iiiii ,
iar valorile ajustate ale observaţiilor 15,1, iyi prin regresie sunt
15,1,9193,42779,10ˆ ixxbay iii .
Interpretarea valorilor coeficienţilor
b arată că valoarea prejudiciului creşte cu 4,9193 mii euro dacă distanţa dintre incediu şi staţia de pompieri
creşte cu o unitate, adică 10 km. In plus, pt. ca b>0, rezulta ca legatura dintre cele odua variabile este directa.
Daca b ar fi fost negativ (b<0), legatura era inversa.
a arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă staţia de
pompieri.
b) Validitatea modelului de regresie
Pentru testarea validităţii modelului se formulează cele două ipoteze:
H0: modelul de regresie nu este valid statistic,
cu alternativa
H1: modelul de regresie este valid statistic.
Statistica utilizată pentru a decide care dintre ipoteze se acceptă este Statistica F.
Pentru calculul statisticii calcF folosim tabelul ANOVA:
ANOVA
df SS MS F Significance F
Regression k = 1 SSR = 841,7664 MSR = 841,7664 Fcalc = 156,8861 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = 5,3654
Total n-1 = 14 SST = 911,5173
Regula de decizie: dacă 1,;' knkcriticcalc FFF , adică Fcalc se găseşte în regiunea critică, atunci
respingem H0 şi acceptăm H1, adică modelul de regresie este valid statistic.
Cum criticcalc FF 667,489,156 sau Significance F < 0.05 (Fcritic se determina cu functia Excel
FINV(0.05;1;13)) se respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid statistic (modelul
este semnificativ statistic sau modelul este corect specificat).
Probabilitatea maxima pt. care putem sustine ca modelul este valid se determina cu relatia: 100-
SignificanceF%=99,999….>95%.
c) Testarea semnificatiei parametrului α al modelului linear de regresie
XY :
H0: α=0 (parametrul α nu este semnificativ statistic)
H1: α≠0 (parametrul α este semnificativ statistic, adică semnificativ diferit de 0)
aa
calcs
a
s
at
0, deci 237,7calct , cu sa=1,42. (tcalc se gaseste in coloana „t Stat”
din tabelul nr. 3. obtinut in Excel.
Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul α este semnificativ statistic
(tcritic =2,16 este dat in textul problemei).
In plus, cum Pvalue(a)<0.05 atunci respingem H0, acceptam H1 şi concluzionăm ca α este semnificativ statistic. Probabilitatea maxima pt. care putem sustine ca α este semnificativ statistic se determina cu relatia: 100-p-
value(α )%=99,999….>95%.
Testarea semnificaţiei parametrului β al modelului linear de regresie
XY :
H0: β=0 (parametrul nu este semnificativ statistic)
H1: β≠0 (parametrul β este semnificativ statistic, adică semnificativ diferit de 0)
bb
calcs
b
s
bt
0, deci 56,12
39,0
9193,4
b
calcs
bt , cu sb=0,39. (tcalc se gaseste in
coloana „t Stat” din tabelul nr. 3. obtinut in Excel.
Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul β este semnificativ statistic
(tcritic =2,16 este dat in textul problemei).
In plus, cum Pvalue(b)<0.05, atunci respingem H0, acceptam H1 şi concluzionăm ca β este
semnificativ statistic. Probabilitatea maxima pt. care putem sustine ca β este semnificativ statistic se determina cu relatia: 100-p-
value(β )%=99,999….>95%.
d) Intervalul de încredere garantata cu probabilitatea: (1-α’)·100% = 95% pentru
parametrul α al modelului linear de regresie XY , determinat pe baza
eşantionului observat, este:
uiparametrul a 100%)'-(1 incredere de
uiintervalul a superioara limita
1;2
'
uiparametrul a 100%)α'-(1 incredere de
uiintervalul a inferioara limita
1;2
'
a
kna
knstasta
,
unde sa este eroarea standard a estimatorului a.
În cazul nostru, a=10,2779, sa=1,42, α’=0,05, 16,213;
2
05,01;
2
'
ttkn
, deci intervalul
[7,2; 13,3] acoperă valoarea adevărată a parametrului α cu probabilitatea 0,95, adică intervalul
de valori [7,2; 13,3] mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se
produce chiar lângă staţia de pompieri.
Cum intervalul de încredere 95% determinat pentru parametrul α nu acoperă valoarea
0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru α ar fi acoperit, adică ar fi conţinut, şi
valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este
semnificativ diferit de 0).
Intervalul de încredere (1-α’)·100% = 95% pentru parametrul β al modelului linear de
regresie XY , determinat pe baza eşantionului observat, este:
uiparametrul a 100%)'-(1 incredere de
uiintervalul a superioara limita
1;2
'
β uiparametrul a 100%)α'-(1 incredere de
uiintervalul a inferioara limita
1;2
'
b
knb
knstbstb
,
unde sb este eroarea standard a estimatorului b.
În cazul nostru, b=4,9193, sb=0,39, α’=0,05, 16,213;
2
05,01;
2
'
ttkn
, deci intervalul [4,07; 5,76]
acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa devine mai
mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul [4,07; 5,76] mii Eur,
cu o probabilitate de 0,95.
Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea
0, atunci putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic. Dacă însă, intervalul de încredere pentru β ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
e) Coeficientul de determinaţie este 9235,02 R sau 9235,096098,0 22 R şi arată că
92,35% (adică R2
%) din variaţia totală a prejudiciului cauzat de incendii este explicată de
variaţia variabilei independente (distanţa între locul incendiului şi staţia de pompieri).
Indicatorul se gaseste in primul tabel Excel, sub denumirea de „R Square”.
f). Intensitatea legăturii dintre cele două variabile folosind raportul de corelaţie.
96097772,0R
Indicatorul ia valori in intervalul [0;1] si se gaseste in primul tabel Excel sub denumirea de „Multiple R”.
Se observa ca raportul de corelatie este egal cu coeficientul de corelatie liniara Pearson, asadar legatura
dintre cele doua variabile este liniara, iar legatura este puternica deoarece R are o valoare apropiata de 1.
In plus, in cazul legaturii liniare, este adevarata relatia:
xyrR
Unde rxy este coeficientul de corelatie liniara Pearson.
g). În modelul de regresie liniară 15,1,9193,42779,10ˆ ixxbay iii înlocuim pe xi cu valoarea
de 6,5, obţinându-se valoarea corespunzătoare a lui Y:
25,425,69193,42779,10ˆ iy zeci mii euro.