econometrie, probleme rezolvate si propuse.pdf

10
CAP. I. TESTARI DE IPOTEZE Problema 1 Patronul unei firme de prestări servicii doreşte să fluidizeze servirea clienţilor şi, până în prezent, el presupunea că timpul de servire a clienţilor este normal distribuit, de medie 130 de minute şi abatere medie pătratică 15 minute. El este de acord cu abaterea medie pătratică, dar se îndoieşte de faptul că durata medie de servire a unui client este 130 minute. Pentru a studia această problemă, înregistrează timpii de servire pentru 100 de clienţi. Timpul mediu obţinut în eşantion este 120 minute. Poate patronul să concluzioneze, la o probabilitate de 99%, că timpul mediu este diferit de 130 minute. În această problemă, parametrul ce ne interesează este timpul mediu în colectivitatea generală şi ipotezele de testat sunt: . 130 : , 130 : 1 0 H H Trebuie, aşadar, să răspundem la întrebarea: “Este media de 120 minute suficient de diferită de valoarea 130, pentru a ne permite să concluzionăm că media populaţiei nu este egală cu 130 minute?” Vom putea să respingem ipoteza nulă dacă media eşantionului este suficient de diferită, relativ la valoarea 130. Dar, interpretările nu sunt evidente. Dacă în eşantion obţineam media 1300 sau 1,3 atunci diferenţele erau clare. De asemenea, dacă media eşantionului era 130,1 atunci egalitatea era şi ea evidentă. Distribuţia de eşantionare a mediei x este normală sau aproximativ normală, cu media şi abaterea medie pătratică n s / . Ca rezultat, putem standardiza x şi calcula 5 , 1 130 100 / 15 130 x x z . Regiunea de respingere (critică) o putem specifica astfel: Se respinge H 0 , dacă 005 . 0 z z sau 005 . 0 z z . În exemplul nostru, 575 , 2 005 . 0 2 / z z 67 , 6 5 , 1 130 120 z . Cum 005 . 0 575 , 2 67 , 6 z z , rezultă că sunt suficiente dovezi pentru a respinge ipoteza nulă H 0 şi a accepta ipoteza alternativă, aceea că timpul mediu de servire a unui client este diferit de 130 minute. Problema 2 Conducerea unei companii apelează la 5 experţi pentru a previziona profitul companiei în anul curent. Valorile previzionate sunt: 2,60; 3,32; 1,80; 3,43; 2,00 (miliarde lei, preţurile anului anterior).

Upload: antonio-gavrila

Post on 17-Jul-2016

1.373 views

Category:

Documents


87 download

TRANSCRIPT

Page 1: Econometrie, Probleme rezolvate si propuse.pdf

CAP. I. TESTARI DE IPOTEZE

Problema 1

Patronul unei firme de prestări servicii doreşte să fluidizeze servirea clienţilor şi, până în prezent,

el presupunea că timpul de servire a clienţilor este normal distribuit, de medie 130 de minute şi abatere

medie pătratică 15 minute. El este de acord cu abaterea medie pătratică, dar se îndoieşte de faptul că

durata medie de servire a unui client este 130 minute. Pentru a studia această problemă, înregistrează

timpii de servire pentru 100 de clienţi. Timpul mediu obţinut în eşantion este 120 minute. Poate

patronul să concluzioneze, la o probabilitate de 99%, că timpul mediu este diferit de 130 minute.

În această problemă, parametrul ce ne interesează este timpul mediu în colectivitatea generală şi

ipotezele de testat sunt:

.130:

,130:

1

0

H

H

Trebuie, aşadar, să răspundem la întrebarea: “Este media de 120 minute suficient de diferită de

valoarea 130, pentru a ne permite să concluzionăm că media populaţiei nu este egală cu 130 minute?”

Vom putea să respingem ipoteza nulă dacă media eşantionului este suficient de diferită, relativ la

valoarea 130. Dar, interpretările nu sunt evidente. Dacă în eşantion obţineam media 1300 sau 1,3

atunci diferenţele erau clare. De asemenea, dacă media eşantionului era 130,1 atunci egalitatea era şi

ea evidentă.

Distribuţia de eşantionare a mediei x este normală sau aproximativ normală, cu media şi

abaterea medie pătratică ns / . Ca rezultat, putem standardiza x şi calcula

5,1

130

100/15

130

xxz .

Regiunea de respingere (critică) o putem specifica astfel:

Se respinge H0, dacă 005.0zz sau 005.0zz .

În exemplul nostru, 575,2005.02/ zz

67,65,1

130120z

.

Cum 005.0575,267,6 zz , rezultă că sunt suficiente dovezi pentru a respinge ipoteza

nulă H0 şi a accepta ipoteza alternativă, aceea că timpul mediu de servire a unui client este diferit de

130 minute.

Problema 2

Conducerea unei companii apelează la 5 experţi pentru a previziona profitul companiei în anul curent.

Valorile previzionate sunt: 2,60; 3,32; 1,80; 3,43; 2,00 (miliarde lei, preţurile anului anterior).

Page 2: Econometrie, Probleme rezolvate si propuse.pdf

Ştiind că profitul companiei în anul anterior a fost de 2,01 mld. lei, sunt suficiente dovezi pentru a

concluziona că media previziunilor experţilor este semnificativ mai mare decât cifra anului anterior

(pentru α = 0,05)?

Media previziunilor experţilor este 63,2x mld. lei, cu dispersia:

5507,0

4

203,2

1

2

2

n

xxs

i

x şi abaterea medie pătratică: 74,02 xx ss mld. lei.

Elementele procesului de testare a ipotezei statistice sunt:

H0: μ = 2,01,

H1: μ > 2,01 (test unilateral dreapta).

874,15/74,0

01,263,2

ns

x

s

xt

xx

.

În scopul folosirii statisticii t, vom face presupunerea că populaţia generală din care s-a extras

eşantionul este normal distribuită. Cum tα,n-1 = t0,05;4 = 2,132, regiunea critică este dată de t>tα,n-1. Cum

t=1,874< t0,05;4=2,132, nu putem trage concluzia că media profitului previzionată de cei 5 experţi pentru

anul curent este semnificativ mai mare decât profitul anului trecut, de 2,01 mld. lei.

Problema 3

Presupunem că pentru 100 de observaţii asupra unei variabile aleatoare X s-a obţinut media 110x şi

abaterea standard 60.

a) Testaţi ipoteza nulă că µ=100, cu alternativa µ>100, utilizând = 0,05.

b) Testaţi ipoteza nulă că µ = 100, cu alternativa µ 100, utilizând = 0,05. Comparaţi rezultatele

celor două teste.

Rezolvare:

a) n = 100;

110x ;

sx = 60;

= 0,05.

Considerăm:

H0: µ = µ0=100,

H1: µ > µ0=100.

Se aplică testul z unilateral dreapta:

1

/

0 zns

xP

x

Regiunea critică va fi dată de:

Page 3: Econometrie, Probleme rezolvate si propuse.pdf

n

szx x 0

645,105,0 z

870,109645,1100

601000

n

sz x

Cum 110x > 109,870, suntem în regiunea critică deci se respinge H0.

b) H0: µ = 100;

H1: µ 100.

Se aplică testul z bilateral.

1

/ 2

0

2

zns

xzP

x

;

96,12

05,0 z .

Limitele intervalului de încredere sunt:

n

szx

n

sz xx

2

0

2

0 ;

76,1196,1100

60

2

zn

sx ;

.76,11124,88

;76,1110076,11100

x

x

Întrucât ne aflăm în intervalul de încredere, se acceptă ipoteza H0.

Problema 4

Un producător de detergenţi industriali preambalează produsul la cutii ce trebuie să aibă, în medie, 12 kg.

El doreşte să verifice corectitudinea ambalării şi hotărăşte să organizeze un sondaj de n=100 observaţii

(cutii), pentru care obţine greutatea medie 85,11x kg, cu o abatere medie pătratică sx=0,5 kg. Să se

testeze ipoteza conform căreia în medie cutiile au câte 12 kg, cu alternativa că greutatea este diferită

de 12 kg. (<12 kg sau >12 kg), pentru o probabilitate de 95%.

Rezolvare:

H0: 120 kg;

H1: 12 kg ( 12 kg sau 12 kg).

Page 4: Econometrie, Probleme rezolvate si propuse.pdf

Testul statistic: 0,310/5,0

1285,11

/

00

ns

x

s

xz

xx

.

Nivelul de încredere: 1 - = 0,95.

Pragul de semnificaţie: = 0,05, din care rezultă /2 = 0,025 (deoarece avem test bilateral).

96,1025,02/ zz .

Regiunea de respingere: 96,12/ z sau 96,12/ z .

Cum 2/zzcalc , rezultă că ipoteza nulă este respinsă şi se acceptă ipoteza alternativă, aceea că în

cutii se află o cantitate de detergenţi semnificativ diferită de 12 kg.

Problema 5

Într-o cercetare prin sondaj aleator privitoare la transportul în comun, au fost selectate 100 de persoane

pentru care s-a calculat valoarea medie a biletelor cumpărate într-o lună pentru transport în comun

urban de 110 u.m, cu o abatere medie pătratică de 60 u.m.

a) Testaţi ipoteza nulă, aceea conform căreia valoarea medie a biletelor cumpărate într-o lună, în

colectivitatea generală, este 1000 u.m, cu ipoteza alternativă 1000 u.m, utilizând un

nivel de încredere 1 - = 0,95 (probabilitatea (1-)100 = 95%).

b) Testaţi ipoteza nulă 1000 u.m, cu ipoteza alternativă 1000 u.m, cu aceeaşi

probabilitate. Interpretaţi rezultatele.

Rezolvare:

a) H0: 1000 u.m

H1: 1000 u.m.

Testul statistic: 67,110/60

100110

/

00

ns

x

s

xz

xx

Nivelul de încredere: 1 - = 0,95.

Pragul de semnificaţie: = 0,05 (test unilateral dreapta)

645,105,0 zz

Cum zzcalc , rezultă că ipoteza nulă este respinsă ( 1000 u.m.) şi se acceptă ipoteza

alternativă ( 1000 u.m.).

b) H0: 1000 u.m.;

Page 5: Econometrie, Probleme rezolvate si propuse.pdf

H1: 1000 u.m.

Test statistic: 67,110/60

100110

/

00

ns

x

s

xz

xx

.

Nivelul de încredere 1 - = 0,95.

Pragul de semnificaţie = 0,05, din care rezultă /2 = 0,025 (deoarece avem test bilateral).

96,1025,02/ zz

Cum 2/zzcalc , (1,67 < 1,96), rezultă că se acceptă ipoteza nulă (valoarea medie a biletelor

cumpărate nu este semnificativ diferită de 100 u.m.).

CAP. 2. METODA ANALIZEI DISPERSIONALE ANOVA

Problema 1.

Un producător de sucuri de mere a realizat un nou produs: concentrat lichid. Acest nou produs are

următoarele avantaje faţă de vechiul produs: este mai practic de utilizat, are o calitate cel puţin la fel

de bună şi cost semnificativ mai mic.

Pentru a decide pe care dintre cele trei avantaje să-şi axeze strategia de marketing, directorul

acestui departament a realizat un studiu în trei oraşe. În oraşul A campania de publicitate s-a axat pe

uşurinţa de utilizare a noului produs. În oraşul B campania de publicitate s-a axat pe calitatea noului

produs. În oraşul C campania de publicitate s-a axat pe preţul mai mic al noului produs. În toate cele 3

oraşe s-a înregistrat numărul de bucăţi vândute în 20 de săptămâni.

Directorul de marketing ar dori să ştie dacă există diferenţe semnificative între numărul de bucăţi

vândute, în medie pe săptămână, în cele trei oraşe după terminarea campaniei de publicitate.

In urma prelucrarii datelor si a aplicarii metodei analizei dispersionale, s-au obtinut urmatoarele rezultate:

ANOVA

Source of Variation SS df MS F P-value F crit

Between Groups 57512.23 2 28756.12 3.233 0.047 3.159

Within Groups 506983.5 57 8894.447

Total 564495.7 59

Identificarea metodei: Datele sunt cantitative şi problema revine la a compara mediile celor trei

populaţii. Ipotezele ce trebuie testate sunt: H0: μ1 = μ2 = μ3 cu alternativa H1: cel puţin două medii sunt

diferite.

MSB=28756,12

SSW=506983,5

Completarea coloanei Df:

r-1=3-1=2

n-r=60-3=57

n-1=60-1=59

Completarea coloanei SS:

Stim ca MSB=SSB/(r-1), de unde derulta ca: SSB=MSB * (r-1) =28756,12 * 2 = 57512,23

Page 6: Econometrie, Probleme rezolvate si propuse.pdf

SST=SSB+SSW=57512,23 + 506983,5 = 564495,7

Completarea coloanei MS:

MSW=SSW/(n-r) = 506983,5 / 57 = 8894,447

Fcalc= MSB/MSW=28756,12 / 8894,447 = 3,233

Cum Fcalc (3,233) >Fcrit (3,159), rezulta ca se respinge H0, se accepta H1, deci exista diferente semnificative

intre vanzarile medii din cele trei orase, asadar strategia de marketing aleasa a influentat semnificativ variatia

vanzarilor.

CAP. 3. REGRESIA LINIARA

Problema 1.

O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi

distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-

o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la

valoarea prejudiciului (mii Euro) şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri (zeci km). In

urma prelucrarii datelor cu programul EXCEL, s-au obtinut urmatoarele rezultate:

Regression Statistics

Multiple R R = 0,9609 raportul de corelaţie

R Square R2 = 0,9234 coeficientul de determinaţie

Adjusted R Square 0,9175

Standard Error Se= MSE = 2,3163 abaterea standard a erorilor

Observations n = 15 volumul eşantionului

Coefficients

Standard

Error t Stat P-value Lower 95% Upper 95%

Intercept a = 10,2779

sa =

1,4202 tcalc(α) = 7,2365 0,000007 Lim_inf(α) = 7,2096 Lim_sup(α) = 13,3462

Distanta

(zeci km) b = 4,9193

sb =

0,3927 tcalc(β) = 12,5254 0,000000012 Lim_inf(β) = 4,0708 Lim_sup(β) = 5,7678

a) Determinaţi modelul de regresie liniara in esantion si interpretaţi valorile coeficienţilor modelului;

b) Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie (α’) de 5% (pentru o probabilitate

de 95%, pentru care Fcritic=4,67);

c) Testati ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de semnificaţie de

5% (tcritic=2,16);

d) Determinaţi intervalele de încredere 95% pentru parametrii modelului;

e) Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;

f) Măsuraţi intensitatea legăturii dintre cele două variabile folosind raportul de corelaţie;

g) Estimaţi nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5 zeci de

kilometri.

REZOLVARE

a) Variabilele sunt:

ANOVA

df SS MS F Significance F

Regression k = 1 SSR = 841,7664 MSR = 841,7664 Fcalc = 156,8861 0,000000012

Residual n-k-1 = 13 SSE = 69,7509 MSE = 5,3654

Total n-1 = 14 SST = 911,5173

Page 7: Econometrie, Probleme rezolvate si propuse.pdf

X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată în zeci

de km

(variabila independentă sau variabila explicativă sau variabila exogenă)

Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro

(variabila dependentă sau variabila explicată sau variabila endogenă)

Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, XfY , o funcţie liniară

xxf . Modelul liniar de regresie este XY .

Valorile coeficientilor sunt:

2779,10a

9193,4b

(se preiau don coloana „Coefficients” a ultimului tabel), sau cu functiile Excel:

intercept(valorile lui Y; valorile lui X), ce returneaza valoarea lui „a”.

slope(valorile lui Y; valorile lui X) ce returneaza valoarea lui „b”.

prin urmare dreapta de regresie este de ecuaţie xxbay 9193,42779,10ˆ ,

ecuaţia de regresie liniară în eşantion este 15,1,9193,42779,10 iexexbay iiiii ,

iar valorile ajustate ale observaţiilor 15,1, iyi prin regresie sunt

15,1,9193,42779,10ˆ ixxbay iii .

Interpretarea valorilor coeficienţilor

b arată că valoarea prejudiciului creşte cu 4,9193 mii euro dacă distanţa dintre incediu şi staţia de pompieri

creşte cu o unitate, adică 10 km. In plus, pt. ca b>0, rezulta ca legatura dintre cele odua variabile este directa.

Daca b ar fi fost negativ (b<0), legatura era inversa.

a arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă staţia de

pompieri.

b) Validitatea modelului de regresie

Pentru testarea validităţii modelului se formulează cele două ipoteze:

H0: modelul de regresie nu este valid statistic,

cu alternativa

H1: modelul de regresie este valid statistic.

Statistica utilizată pentru a decide care dintre ipoteze se acceptă este Statistica F.

Pentru calculul statisticii calcF folosim tabelul ANOVA:

ANOVA

df SS MS F Significance F

Regression k = 1 SSR = 841,7664 MSR = 841,7664 Fcalc = 156,8861 0,000000012

Residual n-k-1 = 13 SSE = 69,7509 MSE = 5,3654

Total n-1 = 14 SST = 911,5173

Page 8: Econometrie, Probleme rezolvate si propuse.pdf

Regula de decizie: dacă 1,;' knkcriticcalc FFF , adică Fcalc se găseşte în regiunea critică, atunci

respingem H0 şi acceptăm H1, adică modelul de regresie este valid statistic.

Cum criticcalc FF 667,489,156 sau Significance F < 0.05 (Fcritic se determina cu functia Excel

FINV(0.05;1;13)) se respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid statistic (modelul

este semnificativ statistic sau modelul este corect specificat).

Probabilitatea maxima pt. care putem sustine ca modelul este valid se determina cu relatia: 100-

SignificanceF%=99,999….>95%.

c) Testarea semnificatiei parametrului α al modelului linear de regresie

XY :

H0: α=0 (parametrul α nu este semnificativ statistic)

H1: α≠0 (parametrul α este semnificativ statistic, adică semnificativ diferit de 0)

aa

calcs

a

s

at

0, deci 237,7calct , cu sa=1,42. (tcalc se gaseste in coloana „t Stat”

din tabelul nr. 3. obtinut in Excel.

Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul α este semnificativ statistic

(tcritic =2,16 este dat in textul problemei).

In plus, cum Pvalue(a)<0.05 atunci respingem H0, acceptam H1 şi concluzionăm ca α este semnificativ statistic. Probabilitatea maxima pt. care putem sustine ca α este semnificativ statistic se determina cu relatia: 100-p-

value(α )%=99,999….>95%.

Testarea semnificaţiei parametrului β al modelului linear de regresie

XY :

H0: β=0 (parametrul nu este semnificativ statistic)

H1: β≠0 (parametrul β este semnificativ statistic, adică semnificativ diferit de 0)

bb

calcs

b

s

bt

0, deci 56,12

39,0

9193,4

b

calcs

bt , cu sb=0,39. (tcalc se gaseste in

coloana „t Stat” din tabelul nr. 3. obtinut in Excel.

Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul β este semnificativ statistic

(tcritic =2,16 este dat in textul problemei).

In plus, cum Pvalue(b)<0.05, atunci respingem H0, acceptam H1 şi concluzionăm ca β este

semnificativ statistic. Probabilitatea maxima pt. care putem sustine ca β este semnificativ statistic se determina cu relatia: 100-p-

value(β )%=99,999….>95%.

d) Intervalul de încredere garantata cu probabilitatea: (1-α’)·100% = 95% pentru

parametrul α al modelului linear de regresie XY , determinat pe baza

eşantionului observat, este:

uiparametrul a 100%)'-(1 incredere de

uiintervalul a superioara limita

1;2

'

uiparametrul a 100%)α'-(1 incredere de

uiintervalul a inferioara limita

1;2

'

a

kna

knstasta

,

unde sa este eroarea standard a estimatorului a.

Page 9: Econometrie, Probleme rezolvate si propuse.pdf

În cazul nostru, a=10,2779, sa=1,42, α’=0,05, 16,213;

2

05,01;

2

'

ttkn

, deci intervalul

[7,2; 13,3] acoperă valoarea adevărată a parametrului α cu probabilitatea 0,95, adică intervalul

de valori [7,2; 13,3] mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se

produce chiar lângă staţia de pompieri.

Cum intervalul de încredere 95% determinat pentru parametrul α nu acoperă valoarea

0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.

Dacă însă, intervalul de încredere pentru α ar fi acoperit, adică ar fi conţinut, şi

valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este

semnificativ diferit de 0).

Intervalul de încredere (1-α’)·100% = 95% pentru parametrul β al modelului linear de

regresie XY , determinat pe baza eşantionului observat, este:

uiparametrul a 100%)'-(1 incredere de

uiintervalul a superioara limita

1;2

'

β uiparametrul a 100%)α'-(1 incredere de

uiintervalul a inferioara limita

1;2

'

b

knb

knstbstb

,

unde sb este eroarea standard a estimatorului b.

În cazul nostru, b=4,9193, sb=0,39, α’=0,05, 16,213;

2

05,01;

2

'

ttkn

, deci intervalul [4,07; 5,76]

acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa devine mai

mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul [4,07; 5,76] mii Eur,

cu o probabilitate de 0,95.

Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea

0, atunci putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic. Dacă însă, intervalul de încredere pentru β ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci

concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

e) Coeficientul de determinaţie este 9235,02 R sau 9235,096098,0 22 R şi arată că

92,35% (adică R2

%) din variaţia totală a prejudiciului cauzat de incendii este explicată de

variaţia variabilei independente (distanţa între locul incendiului şi staţia de pompieri).

Indicatorul se gaseste in primul tabel Excel, sub denumirea de „R Square”.

f). Intensitatea legăturii dintre cele două variabile folosind raportul de corelaţie.

96097772,0R

Indicatorul ia valori in intervalul [0;1] si se gaseste in primul tabel Excel sub denumirea de „Multiple R”.

Se observa ca raportul de corelatie este egal cu coeficientul de corelatie liniara Pearson, asadar legatura

dintre cele doua variabile este liniara, iar legatura este puternica deoarece R are o valoare apropiata de 1.

In plus, in cazul legaturii liniare, este adevarata relatia:

xyrR

Unde rxy este coeficientul de corelatie liniara Pearson.

g). În modelul de regresie liniară 15,1,9193,42779,10ˆ ixxbay iii înlocuim pe xi cu valoarea

de 6,5, obţinându-se valoarea corespunzătoare a lui Y:

25,425,69193,42779,10ˆ iy zeci mii euro.

Page 10: Econometrie, Probleme rezolvate si propuse.pdf