curs 2 -3 econometrie

Report

Post on 28-Jan-2017

279 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Econometrie - curs 2, 3prof. univ. dr. Elena Druică, email: elena.druica@faa.unibuc.ro

mailto:elena.druica@faa.unibuc.ro

Structura cursuluiCoeficienții dreptei de regresie ca estimatori.

Metode de estimare:

metoda celor mai mici pătrate (OLS)

metoda verosimilității maxime (ML)

Coeficientul de deteminare ca măsură a celei mai bune potriviri.

Coeficientul de corelație.

Termenul eroare într-o analiză de regresie.

Motivația studiuluiLanț de supermarketuri “BonTon” dorește să determine factorii care au cel mai mare impact asupra încasărilor lunare

Se pornește de la ideea că numărul zilnic de vizitatori este o variabiă explicativă relevantă

Se face o selecție a unui eșantion format din 40 de zile pentru care se înregistrează numărul de vizitatori și încasările înregistrate de supermarketurile BonTon din București.

Pe baza acestui eșantion se încearcă determinarea relației dintre cele două variabile, care să caracterizeze întreaga populație (adică relația dintre numărul de vizitatori și încasări, în oricare zi din an).

Datele disponibile

100 de observații alese aleatoriu din mulțime zilelor lucrătoare

Codul pe baza căruia au fost generate aceste date se găsește postat sub numele de “Cod generare date”

Setul de date creat este postat de asemenea, ca fisier csv cu numele “BonTon”

Variabile

Variabilă dependentă: volumul zilnic al încasărilor, pe ansamblul supermarketurilor BonTon din București (sute lei)

Variabilă independentă: numărul zilnic de vizitatori, pe ansamblul supermarketurilor BonTon din București

Încasări = beta_0 + beta_1*Vizitatori + eroare

Modelul de regresie pentru relația dintre vizitatori și încasări Funcția pe ansamblul populației

Relația pe care o presupunem

O relație directă; cu cât mai mare este numărul de vizitatori, cu atât mai mari sunt șansele ca aceștia să cumpere ceva și ca atare să contribuie la încasări

O reorezentare mai exactă: diagrama scatter.

Observații

Relația este într-adevăr una directă

Din forma norului de puncte, se preconizează o relație liniară

Pentru eșantionul de care dispunem, vom estima un model de forma:

Încasări medii = b_0 + b_1*Vizitatori

Cum știm care este cea mai potrivită dreaptă pe care o putem reprezenta?

Cum știm care este cea mai potrivită dreaptă de regresie?

Să aproximeze cel mai bine punctele din diagramă, dar…

În ce sens, să le aproximeze “cel mai bine”?

Mai mulți algoritmi de definire a acestui “cel mai bine”

Metoda celor mai mici pătrate

Metoda verosimilității maxime

Metoda celor mai mici pătrate

Suma pătratelor erorilor care se produc prin explicarea variabilității încasărilor ca rezultat al variabilității numărului de clienți prin modelul pe care îl construim, să fie minimă.

Ce înseamnă erori?

Valoare efectivă

Valoare estimată

Eroare = valoare efectivă - valoare estimată

Comentarii

Pentru fiecare dintre valorile observate, sau efective, se obține o valoare ca rezultat al aplicării modelului

Valoarea observată este y_i, corespunzător unei observații i, una dintre cele 100

Mai exact:

Venitul observat_i

Venitul prognozat_i = b_0 + b_1*Vizitatori_i

Eroarea_i = Venitul observat_i - Venitul prognozat_i

Eroarea_i = Venitul observat_i - (b_0 + b_1*Vizitatori_i)

Ce spune metoda celor mai mici pătrate?

Că b_0 și b_1 sunt rezultatul minimizării expresiei

Sumă(Eroarea_i)^2

sau a minimizării

Sumei pătratelor erorilor individuale aferente tuturor observațiilor de care dispunem în eșantion

Revenim la exemplu

Încasări medii = 647.84 + 0.76*Vizitatori

647.84 - termenul liber. Ce interpretare îi dați?

0.76 - coeficientul variabilei independente. Ce interpretare îi dați?

Cum arată erorile? Pentru prima observație:

Vizitatori_1 = 3097

Încasări_1 = 2942.827

Predict_încasări_1 = 647.84 + 0.76*Vizitatori_1

Predict_încasări_1 = 647.84 + 0.76* 3097

Predict_încasări_1 = 3001.56

Eroare_1 = Încasări_1 - Predict_încasări_1

Eroare_1 = -58.733

Comentarii:Pentru prima observație, modelul prognozează încasări puțin mai mari decât se înregistrează de fapt.

Similar, se determină și celelalte erori individuale (aferente fiecărei observații)

Suma pătratelor erorilor individuale se notează cu SPE și este, în acest caz, 14065765 (a se rula codul în R)

Ar trebui să fie mai mică decât orice altă valoare SPE obținută pe baza unei alte drepte care “aproximează” punctele de pe diagrama scatter. :-)

Ce-am obținut cu asta?Prin intermediul ecuației estimate a regresie am găsit o relație între încasările medii ale supermarketului, ca funcție de numărul de vizitatori

Această relație poate fi folosită pentru a prognoza vânzările unui supermarket într-o zi în care este vizitat de un anumit număr de persoane

Același lucru l-am fi putut face dacă foloseam media încasărilor pe ansamblul mulțimii de date.

Folosind un model de regresie, creștem performanța predicției? Și dacă da, cu cât?

Predicția prin dreapta de regresie și prin media valorilor variabilei dependente

valoarea medie a încasărilor

Observații Erorile pe care le facem prin aproximarea cu ajutorul dreptei de regresie sunt mai mici decât cele în raport cu dreapta care trece prin media încasărilor

Putem compara cele două tipuri de erori

Definim Suma pătratelor erorii totale, ca sumă a pătratelor diferențelor dintre valorile observate ale variabilei dependente și media acestor valori.

Această mărime se notează cu SPT

SPT - cum se calculează:

Media(Încasări) = 2859.979

Eroarea_1 = 82.84848

SPT = Suma pătratelor diferențelor de forma (Încasări_i - Media(Încasări))

SPT = 71130151

Comparație între SPT și SPE

SPT = 71130151

SPE = 14065765

SPT - SPE = 57064386

Diferența dintre SPT și SPE se notează cu SPR și se numește suma pătratelor erorilor explicate prin intermediul modelului de regresie

SPR = 57064386

La ce folosește SPR?

Se determină procentul din eroarea totală explicat prin modelul de regresie, adică:

SPR/SPT = 0.8022531

adică 80,22%

Raportul SPR/SPT poartă numele de coeficient de determinare și se notează cu R^2

Coeficientul de determinare

Arată cât anume din variația variabilei dependente poate fi explicată prin modelul de regresie utilizat

Arată cât anume din variația variabilei dependente poate fi explicată prin variațiile variabilelor independente luate în calcul

Este o mărime din intervalul [0,1] și poate fi exprimată și procentual

Ex: 0.82 poate fi scris ca 82%

Comentarii

Din calcule rezultă că utilizarea modelului de regresie conduce la o aproximare mai bună a predicțiilor decât modelul de bază - acela al aproximării pe bază de valoare medie

80,22% dintre variațiile încasărilor pot fi explicate de numărul de vizitatori ai supermarketului

Există un procent de variație de aproape 20% care nu poate fi explicat astfel și se datorează altor factori.

Coeficientul de corelație

Se definește ca radical din coeficientul de determinare (și se notează cu r)

Indică gradul de asociere dintre două variabile

Poate fi pozitiv, sau negativ, în funcție de natura directă, sau indirectă a variabilei

În cazul exemplului nostru: r = √0.82 = 0.896

Sursa: Gujarati, 2004,

pag. 86

Termenul eroareNotăm eroarea cu u

u = valoarea observată efectiv - valoarea prognozată prin modelul de regresie

u_i =Yi −E(Y|Xi)

Yi =E(Y|Xi)+u_i

E(Y|Xi) = componenta deterministă a modelului

u = componenta stocastică, sau aleatorie, care include factorii pe care nu i-am luat deja în calcul în model.

De ce nu pot fi incluși?1. teoria nu ne oferă un background complet

2. nu avem informații (date), sau avem date despre proxy-uri

3. nu avem informații exact despre variabilele cele mai importante

4. există o incertitudine ireductibilă, venită din natura însăși a sistemelor analizate

5. proxy-urile sunt greșit alese

6. din nevoia de a nu complica modelul inutil

7. din eșantionare

8. din alegerea greșită a formei funcționale a modelului

Bibliografie (accesabilă pe internet)

Gujarati Damodar, (2004) “Basic Econometrics”, Fourth Edition, p. 58-91

Codurile pentru săptămâna 2, postate pe www.teoriadeciziei.ro

http://www.teoriadeciziei.ro

top related

curs 2 -3 econometrie

Documents

curs 1 - econometrie mk

introducere în econometrie -...

econometrie subiecte

econometrie subiect

curs econometrie anul ii semestrul i

econometrie proiect

econometrie note de curs

curs 2 econometrie

econometrie - curs 3

introducere în econometrie - se-b.spiruharet.ro · 1...

curs econometrie nov 2012 id

proiect econometrie

manual econometrie

curs econometrie - ase

curs+econometrie sumar+

econometrie - suport curs

econometrie eviews

econometrie - proiect

econometrie - aplicatii

econometrie - autocorelare