curs 2 -3 econometrie
Post on 28-Jan-2017
279 Views
Preview:
TRANSCRIPT
Econometrie - curs 2, 3prof. univ. dr. Elena Druică, email: elena.druica@faa.unibuc.ro
1
Structura cursuluiCoeficienții dreptei de regresie ca estimatori.
Metode de estimare:
metoda celor mai mici pătrate (OLS)
metoda verosimilității maxime (ML)
Coeficientul de deteminare ca măsură a celei mai bune potriviri.
Coeficientul de corelație.
Termenul eroare într-o analiză de regresie.
2
Motivația studiuluiLanț de supermarketuri “BonTon” dorește să determine factorii care au cel mai mare impact asupra încasărilor lunare
Se pornește de la ideea că numărul zilnic de vizitatori este o variabiă explicativă relevantă
Se face o selecție a unui eșantion format din 40 de zile pentru care se înregistrează numărul de vizitatori și încasările înregistrate de supermarketurile BonTon din București.
Pe baza acestui eșantion se încearcă determinarea relației dintre cele două variabile, care să caracterizeze întreaga populație (adică relația dintre numărul de vizitatori și încasări, în oricare zi din an).
3
Datele disponibile
100 de observații alese aleatoriu din mulțime zilelor lucrătoare
Codul pe baza căruia au fost generate aceste date se găsește postat sub numele de “Cod generare date”
Setul de date creat este postat de asemenea, ca fisier csv cu numele “BonTon”
4
Variabile
Variabilă dependentă: volumul zilnic al încasărilor, pe ansamblul supermarketurilor BonTon din București (sute lei)
Variabilă independentă: numărul zilnic de vizitatori, pe ansamblul supermarketurilor BonTon din București
5
Încasări = beta_0 + beta_1*Vizitatori + eroare
Modelul de regresie pentru relația dintre vizitatori și încasări Funcția pe ansamblul populației
6
Relația pe care o presupunem
O relație directă; cu cât mai mare este numărul de vizitatori, cu atât mai mari sunt șansele ca aceștia să cumpere ceva și ca atare să contribuie la încasări
O reorezentare mai exactă: diagrama scatter.
7
8
Observații
Relația este într-adevăr una directă
Din forma norului de puncte, se preconizează o relație liniară
Pentru eșantionul de care dispunem, vom estima un model de forma:
Încasări medii = b_0 + b_1*Vizitatori
9
10
Cum știm care este cea mai potrivită dreaptă pe care o putem reprezenta?
Cum știm care este cea mai potrivită dreaptă de regresie?
Să aproximeze cel mai bine punctele din diagramă, dar…
În ce sens, să le aproximeze “cel mai bine”?
Mai mulți algoritmi de definire a acestui “cel mai bine”
Metoda celor mai mici pătrate
Metoda verosimilității maxime
11
Metoda celor mai mici pătrate
Suma pătratelor erorilor care se produc prin explicarea variabilității încasărilor ca rezultat al variabilității numărului de clienți prin modelul pe care îl construim, să fie minimă.
Ce înseamnă erori?
12
13
Valoare efectivă
Valoare estimată
Eroare = valoare efectivă - valoare estimată
Comentarii
Pentru fiecare dintre valorile observate, sau efective, se obține o valoare ca rezultat al aplicării modelului
Valoarea observată este y_i, corespunzător unei observații i, una dintre cele 100
14
Mai exact:
Venitul observat_i
Venitul prognozat_i = b_0 + b_1*Vizitatori_i
Eroarea_i = Venitul observat_i - Venitul prognozat_i
!
Eroarea_i = Venitul observat_i - (b_0 + b_1*Vizitatori_i)
15
Ce spune metoda celor mai mici pătrate?
Că b_0 și b_1 sunt rezultatul minimizării expresiei
Sumă(Eroarea_i)^2
sau a minimizării
Sumei pătratelor erorilor individuale aferente tuturor observațiilor de care dispunem în eșantion
16
Revenim la exemplu
Încasări medii = 647.84 + 0.76*Vizitatori
647.84 - termenul liber. Ce interpretare îi dați?
0.76 - coeficientul variabilei independente. Ce interpretare îi dați?
17
Cum arată erorile? Pentru prima observație:
Vizitatori_1 = 3097
Încasări_1 = 2942.827
Predict_încasări_1 = 647.84 + 0.76*Vizitatori_1
Predict_încasări_1 = 647.84 + 0.76* 3097
Predict_încasări_1 = 3001.56
Eroare_1 = Încasări_1 - Predict_încasări_1
Eroare_1 = -58.733
18
Comentarii:Pentru prima observație, modelul prognozează încasări puțin mai mari decât se înregistrează de fapt.
Similar, se determină și celelalte erori individuale (aferente fiecărei observații)
Suma pătratelor erorilor individuale se notează cu SPE și este, în acest caz, 14065765 (a se rula codul în R)
Ar trebui să fie mai mică decât orice altă valoare SPE obținută pe baza unei alte drepte care “aproximează” punctele de pe diagrama scatter. :-)
19
Ce-am obținut cu asta?Prin intermediul ecuației estimate a regresie am găsit o relație între încasările medii ale supermarketului, ca funcție de numărul de vizitatori
Această relație poate fi folosită pentru a prognoza vânzările unui supermarket într-o zi în care este vizitat de un anumit număr de persoane
Același lucru l-am fi putut face dacă foloseam media încasărilor pe ansamblul mulțimii de date.
Folosind un model de regresie, creștem performanța predicției? Și dacă da, cu cât?
20
21
Predicția prin dreapta de regresie și prin media valorilor variabilei dependente
valoarea medie a încasărilor
Observații Erorile pe care le facem prin aproximarea cu ajutorul dreptei de regresie sunt mai mici decât cele în raport cu dreapta care trece prin media încasărilor
Putem compara cele două tipuri de erori
Definim Suma pătratelor erorii totale, ca sumă a pătratelor diferențelor dintre valorile observate ale variabilei dependente și media acestor valori.
Această mărime se notează cu SPT
22
SPT - cum se calculează:
Media(Încasări) = 2859.979
Eroarea_1 = 82.84848
SPT = Suma pătratelor diferențelor de forma (Încasări_i - Media(Încasări))
SPT = 71130151
23
Comparație între SPT și SPE
SPT = 71130151
SPE = 14065765
SPT - SPE = 57064386
Diferența dintre SPT și SPE se notează cu SPR și se numește suma pătratelor erorilor explicate prin intermediul modelului de regresie
SPR = 57064386
24
La ce folosește SPR?
Se determină procentul din eroarea totală explicat prin modelul de regresie, adică:
SPR/SPT = 0.8022531
adică 80,22%
Raportul SPR/SPT poartă numele de coeficient de determinare și se notează cu R^2
25
Coeficientul de determinare
Arată cât anume din variația variabilei dependente poate fi explicată prin modelul de regresie utilizat
sau
Arată cât anume din variația variabilei dependente poate fi explicată prin variațiile variabilelor independente luate în calcul
Este o mărime din intervalul [0,1] și poate fi exprimată și procentual
Ex: 0.82 poate fi scris ca 82%
26
Comentarii
Din calcule rezultă că utilizarea modelului de regresie conduce la o aproximare mai bună a predicțiilor decât modelul de bază - acela al aproximării pe bază de valoare medie
80,22% dintre variațiile încasărilor pot fi explicate de numărul de vizitatori ai supermarketului
Există un procent de variație de aproape 20% care nu poate fi explicat astfel și se datorează altor factori.
27
Coeficientul de corelație
Se definește ca radical din coeficientul de determinare (și se notează cu r)
Indică gradul de asociere dintre două variabile
Poate fi pozitiv, sau negativ, în funcție de natura directă, sau indirectă a variabilei
În cazul exemplului nostru: r = √0.82 = 0.896
28
29
Sursa: Gujarati, 2004,
pag. 86
Termenul eroareNotăm eroarea cu u
u = valoarea observată efectiv - valoarea prognozată prin modelul de regresie
u_i =Yi −E(Y|Xi)
Yi =E(Y|Xi)+u_i
E(Y|Xi) = componenta deterministă a modelului
u = componenta stocastică, sau aleatorie, care include factorii pe care nu i-am luat deja în calcul în model.
30
De ce nu pot fi incluși?1. teoria nu ne oferă un background complet
2. nu avem informații (date), sau avem date despre proxy-uri
3. nu avem informații exact despre variabilele cele mai importante
4. există o incertitudine ireductibilă, venită din natura însăși a sistemelor analizate
5. proxy-urile sunt greșit alese
6. din nevoia de a nu complica modelul inutil
7. din eșantionare
8. din alegerea greșită a formei funcționale a modelului
31
Bibliografie (accesabilă pe internet)
Gujarati Damodar, (2004) “Basic Econometrics”, Fourth Edition, p. 58-91
Codurile pentru săptămâna 2, postate pe www.teoriadeciziei.ro
32
top related