petrovici (2007) - slectia unui model de regresie

17
Selecţia modelului de regresie lineară multiplă Norbert Petrovici NorbertPetrovici @yahoo.com

Upload: lori-mg

Post on 30-Sep-2015

5 views

Category:

Documents


0 download

DESCRIPTION

kj

TRANSCRIPT

  • Selecia modelului de regresie linear multiplNorbert [email protected]

  • Ipoteza: Venitul asteptat per membru de familie este dependent de EducaieGenConsumVrstMediu de reziden

    regresie multipl

  • Variabila Dependenta:Venitul ateptat per membru de familie (se msoar n milioane ROL)

    Variabile Independente dummy:Mediu de reziden poate lua valoarea0: rural1: urban

    Nivel de educaie0: nivel de educaie primar sau mediu1: nivel de educaie superior (colegiu sau facultate)

    Gender poate lua valoare0: femeie1: brbat

    Variabile independente cantitative:Suma total cheltuit pe membru de gospodrie (se msoar n milioane ROL). Vrsta se msoar n ani mplinii (se msoar n ani).

    Surse date: Barometrul de Opinie Public, 2004oct(pentru a vedea cum au fost create aceste variabile vezi la sfrsitul prezentrii)variabilele din model

  • Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptatR2 ajustat penalizeaz modelul dac are mai multe variabile independente (5 in cazul nostru), lund n calcul mrimea eantionului. Este mai adecvat pentru regresia multiplaDreapta de regresie nestand. Y* = 2.975 + 2,724*X1 - 0,011*X2 + 0,438*X3 - 0,007*X4 + 1,382*X5

    Sau standardizatY* = 0.226*X1+ 0,001*X2 + 0.321*X3 -0.033*X4 + 0.189*X5Modelul este generalizabil de la eantion la populaieAcesti coefineci nu sunt semnificativi. Valorile b nu difera seminficativ de 0, aceste diferene pot fi puse pe seama erorilor de eantioanreregresie multipl

  • Interpretarea coeficientului bNivelul de educaie (dihotomic): Venitul ateptat crete n medie cu 2.714 mii lei n cazul unui absolvent (valoarea 1) de facultate raportat la un non-absolvent (valoarea 0)de facultate dac inem constante toate celelalte variabile (admind c ntre cele dou variabile exist o dependen linear). Consum (cantitativ): Venitul ateptat crete n medie cu 438 mii lei cu fiecare milion de lei consumat dac ine constante toate celelalte variabile (admind c ntre cele dou variabile exist o dependen linear).

    Interpretarea coeficientului an condiiile n care toate variabilele independente sunt egale cu 0 atunci venitul ateptat este de 2 975 mii lei. Adic: dac cineva este femeie (Gender = 0), rural (Mediu = 0), fr facultate (Educ = 0) i n a crei gospodriei consumul per mebru de familie a fost nul, i avea vrsta de zero ani, atunci venitul ateptat n medie este de 2 975 mii lei (admind c ntre cele dou variabile exist o dependen linear) [ceea ce este absurd!!]

    Coeficientului Utilitatea lui vine atunci cnd vrem s comparm coeficienii, pentru a stabili care variabil are efectul cel puternic. Coeficienii b nu pot fi folosii n acest scop datorit faptului c pstreaz unitatea de msur a variabilelor. Coeficienii n schimb sunt msurai n aceeai unitate de msur: abateri standard.n cazul nostru cea mai important variabil n cazul nostru este Educaia Consum = 0.321regresie multiplinterpretare

  • Venit ateptatEducaieGenderConsumVarstaMediu0.226-0.0010.321-0.0330.189

    Coeficientului Indic intensitatea efectului direct pe care o are o var. indep. asupra unei unei var. depend.n cazul nostru dou dintre efecte sunt foarte mici Gender = -0.001 i Vrst = - 0.033. De aceea ne ntrebm dac aceti coeficieni pot fi generalizai la ntreaga populaie de pe eantionAdic ne ntrebm dac faptul c sunt diferii de 0 nu cumva se datoreaz distorsiunilor de eantion (=erorilor de eantionare)Testul t ne spune c ntr-adev aceste dou valori nu sunt semnificative.

    Excluderea valorilor nesemnificativeAtunci cnd o valoare este nesemnificativ putem s ncercm s o excludem din analiz, simplificnd modelul.Excluderea ns este legitim numai dac: efectele indirecte nu sunt mariefecte directe

  • Venit ateptatEducaieGenderConsumVarstaMediu3.7260.2981.629

    Efectele indirecteAtunci cnd excludem din model o variabill atunci ea nu mai este inut constant cnd se evalueaz relaiile dintre variabila dependent si celelalte variabile independentePrin excludere variabila ea nu este neutralizat deci este introdus in model indirect, prin efectele indirecte asupra variabilelor independenteDac efectele indirecte sunt mari atunci coeficieii ai variabilelor independente vor crete n acest nou model simplificatefecte indirecte

  • R2 ajustat a rmas constant, n ciuda faptului c avem mai puine variabile. Lucru acesta indic c am putea avea un model mai care este la fel de adecvat, dar mai simpluDreapta de regresie nestand. Y* = 2.621 + 2,734*X1 + 0,438*X2 + 1,399*X3

    Sau standardizatY* = 0.228*X1+ 0,320*X2 + 0.1991*X3Modelul este generalizabil de la eantion la populaieToti coeficienii b i au crescut, ceea ce indic efecte indirecte, dar au crescut foarte puin (cteva zecimi), ceea ce indic efecte indirecte mici!Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptatregresie multipl simplificat

  • Atunci cnd decidem care din modele de regresie pstrm ne uitm la schimbrile coeficieniilor (pentru a vedea daca exist efecte indirecte)i la coeficientul R2 (pentru a vedea cine explic mai mult varia)

    i aceasta pentru c vrem ca modelul nostru s fie:Adecvat (principiul adecvrii)model s explice ct mai mult din variabila dependent (din realitate/ din fenomenul studiat)

    simplitate (principiul simplitii)dar aceast explicaie s fie ct mai simpl. Adic ct mai puine variabile model cu att mai bine. ns fr a sacrifica prea mult din adecvare (variana explicat sa nu scad i nici s nu introducem involuntar variabilele n model prin intermediul efectelor indirecte)care model de regresie?principii

  • n acest caz al doilea model este mai bun pentru c :este mai adecvat Coeficientul de determinaie ajustat R2 indic o proporie identic de varian explicatExcluderea variabilelor nesemnificative nu au produs efecte indirecte asupra celorlalte variabile, (tim asta pentru c valorile ale variabilelor rmase n model au crescut foarte puin)

    este mai simpluConine mai puine variabile

    care model de regresie?selecie

  • n acest caz valorile R2 ajustate sunt identice. ns cum decidem dac avem o cretere mare sau mic a lui R2. Adic:Dorim s tim fr dubiu care model de regresie explic mai mult din variana variabilei de regresie.respectiv dac exist diferene semnificative ntre diferitele R2. Putem s facem acest lucru cu ajutorul unui test F aplicat coeficieniilor de determinaie a diferitelor modele

    care model de regresie?coeficientul de determinaie

  • R2 diferit semnificativcum facem?Pasul 1:Specificm primul modelul cu mai puine variabile independente (educatie, consum i mediu)Apsm pe butonul NEXT pentru a specifica modelul cu mai multe variabile

  • R2 diferit semnificativcum facem?Pasul 2:Specificm al doilea model cu mai multe variabile (educatie, gen, consum, varsta i mediu)Apsm pe butonul Statistics si de aici solicitm n noua csut de dialog aprut afisarea R square change

  • Ni se indic att valorile R2 si R2 ajustat pentru cele dou modele comparate.Ni se indic Schimbrile survenite n mrimea valorilor R2.

    - Modelul 1 s-a schimbat la 0.284 (fa de un model fr variabile independete, adic doar dac am estima cu media variana variabilei dependente)- Modelul 2 s-a schimbat cu 0.001 (fa de un modelul 1)

    Testul F indic dac sunt semnificative schimbrile:- Modelul 1 s-a schimbat semnificativ, nivelul de semnificaie este 0.000, mai mic dect pragul de 0.050 (acest test este chiar testul ANOVA, valorile fiind identice cu un test anova)Informatia esenial:- Modelul 2 nu a adus schimb[ri semnificative n ceea ce priveste valoarea lui R2 , nivelul de semnificatie fiin 0.327 (mult mai mare dect 0.050, pragul de semnificaie pentru 95%) R2 diferit semnificativcum interpretm?De vreme ce Modelul 2 nu explic mai mult din varian vom merge pe criteriul simplitii si vom pstra modelul cu mai puine variabile (dar asta doar dac efectele indirecte ale variabilelor excluse nu sunt mari)

  • R2 diferit semnificativcum interpretm?Coeficienii din modeul 1 cu mai puine variableCoeficienii din modeul 2 cu mai multe variable. Putem observa c pentru variabilele comune coeficienii b sau sunt foarte apropiai.Cele dou modele se numesc modele ncuibrite (nested) pentru c cel mai complex l conine pe cellalt. Testul F de schimbare a lui R2 se poate aplica doar modelelor ncuibrite

  • Variabile cantitative :

    Venit = venit ateptat per membru de familiemiss val incdec nrmem (98.0, 99.0). /* setam valorile lipsa NS si NR pentru variabilele INCDEC si NRMEMcomp venit = incdec/nrmem. /* crem variabila venit ateptat mprind venitul atepat al gospodriei (INCDEC) la numrul de membrii din gospodriei (NRMEM)miss val venit (120.0). /* dup ce am explorat noua variabila creata cu un grafic boxplot constatm c exist o valoare extrem de 120 milioane lei pe lun si o excludem setnd-o ca missing.

    Consum = consum per membru de familiemiss val chel nrmem (98.0, 99.0). /* setam valorile lipsa NS si NR pentru variabilele chel si nrmemcomp consum = chel/nrmem. /* crem variabila consum mprind cheltuielile pe luna trecut (chel) la numrul de membrii din gospodriei (nrmem)miss val consum (100.0). /* dupa ce am explorat noua variabila creata cu un grafic boxplot constatm c exist o valoare extrem de 100 milioane lei pe lun si o excludem setnd-o ca missing.p0_age = vrsta subiectului

    Cum codm variabile din analiz

  • Variabile dummy:Educatie = venit gospodrie per membru de familiemiss val p0_scoal ("99.0"). /* setm valorile missing la variabila P0_SCOAL care nregistreaz educaia.if (p0_scoal >= 10) educatie = 1. /* cu ajutorul comenzii IF punem condiia c dac cineva a urmat cel puin colegiu, atunci s se creeze o nou variabil EDUCATIE care s ia n aceste condiii valoarea 1.if (p0_scoal < 10) educatie = 0. /* cu aceeai comand IF mai punem condiia c dac cineva are o diplom mai mic dect cea de colegiu, variabil EDUCATIE care s ia valoarea 0.

    Gen = gender (0=femeie; 1=brbat)recode p0_sex (1=1) (2=0) into gen. /* vairabila P0_SEX este o variabila dihotomic cu valori 1 pentru brbai i 2 pentru femei. O transformm ntr-o variabil dummy recodnd valoarea femeile n 0 (2=0), iar brbaii rmn 1 (1=1). Recodarea se face ntr-o nou variabil numit GEN.

    Mediu = tip localitate (0=rural; 1=urban)

    Cum codm variabile din analiz