regresie si corelatie

92
1 REGRESIE SI CORELATIE

Upload: cristinapopa2005

Post on 01-Jul-2015

1.059 views

Category:

Documents


8 download

TRANSCRIPT

1REGRESIE SI CORELATIE2Regresia scurt istoric al termenului Sir Francis Galton(1822-1911) spirit enciclopedic al perioadeivictoriene, fiind cel care a introdus termenii de regresie i corelaiestatistic Originea regresiei ca metod statistic se afl n studiile sale degenetic aplicat n studiul plantelor- 1877 Plantnd boabe dintr-un anumit soi de mazre dulce a observat cexist o legtur liniar ntre diametrele acestor boabe i diametreleboabelor recoltate de la noile plante. El a numit iniial panta acesteidrepte coefficient of reversion, schimbndu-i apoi numele ncoefficient of regression. Termenul de regresie provine de la descoperirile sale n domeniulereditii: n general, progeniturile indivizilor geniali au abiliti care iaaz mai degrab la nivelul mediei; de asemenea, nalimea copiilorprovenii din tai foarte nali se apropie mai mult de nlimea mediedect nlimea tailor.3Modele Un model este o reprezentare a unui anumit fenomen Model matematic - o reprezentare matematic a unui fenomen De cele mai multe ori un model descrie legturile existente ntre dou sau mai multe variabile n general, snt dou clase de modele: Modele deterministeModele probabiliste4 Modele deterministe Exprim o relaie exact ntre variabile Teoretic, eroarea de previziune este nul Exemplu: Principiul al doilea al mecanicii newtoniene:F = m.a Modele probabiliste Componenta determinist Componenta aleatoare Eroarea de previziune este nenul Componenta aleatoare poate fi datorat factorilor obiectivi, ce nu snt inclui n model Exemplu: Volumul vnzrilor=10 * Cheltuielile cu publicitatea + Componenta aleatoare5Tipuri de modele probabilisteProbabilisticModelsRegressionModelsCorrelationModelsOtherModelsProbabilisticModelsRegressionModelsCorrelationModelsOtherModelsModele probabilisteModele de regresieModele de corelatieAlte modele6Regresia metod de modelare a legturilor dintre variabile n general, orice fenomen este rezultatul aciunii unuia sau mai multor factori Exprimarea matematic:1( , ..., )nY f X X I ! Variabila dependent(variabila endogen)Variabile independente(variabile exogene/explicative)Variabila rezidual7Exemplu: Legea lui Keynes privind legtura dintre venit i consum Suma cheltuit pentru consum depinde de: mrimea venitului pe de o parte alte obiective n funcie de circumstane (de exemplu investiiile) alte nevoi subiective O persoan este dispus de regul i n medie s i creascconsumul pe msura creterii venitului dar nu n aceeaimsur Modelul de regresie: C=E+FV+I , unde 0REGRESSION21Regresia folosind EXCELSelectm valorile variabilelor2223Corelograma(Scatter plot) Graficul punctelor de coordonate (Xi,Yi), i=1,n.050010001500200025000 50 100 150 200 250Suprafata(m2)Chiria(RON)24Modelul de regresie liniar simpl Modelul de regresie liniar simpli i iX Y I F F !1 0Y intercept (termenul constant)Panta dreptei de regresieVariabila de perturbaieVariabila dependent(rspuns)Variabila independent(explicativ) Pe ba Pe baza corelogramei este rezonabil s presupunem c mediaza corelogramei este rezonabil s presupunem c media variabilei Y depinde de X printr variabilei Y depinde de X printr--o relaie liniar: o relaie liniar: Atunci modelul de regresie liniar simpl este dat de relaiaAtunci modelul de regresie liniar simpl este dat de relaia urmtoare: urmtoare:25Dac presupunem c media i dispersia lui s snt 0 i o2, atunci media lui Y pentru o valoare particular a lui X este dat de relaia:Dispersia lui Y pentru o valoare particular a lui X este dat de relaia:Media i dispersia variabilei dependente26 La nivelul populaiei regresia se reduce la exprimarea mediei condiionate a lui Y:unde 01are semnificaia unui coeficient de elasticitate: arat modificarea lui Y la o modificare cu o unitate a lui x. De asemenea, variabilitatea lui Y pentru o valoare particular x este determinat de dispersia variabilei reziduale, o2. Exist o distribuie a valorilor luiY pentru fiecare xi dispersia acestei distribuii este constant pentru oricex.27Distribuia condiionat a lui YYXDreapta de regresie28 28si= EroareaYXModelul de regresie liniar laModelul de regresie liniar la nivelul populaiei nivelul populaieiValoarea observatValoarea observatu 0 0YXiX ! 0 1Y Xi i i! 0 0 s0 1(E(Y))29 29Modelul de regresie liniar laModelul de regresie liniar la nivelul eantionului nivelul eantionului0F0 1 i iY X F F ! Yi

= Valoarea estimat a lui Y pentru observaia iXi = Valoarea lui Xpentru observaia i= Estimatorul termenului liber F0= Estimatorul pantei F11F30Estimarea parametrilor modelului de regresie Metoda celor mai mici ptrate(M.C.M.M.P.) Least Squares(L.S.) Presupunem c avemn perechi de observaii (x1, y1), (x2, y2), , (xn, yn). Ideea este s minimizm distana dintre valorile estimate i valorile reale Ne reamintim cdeci 221 1minn nii ii iL Y YI! !!! ! 0 1 i iY x F F ! 31 31Ilustrare grafic Ilustrare graficI2YXI1I3I4^^^^Y X2 0 1 2 2!

F F

Y Xi i!F F0 12 2 2 2 21 2 3 41 LS minimizeaz niiI I I I I!! 32 Condiiile de minim: Simplificnd, obinem sistemul de ecuaii normale33Estimatorii modelului de regresiex b y bs) Y , X cov(b1 02x1 !!34Notaii Valoarea estimat: Valoarea rezidual(reziduul): 35 Dac notm suma ptratelor erorilor de regresieatunci un estimator al varianei variabilei reziduale este Estimatorul dispersiei modelului36Proprietile estimatorilor modelului de regresie0 1 0 10 0 1 1220 i snt estimatori nedeplasai ai parametrilori ( )i( )- ispersiile celor doi estimatori snt date de relaiile1 V( )E Exn SF F F FF F F FF W

! !! 212 210 1 V( )unde( )i este dispersia variabilei reziduale - stimatorii i urmeaz o distribuie normalxxxxnxx iiSS x xWFWF F! !! 37 37YPopulation LineXSample 1 LineSample 2 LineDistribuia estimatorului pantei de regresie Distribuia estimatorului pantei de regresie01 All PossibleAll Possible Sample Slopes Sample Slopes Sample 1: Sample 1: 2.5 2.5 Sample 2: Sample 2: 1.6 1.6 Sample 3: Sample 3: 1.8 1.8 Sample 4: Sample 4: 2.1 2.1: : : :Very large numberVery large number of sample slopes of sample slopesSampling Distribution Sampling Distribution001 1001 1SS^^^^38Eroarea standard a estimatorilor22 212211 ntruct variana rezidual se estimeaz prin putem avea o estimare2a erorii standard a celor doi estimatori: ( ) - ( )df 2 niixxxxenS VSEn SW WWF WF!!

! ! !

2222001( ) 1 - ( )df 2xxxxxn SV xSEn n SWFF W

! ! !

Erorile standard vor fi folosite la testarea semnificaiei parametrilor modelului de regresie39Testul t pentru panta dreptei de regresie(slope) Valoarea critic: Caz particular: 00 1 101 1::AHHF FF F !=0 0 0 01 1 1 1 1 1 1 122 2 2 11 1 121 ( )/( 2) / ( ) / 2( )n n ni i ii i ixxniitSEe n e x x nSx xF F F F F F F FFW! ! !! ! ! ! !

/ 2 ; 2 ntE 0 11: 0(nu exist legtur liniar): 0( exist legtur liniar)AHHFF!{40Exemple de acceptare a ipotezei0 1: 0(nu exist legtur liniar) H F !41Exemple de respingere a ipotezei0 1: 0(nu exist legtur liniar) H F !42Testul t pentru termenul liber(intercept)00 0 000 0::AHHF FF F !=0 00 0 0 02020 00 0 0 022221211 ( )1 1/( 2)1/ 2( )xxnn iixxi niiitSExn Sxe nxn Se nnx xF F F FFWF F F F!!! ! ! !

! !

/ 2 ; 2 ntE Valoarea critic:43Intervale de ncredere pentru parametrii modelului Pentru termenul liber(intercept) Pentru panta dreptei de regresie(slope)unde este estimatorul dispersiei modelului.0 / 2, 2 0 0 0 / 2, 2 02 22 20 / 2, 2 0 0 / 2, 2 ( ) ( )1 1 n nn nxx xxt SE t SEx xt tn S n SE EE EF F F F FF W F F W e e e e 1 / 2, 2 1 1 1 / 2, 2 12 22 21 / 2, 2 1 1 / 2, 2 ( ) ( ) n nn nxx xxt SE t SEx xt tS SE EE EF F F F FF W F F W e e e e 22 12niienW!!

44Teorema Gauss-Markov Estimatorii obinui prin metoda celor mai mici ptrate sntB.L.U.E. i.e. orice alt estimator liniar are o dispersie maimic dect cei obinui prin MCMMP.1 1 1 112 2 2 11 1 1Con orm O S, estimatorul pantei este o combinaie liniar de valorile variabileidependente:( )( ) ( ) ( ) ( )( ) ( ) ( )n n n ni i i i i i i ni i i ii i n n nii i ii i iy y x x y x x y x x y x xyx x x x x xF E! ! ! !!! ! ! ! ! ! !

'0 11 1 1 1'11 1' ' 2 211 1Fie un alt estimator liniar.Pentru ca( ) ,e necesar ca0 i1.Rezult,deci variana sa este V( ) .Fie n n n ni i i i i i ii i i in ni i ii in ni i ii iq y q q x qq q xq qvF F F IF FF I F F W! ! ! !! !! !! !! ! !!! ' 2 212 2 2 2 2 2 2 211 1 1,atunci i avem V( ) ( )( 2 ) ( ) ( ).***ni i i i i i i iin n ni i i i i i ii i iq q v vv v v V QEDE E F W EW E E W E W E F!! ! !!!!!! !u ! 45Exemplu-chiria ca funcie de suprafa Panta dreptei de regresie este pozitiv, deci exist olegtur direct ntre chirie i suprafaa apartamentelor. n plus, dac chiria crete cu o unitate(1 m2) ,chiria vacrete cu 10.640 lei. Doar panta dreptei de regresie este semnifcativ diferit dezero. P-value probabilitatea ipotezei ca parametrul estimat sfie egal cu zero; dac P-value este mai mic dect pragul desemnificaie atunci respingemaceast ipotez.46Analiza varianei pentru modelul de regresie Dac ntre X i Y nu exist nici o legtur, atunci putemface predicii privind valoarea medie a lui Y pentru oricevaloare a lui X Dac exist o legtur ntre X i Y, n ce msurcunoaterea valorilor lui X poate explica abatereavariabilei dependente de la media sa? Abaterea totala = abaterea explicata + Abatereareziduala) Y - (Y ) Y - Y ( ) Y - (Yi i i i !47 47Descompunerea variaiei Descompunerea variaieiXiYXYSST = (Yi- Y)2SSE =(Yi- Yi )2

SSR = (Yi - Y)2

___X48ANOVA pentru regresie2i i2i2i) Y (Y ) Y Y ( ) Y (Y ! SST = SSR + SSESST = Total Sum of Squares Msoar variaia valorilor observate Yin jurul mediei Y_SSR = Regression Sum of Squares Msoar variaia expli at de modelul de regresieSSE = Error Sum of Squares Msoar variaia ce poate fi atribuit altor factori, diferii de variabila explicativ X4950Coeficientul de determinaie R2 Este o msur a proporiei varianei explicate de model R2este afectat de creterea numrului deparametri; de aceea pentru modele cu multiparametri se calculeaz R2ajustat, care areaceeai interpretare.? A2 221 12 2( )1 0,1( ) ( )n ni ii ii ii iy y eSSRRSST y y y y! !

! ! ! 2 21 11 (1 ) 1 ,11 1adjn nn k n k ! 51Exemplu-chiria ca funcie de suprafaModelul explic 72.23% din variaia chiriei pentru apartamentele din zona centralStandard Error : 212niienW!!

52Observaii R2este adesea folosit pentru a alege cel mai bunmodel din punctul de vedere al varianeiexplicate. Comparaiile de acest fel trebuie fcute ntremodele de aceeai natur.53Foarte important!! Pentru modele de regresie fr termen liber, de tipulR2nu mai are semnificaia deproporie a varianei explicate. Exemplu: considermdou astfel de modele Dei ar prea c modelul al doilea este mai performant,nu snt argumente pentru a susine aceast ipotezy x F I ! 1 1 1 12 1 2 12 2 2 2,unde i i i i iy xy y x xy xF IE EF I! !! ! 54 54Coeficientul de determinaie iCoeficientul de determinaie i coeficientul de corelaie liniar coeficientul de corelaie liniarR2= 1,R2= 1,R2= .8,R2= 0,YYi= b0 + b1XiX^YYi= b0 + b1XiX^YYi= b0 + b1XiX^YYi= b0 + b1XiX^r = +1r = -1r = +0.9r = 055Tabelul ANOVATestuleste folosit la verificarea validitii modelului. Un model este validdac proporia varianei explicate prin model este semnificativ.Ipoteza nul pentru testul F in cazul acesta este cea de modelnevalid.Source of Variation Sum of SquaresdfMean Square F Regression 21( )niiSSR y y!! k-1 MSR=1SSRk MSRMSE Error 2 21 1 ( )n ni i ii iSSE y y e! !!! n-k MSE=SSEn k Total !iiy y SST2) ( n-1 1nSST 1 ,1~k n kS S RkF FS S En k

!

k-numrul de parametrii ai modelului56ANOVASUMMARY OUTPUTRegression StatisticsMultiple R 0.85R Square 0.72Adjusted R Square 0.71Standard Error 194.70Observations 25ANOVAdf SS MS F Significance FRegression 1 2267827.07 2267827.07 59.82347359 0.00Residual 23 871898.93 37908.64913Total 24 313972657Predicia folosind modelul de regresie 1. Tipuri de predicii Estimri punctuale Estimri pe intervale de ncredere 2. Care e obiectul prediciei?Media populaiei E(Y) pentru o valoare particular a luiX Valoarea individual (Yi) pentru o valoare particular a lui X58Ce prezicemMean Y, E(YYYi= F + F1XYIndi idualPredi tion, YE(Y = F+ F1XXXP^^59Interval de ncredere pentru media lui Y / 2, 2 / 2, 2222121 ( )unde1 i 2n nY YnipinYiiY t S EY Y t Sex xSn nx xE EW W !! e e

!!

60Factori care afecteaz lungimea intervalului de ncredere 1. Nivelul de ncredere (1 - e) Creterea nivelului de ncredere duce la creterea intervalului de ncredere 2. Dispersia datelor () Creterea dispersiei duce la creterea intervalului de ncredere 3. Volumul eantionului Creterea volumului eantionului duce la micorarea intervalului de ncredere 4. Distana lui Xpfa de mediaX Creterea acestei distante duce la creterea intervalului de ncredere61Distana lui Xpfa de mediaXSamle 2 ieYXX1X2Y_Samle 1 ieDis ersieDis ersie mai maremai mare dect la dect la XX1 1XX62ExempluUn analist de marketing stabilete c volumul vnzrilor depinde liniar de cheltuielile cu reclama. Estimeaz un model de regresie i obine 0= -.1, 1= .7 & s = .60553.Cheltuieli cu reclama $ Vnzri(buci)1 12 13 24 25 4Ct vor fi vnzrile medii dac se cheltuiesc 4 $ pentru reclam?alfa=0.0563Soluie

/ 2, 2 / 2, 22 ( )0.1 0.7 4 2.74 31.60553 0.33165 102.7 3.1824 0.3316 ( ) 2.7 3.1824 0.33161.6445 ( ) 3.7553n nY YYY t S EY Y t SYSEYEYE E e e!!

!! e e e eValoarea particularValoarea particular pentru X pentru XValoarea particularValoarea particular pentru X pentru X64 / / n P nY Y Y YniPinY YiiY t S Y Y t Sex xSn nx xE EW W !

! e e

! !

Interval de predicie pentru valori particulare65 65PrediciaPredicia Expected(Mean) YYYi= F0 + F1Xi^Y we're trying topredictrediction, YE(Y) =F0 + F1X^XXPs^^66Hyperbolic Interval BandsXYXYi= F0 + F1Xi^XP_^^67Predicia pentru modelul particular de regresie dintre chirie i suprafaConfidence Interval EstimateX Value 100Confidence Level 95%Sample Size 25Degrees of Freedom 23t Value 2.0 8 58Sample Mean 113.7Sum of Squared Difference 20030.5Standard Error of the Estimate 194.7014h Statistic 0.049452Predicted Y (YHat) 1239.988Interval Half Width 89.5 774Confidence Interval Lower Limit 1150.42Confidence Interval Upper Limit 1329.556Interval Half Width 412. 094Prediction Interval Lower Limit 827.3785Prediction Interval Upper Limit 1652.597DataIntermediate CalculationsFor Average YFor Individual Response Y 2211pniiX Xh statisticnX X!

!

Valoarea suprafeei pentru un apartamentChiria prezis de model pentru un apartament cu suprafaa de 100 m2Interval de ncredere pentru chiria medie a unui apartament cu suprafaa de 100 m2Interval de ncredere pentru chiria unui apartament cu suprafaa de 100 m268Verificarea ipotezelor privind variabila rezidualaA) Variabila eroare este normal distribuita Folosim valorile variabilei reziduale standardizate6922211( ) 1( )2ir iiijniis s h undex xhn x xesnII!!

!

!

Standardized residual i =Residual i / Standard deviationRESIDUAL OUTPUTObservation Predicted Chirie(RON) Residuals Standard Residuals1 1080.381767 -130.3817667 -0.6840524612 1718.806454 -118.8064537 -0.6233221813 1335.751641 -135.7516415 -0.7122256964 1484.717402 15.28259819 0.0801806825 942.0564178 7.943582206 0.041676286 1761.3681 -61.36809954 -0.3219698637 1388.953699 261.0463013 1.3695884748 952.6968292 -17.69682924 -0.0928470289 920.7755949 -45.77559489 -0.24016324610 1197.426293 -47.42629262 -0.24882368911 1346.392053 53.60794706 0.28125595412 1548.559871 101.4401295 0.53220915813 2293.388672 6.611327891 0.03468656114 1633.683162 166.3168379 0.87258705915 1431.515345 -31.51534455 -0.16534634816 1484.717402 -34.71740181 -0.18214605317 1505.998225 -405.9982247 -2.13008376918 1516.638636 183.3613638 0.96201175619 1399.59411 -199.5941102 -1.04717742220 1133.583824 16.41617608 0.08612803721 1623.042751 -23.04275068 -0.12089459122 1282.549584 367.4504158 1.92784135223 984.6180636 215.3819364 1.130008824 1239.987938 -439.9879384 -2.30841198125 1452.796167 297.2038325 1.5592902177071Normal Probability PlotNormal Probability Plot050010001500200025000 20 40 60 80 100Sample PercentileChirie(RON)7273Variabilele reziduale snt necorelate?e(t-1) e(t)-0.6 4 -0.623-0.623 -0.712-0.712 0.0800.080 0.0420.042 -0.322-0.322 1.3701.370 -0.093-0.093 -0.240-0.240 -0.249-0.249 0.2810.281 0.5320.532 0.0350.035 0.8730.873 -0.165-0.165 -0.182-0.182 -2.130-2.130 0.9620.962 -1.047-1.047 0.0860.086 -0.121-0.121 1.9281.928 1.1301.130 -2.308-2.308 1.559Corelogramai tre e(t) i e(t-1)-3.0-2.5-2.0-1.5-1.0-0.50.00.51.01.52.02.5-3 -2 -1 0 1 2 374e(t-2) e(t)-0.684 -0.712-0.623 0.080-0.712 0.0420.080 -0.3220.042 1.370-0.322 -0.0931.370 -0.240-0.093 -0.249-0.240 0.281-0.249 0.5320.281 0.0350.532 0.8730.035 -0.1650.873 -0.182-0.165 -2.130-0.182 0.962-2.130 -1.0470.962 0.086-1.047 -0.1210.086 1.928-0.121 1.1301.928 -2.3081.130 1.559Corelograma dintre e(t) i e(t-2)-3.0-2.5-2.0-1.5-1.0-0.50.00.51.01.52.02.5-3 -2 -1 0 1 2 375 Variabila reziduala are varianta constanta:Homoscedasticitate/Heteroscedasticitate Daca este incalcata conditia variantei constante suntem in cazul heteroscedasticitatii.++++++++++++++++++++++++Imprastierea creste odata cuyy^Residual^y+++++++++++++++++++++++76++++++++++++++++++++++++y^Residual^y++++++++++++++++++++++++++++++++++++++++++++ Daca varianta este constanta avem homoscedasticitate77+++++++++++++++++++++++++TimeResidualResidualTime+++Independenta erorilor in timpTipuri de variabila reziduala care indica exixtenta autocorelatiei erorilorIn timp.0 078REGRESIE MULTIPLA79Coeficienti de regresieVariabilaDependenta Variabile IndependenteVariabila eroare Regresie multiplay = 00+ 01x1+ 02x2+ + 0kxk+ s80 La Quinta Motor Inns doreste construirea unui nou hotel.Managementul doreste sa stabileasca locatia probabil cea mai profitabila. Profitabilitatea unei locatii depinde de factori cum sunt: Competition Market awareness Demand generators Demographics Physical qualityExampluStabilirea locatiei unui hotel81ProfitabilityCompetitionMarket awarenessCustomers Community PhysicalMarginRooms Nearest OfficespaceCollegeenrollmentIncome DisttwnDistance todowntown.Medianhouseholdincome.Distance tothe nearestLa Quinta inn.Number of hotels/motelsrooms within 3 miles from the site.82 Se folosesc date pentru un esantion de100 hoteluri care apartin La Quinta, si se foloseste urmatorul model :Margin =00 0lRooms 02Nearest 01Office04College + 05Income + 06Disttwn + INN MARGIN ROOMS NEAREST OFFICE COLLEGE INCOME ISTTWN1 55.5 3203 0.1 549 8 37 12.12 33.8 2810 1.5 496 17.5 39 0.43 49 2890 1.9 254 20 39 12.24 31.9 3422 1 434 15.5 36 2.75 57.4 2687 3.4 678 15.5 32 7.96 49 3759 1.4 635 19 41 4I83SUMMARY OUTPUTRegression StatisticsMultiple R 0.724611R Square 0.525062Adjusted R0.49442Standard Er5.512084Observation 100ANOVAdf SS MS F Significance FRegression 6 3123.832 520.6387 17.13581 3.03E-13Residual 93 2825.626 30.38307Total 99 5949.458Coefficients Standard Erro t Stat P-value Lower 95%Upper 95%Intercept 72.45461 7.893104 9.179483 1.11E-14 56.78049 88.12874ROOMS -0.00762 0.001255 -6.06871 2.77E-08 -0.01011 -0.00513NEAREST -1.64624 0.632837 -2.60136 0.010803 -2.90292 -0.38955OFFICE 0.019766 0.00341 5.795594 9.24E-08 0.012993 0.026538COLLEGE 0.211783 0.133428 1.587246 0.115851 -0.05318 0.476744INCOME -0.41312 0.139552 -2.96034 0.003899 -0.69025 -0.136DISTTWN 0.225258 0.178709 1.260475 0.210651 -0.12962 0.580138MARGIN = 72.455 - 0.008ROOMS -1.646NEAREST + 0.02OFFICE +0.212COLLEGE - 0.413INCOME + 0.225DISTTWN84 Utilizarea modelului Predictiepentru un hotel cu urmatoarele caracteristici: 3815 rooms within 3 miles, Closet competitor 3.4 miles away, 476,000 sq-ft of office space, 24,500 college students, $39,000 median household income, 3.6 miles distance to downtown center.MARGIN = 72.455 - 0.008(3815) -1.646(3.4) + 0.02(476)+0.212(24.5) - 0.413(39) + 0.225(3.6) = 37.1%85Testul Durbin - Watson4 d 0 is d of range Ther) r r (dn1 i2in2 i21 i ie e

!!!

86++++++++++ResidualsTimeAutocorelatie de ordinul I pozitivaAutocorelatie de ordinul I pozitivaAutocorelatie de ordinul I negativa++++00ResidualsTime+Autocorelatie de ordinul I negativa87 TEST UNILATERAL DacaddUnu exista autocorelatie de ordinul I pozitiva Daca d este intre dLsi dUindecizie. Dacad>4-dL,exista autocorelatie de ordinul I negativa Dacad