118655861 probleme rezolvate regresie liniara simpla

Upload: york-new

Post on 01-Jun-2018

291 views

Category:

Documents


1 download

TRANSCRIPT

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    1/17

    Problema 1.Un analist dorete s studieze legtura dintre cheltuielile pentru promovarea produselori nivelul

    vnzrilor realizate. n acest scop el sistematizeaz date pentru 15 mrfuri alimentare privindcheltuielile lunare cu promovarea produsului (mii lei)i ncasrile lunare realizate (mii lei):

    Nr. crt.Cheltuieli promovare

    (mii lei)ncasri lunare

    (mii lei)1 20,0 21902 14,8 19003 20,5 19904 12,5 12105 18,0 15006 14,3 19807 24,9 33408 16,5 18809 24,3 310010 20,2 213011 22,0 288012 19,0 3120

    13 12,3 186014 14,0 173015 16,7 1740

    a) Analiza legaturii pe baza metodei grafice:Pentru analiza de regresie liniar simpl vom construi corelograma:

    Figura 4.8 Distribuia ncasrilor n funcie de cheltuieli

    Analiznd corelograma remarcm c ntre cele dou variabile exist o legtur liniar direct ce

    poate fi descris printr-o ecuaie de forma: yi = a + bx i + e i b) Determinam modelul de regresie liniara in esantion.Calculele necesre estimrii parametrilor ecuaiei de regresie sunt redate n tabelul urmtor:

    Tabelul 4.2Nr.crt.

    Chelt.(X)

    ncas.(Y)

    2 x 2 y xy y) y y

    ) 2) y y(

    ) y y 2) y y(

    Cheltuieli de promovare (mil. lei)

    I n c a s a r i

    ( m i l

    . l e i )

    1000

    1400

    1800

    2200

    2600

    3000

    3400

    3800

    10 12 14 16 18 20 22 24 26

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    2/17

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    3/17

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    4/17

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    5/17

    .69,312

    39,163

    ;179,2;3367,38,10

    12,025.02,2 /

    1

    ==

    ==

    =+=

    +

    e

    n

    n

    s

    t t

    y

    t 0,025;12 = 2,179

    a) Intervalul de ncredere pentru cheltuielile unei zile n care sunt 6 camere ocupate este:

    86.26)3,26(

    141169,3179,233

    2++ ,

    adic (22,89;43,11) garantat cu o probabilitate de 95%;

    b) Intervalul de ncredere pentru media cheltuielilor zilnice n cazul n care au 6 camereocupate este:

    86.26)3,26(

    14169,3179,233

    2+ ,

    adic (30,19;35,82), garantat cu o probabilitate de 95%.

    Problema 3

    Pentru un magazin de mobil s-au cules date privind numrul de spoturi publicitare difuzateinumrul vizitatorilor (mii pers.) timp de 14 zile.:

    Ziua Nr. spoturi publicitare Nr. vizitatori (mii pers.)1 7 422 5 323 1 104 8 405 10 616 2 87 6 358 7 349 9 4510 3 1111 12 6412 8 3713 4 3014 11 55

    Se cere:a) reprezentai grafic datele; Comentai graficul.b) pe baza datelor de la nivelul eantionului, determinai ecuaia de regresie care modeleaz legturadintre cele dou variabilei calculai numrul zilnic previzionat de vizitatori;c) verificai dac modelul de regresie identificat este valid statistic;

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    6/17

    d) testai semnificaia statistic a parametrilor modelului, determinndi intervalele de ncrederepentru acetia;e) msurai intensitatea legturii dintre cele dou variabile cu ajutorul coeficientuluii a raportului decorelaie; testai semnificaia indicatorilor utilizai;f) n ce msur variaia numrului de vizitatori este determinat de numrul spoturilor publicitare, pebaza modelului de regresie determinat?g) previzionai numrul vizitatorilor ateptai ntr-o zi, n ipoteza c se vor difuza 15 spoturi n acea zi.h) previzionai numrul mediu zilnic de vizitatori, n ipoteza c se vor difuza 8 spoturi publicitare nmedie pe zi.

    Rezolvare:

    a) Notm cu X variabila factorial, independent nr.spoturi publicitare i cu Y variabiladependent nr.vizitatori .

    Pentru a identifica existena, formai sensul legturii dintre variabilele analizate construimcorelograma (figura 4.10).

    0

    10

    20

    30

    40

    50

    60

    70

    0 2 4 6 8 10 12 14

    nr.spoturi

    n r

    . v i z i t a

    t o r

    i

    Figura 4.10 Corelograma (diagrama de mpr tiere)

    Se observ c legtura dintre variabile este direct i liniar (ntruct dreapta de regresie arepant pozitiv), iar ecuaia de regresie va avea forma:

    ii bxa y +=

    b) Pentru a determina estimatoriia i b, rezolvm sistemul de ecuaii normale, folosind dateledin tabelul de lucru 4.5:

    =+

    =+

    ii2ii

    ii

    y x xb xa

    y xbna

    n=14 (numrul observaiilor)

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    7/17

    Tabelul 4.5

    xi yi xi2 xi yi yi

    2

    i

    i

    x

    y

    0753,52858,2

    +

    =

    ( )2ii y y ( )2 y y i ( )2 x xi

    7 42 49 294 1764 37,81 17,53 3,29 0,135 32 25 160 1024 27,66 18,82 69,52 2,701 10 1 10 100 7,36 6,96 820,19 31,848 40 64 320 1600 42,89 8,34 47,44 1,84

    10 61 100 610 3721 53,04 63,39 290,31 11,272 8 4 16 64 12,44 19,68 555,25 21,566 35 36 210 1225 32,74 5,12 10,64 0,417 34 49 238 1156 37,81 14,54 3,29 0,139 45 81 405 2025 47,96 8,78 143,12 5,563 11 9 33 121 17,51 42,40 341,82 13,27

    12 64 144 768 4096 63,19 0,66 739,24 28,708 37 64 296 1369 42,89 34,67 47,44 1,844 30 16 120 900 22,59 54,96 179,91 6,98

    11 55 121 605 3025 58,11 9,69 489,01 18,98

    i x =93

    i y =504

    2i x =763

    ii y x =4085

    2i y =22190

    504 305,53 3740,47 145,21

    ( )

    ( )0753 ,5

    203310318

    9376314

    50493408514b

    2858 ,220334647

    9376314

    408593763504a

    4085b763a93

    504b93a14

    2b

    2a

    ==

    ==

    ==

    ==

    =+

    =+

    Ecuaia de regresie este:

    ii x0753 ,52858 ,2 y +=

    c) Testarea validitii modelului de regresie determinat.Pentru testarea validitii modelului se formuleaz cele dou ipoteze:

    H 0: model nevalid statistic , cu alternativa H 1: model valid statistic

    Se completeaz tabelul:Surs

    variaieiSuma ptratelor

    (SS-Sum ofSquares )

    Grade delibertate

    ( df- degree of freedom )

    Media ptratelor( MS- Mean of

    Squares )

    Testul Fisher( testul F )

    Datorat

    regresiei

    2 x / y

    =3740,465k= 1

    2 x / ys =3740,465

    Rezidual 2e

    =305,535 n k 1=14 -2=12

    2es =25,461

    Total 2 y

    =4046,000 n 1=15-1= 13

    461,25

    465,3740=Fcalc =146,908

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    8/17

    Valoarea teoretic pentru un prag de semnificaie = 0,05 i 1, respectiv 12 grade de libertate,

    preluat din tabelul repartiiei Fisher este 1 k n;k ;F =4,75.

    ntruct Fcalc> 1 k n;k ;F se respinge H 0, adic se concluzioneaz c modelul este valid.

    Calculele intermediare se gsesc n tabelul 4.5.

    d) Ecuaia de regresie liniar la nivelul colectivitii generale se scrie:

    yi = + xi + i,iar la nivelul eantionului:

    yi = a + bx i + e i

    Pentru testarea semnificaiei parametrilor modelului de regresie liniar i estimarea lor peintervalele de ncredere se procedeaz astfel:

    1) pentru parametrul

    Ipotezele testate sunt:H0 : = 0 ( b = = 0 ),

    H1 : 0.Deoarece volumul eantionului este mic (nt /2;13 vom concluziona c este foarte improbabil ca estimatorulb s provin dintr-o populaie cu

    =0 ( adic este semnificativ diferit de zero), deci parametrul este semnificativ statistic.

    Intervalul de ncredere pentru parametrul , coeficientul de regresie din colectivitatea general, este:bn , / bn , / st bst b + 2222 , adic 5,98764,1629

    2) pentru parametrul a Ipotezele testate sunt:

    H0 : = 0,

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    9/17

    H1 : 0Statisticat este:

    aa

    acalc s

    as

    at

    0=

    =

    .

    Unde 0912,321,14514

    763046,5)(

    1

    2

    1

    2

    =

    =

    =

    =

    =

    n

    ii

    n

    ii

    ea

    x xn

    xss

    Se obine calct = 0,7394

    Pentru un prag de semnificaie de 5%, valoarea teoretic a testului este t /2;13 = 2,179 . Deoarece

    calct 2n;t , deci coeficientul de corelaie este semnificativ statistic

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    10/17

    Un alt indicator utilizat att n cazul legturilor liniare, cti al celor neliniare esteraportul decorela ie R :

    ( )

    ( )9615,0

    404653,3051

    1 2

    2

    / ==

    ==

    y y

    y y R R

    i

    ii x y

    Calculele necesre determinrii raportului de corelaie sunt redate n 4.5

    36 14

    504n

    y y i ===

    mii pers. R y/x = r y/x = 0,9615, deci exist o legtur liniar, puternic i direct ntre cele dou variabile.

    Testarea semnificaiei raportului de corelaie se face cu testul F:

    9,1461

    12

    2=

    =

    R R

    k k n

    F

    Valoarea teoretic pentru un prag de semnificaie = 0,05 i 1, respectiv 12 grade de

    libertate, preluat din tabelul repartiiei Fisher este 1 k n;k ;F =4,75.

    ntruct Fcalc> 1 k n;k ;F se respinge H 0, adic se concluzioneaz c R este semnificativ

    statistic.f) Pentru a determina n ce msur variaia numrului de vizitatori este explicat de influena

    numrului de spoturi publicitare difuzate zilnic, se calculeaz coeficientul de determina ie:

    9245 ,09615 ,0 R 22 x / y == su 92,45% arat c aproximativ 92% din variaia variabileiY este

    explicat de variabila X .g) Dac numrul spoturilor publicitare difuzate va fi de 15, atunci numrul previzionat al

    vizitatorilor pe baza acestei ecuaii de regresie este:

    78 150753 ,52858 ,2 y 15 x / +== mii pers. (estimare punctual)

    Pentru estimarea pe interval de ncredere, trebuie s determinm dispersia diferenei

    , ,11 inn y y ++ adic dispersiaerorii de previzionare. Dispersia n eantion este:

    ( ) ( ) 534,3921,145 )64,615(1411461,25)()(11

    2

    1

    2

    2122

    2 ,11,1

    =

    ++=

    ++==

    =

    + +++ n

    ii

    ne y y y

    x x

    x xn

    sssinnin

    .

    Intervalul de ncredere este:

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    11/17

    =

    ++

    ++

    n

    ii

    nenin

    x x

    x xn

    st y

    1

    2

    21

    2,2 / ,1

    )(

    )(11 , adic (64,71; 92,11) mii persoane.

    h) Suntem n cazul determinrii intervalului de ncredere pentru media de rspuns, cnd xn+1

    x . Pentru aceasta se determin ( ) 9,426,64-85,075336)( 11 =+=+= ++ x xb y y nn

    iar estimatorul dispersiei pentru 1 +n y este:

    ( )

    ( )14,2

    21,145)64,68(

    141461,25)(1

    2

    1

    2

    2122

    1=

    +=

    +=

    =

    +

    + n

    ii

    ne y

    x x

    x x

    nss

    n

    Intervalul de ncredere pentru media de rspuns este:

    ( )( )

    =

    ++

    +n

    ii

    nenn

    x x

    x xn

    st y

    1

    2

    2

    12,2 / 1 1 , adic (39,71; 46,08) mii persoane

    Se poate utiliza, ns, pentru rezolvarea problemeii un pachet informatic specializat, n cazulnostru EXCEL. n urma selectrii, din meniul principal, a opiunilor + + , s-au obinut urmtoarele rezultate:

    SUMMARY OUTPUT Regression Statistics

    Multiple R 0,961501303

    R Square 0,924484756Adjusted RSquare 0,918191819Standard Error 5,045911528Observations 14

    ANOVAdf SS MS F Significance F

    Regression 1 3740,465 3740,465 146,908 0,0000000433Residual 12 305,535 25,461Total 13 4046,000

    Coefficients Standard Error t Stat P-value Lower

    95%Upper95%

    Intercept 2,2858 3,0912 0,7394 0,4738580696 -4,4495 9,0210Nr. spoturi 5,0753 0,4187 12,1206 0,0000000433 4,1629 5,9876

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    12/17

    Problema 4. Un vnztor de automobile second hand ar dori s tie dac preul de vnzare alacestora la licitaie depinde de numrul de kilometri parcuri de automobilul respectiv. Pentru aceastael selecteaz 50 de automobile cu o vechime de 3 ani, aceeai marc i aceleai faciliti. Pentrufiecare main a nregistrat preul de vnzare la licitaie i numrul de kilometri de la bordulautoturismului.

    a) Vnztorul ar dori s tie care este dependena dintre preul de vnzarei numrul dekilometri parcuri.

    b) Testai semnificaia parametrilor funciei de regresiei validitatea modelului de regresieobinut.

    c) Msurai intensitatea legturii dintre variabile.

    Pre ul Nr.Km Pre ul Nr.Km Pre ul Nr.Km Pre ul Nr.Km Pre ul Nr.Km37388 5318 32359 5595 38775 5150 32161 5507 37407 510544758 5061 43533 5330 45563 5249 26561 5873 34356 568545833 5008 32744 5806 28676 5775 33533 5303 30599 5788

    30862 5795 34470 5805 38231 5327 41849 5237 42485 520831705 5784 37720 5317 36683 5192 36668 5383 38430 516834010 5359 41350 5316 32517 5544 37495 5286 40452 512845854 5235 24469 5870 39050 5054 25629 5827 26030 575019057 5845 35781 5504 45251 5115 40099 5483 46296 496540149 5536 48613 5333 34384 5410 31014 5440 34844 523840237 5401 24188 5705 38383 5529 42233 5215 27379 5763

    Rezolvare:

    a) Pentru determinarea dependenei ntre cele dou variabile se face un grafic pentru determinarea

    tipului legturii.

    4800500052005400

    560058006000

    0 10000 20000 30000 40000 50000 60000Numr de kilometri parcur i

    P r e

    Figura 4.12

    Deoarece punctele reprezentate sunt grupate n jurul diagonalei secundare, exist o

    dependen liniar, invers ntre cele dou variabile. Pentru determinarea modului n care preul

    variaz n funcie de numrul de kilometri parcuri se va folosi modelul de regresie liniar.

    Rezolvare folosind EXCEL:

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    13/17

    1. Introducei datele astfel: n celulaA1 tastai Nr.Km. iar nB1 Preul. n prima coloan, ncepnd dinA2 se vor introduce numrul de kilometri parcuri, iar pe coloana a doua, ncepnd dinB2 se vor introduce preurile.

    2. Apsi Tools-Data Analysis i Regression.3. LaInput Y Range selectai B1:B51. LaInput X Range selectai A1:A51.Selectai Labels. 4. Dac dorii s calculai valorile reziduale ( ii y y ), selectai Residuals. Apsi OK.

    Se obin rezultatele:

    SUMMARY OUTPUT

    Regression StatisticsMultiple R 0.808922R Square 0.654355Adjusted R Square 0.647154Standard Error 157.8984Observations 50

    ANOVA Df SS MS F Significance F

    Regression 1 2265584 2265584 90.87089 1.19E-12

    Residual 48 1196732 24931.91Total 49 3462316

    Coefficients Standard Error

    t Stat P-value Lower 95% Upper 95%

    Intercept 6598.34 124.3322 53.07024 2.78E-44 6348.353 6848.326Nr.Km. -0.03224 0.003382 -9.53262 1.19E-12 -0.03904 -0.02544

    Interpretarea rezultatelor prezente n ultimul tabel din SUMMARY OUTPUT.

    Coeficientulb este 0,03224, ceea ce nsemn c la creterea distanei parcurse cu 1kilometru, preul va descrete cu 0,03224104 lei (322,4 lei).

    Intercept este termenul liber, deci coeficientula este 6598,34. Termenul liber este punctul n

    care dreapta de regresie intersecteaz axa y. Aceasta nseamn c x=0 , deci a reprezint preul uneimaini care nu a fost condus. Dar, n cazul nostru acest punct nu are semnificaie, deoarece toatemainile sunt second hand.

    Interpretarea rezultatelor prezente n primul tabel din SUMMARY OUTPUT.

    Este calculat eroarea standard,Standard Error , egal cu 157,9. n cazul n care aceast valoare este zero, nseamn c toate punctele observate se afl pe dreapta de regresie. Deci, bine esteca aceast valoare s fie ct mai apropiat de zero. Ce nseamn mai apropiat de zero este greu despus folosind doar eroarea standard. De aceea se calculeaz mrimi derivate din aceasta pentru a spunect de apropiate sunt punctele de dreapta de regresie.

    Pentru a putea spune n ce msur modelul liniar de regresie explic dependena dintrevariabile se calculeaz coeficientul de determinaie, R-square care n cazul nostru este 0,6544. Deci65,44% din variaia preului este explicat de variaia numrului de kilometri parcuri de automobil.

    Este calculat, de asemenea, coeficientul de determinaie ajustat,2

    R , egal cu 0,6472.n cazul n care a fost selectati Residuals, tot n acestSheet de rezultate sunt calculate

    valorile rezidualei valorile previzionate pe baza modelului de regresie.

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    14/17

    RESIDUAL OUTPUT

    Observation Predicted Price Residuals1 5392.879821 -74.87982 5155.257064 -94.25713 5120.597029 -112.5974 5603.29042 191.7096

    .....

    Rezolvare folosind STATISTICA:1. Creai un fiier cu 2 variabilei 50 de cazuri (File/New data). Introducei datele astfel: prima

    variabil este numrul de kilometri parcuri, a doua variabil este preul stabilit la licitaie.2. Selectai modululGeneral Linear Model. Selectai apoiSimple Regression.3. n noua fereastr deschis apsi butonulVariables. Aici selectai la Dependent variable list

    a doua variabil i laPredictor prima variabil. Apsi OK.4. Apsi Summary. Apsi Coefficients.

    Se obine:

    Acest tabel se interpreteaz similar cu tabelul 3 dinSUMMARY OUTPUT obinut prin EXCEL.

    5. Apsi Continue. Apsi Whole model R.

    Se obine:

    Acest tabel se interpreteaz similar cu tabelul 1 dinSUMMARY OUTPUT obinut prin EXCEL.

    Dac se dorete calculul valorilor rezidualei al celor previzionate se parcurg paii:

    6. Apsi Continue. Apsi Resids. Selectai Extended. Apsi Predicted and residuals.

    Se obine:

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    15/17

    Se observ c n tabelul anterior sunt afiate:- preul observat;- preul previzionat;- valoarea rezidual: preul observat preul previzionat;- eroarea standard;

    b) Rezolvare folosind EXCEL: Interpretarea rezultatelor prezente n ultimul tabel din SUMMARY OUTPUT.

    n coloana a doua (Standard Error ) sunt calculate, erorile standard ale parametrilor estimai:sa = 124,33i sb = 0,0034. Aceste erori sunt folosite pentru calculul statisticilort pentru testareasemnificaiei estimatorilor. Acestea sunt calculate n coloanatStat, ta = 53,07i tb = - 9,53. Deoarecevalorile p asociate sunt foarte apropiate de zero (n coloanaP-value), se poate spune c estimatoriisunt semnificativi.

    Lower 95% i Upper 95% sunt limitele inferioare, respectiv superioare ale coeficienilor estimai.

    Interpretarea rezultatelor prezente n tabelul ANOVA.

    Validitatea modelului de regresie se testeaz folosind testul F. n tabelul ANOVA suntcalculate cele trei variaii: cea explicat de model, cea rezidual i cea total. Cu ajutorul acestora secalculeaz Statistica F. n cazul nostru aceasta este 90,87. Deaorece valoareap asociat este foarteapropiat de zero (prag de semnificaie sczut), se poate valida modelul de regresie.

    n cazul n care a fost selectati Residuals, tot n acestSheet de rezultate sunt calculatevalorile rezidualei valorile previzionate pe baza modelului de regresie.

    RESIDUAL OUTPUT

    Observation Predicted Price Residuals1 5392.879821 -74.87982 5155.257064 -94.25713 5120.597029 -112.5974 5603.29042 191.7096

    .....

    Rezolvare folosind STATISTICA:

    Acest tabel se interpreteaz similar cu tabelul 3 dinSUMMARY OUTPUT obinut prin EXCEL.

    Dac se dorete calculul valorilor rezidualei al celor previzionate se parcurg paii:

    Apsi Continue. Apsi Resids. Selectai Extended. Apsi Predicted and residuals.

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    16/17

    Se obine:

    Se observ c n tabelul anterior sunt afiate:- preul observat;- preul previzionat;- valoarea rezidual: preul observat preul previzionat;- eroarea standard;- intervalul de previziune, pentru o probabilitate de 95%: n cazul unui automobil cu acelai

    numr de kilometri parcuri, cu o probabilitate de 95%, preul previzionat al acestuia va fiinclus n intervalul de previziune;

    - intervalul de ncredere, pentru o probabilitate de 95%: n cazul unui automobil cu acelainumr de kilometri parcuri, cu o probabilitate de 95%, preul acestuia va fi inclus nintervalul de ncredere.

    c) Deoarece datele sunt cantitative, pentru msurarea intensitii legturii dintre dou variabilese calculeaz coeficientul de corelaie liniar.

    Rezolvare folosind EXCEL:

    1. Introducei datele ca n Exemplul 5.13.2. Apsi Tools-Data Analysis i Correlation.3. Specificai Input Range (A1:B51). Apsi Labels in First Row. Apsi OK.

    Se obin rezultatele: Num r de kilometri parcur i Pre

    Num r de kilometri parcur i 1Pre -0.808922247 1

    Coeficientul de corelaie dintre numrul de kilometri parcuri i pre este -0,809. Deoarece acestaeste negativi apropiat de unu se poate spune c exist o corelaie invers ntre cele dou variabile.

    Rezolvare folosind STATISTICA:1. Introducei datele ca n Exemplul 5.13.2. Selectai modululBasic Statistics and Tables. Selectai apoiCorrelation Matrices.3. Apsi butonulOne variable list (square matrix). Selectai ambele variabile. Apsi OK.4. LaDisplay selectai Detailed table of results. Apsi OK.

    Se obin rezultatele:

  • 8/9/2019 118655861 Probleme Rezolvate Regresie Liniara Simpla

    17/17

    Coeficientul de corelaie dintre numrul de kilometri parcuri i pre este -0,81. Deoareceacesta este negativi apropiat de unu se poate spune c exist o corelaie invers ntre cele dou variabile.