metoda regresiei

7
VII. Regresia În cazul în care două seturi de date variază împreună, corelaţia ne spune dacă această variaţie este directă (pozitivă) sau inversă (negativă). De asemenea corelaţia ne indică puterea acestei relaţii prin valoarea covarianţei. Cu toate acestea există alte informaţii folositoare pe care corelaţia nu ni le spune, cum ar fi: care este forma matematică a relaţiei (incluzând modul în care se modifică o variabilă în raport cu cealaltă) dacă şi cu cât, deviază de la formula generală orice observaţie particulară. cum putem folosi relaţia de corelaţie pentru a prezice sau prognoza valoarea cea mai probabilă pentru a doua variabilă, dacă cunoaştem o valoare dată a unei variabile. Regresia ne permite să aflăm toate aceste informaţii, regresia fiind complementară corelaţiei. Prin intermediul regresiei se pot face predicţii ale unei variabile, în funcţie de valoarea altei variabile. Predicţia este procesul de estimare a valorii unei variabile cunoscând valoarea altei variabile. Tipuri de regresie Analiza regresiei poate avea diferite forme. Cea mai simplă este regresia liniară (aceasta este metoda pe care vom insista). Scopul regresiei liniare este de a găsi dreapta de regresie, adică "linia dreaptă care se potriveşte cel mai bine" datelor noastre ("best-fit straight line"). Această linie este rezultatul modului în care cele două seturi de date covariază (variază împreună). Fig. 29. Reprezentarea grafică a dreptei de regresie. De asemenea este posibil să se facă regresie liniară multiplă, în care este definită relaţia dintre o variabilă dependentă "predicted" şi două sau mai multe variabile independente "predictor". Ecuaţia regresiei liniare Deoarece vorbim despre regresie liniară, ecuaţia de regresie are aceeaşi formă cu ecuaţia ce descrie o linie dreaptă: y = a + bx (36) unde: - x (variabila reprezentată pe axa Ox) este de obicei variabila independentă, care este cunoscută; - y (variabila reprezentată pe axa Oy) este de obicei variabila dependentă, pe care o estimăm; - b reprezintă panta, sau gradientul liniei;

Upload: ramona-damian

Post on 01-Dec-2015

48 views

Category:

Documents


0 download

DESCRIPTION

curs

TRANSCRIPT

Page 1: metoda regresiei

VII. Regresia

În cazul în care două seturi de date variază împreună, corelaţia ne spune dacă această variaţie este directă (pozitivă) sau inversă (negativă). De asemenea corelaţia ne indică puterea acestei relaţii prin valoarea covarianţei. Cu toate acestea există alte informaţii folositoare pe care corelaţia nu ni le spune, cum ar fi: • care este forma matematică a relaţiei (incluzând modul în care se modifică o variabilă în raport cu cealaltă) • dacă şi cu cât, deviază de la formula generală orice observaţie particulară. • cum putem folosi relaţia de corelaţie pentru a prezice sau prognoza valoarea cea mai probabilă pentru a doua variabilă, dacă cunoaştem o valoare dată a unei variabile. Regresia ne permite să aflăm toate aceste informaţii, regresia fiind complementară corelaţiei. Prin intermediul regresiei se pot face predicţii ale unei variabile, în funcţie de valoarea altei variabile. Predicţia este procesul de estimare a valorii unei variabile cunoscând valoarea altei variabile. Tipuri de regresie Analiza regresiei poate avea diferite forme. Cea mai simplă este regresia liniară (aceasta este metoda pe care vom insista). Scopul regresiei liniare este de a găsi dreapta de regresie, adică "linia dreaptă care se potriveşte cel mai bine" datelor noastre ("best-fit straight line"). Această linie este rezultatul modului în care cele două seturi de date covariază (variază împreună).

Fig. 29. Reprezentarea grafică a dreptei de regresie.

De asemenea este posibil să se facă regresie liniară multiplă, în care este definită relaţia dintre o variabilă dependentă "predicted" şi două sau mai multe variabile independente "predictor". Ecuaţia regresiei liniare Deoarece vorbim despre regresie liniară, ecuaţia de regresie are aceeaşi formă cu ecuaţia ce descrie o linie dreaptă:

y = a + bx (36) unde: - x (variabila reprezentată pe axa Ox) este de obicei variabila independentă, care este cunoscută; - y (variabila reprezentată pe axa Oy) este de obicei variabila dependentă, pe care o estimăm; - b reprezintă panta, sau gradientul liniei;

Page 2: metoda regresiei

- a se numeşte intercept şi reprezintă intersecţia dintre dreapta de regresie şi axa Oy (valoarea lui y când x = 0). În figura 29 este prezentat graficul a două variabile (y, x) reprezentate în sistemul de coordonare xOy, împreună cu dreapta de regresie (linia ce se potriveşte cel mai binepunctelor ce reprezintă dependenţa date). Dreapta de regresie a fost determinată prin metoda celor mai mici pătrate, metodă ce va fi prezentată în continuare. În ecuaţia dreptei de regresie (y = 1 + 2·x) din figura de mai sus, interceptul este egal cu 1,0 iar panta este egală cu 2,0. Deci, dacă ştim valoarea lui x putem calcula valoarea lui y. De exemplu, dacă x = 3, atunci y = 1 + (2·3) = 7. Dreapta de regresie intersectează axa Oy la valoarea 1 (dată de coeficientul a) şi pentru fiecare creştere a lui x cu o unitate, y creşte cu două unităţi, deci panta (gradientul) este egală cu 2. Menţionăm că valoarea coeficienţilor de regresie a şi b poate să fie şi negativă. Regresia liniară implică două variabile, valoarea unei variabile fiind dependentă de valoarea celeilalte. În literatura de specialitate se utilizează următoarea convenţie: variabila dependentă este y (fiind reprezentată pe axa Oy), iar variabila independentă este x (reprezentată pe axa Ox). Conform acestei convenţii putem se spune că "regresăm y pe x" adică putem folosi ecuaţia regresiei pentru a prezice valoarea variabilei y dacă se cunoaşte valoarea variabilei x. Notă: dacă vrem să estimăm valoarea lui x din valoarea lui y, nu putem rearanja pur şi simplu ecuaţia! Pentru a face acest lucru, trebuie să repetăm calculele pentru determinarea regresiei (folosind procedura de mai jos) considerând y ca variabilă independentă şi x ca variabilă dependentă. deci trebuie să ‘regresăm x pe y’. În majoritatea cazurilor, acest calcul va produce valori diferite pentru noi coeficienţii de regresie a şi b! Există două posibilităţi de calculare a coeficienţilor de regresie a şi b: Daca se cunoaste valoarea coeficientului de corelatie r dintre cele două variabile X si Y, mediile (Mx, My) şi abaterile standard (Sx, Sy) a celor două variabile putem aplica următoarele formule:

x

y

S

Srb = (37)

xy MbMa ⋅−= (38)

unde: r - valoarea coeficientului de corelatie dintre X şi Y, Sy - abaterea standard a variabilei Y, Sx - abaterea standard a variabilei X, My - media variabilei Y, Mx - media variabilei X. Metoda celor mai mici pătrate Cea de-a doua modalitate de calcul este metoda celor mai mici pătrate. Aceasta cale nu necesită cunoaşterea valorii coeficientului de corelaţie, a mediei sau a abaterii standard a variabilelor implicate. De aceea metoda este utilă în cazurile în care cunoaştem doar datele brute. Metoda celor mai mici pătrate implică găsirea coeficienţilor unici de regresie a şi b astfel încât suma pătratelor rezidurilor să fie minimă. Rezidurile sunt diferenţele dintre valorile actuale şi valorile estimate (prezise), de exemplu diferenţa dintre valorile y observate şi valorile y estimate prin introducerea lui x în ecuaţia de regresie. Să considerăm figura următoare, care reprezintă un grafic tip "scatter" a variabilelor x şi y pentru care vrem să determinăm dreapta de regresie. Diferenţa (rezidul) dintre fiecare valoare y observată şi valoarea corespunzătoare estimată (prezisă) este notată 'dy', unde 'd' reprezintă 'diferenţa'. Deci pentru a 5-a valoare a lui y din grafic, diferenţa dintre valoarea prezisă şi cea reală (dy5) este 4,95 - 4,05 = 0,90. Vrem să definim linia pentru care suma tuturor pătratelor valorilor "dy" este minimă. Altfel spus dorim ca linia (dreapta de regresie) să treacă cât mai aproape posibil de toate valorile observate.

Page 3: metoda regresiei

Fig. 30. Metoda celor mai mici pătrate.

Pentru calculul coeficienţilor a si b prin metoda celor mai mici pătrate, trebuie rezolvat urmatorul sistem de ecuatii:

∑∑∑

∑ ∑⋅=+

=+⋅

)yx(xbxa

yxban2

(39)

Unde n este mărimea eşantioanelor. Exemplu: Să determinăm ecuaţia dreptei de regresie (prin metoda celor mai mici pătrate) pentru seturile de date ce reprezintă cantitatea totală de precipitaţii şi debit (coeficientul de corelaţie este 0,915; s-a calculat în capitolul anterior). Variabilele care reprezintă precipitaţiile (în mm) sunt notate cu x, iar variabilele care reprezintă debitul (m3/s) sunt notate cu y . Pentru a calcula coeficienţii de regresie trebuie determinate valorile: n (mărimea eşantioanelor), suma tuturor valorilor x, suma tuturor valorilor y, suma tuturor patratelor valorilor x, suma tuturor produselor x·y. Mărimea eşantioanelor n se determină prin numărarea perechilor din cele 2 seturi de date (în cazul nostru n = 10).

Tabelul 13. Metoda celor mai mici patrate

Precipitaţii (mm) x

Debit (m3/s) y

x

2

x·y

1,2 2,7 1,44 3,24

1,8 2,4 3,24 4,32

4 8,1 16 32,4

3,6 7,2 12,96 25,92

1,9 2,5 3,61 4,75

2,4 3,7 5,76 8,88

2,7 4,6 7,29 12,42

0,4 1,7 0,16 0,68

0,1 1,8 0,01 0,18

0,9 1,4 0,81 1,26

Σx = 19 Σy = 36,1 Σx2 = 51,28 Σx·y = 94,05

Page 4: metoda regresiei

În urma calculelor se obţine: 10a + 19b = 36,1

19a +51,28b = 94,05 În urma calculului va rezulta: a = 0,42 şi b = 1,68 Ecuaţia de regresie obţinuta este: Y = 0,42 + 1,68·X Vom face în continuare predicţii ale debitului pornind de la această ecuaţie în situaţiile în care cantitatea de precipitaţii este 1,2 mm respectiv 4 mm:

Y1 = 0,42 + 1,68·1,2 = 2,44 Y2 = 0,42 + 1,68·4 = 7,14

Putem observa că între valorile estimate şi valorile efective obţinute sunt câteva diferenţe (2,44 estimat faţă de 2,7 obţinut, respectiv 7,14 estimat faţă de 8,1 obţinut). Aceste diferenţe între valorile reale şi cele estimate reprezintă erorile de estimare sau valorile reziduale. Dacă am calcula toate valorile reziduale şi media lor, am obţine media zero, iar abaterea standard ar fi eroarea standard a estimării. Aceasta se interpreteaza asemănător cu abaterea standard în situatia unei distribuţii normale a datelor. Formula de calcul prescurtat a acestei erori standard este:

2y

xy r1ss −⋅= (40)

Unde sy este abaterea standard a variabilei y, iar r este valoarea coeficientului de corelaţie. Pentru cazul nostru (sy = 2,22 şi r = 0,915):

89,0915,0122,2s 2

xy =−⋅=

Să luăm cazul în care cantitatea de precipitaţii este 1,2 mm. Valoarea estimată a debitului este de 2,44. Cu ajutorul erori standard a estimării putem aproxima că în 68% din cazurile în care cantitatea de precipitaţii este 1,2 mm, debitul va avea o valoare cuprinsă între 2,44 ± 0,89 (adică, între –1 şi +1 sy/x). Cu cât coeficientul de corelatie este mai mare, cu atât eroarea de estimare va fi mai mică. Datorită facilităţilor oferite de calculator, sunt rare cazurile în care se determină ecuaţia de regresie (cu metoda celor mai mici patrate) prin calcule manuale. Există o mulţime de programe care pot efectua aceste calcule, unul din acestea fiind şi programul EXCEL!

Două drepte de regresie După cum am atras atenţia mai sus, pentru orice set de date, se pot trasa două drepte de regresie, care minimizează suma patratelor rezidurilor pe axele Ox respectiv Oy (figura 31). Dacă valoarea y va fi estimată folosind valoarea x, atunci se foloseşte drepta care minimizează reziduurile pe axa Oy. Dacă valoarea x va fi estimată folosind valoarea y, atunci se foloseşte drepta care minimizează reziduurile pe axa Ox.

Page 5: metoda regresiei

Figura 31. Coeficientul de determinare (r

2)

Coeficientul de determinare a fost definit în paragraful anterior. Acesta este folosit pentru a cuantifica partea din variaţia unei variabile ce poate fi explicată prin variaţia celeilalte variabile şi este calculat prin ridicarea la patrat a coeficientului de corelaţie Pearson (rxy). Figura 32 reprezintă un grafic tip "scatter" a debitului (Q) de la două staţii de captare vecine, împreună cu dreapta de regresie. Relaţia liniară nu este perfectă, punctele ce reprezintă datele aflându-se în jurul dreptei de regresie. Acest lucru ne spune că nu numai debitul Q2 ‘controlează’ valoarea debitului Q1, mai există şi alte variabile care influenţează această relaţie.

Figura 32.

Coeficientul de determinare (r²) este egal cu 0,978. Această valoare ne spune că 97,8% din variaţia debitului Q1 este determinată de variaţia debitului Q2. O afirmaţie echivalentă este următoarea: 2,2% din variaţia lui Q1 este determinată de alte variabile. Valoarea r² din exemplul de mai sus este foarte ridicată. În multe situaţii se obţin valori r2 mult mai mici. Regresia neliniară Uneori relaţia dintre două variabile nu este liniară, deci trebuie efectuată o regresie neliniară (figura 33). Regresia neliniară nu este scopul acestui capitol, totuşi se poate aminti că programul EXCEL are facilitaţi de efectuare a unui număr limitat de fitări neliniare.

Figura 33. Regresie neliniară

Page 6: metoda regresiei

Limitele regresiei liniare

Principalele limite ale regresiei liniare sunt: • Sunt necesare date scalate pe un interval; • Datele trebuie să fie aproximativ normal distribuite; • Relaţia dintre variabile este presupusă liniară, uneori o fitare neliniară poate determina un rezultat de estimare mai bun; • Se presupune că măsurătorile independente sunt lipsite de erori; • Ecuaţia regresiei nu trebuie folosită pentru a prezice valori într-un domeniu prea depărtat de datele originale; • Pentru orice valoare x, valoarea y corespondentă face parte dintr-o populaţie normal distribuită. (adică rezidurile regresiei trebuie să aibă o distribuţie normală, cu media aritmetică egală cu zero); • Residurile nu trebuie să aibă vreo tendinţă (ex. panta regresiei rezidurilor pe x trebuie să fie zero). • Dacă folosim x ca variabilă independentă, atunci estimăm valoarea lui y din valoarea lui x. Dacă vrem să estimăm valoarea lui x din valoarea lui y, nu se poate rearanja ecuaţia regresiei (după cum am spus şi mai sus), ci trebuie calculată o altă ecuaţie de regresie folosind y ca variabilă independentă şi x ca variabilă dependentă.

Teste de semnificaţie Ecuaţia regresiei poate fi folosită pentru a face predicţii (estimări) complet acurate numai dacă cele două variabile sunt corelate perfect liniar. Totuşi, într-o manieră similară altor tehnici ale statisticii, putem testa semnificaţia coeficienţilor de regresie calculaţi. Putem de asemenea să definim intervale de încredere pentru orice valoare y estimată cu ajutorul ecuaţiei de regresie. Testele de semnificaţie pentru coeficienţii de regresie se bazează pe o teorie similată distribuţiei mediei eşantioanelor şi pe cunoaşterea coeficientului de corelaţie. Detaliile teoretice nu vor fi aprofundate în acest capitol, limitându-ne doar la modalitatea de aplicare a acestor teste.

Eroarea standard de predicţie Pentru a putea determina intervalul de încredere şi a putea efectua testele de semnificaţie, trebuie determinată eroarea standard de predicţie, notată sy.x (sau sx.y dacă x este estimată din valoarea y). Eroarea standard de predicţie este calculată din deviaţia standard a rezidurilor dreptei de regresie:

( ) ( )2n/yys2

cx.y −−= ∑ (41)

unde y reprezintă valoarea variabilei dependente, iar yc reprezintă valoarea estimată folosind ecuaţia de regresie. Relaţia 41 este similară relaţiei de calcul a deviaţiei standard a eşantioanelor, doar că: • măsurăm deviaţiile valorilor y faţă de drepta de regresie (deviaţia standard măsoară deviaţiile faţă de media aritmetică); • împărţim la n-2 grade de libertate (avem două eşantioane, ambele având mărimea n). Eroarea standard de predicţie (sy.x) este o măsură a împrăştierii valorilor observate în jurul dreptei obţinute prin fitare (regresie), deci poate fi folosită pentru a cuantifica incertitudinea predicţiei. Relaţia 41 este destul de complicată, din fericire programul EXCEL calculează eroarea standard de predicţie în cadrul analizei de regresie pe care o poate efectua (regression analysis tool). Testul-t pentru pantă Atunci când se fac deducţii statistice folosind regresia liniară (medoda celor mai mici pătrate) se presupune că s-a eşantionat o populaţie ce are o relaţie liniară între x şi y, cu valori fixe (dar necunoscute) ale pantei şi interceptului.

Page 7: metoda regresiei

Valorile interceptului (a) şi pantei (b) calculate folosind eşantioanele X şi Y estimează parametrii de regresie ai populaţiei, adică ne dau dreapta de regresie, care fitează întreaga populaţie. Deşi analiza corelaţiilor ne indică dacă există o corelaţie semnificativă între cele două variabile, putem testa dacă valoarea determinată pentru panta dreptei de regresie (b) este semnificativ diferită de zero. Dacă b nu este diferită de zero, atunci nu există nici o justificare statistică pentru a folosi valoarile x în scopul estimării valorilor y. Formal, putem exprima ipoteza nulului şi ipoteza alternativă în modul următor: H0: β = 0, ipoteza nulului H1: β ≠ 0 unde β este panta dreptei de regresie a populaţiei. Distribuţia valorii pantei (b) este o distribuţie de tip-t. Deci, la fel ca la distribuţia coeficientului de corelaţie putem să: • transformăm panta (b) în valori t; • folosim distribuţia-t pentru a obţine probabilitatea ca valoarea calculată a coeficientului să provină din eşantionarea aleatoare a două populaţii între care nu există o interdependenţă liniară (dacă nu sunt liniar relaţionate, panta va fi foarte aproape de zero). Programul Excel poate efectua testul-t pentru pantă, deci nu e nevoie să mai facem calculele manual, este suficient să înţelegem următoarele: • eroarea standard de predicţie (sx.y) este folosită pentru a standardiza panta (b); • cu cât creşte împrăştierea valorilor în jurul dreptei de regresie, cu atât creşte valoarea sx.y; • cu cât sx.y e mai mare, cu atât valoarea t calculată e mai mică, crescând şansa ca panta (b) să provină din eşantionarea aleatoare a două populaţii între care nu există o interdependenţă liniară; • dacă tcalc > tcrit, ipoteza nulului (panta este nulă) poate fi respinsă; • de obicei se plică testul-t tăiat la ambele capete "two-tailed test"; • gradul de libertate pentru acest test se consideră egal cu n - 2.

Testul-t pentru intercept De asemenea putem determina semnificaţia statistică a interceptului. Ipoteza nulului si ipoteza alternativă se pot scrie: H0: α = 0, ipoteza nulului H1: α ≠ 0 unde α este interceptul populaţiei Y La fel ca şi în cazul pantei, interceptul are o distribuţie ce urmează distribuţia-t, şi poate fi standardizat în unităţi-t folosind eroarea standard estimată. Testul-t pentru intercept poate fi efectuat folosind pachetul analizei statistice din programul EXCEL. Procedura pentru testarea semnificaţiei statistice a interceptului este aceeaşi ca în cazul testului-t pentru pantă. Analiza varianţei

În multe programe statistice, efectuarea unei analize de regresie se poate face în cadrul analizei ANOVA (analysis of variance). Această analiză este o alternativă la testele-t pentru a verifica dacă ecuaţia de regresie are semnificaţie statistică. Analiza regresiei în ANOVA este chiar simplă. Pur şi simplu se testează raportul dintre varianţa exprimată folosind ecuaţia regresiei (“explained” variance) şi varianţa rezidurilor (“unexplained” variance). Acest raport este notat “F” şi urmează distribuţia-F. Programul EXCEL calculează valoarea F şi ne dă probabilitatea p asociată cu această valoare pentru care regresia are semnificaţie statistică.