solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de...

48
1 Cap. XI Regresie liniară simplă şi corelaţie 11.1 Modele empirice Multe probleme ştiinţifice implică explorarea relaţiilor dintre două sau mai multe variabile. De exemplu, presiunea unui gaz într-un container este în relaţie cu temperatura, viteza apei într-un canal deschis este în relaţie cu grosimea canalului şi deplasarea unei particule la un anumit moment depinde de viteza sa. În acest ultim exemplu, dacă d 0 este deplasarea particulei faţă de un reper la momentul 0 t = şi v este viteza, atunci deplasarea la momentul t este () 0 dt d vt = + . Acesta este un exemplu de relaţie liniară deterministă, deoarece modelul estimează perfect deplasarea (fără erorile de măsură). Există multe situaţii în care relaţia dintre variabile nu este deterministă. De exemplu, consumul de energie electrică al unei case y este corelat cu dimensiunea casei x în metri pătraţi dar e puţin probabil să avem o relaţie deterministă între acestea. Similar, consumul de combustibil al unui automobil y este în relaţie cu masa vehiculului x, dar relaţia nu este deterministă. În ambele exemple, valoarea care ne interesează y (energia consumată, combustibilul folosit) nu pot fi estimate perfect din cunoştinţele despre x. Este posibil ca pentru diverse tipuri de automobile să avem consum de combustibil diferit chiar dacă automobilele au aceeaşi masă şi este posibil ca diferite case să folosească cantităţi diferite de electricitate chiar dacă au aceeaşi dimensiune. Mulţimea de unelte statistice folosite pentru a modela şi explora relaţiile dintre variabile care sunt în relaţie într-o manieră nedeterministă se numeşte analiză de regresie. Deoarece probleme de acest tip apar frecvent în multe ramuri ale ştiinţei şi tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice . În acest capitol prezentăm situaţia în care avem o singură variabilă independentă sau predictor x şi relaţia cu răspunsul y este presupusă a fi liniară. Deşi această situaţie pare simplă, sunt multe probleme practice care apar în acest cadru. De exemplu, într-un proces chimic, presupunem că randamentul produsului este corelat cu temperatura de operare procesului. Analiza de regresie poate fi folosită pentru a construi un model care să estimeze randamentul la un nivel de temperatură fixat. Acest model poate fi folosit la optimizarea procesului, de exemplu la determinarea nivelului de temperatură care maximizează randamentul, cu scopul de a controla procesul. Drept ilustrare, considerăm datele din tabelul 11.1. În tabel, avem y puritatea oxigenului produs într-un proces de distilare chimică şi x nivelul de hidrocarburi prezent în sistemul principal de condensare al unităţii de distilare. Figura 11.1 arată o diagramă de împrăştiere (scatter diagram) pentru datele din tabelul 11.1. Această diagramă este un grafic în care fiecare pereche ( ) , i i x y este reprezentată ca un punct într-un sistem de coordonate bidimensional. Această reprezentare grafică ne ajută să vedem distribuţia variabilelor individuale. Putem utiliza şi alte metode grafice ca box-plot-urile şi histogramele. Inspectând această diagramă de împrăştiere, observăm că deşi nici o curbă simplă nu va trece prin toate punctele, există o impresie puternică că punctele se află împrăştiate aleator în jurul unei linii drepte.

Upload: others

Post on 12-Feb-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

1

Cap. XI Regresie liniară simplă şi corelaţie

11.1 Modele empirice

Multe probleme ştiinţifice implică explorarea relaţiilor dintre două sau mai multe variabile. De exemplu, presiunea unui gaz într-un container este în relaţie cu temperatura, viteza apei într-un canal deschis este în relaţie cu grosimea canalului şi deplasarea unei particule la un anumit moment depinde de viteza sa. În acest ultim exemplu, dacă d0 este deplasarea particulei faţă de un reper la momentul 0t = şi v este viteza, atunci deplasarea la momentul t este ( ) 0d t d vt= + . Acesta este un exemplu de relaţie liniară deterministă, deoarece modelul estimează perfect deplasarea (fără erorile de măsură).

Există multe situaţii în care relaţia dintre variabile nu este deterministă. De exemplu, consumul de energie electrică al unei case y este corelat cu dimensiunea casei x în metri pătraţi dar e puţin probabil să avem o relaţie deterministă între acestea. Similar, consumul de combustibil al unui automobil y este în relaţie cu masa vehiculului x, dar relaţia nu este deterministă. În ambele exemple, valoarea care ne interesează y (energia consumată, combustibilul folosit) nu pot fi estimate perfect din cunoştinţele despre x. Este posibil ca pentru diverse tipuri de automobile să avem consum de combustibil diferit chiar dacă automobilele au aceeaşi masă şi este posibil ca diferite case să folosească cantităţi diferite de electricitate chiar dacă au aceeaşi dimensiune.

Mulţimea de unelte statistice folosite pentru a modela şi explora relaţiile dintre variabile care sunt în relaţie într-o manieră nedeterministă se numeşte analiză de regresie. Deoarece probleme de acest tip apar frecvent în multe ramuri ale ştiinţei şi tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm situaţia în care avem o singură variabilă independentă sau predictor x şi relaţia cu răspunsul y este presupusă a fi liniară. Deşi această situaţie pare simplă, sunt multe probleme practice care apar în acest cadru.

De exemplu, într-un proces chimic, presupunem că randamentul produsului este corelat cu temperatura de operare procesului. Analiza de regresie poate fi folosită pentru a construi un model care să estimeze randamentul la un nivel de temperatură fixat. Acest model poate fi folosit la optimizarea procesului, de exemplu la determinarea nivelului de temperatură care maximizează randamentul, cu scopul de a controla procesul.

Drept ilustrare, considerăm datele din tabelul 11.1. În tabel, avem y puritatea oxigenului produs într-un proces de distilare chimică şi x nivelul de hidrocarburi prezent în sistemul principal de condensare al unităţii de distilare. Figura 11.1 arată o diagramă de împrăştiere (scatter diagram) pentru datele din tabelul 11.1. Această diagramă este un grafic în care fiecare pereche ( ),i ix y este reprezentată ca un punct într-un sistem de coordonate bidimensional. Această reprezentare grafică ne ajută să vedem distribuţia variabilelor individuale. Putem utiliza şi alte metode grafice ca box-plot-urile şi histogramele. Inspectând această diagramă de împrăştiere, observăm că deşi nici o curbă simplă nu va trece prin toate punctele, există o impresie puternică că punctele se află împrăştiate aleator în jurul unei linii drepte.

Page 2: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

2

Numarul observatiei

Nivelul de hidrocarburix(%)

Puritate y(%)

1 0.99 90.01 2 1.02 89.05 3 1.15 91.43 4 1.29 93.74 5 1.46 96.73 6 1.36 94.45 7 0.87 87.59 8 1.23 91.77 9 1.55 99.42 10 1.4 93.65 11 1.19 93.54 12 1.15 92.52 13 0.98 90.56 14 1.01 89.54 15 1.11 89.85 16 1.2 90.39 17 1.26 93.25 18 1.32 93.41 19 1.43 94.98 20 0.95 87.33

Tabelul 11.1

Figura 11.1

Este rezonabil să presupunem că media variabilei aleatoare Y este corelată cu x cu următoarea relaţie liniară: ( ) 0 1Y xE Y x xμ β β= = +

unde panta şi intersecţia cu ordonata se numesc coeficienţi de regresie. În timp ce media lui Y este o funcţie liniară de x, valoarea observată y nu este exact pe dreaptă. Tehnica potrivită de a generaliza acest lucru într-un model liniar probabilistic este să presupunem

Page 3: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

3

că valoarea medie a lui Y este o funcţie liniară de x, dar pentru o valoare fixă a lui x, valoarea lui Y este determinată de funcţia valoare medie (model liniar) plus o eroare aleatoare, 0 1Y xβ β ε= + + (1) unde ε este termenul aleator eroare. Vom numi acest model modelul de regresie liniară simplă, deoarece acesta are o singură variabilă independentă sau regresor. Uneori, un model ca acesta se formează având la bază relaţii teoretice. Alteori, nu avem cunoştinţe teoretice despre relaţia dintre x şi y, şi alegerea modelului se bazează pe inspecţia diagramei de împrăştiere, ca în exemplul de mai sus. De aceea, ne referim la modelul de regresie ca la un model empiric.

Pentru a analiza mai mult acest model, presupunem că putem fixa valoarea lui x şi observăm valorile variabilei aleatoare Y. Dacă x este fixat, atunci componenta aleatoare ε din partea dreaptă a ecuaţiei modelului (1) determină proprietăţile lui Y. Presupunem că media şi varianţa lui ε sunt 0 şi 2σ respectiv. Atunci: ( ) ( ) ( )0 1 0 1 0 1E Y x E x x E xβ β ε β β ε β β= + + = + + = + Observăm că aceasta este aceeaşi relaţie pe care am scris-o iniţial în mod empiric, în urma inspecţiei diagramei de împrăştiere 11.1. Varianţa lui Y condiţionată de x este: ( ) ( ) ( ) ( ) 2 2

0 1 0 1 0V Y x V x V x Vβ β ε β β ε σ σ= + + = + + = + = Astfel, modelul real de regresie 0 1Y x xμ β β= + este o dreaptă a valorilor medii, adică înălţimea dreptei de regresie pentru orice valoare a lui x este valoarea medie a lui Y pentru x fixat. Panta 1β , poate fi interpretată ca modificarea în medie a lui Y pentru o modificare a lui x cu o unitate. Mai mult, variabilitatea lui Y pentru un x particular este determinată de varianţa erorii 2σ . Acest fapt implică existenţa unei distribuţii a valorilor lui Y pentru fiecare x şi că varianţa acestei distribuţii este aceeaşi pentru fiecare x.

De exemplu, presupunem că modelul real de regresie care corelează puritatea oxigenului cu nivelul de hidrocarburi este 75 15Y x xμ = + , şi presupunem că varianţa este

2 2σ = . Figura 11.2 ilustreză această situaţie. Subliniem că pentru a descrie variaţia aleatoare a lui ε am folosit o distribuţie normală. Cum Y este suma dintre o constantă

0 1xβ β+ (media) şi o variabilă aleatoare distribuită normal, Y este la rândul ei o variabilă aleatoare distribuită normal. Varianţa 2σ determină variabilitatea în datele Y de puritate a oxigenului. Atunci când 2σ este mic valorile observate pentru Y vor fi în apropierea dreptei, şi atunci când 2σ este mare valorile observate pentru Y vor devia considerabil de la dreaptă. Cum 2σ este constant, variabilitatea lui Y la orice valoare a lui x este aceeaşi.

Modelul de regresie descrie relaţia dintre puritatea oxigenului Y şi nivelul de hidrocarburi x. Astfel, pentru o valoare fixă a nivelului de hidrocarburi, puritatea oxigenului are o distribuţie normală cu media 75 15x+ şi varianţa 2. De exemplu, dacă

1.25x = , atunci Y are valoarea medie 75 15 1.25 93.75Y xμ = + × = şi varianţa 2.

Page 4: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

4

Figura 11.2 Distribuţia lui Y pentru o valoare fixată a lui x

În majoritatea problemelor reale, valorile intersecţiei cu ordonata şi pantei

( )0 1,β β şi varianţa erorii 2σ nu vor fi cunoscute, şi acestea vor fi estimate din datele din eşantion. Acest model sau această ecuaţie de regresie fitată este folosită în predicţia observaţiilor viitoare pentru Y, sau pentru estimarea mediei răspunsului pentru o valoare particulară a lui x. Pentru ilustrare, un inginer poate fi interesat în estimarea mediei purităţii oxigenului produsă atunci când nivelul de hidrocarburi este 1.25%x = . Notă istorică Sir Francisc Galton a folosit prima dată termenul de analiză de regresie într-un studiu asupra înălţimii taţilor x şi fiilor y. Galton a fitat cu o dreaptă datele, cu metoda celor mai mici pătrate, şi a folosit fitul pentru predicţia înălţimii fiilor din înălţimea taţilor. El a observat că dacă înălţimea tatălui este deasupra mediei, înălţimea fiului ar fi de asemenea deasupra mediei, dar nu la fel de mult ca în cazul tatălui. Un efect similar a fost observat pentru înălţimile sub medie. Adică, înălţimea fiilor regresează spre medie. În consecinţă, Galton s-a referit la dreapta de fitare ca la o dreaptă de regresie.

Abuzuri ale regresiei Regresia este larg folosită şi frecvent uzurpată. Menţionăm în cele ce urmează câteve abuzuri comune ale regresiei. O mare atenţie trebuie acordată selecţiei variabilelor cu care construim ecuaţiile de regresie şi de asemenea determinării formei modelului. Este posibil să dezvoltăm relaţii semnificative statistic între variabile care sunt complet nelegate în sens cauzal. De exemplu, am putea încerca să asociem rezistenţa la forfecare a punctelor de sudură cu numărul de locuri de parcare libere. Putem să obţinem chiar şi o linie dreaptă cu un bun fit al datelor, dar relaţia este nerezonabilă. Nu putem creşte rezistenţa sudurilor blocând locurile de parcare. O asociere puternică observată între variabile nu implică în mod necesar existenţa unei relaţii cauzale între variabilele respective. Acest tip de efect se întâlneşte destul de des în analiza retrospectivă a datelor, şi chiar în studii observaţionale. Singura modalitate de a determina relaţii de tip cauză efect o reprezintă experimentele proiectate.

Page 5: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

5

Relaţiile de regresie sunt valide numai pentru valori ale variabilei regresor aflate în domeniul datelor originale folosite la construirea modelului. Relaţia liniară pe care am propus-o orientativ poate să fie valabilă şi în afara domeniul datelor originale, dar este puţin probabil să rămână valabilă când extrapolăm, adică dacă folosim valori ale lui x dincolo de domeniul datelor originale. Cu alte cuvinte, dacă ne deplasăm în afara domeniului valorilor x colectate, devenim mai puţin siguri de validitatea modelului propus. Modelele de regresie nu sunt în mod necesar valide în cazul extrapolărilor.

Acest lucru nu înseamnă să nu facem niciodată extrapolări. Există multe probleme în ştiinţă în care extrapolarea unui model de regresie este singura cale de a aborda problema. Totuşi, trebuie să fim foarte atenţi atunci când facem extrapolări. O extrapolare modestă poate fi perfect în regulă în multe cazuri, dar o exrapolare mare aproape niciodată nu produce rezultate acceptabile.

11.2 Regresie liniară simplă

Regresia liniară simplă consideră o singură variabilă regresor sau variabilă predictor x şi o variabilă dependentă răspuns Y. Presupunem că relaţia reală dintre Y şi x este o dreaptă şi observaţia Y pentru fiecare x este o variabilă aleatoare. Cum am notat în paragraful precedent, valoarea medie sau aşteptată a lui Y pentru x fixat este: ( ) 0 1E Y x xβ β= + unde intersecţia cu ordonata 0β şi panta 1β sunt coeficienţii necunoscuţi ai regresiei. Presupunem că fiecare observaţie Y poate fi descrisă de modelul:

0 1Y xβ β ε= + + (2) unde ε este o eroare aleatoare cu media nulă şi varianţă necunoscută 2σ . Erorile aleatoare corespunzătoare la diferite observaţii sunt presupuse a fi variabile aleatoare necorelate.

Presupunem că avem n perechi de observaţii ( )1 1,x y , ( )2 2,x y , ( )3 3,x y , … ,

( ),n nx y . Figura 11.3 prezintă o diagramă de împrăştiere tipică a datelor şi un candidat pentru dreapta de regresie estimată. Estimările pentru 0β şi 1β trebuie să conducă la o dreaptă care într-un anumit sens trebuie să fie un best fit pentru date. Omul de ştiinţă german Karl Gauss (1777-1855) a propus estimarea parametrilor 0β şi 1β în ecuaţia (2) cu ajutorul minimizării sumei pătratelor deviaţiilor verticale din figura 11.3.

Page 6: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

6

Figura 11.3 Deviaţia datelor de la modelul de regresie estimat

Această tehnică de estimare a coeficienţilor de regresie liniară o numim metoda celor mai mici pătrate. Cu relaţia (2) putem exprima cele n observaţii din eşantion astfel: 0 1i i iy xβ β ε= + + , 1, 2, ,i n= … (3) şi suma pătratelor deviaţiilor observaţiilor de la dreapta de regresie reală este:

( )220 1

1 1

n n

i i ii i

L y xε β β= =

= = − −∑ ∑ (4)

Estimatorii pentru 0β şi 1β determinaţi cu metoda celor mai mici pătrate şi notaţi 0β şi

1β trebuie să satisfacă:

( )0 1

0 11ˆ ˆ0 ,

ˆ ˆ2 0n

i ii

L y xβ β

β ββ =

∂= − − − =

∂ ∑

( )0 1

0 11ˆ ˆ1 ,

ˆ ˆ2 0n

i i ii

L y x xβ β

β ββ =

∂= − − − =

∂ ∑ (5)

Simplificând ecuaţiile obţinem:

0 11 1

ˆ ˆn n

i ii i

n x yβ β= =

+ =∑ ∑

20 1

1 1 1

ˆ ˆn n n

i i i ii i i

x x y xβ β= = =

+ =∑ ∑ ∑ (6)

Aceste două ecuaţii se numesc ecuaţiile celor mai mici pătrate normale. Soluţia sistemului de ecuaţii normale constă în estimatorii 0β şi 1β .

Page 7: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

7

Estimatorii coeficienţilor regresiei cu cele mai mici pătrate: Estimările cu metoda celor mai mici pătrate pentru intersecţia cu ordonata şi panta în modelul de regresie liniară simplă sunt:

0 1ˆ ˆy xβ β= − (7)

1 1

11 2

12

1

ˆ

n n

i ini i

i ii

n

ini

ii

y xy x

n

xx

n

β

= =

=

=

=

⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠−

=⎛ ⎞⎜ ⎟⎝ ⎠−

∑ ∑∑

∑∑

(8)

In aceste relaţii avem 1

1 n

ii

y yn =

= ∑ şi 1

1 n

ii

x xn =

= ∑ .

Dreapta de regresie fitată sau estimată este:

0 1

ˆ ˆy xβ β= + (9) Precizăm că fiecare pereche de observaţii verifică relaţia: 0 1

ˆ ˆi i iy x eβ β= + + , 1, ,i n= …

unde ˆi i ie y y= − se numesc reziduuri. Reziduurile descriu erorile introduse prin fitare în model pentru observaţia yi. Mai târziu în acest capitol vom folosi reziduurile pentru a obţine informaţii despre adecvarea modelului fitat. Ocazional, este convenabil să folosim notaţii specifice pentru numărătorul şi numitorul din ecuaţia (8). Astfel, pentru datele ( )1 1,x y , ( )2 2,x y , … , ( ),n nx y , fie:

( )

2

2 12

1 1

n

in ni

xx i ii i

xS x x x

n=

= =

⎛ ⎞⎜ ⎟⎝ ⎠= − = −∑

∑ ∑ (10)

( )( ) 1 1

1 1

n n

i in ni i

xy i i i ii i

x yS y y x x x y

n= =

= =

⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠= − − = −∑ ∑

∑ ∑ (11)

Astfel, estimatorul pentru pantă este:

1xy

xx

SS

β =

Page 8: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

8

Exemplu 1: (Puritatea oxigenului) Vom fita un model simplu de regresie liniară pentru datele de puritate a oxigenului din tabelul 11.1. Calculăm următoarele cantităţi:

20n = 1

23.92n

ii

x=

=∑ 1

1843.21n

ii

y=

=∑ 1.196x = 92.1605y =

20

2

1

170044.5321ii

y=

=∑ 20

2

1

29.2892ii

x=

=∑ 20

1

2214.6566i ii

x y=

=∑

( )

220

22012

1

23.9229.2892 0.68088

20 20

ii

xx ii

xS x =

=

⎛ ⎞⎜ ⎟⎝ ⎠= − = − =∑

( )( )

20 20

201 1

1

23.92 1843.212214.6566 10.17744

20 20

i ii i

xy i ii

x yS x y = =

=

⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠= − = − =∑ ∑

Astfel, estimările făcute cu metoda celor mai mici pătrate pentru pantă şi intersecţia cu ordonata sunt:

110.17744ˆ 14.947480.68088

xy

xx

SS

β = = =

0 1

ˆ ˆ 92.1605 14.94748 1.196 74.28331y xβ β= − = − × = Modelul simplu de regresie liniară cu coeficienţii raportaţi cu trei zecimale este: ˆ 74.283 14.947y x= + Acest modelul este reprezentat grafic în figura 11.4 împreună cu datele.

Figura 11.4 Diagrama de împrăştiere şi modelul de regresie liniară

Page 9: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

9

Interpretare practică: Folosind modelul de regresie, vom estima puritatea oxigenului la 89.23%y = când nivelul de hidrocarburi este 1.00%x = . Puritatea 89.23% poate fi

interpretată ca o estimare a mediei reale a populaţiei de purităţi când 1.00%x = , sau ca o estimare a unei observaţii noi când 1.00%x = . Aceste estimări sunt, desigur, supuse la erori, adică este puţin probabil ca o observaţie viitoare de puritate să fie exact 89.23% când nivelul de hidrocarburi este 1.00%x = . În paragrafele următore vom vedea cum să folosim intervale de confidenţă şi intervale de predicţie pentru a descrie eroarea de estimare dintr-un model de regresie.

In analizele de regresie liniară sunt folosite deseori softuri specifice. Graficul din figura 11.4 şi rezultatele aferente sunt realizate cu programul Statgraphics. În continuare vom explica şi alte date prezente în aceste rezultate. Simple Regression - Col_2 vs. Col_1 Dependent variable: Col_2 Independent variable: Col_1 Linear model: Y = a + b*X Coefficients Least Squares Standard T Parameter Estimate Error Statistic P-Value

Intercept 74.2833 1.59347 46.6172 0.0000 Slope 14.9475 1.31676 11.3517 0.0000 Tabelul 11.2a Analysis of Variance Source Sum of

Squares Df Mean

Square F-Ratio P-Value

Model 152.127 SSR 1 152.127 128.86 0.0000 Residual 21.2498 SSE 18

n-2 1.18055 2σ

Total (Corr.) 173.377 SST 19 Tabelul 11.2b Correlation Coefficient = 0.936715 R-squared = 87.7436 percent R-squared (adjusted for d.f.) = 87.0627 percent Standard Error of Est. = 1.08653 Mean absolute error = 0.843397 Durbin-Watson statistic = 2.06541 (P=0.5246) Lag 1 residual autocorrelation = -0.0843024 The StatAdvisor The output shows the results of fitting a linear model to describe the relationship between Col_2 and Col_1. The equation of the fitted model is Col_2 = 74.2833 + 14.9475*Col_1

Page 10: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

10

Since the P-value in the ANOVA table is less than 0.05, there is a statistically significant relationship between Col_2 and Col_1 at the 95.0% confidence level. The R-Squared statistic indicates that the model as fitted explains 87.7436% of the variability in Col_2. The correlation coefficient equals 0.936715, indicating a relatively strong relationship between the variables. The standard error of the estimate shows the standard deviation of the residuals to be 1.08653. This value can be used to construct prediction limits for new observations by selecting the Forecasts option from the text menu. The mean absolute error (MAE) of 0.843397 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the P-value is greater than 0.05, there is no indication of serial autocorrelation in the residuals at the 95.0% confidence level. Unusual Residuals Predicted Studentized

Row X Y Y Residual Residual

9 1.55 99.42 97.4519 1.96809 2.30 The StatAdvisor The table of unusual residuals lists all observations which have Studentized residuals greater than 2 in absolute value. Studentized residuals measure how many standard deviations each observed value of Col_2 deviates from a model fitted using all of the data except that observation. In this case, there is one Studentized residual greater than 2, but none greater than 3. Estimarea lui 2σ În modelul de regresie liniară există un alt parametru necunoscut, 2σ varianţa termenului ε. Reziduurile ˆi i ie y y= − sunt folosite pentru a obţine o estimare pentru 2σ . Suma pătratelor reziduurilor (erorilor) adesea numită suma pătratelor erorilor, este:

( )22

1 1

ˆn n

E i i ii i

SS e y y− =

= = −∑ ∑ (12)

Se poate arăta că valoarea medie a sumei pătratelor erorilor este: ( ) ( ) 22EE SS n σ= − Un estimator nedeplasat pentru 2σ :

2ˆ2

ESSn

σ =−

(13)

Page 11: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

11

Calcularea sumei pătratelor erorilor SSE cu (12) ar fi obositoare. O formulă de calcul mai convenabilă poate fi obţinută substituind 0 1

ˆ ˆˆi iy xβ β= + în (12) şi simplificând mai apoi. Formula obţinută este:

1E T xySS SS Sβ= − (14) unde:

( )2 2 2

1 1

n n

T i ii i

SS y y y ny= =

= − = −∑ ∑

este suma totală a pătratelor variabilei răspuns y. Suma pătratelor erorilor şi estimarea pentru 2σ pentru datele de puritate a oxigenului, 21.24ESS = , 2 1.18σ = , se află în rezultatul produs de Statgraphics.

11.3 Proprietăţile estimatorilor determinaţi cu metoda celor mai mici pătrate Proprietăţile statistice ale estimatorilor 0β şi 1β pot fi descrise uşor. Amintim că am presupus că termenul erorilor ε din modelul 0 1Y xβ β ε= + + este o variabilă aleatoare cu media nulă şi varianţa 2σ . Deoarece valorile lui x sunt fixate, Y este o variabilă aleatoare cu media 0 1Y x xμ β β= + şi varianţă 2σ . Atunci, valorile 0β şi 1β depind de valorile y observate. Astfel, aceşti estimatori pentru coeficienţi determinaţi cu metoda celor mai mici pătrate pot fi priviţi ca variabile aleatoare. Vom investiga proprietăţile de deplasare şi varianţa estimatorilor 0β şi 1β .

Considerăm mai întâi 1β . Deoarece 1β este o combinaţie liniară de observaţii Yi,

putem folosi proprietăţile de calcul a mediei pentru a arăta că valoarea medie a lui 1β este: ( )1 1E β β= (15)

Astfel, 1β este un estimator nedeplasat al pantei reale 1β . Într-adevăr,

( )( )

( )

( ) ( )

( )

( )

( )1 1 1 1

12 2 2

1 1 1

n n n n

i i i i i i ii i i i

n n n

i i ii i i

x x Y Y x x Y Y x x x x Y

x x x x x xβ = = = =

= = =

− − − − − −= = =

− − −

∑ ∑ ∑ ∑

∑ ∑ ∑

( ) ( )

( )( ) ( )

( )( )1 0 1

2 21 1

1 1

n ni i

i in ni i

i ii i

x x x xE E Y x

x x x xβ β β

= =

= =

− −= = + =

− −∑ ∑∑ ∑

Page 12: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

12

( )

( )

( )

( )

( )

( )1 1 1

0 1 1 1 12 2 2

1 1 1

1

n n n

i i i i ii i in n n

i i ii i i

x x x x x x x x

x x x x x xβ β β β β= = =

= = =

− − −= + = = × =

− − −

∑ ∑ ∑

∑ ∑ ∑

Acum considerăm varianţa lui 1β . Deoarece am presupus că ( ) 2

iV ε σ= , urmează

că ( ) 2iV Y σ= . Deoarece 1β este o combinaţie liniară de observaţii Yi, pot fi aplicate

rezultatele din paragraful 5.5 pentru a arăta că:

( )2

1xx

VSσβ = (16)

Într-adevăr,

( )( )

( ) ( ) ( )2 2 2

2 2 211

1 1

1 1

n

i i n ni

i i ii ixx xx xx xx

x x YV V x x V Y x x

S S S Sσβ σ=

= =

⎛ ⎞−⎜ ⎟ ⎛ ⎞ ⎛ ⎞

⎜ ⎟= = − = − =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠ ⎝ ⎠⎜ ⎟⎝ ⎠

∑∑ ∑

Pentru intersecţia cu ordonata, putem arăta într-o manieră similară că:

( )0 0E β β= şi ( )2

20

1

xx

xVn S

β σ⎛ ⎞

= +⎜ ⎟⎝ ⎠

(17)

Într-adevăr,

( ) ( ) ( ) ( ) ( )0 1 1 0 1 1 01 1 1

1 1 1n n n

i i ii i i

E E Y x E Y E x x xn n n

β β β β β β β= = =

= − = − = + − =∑ ∑ ∑

Astfel, 0β este un estimator nedeplasat al intersecţiei cu ordonata 0β . Covarianţa

variabilelor aleatoare 0β şi 1β este nenulă. Se poate arăta că:

( )2

0 1,xx

xCovSσβ β = −

Estimarea pentru 2σ poate fi folosită în (16) şi (17) pentru a furniza estimări pentru varianţa pantei şi intersecţiei cu ordonata. Rădăcinile pătrate ale estimatorilor rezultaţi pentru varianţe sunt erorile standard estimate pentru pantă şi intersecţia cu ordonata. Erorile standard estimate: În regresia liniară simplă eroarea standard estimată pentru pantă şi eroarea standard estimată pentru intersecţia cu ordonata sunt:

Page 13: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

13

( )2

1xx

seSσβ = ( )

22

01

xx

xsen S

β σ⎛ ⎞

= +⎜ ⎟⎝ ⎠

unde 2σ se calculează cu relaţia (13) adică / ( 2)ESS n − . Statgraphics raportează în tabelul 11.2a erorile standard estimate pentru pantă şi intersecţia cu ordonata în coloana cu titlul Standard Error.

11.4 Verificarea ipotezelor în regresia liniară simplă

O parte importantă din evaluarea adecvării unui model de regresie liniară este verificarea ipotezelor statistice despre parametrii modelului şi construirea unor intervale de confidenţă certe. Verificarea ipotezelor în regresia liniară simplă este prezentată în acest paragraf, iar paragraful 11.5 va prezenta metode de construire a intervalelor de confidenţă. Pentru a verifica ipotezele asupra pantei şi intersecţiei cu ordonata din modelul de regresie, trebuie să facem o ipoteză adiţională anume aceea că, componenta erorilor din model, ε este distribuită normal. Astfel, ipotezele complete sunt: erori independente şi normal distribuite cu media nulă şi varianţa 2σ , abreviate ( )20,NID σ . 11.4.1 Folosirea testelor-t Presupunem că vrem să testăm ipoteza că panta este egală cu o constantă, să spunem 1,0β . Ipotezele potrivite sunt: 0 1 1,0:H β β= 1 1 1,0:H β β≠ (18) Deoarece erorile iε sunt cu distrbuţie ( )20, NID σ , urmează direct că observaţiile Yi sunt

( )20 1 , iNID xβ β σ+ . Acum, 1β este o combinaţie liniară de variabile aleatoare normale

independente, şi în consecinţă, 1β cu proprietăţile de deplasare şi varianţă din paragraful

11.3, este ( )21, / xxN Sβ σ . În plus, ( ) 2 22 /n σ σ− are o distribuţie chi-pătrat cu 2n −

grade de libertate, şi 1β este independent de 2σ . Ca rezultat al acestor proprietăţi, statistica:

Test statistic 1 1,00 2 / xx

TS

β β

σ

−= (19)

urmează distribuţia t cu 2n − grade de libertate, sub 0 1 1,0:H β β= . Vom respinge 0 1 1,0:H β β= dacă:

Page 14: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

14

0 /2, 2nt tα −> (20)

unde t0 se calculează cu (19). Numitorul din (19) este eroarea standard pentru pantă, deci putem rescrie testul statistic astfel:

( )

1 1,00

1

Tseβ β

β−

=

O procedură similară poate fi folosită pentru a verifica ipotezele asupra intersecţiei cu ordonata. Pentru a testa: 0 0 0,0:H β β= 1 0 0,0:H β β≠ (21)

vom folosi statistica:

Test statistic: ( )

0 0,0 0 0,00

202 1

xx

Tsex

n S

β β β β

βσ

− −= =

⎛ ⎞+⎜ ⎟

⎝ ⎠

(22)

şi vom respinge ipoteza nulă dacă valoarea calculată a acestui test statistic, t0, este astfel încât 0 /2, 2nt tα −> . Subliniem că numitorul testului statistic (22) este eroarea standard a intersecţiei cu ordonata.

Un caz particular foarte important al testării (18) este:

0 1: 0H β = 1 1: 0H β ≠ (23) Aceste ipoteze se referă la semnificaţia regresiei. Incapacitatea de a respinge 0 1: 0H β = este echivalentă cu concluzia că nu există relaţie liniară între x şi Y. Această situaţie este ilustrată în figura 11.5.

Figura 11.5 Ipoteza 0 1: 0H β = nu se respinge.

Subliniem că acest lucru implică fie că x are valoare mică în explicarea variaţiei în Y şi că cel mai bun estimator pentru Y la orice x este y Y= (figura 11.5a) sau că relaţia reală dintre x şi Y nu este liniară (figura 11.5b). Alternativ, dacă 0 1: 0H β = se respinge, acest

Page 15: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

15

lucru implică x are valoare în explicarea variabilităţii în Y ca în figura 11.6. Respingerea ipotezei 0 1: 0H β = poate însemna fie că modelul cu o dreaptă este adecvat (figura 11.6a) fie că deşi există un efect liniar a lui x, rezultate mai bune se pot obţine cu adăugarea unui polinom de grad mai mare în x la model (figura 11.6b).

Figura 11.6 Ipoteza 0 1: 0H β = se respinge

Exemplu 2: (Testarea coeficienţilor la puritatea oxigenului) Vom testa semnificaţia regresiei folosind modelul pentru datele de puritate a oxigenului din exemplul 1. Ipotezele sunt: 0 1: 0H β = 1 1: 0H β ≠ şi vom folosi 0.01α = . Din exemplul 1 şi tabelele 11.2 date de Statgraphics avem:

1 14.947β = , 20n = , 0.68088xxS = şi 2 1.18σ = . Astfel, statistica t devine:

10 2

14.947 11.351.18 / 0.68088/ xx

tS

βσ

= = =

Interpretare practică: valoarea de referinţă a lui t este 0.005,18 2.88t = , valoarea testului statistic este foarte departe în regiunea critică, ceea ce implică respingerea lui 0 1: 0H β = . Avem dovezi puternice în favoarea acestei revendicări.

D. F.18

Student's t DistributionProbability = 1.22736E-9

-6 -4 -2 0 2 4 6x

0

0.1

0.2

0.3

0.4

dens

ity

Page 16: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

16

Valoarea P pentru acest test este 91.23 10P −= × . Aceasta a fost obţinută cu Statgraphics. Tabelele 11.2 sunt outputul Statgraphics-ului pentru problemă. Observăm că

valoarea statisticii t pentru pantă are aceeaşi valoare 11.35 şi că valoarea P raportată este 0.0000. Statgraphics raportează statistica t şi pentru verificarea ipotezei 0 0: 0H β = . Această statistică se calculează cu (22) cu 0,0 0β = , şi este:

00 22

2

74.2833 46.621 1.1961 1.1805520 0.68088xx

tx

n S

β

σ

= = =⎛ ⎞ ⎛ ⎞

++⎜ ⎟ ⎜ ⎟⎝ ⎠⎝ ⎠

Desigur, ipoteza că intersecţia cu ordonata este nulă se respinge. 11.4.2 Abordarea cu analiza varianţei pentru testarea semnificaţiei regresiei Pentru a testa semnificaţia regresiei poate fi folosită metoda numită analiza varianţei. Procedura partiţionează variabilitatea totală a variabilei răspuns în componente semnificative ca bază a testului. Următoarea relaţie este identitatea analizei varianţei. Identitatea analizei varianţei:

( ) ( ) ( )2 2 2

1 1 1

n n n

i i i ii i i

y y y y y y= = =

− = − + −∑ ∑ ∑ (24)

Cele două componente din partea dreaptă a ecuaţiei (24) măsoară respectiv cantitatea de variabilitate în yi contabilizată de dreapta de regresie şi variaţia reziduală rămasă

neexplicată de către dreapta de regresie. De obicei, numim ( )2

1

n

E i ii

SS y y=

= −∑ suma

pătratelor erorilor şi ( )2

1

n

R ii

SS y y=

= −∑ suma pătratelor de regresie. Simbolic, ecuaţia

(24) poate fi scrisă: T R ESS SS SS= + (25)

unde ( )2

1

n

T ii

SS y y=

= −∑ este suma totală a pătratelor (total corrected) pentru y. Am

arătat că 1E T xySS SS Sβ= − (relaţia 14), astfel deoarece 1T xy ESS S SSβ= + , observăm că

suma pătratelor de regresie din (25) este: 1R xySS Sβ= . Suma totală a pătratelor SST are 1n − grade de libertate, şi SSR şi SSE au 1 şi 2n − grade de libertate respectiv.

Putem arăta că ( )( ) 2/ 2EE SS n σ− = , ( ) 2 21R xxE SS Sσ β= + . Mai mult, 2/ESS σ

şi 2/RSS σ sunt variabile aleatoare independente chi-pătrat cu 2n − şi 1 grade de libertate respectiv. Astfel, dacă ipoteza nulă 0 1: 0H β = este adevărată, statistica:

Page 17: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

17

Test pentru semnificaţia regresiei:

( )0

/1/ 2

R R

E E

SS MSFSS n MS

= =−

(26)

are o distribuţie 1, 2nF − , şi vom respinge H0 dacă 0 ,1, 2nf fα −> . Cantităţile /1R RMS SS= şi

( )/ 2E EMS SS n= − se numesc media pătratelor. În general, un media pătratelor se calculează împărţind suma pătratelor cu numărul de grade de libertate. Procedura de testare este de obicei aranjată într-un tabel de analiză a varianţei ca în tabelul 11.3. Tabel 11.3

Sursa de variaţie

Suma pătratelor Grade de libertate

Media pătratelor

F0

Regresie 1R xySS Sβ= 1 MSR /R EMS MS

Eroare 1E T xySS SS Sβ= − 2n − MSE

Total SST 1n − Observaţie: 2

EMS σ= Exemplu 3: (Puritatea oxigenului ANOVA) Vom folosi abordarea cu analiza varianţei pentru a testa semnificaţia regresiei folosind datele din modelul pentru puritatea oxigenului din exemplul 1. Reamintim că 173.38TSS = , 1 14.947β = , 10.17744xyS = şi

20n = . Suma pătratelor de regresie este: 1 14.947 10.17744 152.13R xySS Sβ= = × = Suma pătratelor erorilor este: 173.38 152.13 21.25E T RSS SS SS= − = − = Analiza varianţei pentru testarea 0 1: 0H β = este rezumată de Statgraphics în tabelul 11.2b. Testul statistic este 0 / 152.13 /1.18 128.86R Ef MS MS= = = , pentru care găsim valoarea P 91.23 10−× , deci concludem că 1β nu e zero. Analysis of Variance Source Sum of

Squares Df Mean

Square F-Ratio P-Value

Model 152.127 SSR 1 152.127 128.86 0.0000 Residual 21.2498 SSE 18

n-2 1.18055 2σ

Total (Corr.) 173.377 SST 19

Page 18: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

18

Num. D.F.,Denom1,18

F (variance ratio) DistributionProbability = 1.22744E-9

0 1 2 3 4 5x

0

0.5

1

1.5

2

2.5

dens

ity

Frecvent apar diferenţe minore în terminologia din pachetele soft. De exemplu, uneori suma pătratelor de regresie se numeşte suma pătratelor model, şi suma pătratelor erorilor se numeşte suma pătratelor reziduuale.

Procedura de analiză a varianţei pentru testarea semnificaţiei regresiei este echivalentă cu testul t din paragraful 11.4.1. Adică, oricare dintre proceduri vor duce la aceeaşi concluzie. Acest lucru este uşor de demonstrat începând cu testul statistic t ecuaţia (19) cu 1,0 0β = ,

10 2 / xx

TS

β

σ= (27)

Ridicând la pătrat ambele părţi din ecuaţia (27) şi folosind faptul că 2

EMS σ= , avem:

2

12 10

xyxx R

E E E

SS MSTMS MS MS

ββ= = = (28)

Notăm că 2

0T în ecuaţia (28) este identic cu F0 din ecuaţia (26). În general, pătratul unei variabile aleatoare t cu ν grade de libertate este o variabilă aleatoare F, cu unu şi ν grade de liberate la numărător şi numitor respectiv. Astfel, testul care foloseşte T0 este echivalent cu testul bazat pe F0. Totuşi, testul t este cumva mai flexibil pentru că permite testarea împotriva unei ipoteze alternative unilaterale, în timp ce testul F este restricţionat la alternativă bilaterală.

11.5 Intervale de confidenţă 11.5.1 Intervale de confidenţă pentru pantă şi intersecţia cu ordonata Adiţional valorilor estimate pentru pantă şi intersecţia cu ordonata, este posibil să obţinem intervale de confidenţă estimate pentru aceşti parametri. Lungimea acestor

Page 19: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

19

intervale de confidenţă este o măsură a calităţii dreptei de regresie. Dacă termenii eroare iε , în modelul de regresie sunt independenţi şi distribuiţi normal, variabilele

1 12

xxS

β β

σ

− şi 0 0

22 1

xx

xn S

β β

σ

⎛ ⎞+⎜ ⎟

⎝ ⎠

au distribuiţie t cu 2n − grade de libertate. Acest lucru conduce la definiţii pentru intervalele de confidenţă ( )100 1 %α− pentru pantă şi intersecţia cu ordonata. Intervale de confidenţă pentru parametrii dreptei de regresie: Dacă observaţiile sunt independente şi distribuite normal, un interval de confidenţă ( )100 1 %α− pentru panta

1β în regresia liniară simplă este:

2 2

1 /2, 2 1 1 /2, 2n nxx xx

t tS Sα ασ σβ β β− −− ≤ ≤ + (29)

Similar, un interval de confidenţă ( )100 1 %α− pentru intersecţia cu ordonata 0β este:

2 2

2 20 /2, 2 0 0 /2, 2

1 1n n

xx xx

x xt tn S n Sα αβ σ β β σ− −

⎛ ⎞ ⎛ ⎞− + ≤ ≤ + +⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠ (30)

Exemplu 4: (Interval de confidenţă pentru pantă în problema purităţii oxigenului) Vom determina un interval de confidenţă 95% pentru panta dreptei de regresie folosind datele din exemplul 1. Reamintim că 1 14.947β = , 0.68088xxS = şi 2 1.18σ = (vezi tabelul 11.2). Atunci, din (29) găsim:

2 2

1 0.025,18 1 1 0.025,18xx xx

t tS Sσ σβ β β− ≤ ≤ +

11.18 1.1814.947 2.101 14.947 2.101

0.68088 0.68088β− ≤ ≤ +

După calcule obţinem, 112.181 17.713β≤ ≤ Interpretare practică: Acest CI nu include zero, astfel există dovezi puternice (la

0.05α = ) că panta nu este nulă. Intervalul este rezonabil de îngust ( )2.766± deoarece varianţa erorii este destul de mică. 11.5.2 Interval de confidenţă pentru media răspunsului

Page 20: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

20

Poate fi construit un interval de confidenţă pentru media răspunsului la o valoare precizată a lui x, să spunem x0. Acesta este un interval de confidenţă pentru ( )

00 Y xE Y x μ= şi adesea se numeşte interval de confidenţă pentru dreapta de regresie.

Deoarece ( )00 0 1 0Y xE Y x xμ β β= = + , putem obţine o valoare estimată pentru media lui Y

la ( )00 Y xx x μ= din modelul fitat:

0 0 1 0Y x xμ β β= +

Acum

0Y xμ este un estimator nedeplasat a lui 0Y xμ , deoarece 0β şi 1β sunt estimatori

nedeplasaţi pentru 0β şi 1β . Varianţa lui 0Y xμ este:

( ) ( )0

202 1

Y xxx

x xV

n Sμ σ

⎡ ⎤−= +⎢ ⎥

⎢ ⎥⎣ ⎦

Acest rezultat urmează din faptul că ( )

0 1 0Y x y x xμ β= + − şi ( )1cov , 0Y β = . De

asemenea, 0Y xμ este normal distribuită, deoarece 0β şi 1β sunt normal distribuite, şi dacă

folosim 2σ ca un estimator pentru 2σ , este uşor să arătăm că:

( )

0 0

22 01

Y x Y x

xx

x xn S

μ μ

σ

⎡ ⎤−+⎢ ⎥

⎢ ⎥⎣ ⎦

are o distribuţie t cu 2n − grade de libertate. Acest fapt conduce la următoarea definiţie pentru intervalul de confidenţă. Interval de confidenţă pentru media răspunsului: Un interval de confidenţă

( )100 1 %α− pentru media răspunsului la o valoare a lui 0x x= , să zicem 0Y xμ este dat

de:

( ) ( )0 0 0

2 20 02 2

/2, 2 /2, 21 1

n nY x Y x Y xxx xx

x x x xt t

n S n Sα αμ σ μ μ σ− −

⎡ ⎤ ⎡ ⎤− −− + ≤ ≤ + +⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ (31)

unde

0 0 1 0Y x xμ β β= + se calculează din modelul de regresie fitat. Notăm că lungimea intervalului de confidenţă pentru

0Y xμ este o funcţie de valoarea x0

specificată. Lungimea intervalului este minimă pentru 0x x= şi se lărgeşte pe măsură ce

0x x− creşte.

Page 21: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

21

Exemplu 5: (Interval de confidenţă pentru media răspunsului pentru puritatea oxigenului) Vom construi un interval de confidenţă 95% pentru răspunsul mediu la datele din exemplul 1. Modelul fitat este

0 074.283 14.947Y x xμ = + , şi intervalul de confidenţă

95% pentru 0Y xμ se determină cu (31):

( ) ( )0 0 0

2 20 0

0.025,18 0.025,18

1.196 1.1961 11.18 1.1820 0.68088 20 0.68088Y x Y x Y x

x xt tμ μ μ

⎡ ⎤ ⎡ ⎤− −− + ≤ ≤ + +⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

Presupunem că suntem interesaţi de predicţia mediei purităţii de oxigen pentru

0 1.00%x = . Atunci,

074.283 14.947 1.00 89.23Y xμ = + × =

şi intervalul de confidenţă 95% este:

( ) ( )0

2 20 01.196 1.1961 189.23 2.101 1.18 89.23 2.101 1.18

20 0.68088 20 0.68088Y x

x xμ

⎡ ⎤ ⎡ ⎤− −− + ≤ ≤ + +⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

089.23 0.75 89.23 0.75Y xμ− ≤ ≤ +

088.48 89.98Y xμ≤ ≤

Acest interval de confidenţă este rezonabil de îngust. Statgraphics face şi el aceste calcule. Ne referim la tabelul 11.2. Valoarea prezisă pentru y la 1.00x = este arătată împreună cu CI95% asupra mediei lui y la acest nivel a lui x. Repetând aceste calcule pentru mai multe valori pentru x0 putem obţine limitele de confidenţă pentru fiecare valoare corespunzătoare

0Y xμ . Figura 11.7 arată diagrama de împrăştiere împreună cu modelul fitat şi limitele de confidenţă 95% reprezentate drept curbele inferioară şi superioară. Intervalul de confidenţă 95% corespunde unei singure valori a lui x şi nu întregului set de valori x. Notăm că lungimea intervalului de confidenţă pentru

0Y xμ creşte cu pe măsură ce 0x x− creşte.

Page 22: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

22

x

Y

Plot of Fitted Model

Y=74.2833+14.9475x

0.87 1.07 1.27 1.47 1.6787

90

93

96

99

102

Figura 11.7 Diagrama de împrăştiere pentru puritatea oxigenului cu dreapta de

regresie fitată şi limitele de confidenţă 95% pentru 0Y xμ .

11.6 Predicţia unor observaţii noi

O aplicaţie importantă a unui model de regresie este predicţia unor observaţii

viitoare Y corespunzătoare la un nivel specificat pentru variabila regresor x. Dacă x0 este valoarea variabilei regresor de interes, 0 0 1 0Y xβ β= + (32)

este un estimator a unei valori viitoare pentru răspunsul Y0.

Ne ocupăm în continuare de obţinerea unui interval estimat pentru această observaţie viitoare Y0. Această observaţie nouă este independentă de observaţiile folosite la dezvoltarea modelului de regresie. Atunci, intervalul de confidenţă pentru

0Y xμ din ecuaţia (31) este nepotrivit, deoarece se bazează numai pe datele folosite la fitarea modelului de regresie. Intervalul de confidenţă pentru

0Y xμ se referă la media reală a

răspunsului la 0x x= (adică, un parametru al populaţiei), nu la observaţii viitoare. Fie Y0 observaţia viitoare pentru 0x x= , şi fie 0Y dat de ecuaţia (32) estimatorul

pentru Y0. Notăm că eroarea în predicţie:

Page 23: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

23

0 0pe Y Y= − este o variabilă aleatoare distribuită normal cu media nulă şi varianţa:

( ) ( ) ( )202

0 011p

xx

x xV e V Y Y

n Sσ

⎡ ⎤−= − = + +⎢ ⎥

⎢ ⎥⎣ ⎦

deoarece Y0 este independent de 0Y . Dacă folosim 2σ pentru a estima 2σ , se poate arăta că

( )

0 0

22 011

xx

Y Y

x xn S

σ

⎡ ⎤−+ +⎢ ⎥

⎢ ⎥⎣ ⎦

are o distribuţie t cu 2n − grade de libertate. Din aceasta putem dezvolta definiţia următorului interval de predicţie. Interval de predicţie: Un interval de predicţie ( )100 1 %α− pentru o observaţie viitoare Y0 la valoarea x0 este dat de:

( ) ( )2 20 02 2

0 /2, 2 0 0 /2, 21 11 1n n

xx xx

x x x xy t Y y t

n S n Sα ασ σ− −

⎡ ⎤ ⎡ ⎤− −− + + ≤ ≤ + + +⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ (33)

Valoarea 0y se calculează din modelul de regresie 0 0 1 0y xβ β= + . Notăm că intervalul de predicţie are lungime minimă pentru 0x x= şi se lărgeşte pe măsură ce 0x x− creşte. Comparând relaţia (33) cu relaţia (31), observăm că intervalul de predicţie în punctul x0 este întotdeauna mai lat decât intervalul de confidenţă la x0. Acest lucru rezultă datorită faptului că intervalul de predicţie depinde atât de erorile din modelul fitat cât şi de erorile asociate cu observaţiile viitoare. Exemplu 6: (Interval de predicţie pentru puritatea oxigenului) Pentru a ilustra construcţia unui interval de predicţie, presupunem că folosim datele din exemplul 1 şi determinăm un interval de predicţie 95% pentru observaţia următoare de puritate a oxigenului la

0 1.00%x = . Folosind relaţia (33) şi din exemplul 5 0 89.23y = , determinăm intervalul de predicţie:

( ) ( )2 2

0

1.00 1.195 1.00 1.1951 189.23 2.101 1.18 1 89.23 2.101 1.18 120 0.68088 20 0.68088

Y⎡ ⎤ ⎡ ⎤− −

− + + ≤ ≤ + + +⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

Page 24: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

24

care se simplifică la: 086.83 91.63y≤ ≤ Acest interval este rezonabil de îngust. Statgraphics calculează şi el intervale de predicţie. Dacă ne referim la tabelul 11.2 rezultat din Statgraphics, intervalul 95%PI pentru observaţii viitoare la 0 1.00%x = apare în output. Repetând calculele de mai sus la diferite nivele x0 putem obţine intervale de predicţie 95% prezentate grafic ca nişte curbe inferioară şi superioară în jurul modelului de regrsie fitat în figura 11.8. Observăm că graficul arată şi limitele de confidenţă 95% pentru

0Y xμ calculate în exemplu 5. Acest grafic ilustrează încă o dată că limitele de predicţie sunt mai largi decât limitele de confidenţă.

Y

x

Plot of Fitted Model

Col_2 = 74.2833 + 14.9475*Col_1

0.87 1.07 1.27 1.47 1.6787

90

93

96

99

102

Figura 11.8 Diagrama de împrăştiere pentru puritatea oxigenului, dreapta de

regresie, limitele de predicţie 95% (exterioare) şi limitele de confidenţă 95% pentru 0Y xμ .

11.7 Adecvarea modelului de regresie

Fitarea unui model de regresie necesită câteva ipoteze. Estimarea parametrilor

modelului necesită ipoteza că erorile sunt variabile aleatoare necorelate cu media nulă şi varianţă constantă. Verificarea ipotezelor şi estimarea intervalelor necesită ca erorile să fie cu distribuţie normală. În plus, presupunem că ordinul modelului este corect, adică

Page 25: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

25

dacă fităm un model de regresie liniară simplă, presupunem că fenomenul se manifestă într-o manieră liniară.

Întotdeauna, analistul ar trebui să considere validitatea acestor ipoteze, să fie critic şi să efectueze analize pentru a examina adecvarea modelului ce a fost propus provizoriu. În acest paragraf discutăm metode folositoare în acest sens.

11.7.1 Analiză reziduală Reziduurile unui model de regresie sunt i i ie y y= − , 1,...,i n= , unde yi este o observaţie şi iy este valoarea corespunzătoare calculată din modelul de regresie. Analiza reziduurilor este de ajutor la verificarea ipotezei că erorile sunt distribuite aproximativ normal cu varianţă constantă şi la determinarea necesităţii prezenţei unor termeni adiţionali în model.

Drept o verificare aproximativă a normalităţii, experimentatorul poate construi o histogramă de frecvenţe a reziduurilor sau un normal probability plot pentru reziduuri. Multe softuri statistice reprezintă un normal probability plot pentru reziduuri, şi deoarece dimensiunile eşantionului în regresie sunt adesea prea mici pentru o histogramă, atunci metoda normal probability plot este preferată.

De asemenea, putem standardiza reziduurile calculând 2/i id e σ= , 1,...,i n= . Dacă erorile sunt distribuite normal, atunci aproximativ 95% din reziduurile standardizate ar trebui să fie în intervalul ( )2, 2− + . Reziduurile care sunt departe de acest interval pot indica prezenţa outlier-şilor, adică o observaţie care nu este tipică pentru restul datelor. Există diverse reguli pentru înlăturarea outlier-şilor. Uneori outlier-şii furnizează informaţii importante despre circumstanţe neobişnuite de interes experimentatorilor şi nu ar trebui să fie îndepărtaţi în mod automat.

Frecvent, este de ajutor să plotăm reziduurile: (1) în funcţie de timp (dacă e cunoscut), (2) în funcţie de iy şi (3) în funcţie de variabila independentă x. Aceste grafice vor arăta în general ca unul din cele patru tipuri reprezentate în figura 11.9. Forma a) din figura 11.9 reprezintă situaţia ideală, în timp ce tipurile b), c) şi d) sunt anomalii. Dacă reziduurile apar ca în b), varianţa observaţiilor poate creşte cu timpul sau cu mărimea lui yi sau xi. Pentru a elimina această problemă adesea, se foloseşte transformarea datelor de răspuns y. Transformările răspunsului care stabilizează varianţa cele mai folosite sunt

y , ln y sau 1/ y . Graficele reziduurilor în funcţie de iy şi xi care arată ca în c) de asemenea indică o inegalitate a invarianţei. Graficele reziduurilor care arată ca d) indică un model neadecvat, adică la model ar trebui adăugaţi termeni de ordin superior, sau ar trebui aplicată o transformare a variabilei x sau variabilei y sau a ambelor variabile, sau ar trebui consideraţi alţi regresori.

Page 26: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

26

Figura 11.9 Diverse tipuri de grafice pentru reziduuri.

Exemplu 7: (Reziduuri pentru puritatea oxigenului) Modelul de regresie pentru datele de puritatea oxigenului din exemplul 1 este 74.283 14.947y x= + . Tabelul 11.4 prezintă valorile observate şi cele estimate pentru y la fiecare valoare x din setul de date, împreună cu reziduul corespunzător. Aceste valori au fost calculate cu Statgraphics. Tabelul 11.4 Date de puritete a oxigenului. Intervale de predicţie şi confidenţă.

95.00% 95.00% Puritatea Predicted reziduuri Prediction Limits Confidence Limits X oxigenului Y e y y= − Lower Upper Lower Upper

0.99 90.01 89.0813 0.929 86.6738 91.4888 88.3163 89.8464 1.02 89.05 89.5297 -0.48 87.1405 91.919 88.8243 90.2352 1.15 91.43 91.4729 -0.043 89.1304 93.8155 90.9469 91.999 1.29 93.74 93.5656 0.174 91.2121 95.9191 92.9927 94.1384 1.46 96.73 96.1066 0.623 93.6562 98.5571 95.2156 96.9977 1.36 94.45 94.6119 -0.162 92.2292 96.9946 93.929 95.2948 0.87 87.59 87.2876 0.302 84.7807 89.7945 86.2513 88.3239 1.23 91.77 92.6687 -0.899 90.3277 95.0097 92.1497 93.1877 1.55 99.42 97.4519 1.968 94.9161 99.9877 96.3476 98.5563 1.4 93.65 95.2098 -1.560 92.8036 97.616 94.4488 95.9707

95.00% 95.00% Puritatea Predicted reziduuri Prediction Limits Confidence Limits

X oxigenului Y e y y= − Lower Upper Lower Upper 1.19 93.54 92.0708 1.469 89.7317 94.41 91.5601 92.5815 1.15 92.52 91.4729 1.047 89.1304 93.8155 90.9469 91.999 0.98 90.56 88.9318 1.628 86.5176 91.3461 88.146 89.7177 1.01 89.54 89.3803 0.160 86.9853 91.7753 88.6555 90.105 1.11 89.85 90.875 -1.025 88.5239 93.2262 90.3119 91.4382 1.2 90.39 92.2203 -1.830 89.8812 94.5594 91.7097 92.7308

1.26 93.25 93.1171 0.133 90.7714 95.4629 92.5769 93.6574 1.32 93.41 94.014 -0.604 91.6499 96.3781 93.399 94.629 1.43 94.98 95.6582 -0.678 93.2312 98.0852 94.8338 96.4826 0.95 87.33 88.4834 -1.153 86.0473 90.9195 87.6327 89.3341

The StatAdvisor This table shows the predicted values for Col_2 using the fitted model. In addition to the best predictions, the table shows: (1) 95.0% prediction intervals for new observations (2) 95.0% confidence intervals for the mean of many observations The prediction and confidence intervals correspond to the inner and outer bounds on the graph of the fitted model.

Page 27: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

27

În figura 11.10 este reprezentat un normal probability plot pentru reziduuri. Deoarece reziduurile se află aproximativ pe dreaptă, considerăm că nu există o dplasare severă de la normalitate. Reziduurile sunt reprezentate şi funcţie de valorile estimate iy în figura 11.11 şi funcţie de nivelul de hidrocarburi xi în figura 11.12. Aceste grafice nu indică o inadecvare de model.

reziduuri

Normal Probability Plot

-1.9 -0.9 0.1 1.1 2.10.1

1

5

20

50

80

95

99

99.9pr

obab

ilita

ti no

rmal

e cu

mul

ativ

e

Figura 11.10 Normal probability plot pentru reziduuri.

Residual PlotCol_2 = 74.2833 + 14.9475*Col_1

87 89 91 93 95 97 99predicted Col_2

-2.4

-1.4

-0.4

0.6

1.6

2.6

Stu

dent

ized

resi

dual

Figura 11.11 Graficul reziduurilor funcţie de purităţile oxigenului estimate iy .

Page 28: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

28

nivel hidrocarburi

Residual PlotCol_2 = 74.2833 + 14.9475*Col_1

0.87 1.07 1.27 1.47 1.67-2

-1

0

1

2

resi

dual

Figura 11.12 Graficul reziduurilor funcţie de nivelul de hidrocarburi ix .

11.7.2 Coeficient de determninare R2 O măsură utilizată pentru un model de regresie este următorul raport de sume de pătrate. R2: Coeficientul de determinare:

2 1R E

T T

SS SSRSS SS

= = − (34)

Coeficientul este folosit pentru a stabili adecvarea modelului de regresie. În cazul în care X şi Y sunt variabile aleatoare cu distribuţie joint, R2 este pătratul coeficientului de corelaţie dintre X şi Y. Din relaţia analizei varianţei (24) şi (25), rezultă că 20 1R≤ ≤ . Adesea ne referim la R2 ca şi la cantitatea de variabilitate din date explicată sau justificată de modelul de regresie. În cazul modelul de regresie pentru puritatea oxigenului, avem

2 / 152.13 /173.38 0.877R TR SS SS= = = , adică modelul justifică 87.7% din variabilitatea datelor.

Statistica R2 ar trebui folosită cu precauţie, deoarece întotdeauna este posibil să facem pe R2 egal cu unu prin simpla adăugare a unui număr suficient de termeni modelului. De exemplu, putem obţine un fit perfect pentru n date cu un polinom de gradul 1n − . În plus, R2 întotdeauna va creşte dacă adăugăm o variabilă la model, dar acest lucru nu implică în mod necesar că noul model este superior celui vechi. Cu excepţia cazului în care suma pătratelor erorilor în noul model se reduce cu o cantitate egală cu media pătratelor erorilor iniţiale, noul model va avea media pătratelor erorilor mai mare decât vechiul model datorită pierderii unui grad de libertate pentru eroare. Astfel, noul model va fi mai rău decât vechiul model.

Există câteva neînţelegeri legate de R2. În general, R2 nu măsoară mărimea pantei dreptei de regresie. O valoare mare a lui R2 nu implică o pantă abruptă. Mai mult, R2 nu măsoară adecvarea modelului, deoarece poate fi artificial crescut adăugând termeni polinomiali de ordin mai mare în x la model. Chiar dacă y şi x sunt corelate într-o formă neliniară, R2 va fi adesea mai mare. De exemplu, R2 pentru ecuaţia de regresie în figura

Page 29: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

29

11.6b va fi relativ mare, chiar dacă aproximaţia liniară este slabă. Dacă R2 este mare, acest lucru nu implică în mod necesar că modelul de regresie va furniza predicţii bune pentru observaţiile viitoare.

11.8 Corelaţie

În teoria noastră din analiza de regresie am presupus că x este o variabilă matematică, măsurată cu erori neglijabile, şi că Y este o variabilă aleatoare. Multe aplicaţii ale analizei de regresie presupun situaţii în care şi X şi Y sunt variabile aleatoare. În aceste situaţii, de obicei se presupune că observaţiile ( ),i iX Y , 1,...,i n= sunt variabile

aleatoare distribuite joint obţinute din distribuţia ( ),f x y . De exemplu, presupunem că vrem să dezvoltăm un model de regresie referitor la

rezistenţa la forfecare a punctelor de sudură funcţie de diametrul sudurii. În acest exemplu, diametrul sudurii nu poate fi controlat. Ne alegem aleator n puncte de sudură şi obsevăm un diametru Xi şi o rezistenţă la forfecare Yi pentru fiecare punct. Atunci ( ),i iX Y sunt variabile aleatoare distribuite joint.

Presupunem că distribuţia joint pentru Xi şi Yi este distribuţia normală bivariată prezentată în capitolul 5,

( ), ; , , , ,XY X Y X Yf x y σ σ μ μ ρ =

( )( ) ( )( ) ( )2 2

2 222

21 1exp2 12 1

X X Y Y

X YX YX Y

x x y yμ ρ μ μ μσ σσ σρπσ σ ρ

⎧ ⎫⎡ ⎤− − − −−⎪ ⎪⎢ ⎥= − +⎨ ⎬⎢ ⎥−− ⎪ ⎪⎣ ⎦⎩ ⎭

şi Yμ şi 2

Yσ sunt media şi varianţa lui Y, Xμ şi 2Xσ sunt media şi varianţa lui X şi ρ este

coeficientul de corelaţie dintre Y şi X. Reamintim că coeficientul de corelaţie se defineşte cu:

XY

X Y

σρσ σ

= (35)

unde XYσ este covarianţa dintre Y şi X. Distribuţia condiţionată a lui Y pentru o valoare dată X x= este normală cu media:

x

Y YY XY

X X

xσ σμ μ μ ρ ρσ σ

= − +

şi varianţa: ( )2 2 21

xYYσ σ ρ= −

Page 30: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

30

( )2

0 11 1exp22Y x

Y xY x

y xf y β βσπσ

⎡ ⎤⎛ ⎞− −⎢ ⎥⎜ ⎟= −⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦

(36)

unde

0Y

Y XX

σβ μ μ ρσ

= − (37)

1Y

X

σβ ρσ

= (38)

şi varianţa distribuţiei condiţionate a lui Y cu X x= dat este: ( )2 2 21YY xσ σ ρ= − (39)

Adică, distribuţia condiţionată a lui Y cu X x= este normală cu media: ( ) 0 1E Y x xβ β= + (40) şi varianţa 2

Y xσ . Astfel, media distribuţiei condiţionate pentru Y cu X x= dat este un model de regresie liniară simplă. Mai mult, există o relaţie între coeficientul de corelaţie ρ şi panta 1β . Din ecuaţia (38) vedem că dacă 0ρ = , atunci 1 0β = , ceea ce implică nici o regresie a lui Y asupra lui X. Adică, cunoştinţe despre X nu ne ajută să facem estimări, predicţii pentru Y.

Metoda maximum likelihood poate fi folosită pentru a estima parametrii 0β şi 1β . Se poate arăta că estimatorii maximul likelihood pentru aceşti parametri sunt: 0 1Y Xβ β= − (41) şi

( )

( )1

12

1

n

i ii XY

nXX

ii

Y X XSSX X

β =

=

−= =

∑ (42)

Observăm că estimatorii pentru intersecţia cu ordonata şi pantă din relaţiile (41) şi (42) sunt identici cu cei obţinuţi cu metoda celor mai mici pătrate în cazul în care X a fost presupusă o variabilă matematică. Adică, modelul de regresie cu Y şi X distibuite normal joint este echivalent cu modelul cu X considerată o variabilă matematică. Acest lucru se întâmplă deoarece variabilele aleatoare Y cu X x= impus sunt independente şi normal distribuite cu media 0 1xβ β+ şi varianţa constantă 2

Y xσ . Aceste rezultate vor fi valabile şi pentru orice distribuţie joint a lui Y şi X astfel încât distribuţia condiţionată a lui Y cu X fixat să fie normală.

Page 31: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

31

Încercăm să determinăm coeficientul de corelaţie ρ din acest model. Estimatorul pentru ρ este coeficientul de corelaţie al eşantionului.

( )

( ) ( ) ( )1

1/2 1/22 2

1 1

n

i ii XY

n nXX T

i ii i

Y X XSR

S SSX X Y Y

=

= =

−= =⎡ ⎤

− −⎢ ⎥⎣ ⎦

∑ ∑ (43)

Observăm că:

1/2

1T

XX

SS RS

β⎛ ⎞

= ⎜ ⎟⎝ ⎠

(44)

Astfel, panta 1β este coeficientul de corelaţie al eşantionului R înmulţit cu un factor de scală care este rădăcina pătrată a împrăştierii valorilor Y împărţite la împrăştierea valorilor X. Astfel, 1β şi R sunt strâns corelaţi, deşi aceştia furnizează cumva informaţii diferite. Coeficientul de corelaţie al eşantionului R măsoară asocierea liniară dintre Y şi X, în timp ce 1β măsoară modificarea prezisă a mediei lui Y pentru o modificare cu unitatea a lui X. În cazul unei variabile matematice x, R nu are nici un înţeles deoarece mărimea lui R depinde de alegerea distanţei în x. Din relaţia (44), putem scrie şi:

2 2 11

XX XY R

T T T

S S SSRSS SS SS

ββ= = =

care este chiar coeficientul de determinare. Adică, coeficientul de determinare R2 este tocmai pătratul coeficientului de corelaţie dintre Y şi X.

Adesea este util să verificăm ipotezele: 0 : 0H ρ = 1 : 0H ρ ≠ (45) Testul statistic potrivit pentru aceste ipoteze este: Test statistic pentru corelaţie zero:

0 2

21

R nTR−

=−

(46)

care are o distribuţie t cu 2n − grade de libertate, dacă 0 : 0H ρ = este adevărată. Atunci, vom respinge H0 ipoteza nulă dacă 0 /2, 2nt tα −> . Acest test este echivalent cu testul asupra ipotezei 0 1: 0H β = din paragraful 11.5.1. Echivalenţa rezută direct din relaţia (46).

Procedura de testare pentru ipotezele:

Page 32: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

32

0 0:H ρ ρ= 1 0:H ρ ρ≠ (47) unde 0 0ρ ≠ este ceva mai complicată. Pentru eşantioane moderat de mari ( 25n ≥ ), statistica:

1 1 ln2 1

RZ arcth RR

+= =

− (48)

este distribuită aproximativ normal cu media şi varianţa:

1 1 ln2 1Z arcth ρμ ρ

ρ+

= =−

, 2 13Z n

σ =−

Atunci, pentru a verifica ipoteza 0 0:H ρ ρ= putem folosi testul statistic:

( )( )1/20 0 3Z arcth R arcth nρ= − − (49)

Şi respingem 0 0:H ρ ρ= dacă valoarea testului statistic din (49) este astfel încât

0 /2z zα> . Este de asemenea posibil să construim un interval de confidenţă aproximativ

( )100 1 %α− pentru ρ utilizând transformarea din (48). Intervalul de confidenţă pentru coeficientul de corelaţie:

/2 /2 3 3

z zth arcth r th arcth rn nα αρ⎛ ⎞ ⎛ ⎞− ≤ ≤ +⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠

(50)

unde ( ) ( ) /u u u uth u e e e e− −= − + . Exemplu 8: (Sârmă de legătură rezistenţă la tragere) În capitolul 1, paragraful 1.3 este descrisă o aplicaţie a analizei de regresie, în care un inginer la o companie de semiconductoare investighează relaţia dintre rezistenţa la tragere a firului de legărură şi doi factori: lungimea firului şi înălţimea matriţei. În acest exemplu, considerăm doar unul dintre factori, anume lungimea firului. Se selectează şi testează un eşantion aleator cu 25 de unităţi, şi se observă rezistenţa la tragere a sârmei de legătură şi lungimea firului pentru fiecare unitate. Datele sunt prezentate în tabelul 1.2. Presupunem că rezistenţa la tragere şi lungimea firului au distribuţie normală joint.

Figura 11.13 arată o diagramă de împrăştiere a rezistenţei la tragere funcţie de lungimea firului. Am folosit Statgraphics cu opţiunea display box plots pentru fiecare variabilă individual pe diagrama de împrăştiere. Este evidentă o relaţie liniară între cele două variabile.

Page 33: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

33

Box-and-Whisker Plot

0 20 40 60 80Col_1

Box-and-Whisker Plot

0 4 8 12 16 20Col_2

lungimea firului

rezi

sten

ta

0 4 8 12 16 200

20

40

60

80

Figura 11.13 Diagrama de împrăştiere rezistenţă versus lungime.

Statgraphics dă următoarele rezultate pentru fitarea cu un model de regresie liniară simplă. Simple Regression - Col_1 vs. Col_2 Dependent variable: Col_1 Independent variable: Col_2 Linear model: Y = a + b*X

Page 34: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

34

Coefficients Least Squares Standard T Parameter Estimate Error Statistic P-Value Intercept 5.11452 1.1458 4.46369 0.0002 Slope 2.9027 0.117041 24.8008 0.0000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 5885.85 1 5885.85 615.08 0.0000 Residual 220.093 23 9.56924 Total (Corr.) 6105.94 24 Correlation Coefficient = 0.981812 R-squared = 96.3954 percent R-squared (adjusted for d.f.) = 96.2387 percent Standard Error of Est. = 3.09342 Mean absolute error = 2.30373 Durbin-Watson statistic = 1.43819 (P=0.0668) Lag 1 residual autocorrelation = 0.273506 The StatAdvisor The output shows the results of fitting a linear model to describe the relationship between Col_1 and Col_2. The equation of the fitted model is Col_1 = 5.11452 + 2.9027*Col_2 Since the P-value in the ANOVA table is less than 0.05, there is a statistically significant relationship between Col_1 and Col_2 at the 95.0% confidence level. The R-Squared statistic indicates that the model as fitted explains 96.3954% of the variability in Col_1. The correlation coefficient equals 0.981812, indicating a relatively strong relationship between the variables. The standard error of the estimate shows the standard deviation of the residuals to be 3.09342. This value can be used to construct prediction limits for new observations by selecting the Forecasts option from the text menu. The mean absolute error (MAE) of 2.30373 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the P-value is greater than 0.05, there is no indication of serial autocorrelation in the residuals at the 95.0% confidence level.

698.56XXS = şi 2027.7132XYS = şi coeficientul de corelaţie pentru eşantion este:

[ ] [ ]1/2 1/2

2027.7132 0.9818698.56 6105.9

XY

XX T

SrS SS

= = =×

Page 35: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

35

Observăm că ( )22 0.9818 0.9640r = = şi este raportat şi de Statgraphics, sau că aproximativ 96.40% din variabilitatea rezistenţei la forfecare este explicată de relaţia liniară cu lungimea firului.

Acum presupunem că vrem să verificăm ipotezele: 0 : 0H ρ = 1 : 0H ρ ≠ cu 0.05α = . Putem calcula statistica t cu relaţia (46):

0 2

2 0.9818 23 24.81 0.96401

r ntr−

= = =−−

Această statistică este raportată şi în Statgraphics ca un test pentru 0 1: 0H β = . Deoarece

0.025,23 2.069t = , respingem H0 şi concludem că coeficientul de corelaţie este 0ρ ≠ . În final, putem construi un interval de confidenţă 95% aproximativ pentru ρ din

ecuaţia (50). Deoarece 0.9818 2.3452arcth r arcth= = , ecuaţia (50) devine:

/2 /22.3452 2.34523 3

z zth thn nα αρ⎛ ⎞ ⎛ ⎞− ≤ ≤ +⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠

1.96 1.962.3452 2.345222 22

th thρ⎛ ⎞ ⎛ ⎞− ≤ ≤ +⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

care se reduce la 0.9585 0.9921ρ≤ ≤

11.9 Regresie pentru variabile transformate

Ocazional găsim că modelul de regresie cu o dreaptă 0 1Y xβ β ε= + + este nepotrivit deoarece adevărata funcţie de regresie este neliniară. Uneori neliniaritatea se determină vizual din diagrama de împrăştiere, şi uneori, datorită experienţei anterioare sau teoriei aferente, ştim apriori că modelul este neliniar. Uneori, o diagramă de împrăştiere va prezenta o relaţie aparent neliniară între Y şi x. În unele din aceste situaţii, o funcţie neliniară poate fi exprimată ca o dreaptă folosind o transformare potrivită. Astfel de modele neliniare se numesc intrinsec liniare.

Drept exemplu de model neliniar care este intrinsec liniar, considerăm funcţia exponenţială: 1

0xY eββ ε=

Page 36: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

36

Această funcţie este intrinsec liniară, deoarece poate fi transformată într-o dreaptă printr-o transformare logaritmică: 0 1ln ln lnY xβ β ε= + + Această transformare presupune ca termenii ce conţine erorile transformate lnε să fie independenţi şi cu distribuţie normală cu medie nulă şi varianţă 2σ .

Altă funcţie liniar intrinsecă este:

0 11Yx

β β ε⎛ ⎞= + +⎜ ⎟⎝ ⎠

Folosind transformarea reciprocă 1 /z x= , modelul se liniarizează la: 0 1Y zβ β ε= + + Uneori trebuie angajate mai multe transformări pentru a liniariza o funcţie. De exemplu, considerăm funcţia:

( )0 1

1exp

Yxβ β ε

=+ +

Considerând 1/Y Y∗ = , avem forma liniarizată: 0 1lnY xβ β ε∗ = + +

Transformările pot fi foarte folositoare în multe situaţii în care adevărata relaţie între răspunsul Y şi regresorul x nu este aproximată bine de o dreaptă. Utilitatea unei transformări este ilustrată în exemplul următor. Exemplu 9: (Putere moară de vânt) Un cercetător investighează folosirea unei mori de vânt la generarea electricităţii şi a colectat date de curent continuu DC de la ieşirea morii de vânt şi viteza vântului corespunzătoare. Datele sunt plotate în figura 11.14 şi listate în tabelul 11.5.

Inspecţia diagramei de împrăştiere indică că relaţia dintre curentul de ieşire Y şi viteza vântului x poate fi neliniară. Totuşi, iniţial fităm un model liniar pentru date. Modelul de regresie este: 0.1309 0.2411y x= + Rezumatul statistic pentru acest model coţine: 2 0.8745R = , 2 0.0557EMS σ= = , şi

0 160.26F = (valoarea P este mai mică ca 0.0001).

Numărul Observaţiei, i

Viteza vântului(km/h) xi

DC la ieşireyi

Page 37: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

37

1 8.05 1.582 2 9.66 1.822 3 5.47 1.057 4 4.35 0.500 5 16.00 2.236 6 15.61 2.386 7 15.37 2.294 8 4.91 0.558 9 13.12 2.166 10 9.98 1.866 11 4.67 0.653 12 10.22 1.930 13 7.40 1.562 14 9.33 1.737 15 11.91 2.088 16 5.79 1.137 17 12.63 2.179 18 14.16 2.112 19 11.27 1.800 20 8.77 1.501 21 14.65 2.303 22 16.42 2.310 23 6.60 1.194 24 6.36 1.144 25 3.94 0.123

Tabelul 11.5 Valorile observate yi şi xi pentru exemplul 9.

Simple Regression - Col_2 vs. Col_1 Dependent variable: Col_2 Independent variable: Col_1 Linear model: Y = a + b*X Coefficients Least Squares Standard T Parameter Estimate Error Statistic P-Value Intercept 0.128638 0.125717 1.02324 0.3168 Slope 0.150114 0.0118163 12.704 0.0000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 8.9375 1 8.9375 161.39 0.0000 Residual 1.27369 23 0.0553779 Total (Corr.) 10.2112 24 Correlation Coefficient = 0.935556 R-squared = 87.5265 percent R-squared (adjusted for d.f.) = 86.9842 percent Standard Error of Est. = 0.235325 Mean absolute error = 0.188505

Page 38: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

38

Durbin-Watson statistic = 1.21409 (P=0.0176) Lag 1 residual autocorrelation = 0.229448 The StatAdvisor The output shows the results of fitting a linear model to describe the relationship between Col_2 and Col_1. The equation of the fitted model is Col_2 = 0.128638 + 0.150114*Col_1 Since the P-value in the ANOVA table is less than 0.05, there is a statistically significant relationship between Col_2 and Col_1 at the 95.0% confidence level. The R-Squared statistic indicates that the model as fitted explains 87.5265% of the variability in Col_2. The correlation coefficient equals 0.935556, indicating a relatively strong relationship between the variables. The standard error of the estimate shows the standard deviation of the residuals to be 0.235325. This value can be used to construct prediction limits for new observations by selecting the Forecasts option from the text menu. The mean absolute error (MAE) of 0.188505 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the P-value is less than 0.05, there is an indication of possible serial correlation at the 95.0% confidence level. Plot the residuals versus row order to see if there is any pattern that can be seen.

viteza vantului, x

DC

iesi

re, y

0 3 6 9 12 15 180

0.4

0.8

1.2

1.6

2

2.4

Figura 11.14 Graficul curentului DC la ieşire versus viteza vântului.

Rezultatele obţinute cu Statgraphics sunt foarte apropiate. Un grafic al reziduurilor versus

iy este prezentat în figura 11.15. Acest grafic al reziduurilor indică inadecvarea modelului şi implică concluzia că relaţia liniară nu a capturat toată informaţia din variabila viteza vântului. Subliniem că curbura care apare în diagrama de împrăştiere 11.14 este mult amplificată în graficul reziduurilor. Este clar faptul că trebuie considerat un model de altă formă.

Page 39: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

39

predicted y

0.7 1.1 1.5 1.9 2.3 2.7-0.6

-0.4

-0.2

0

0.2

0.4

0.6

resi

dual

Figura 11.15 Graficul reziduurilor ei versus valorile estimate de model iy .

Iniţial, putem considera un model pătratic astfel încât: 2

0 1 2y x xβ β β ε= + + + şi să luăm în considerare curbura aparentă. Totuşi, diagrama de împrăştiere din figura 11.14 sugerează că odată cu creşterea vitezei vântului, curentul la ieşire se apropie de o limită superioară de aproximativ 2.5. Acest lucru este şi în concordanţă cu teoria de operare a morilor de vânt. Deoarece modelul pătratic va coborâ cu creşterea vitezei vântului, nu ar fi potrivit pentru aceste date. Un model mai rezonabil pentru vânt, care să includă asimptota superioară ar fi:

0 11yx

β β ε⎛ ⎞= + +⎜ ⎟⎝ ⎠

Figura 11.16 este o diagramă de împrăştiere cu variabila transformată 1/x x′ = . Acest grafic pare liniar, indicând faptul că această transformare este potrivită. Modelul de regresie fitat este: 2.9789 6.9345y x′= − × Rezumatul statistic pentru acest model are 2 0.9800R = , 2 0.0089EMS σ= = şi

0 1128.43F = şi valoarea P este mai mică decât 0.0001.

Page 40: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

40

Plot of Fitted ModelCol_2 = 2.97946 - 11.1647/Col_1

0 3 6 9 12 15 18Col_1

0

0.4

0.8

1.2

1.6

2

2.4

Col

_2

Figura 11.16 În loc de curent versus 1/x x′ = , modelul fitat.

Residual PlotCol_2 = 2.97946 - 11.1647/Col_1

0 0.4 0.8 1.2 1.6 2 2.4predicted Col_2

-0.21

-0.11

-0.01

0.09

0.19

0.29

resi

dual

Figura 11.17 Graficul reziduurilor versus valorile fitate iy pentru modelul transformat.

Un grafic al reziduurilor din modelul transformat versus y este este prezentat în figura 11.17. Acest grafic nu arată probleme serioase legate de inegalităţi de varianţă. Normal probability plot prezentat în figura 11.18???, dă o moderată indicaţie că erorile vin dintr-o distribuţie cu cozi mai mari decât normala (se remarcă micile curbe în sus şi în jos de la extremităţi). Acest normal probability plot are scorul z plotat pe axa orizontală. Deoarece nu avem un semnal puternic că modelul ar fi neadecvat, concludem că modelul transformat este satisfăcător. Cu Statgraphics avem rezultate apropiate. Simple Regression - Col_2 vs. Col_1 Dependent variable: Col_2 Independent variable: Col_1 Reciprocal-X model: Y = a + b/X Coefficients

Page 41: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

41

Least Squares Standard T Parameter Estimate Error Statistic P-Value Intercept 2.97946 0.0448872 66.3766 0.0000 Slope -11.1647 0.332128 -33.6156 0.0000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 10.0075 1 10.0075 1130.01 0.0000 Residual 0.203691 23 0.00885611 Total (Corr.) 10.2112 24 Correlation Coefficient = -0.989976 R-squared = 98.0052 percent R-squared (adjusted for d.f.) = 97.9185 percent Standard Error of Est. = 0.0941069 Mean absolute error = 0.0736915 Durbin-Watson statistic = 1.55689 (P=0.1221) Lag 1 residual autocorrelation = 0.22001 The StatAdvisor The output shows the results of fitting a reciprocal-X model to describe the relationship between Col_2 and Col_1. The equation of the fitted model is Col_2 = 2.97946 - 11.1647/Col_1 Since the P-value in the ANOVA table is less than 0.05, there is a statistically significant relationship between Col_2 and Col_1 at the 95.0% confidence level. The R-Squared statistic indicates that the model as fitted explains 98.0052% of the variability in Col_2. The correlation coefficient equals -0.989976, indicating a relatively strong relationship between the variables. The standard error of the estimate shows the standard deviation of the residuals to be 0.0941069. This value can be used to construct prediction limits for new observations by selecting the Forecasts option from the text menu. The mean absolute error (MAE) of 0.0736915 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the P-value is greater than 0.05, there is no indication of serial autocorrelation in the residuals at the 95.0% confidence level.

11.10 Regresie logistică

Regresia liniară lucrează foarte bine când variabila de răspuns este cantitativă. Acum considerăm situaţia în care variabila răspuns ia numai două valori posibile, 0 şi 1. Acestea pot fi atribuite rezultatului prin observarea calitativă a răspunsului. De exemplu, răspunsul poate fi rezultatul unui test de funcţionare electrică pentru un dispozitiv semiconductor pentru care rezultatele sunt fie un succes care înseamnă că dispozitivul funcţionează fie un eşec care se poate datora unei probleme de funcţionare.

Page 42: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

42

Presupunem că modelul are forma: 0 1i i iY xβ β ε= + + (51)

şi variabila de răspuns Yi ia valorile 0 sau 1. Vom presupune că variabila răspuns Yi este o variabilă aleatoare Bernoulli cu următoarea distribuţie de probabilitate:

Yi Probabilitate 1 ( )1i iP Y π= = 0 ( )0 1i iP Y π= = −

Deoarece ( ) 0iE ε = , valoarea medie a variabilei răspuns este: ( ) ( )1 0 1i i i iE Y π π π= × + × − = Acest rezultat implică: ( ) 0 1i i iE Y xβ β π= + = Şi, înseamnă că valoarea medie a răspunsului dată de funcţia răspuns ( ) 0 1i iE Y xβ β= + este chiar probabilitatea ca variabila răspuns să ia valoarea unu.

Există câteva probleme de fond cu modelul de regresie (51). Prima, observăm că dacă răspunsul este binar, termenul eroare iε poate lua numai două valori, anume: ( )0 11i ixε β β= − + pentru 1iY = ( )0 1i ixε β β= − + pentru 0iY = În consecinţă, erorile din model nu pot fi cu distribuţie normală. A doua, varianţa erorilor nu este constantă, deoarece: ( )( )22

iY i iE Y E Yσ = − ( ) ( ) ( ) ( )2 21 0 1 1i i i i i iπ π π π π π= − + − − = − Observăm că această ultimă expresie este: ( ) ( )( )2 1

iY i iE Y E Yσ = − deoarece ( ) 0 1i i iE Y xβ β π= + = . Acest rezultat indică că varianţa observaţiilor (care este aceeaşi cu varianţa erorilor deoarece i i iYε π= − şi iπ este o constantă) este o funcţie de medie. Există o constrângere asupra funcţiei răspuns, deoarece:

Page 43: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

43

( )0 1i iE Y π≤ = ≤ Această restricţie poate cauza probleme serioase cu alegerea unei funcţii răspuns liniare, aşa cum am presupus iniţial în ecuaţia (51). Ar fi posibil să fităm un model pentru date pentru care valorile estimate ale răspunsului să se afle în afara intervalului 0,1.

În general, atunci când variabila răspuns este binară, există o evidenţă empirică considerabilă care indică că forma funcţiei răspuns ar trebui să fie neliniară. De obicei este folosită o funcţie monoton crescătoare (sau descrescătoare) în formă de S (sau formă de S răsturnat) ca în figura 11.19. Această funcţie se numeşte funcţie răspuns logit, şi are forma:

( ) ( )( )

0 1

0 1

exp1 exp

xE Y

xβ ββ β+

=+ +

(52)

sau echivalent,

( ) ( )0 1

11 exp

E Yxβ β

=+ − +⎡ ⎤⎣ ⎦

(53)

Figura 11.19 Exemple de funcţii răspuns logistice

a) ( ) ( )6.0 1.01/ 1 xE Y e −= + b) ( ) ( )6.0 1.01/ 1 xE Y e− += + În regresia logistică presupunem că ( )E Y este corelat cu x cu funcţia logit. Este simplu de arătat că:

( )( ) ( )0 1exp

1E Y

xE Y

β β= +−

(54)

Cantitatea ( )0 1exp xβ β+ din dreapta ecuaţiei (54) se numeşte rată de probabilitate. Aceasta are o interpretare directă: Dacă rata de probabilitate este 2 pentru o valoare particulară a lui x, aceasta înseamnă că un succes este de două ori mai probabil decât un eşec la această valoare a regresorului x. Observăm că logaritmul natural al ratei de probabilitate este o funcţie liniară de variabila regresor. Atunci panta 1β este modificarea logaritmului ratei care rezultă la o creştere cu o unitate a lui x. Asta înseamnă că rata de probabilitate se modifică cu 1eβ când x creşte cu o unitate. Parametrii din acest model de

Page 44: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

44

regresie logistică sunt estimaţi de obicei cu metoda maximum likelihood. Statgraphics va fita cu modele de regresie logistică şi va furniza informaţii utile despre calitatea fitului.

Vom ilustra regresia logistică folosind datele de temperatură de lansare şi căderile inelului O pentru 24 de lansări în spaţiu anterioare dezastrului Challenger din ianuarie 1986. Se folosesc şase inele O pentru a sigila articulaţiile de câmp ale motorului rachetei. Tabelul de mai jos prezintă temperaturile de lansare. Un număr 1 în coloana căderea inelului O indică faptul că cel puţin un inel O cade (se defectează) la acea lansare.

Temperatură Cădere inel Temperatură Cădere inel Temperatură Cădere inel12 1 20 0 24 0 13 1 20.5 0 24 1 14 1 21 0 25 0 17 0 21 1 25 0 18 0 21 1 25.5 0 19 0 21 1 26 0 19 0 22 0 27 0 19 0 23 0 27.2 0

Figura 11.20 este o diagramă de împrăştiere a datelor. Observăm că defecţiunile sau căderile tind să apară la temperaturi mai mici. Modelul de regresie logistică fitat pe aceste date de Statgraphics este redat mai jos.

temperatura

cade

re in

el O

12 16 20 24 280

0.2

0.4

0.6

0.8

1

Figura 11.20 Diagrama de împrăştiere.

Logistic Regression - Col_2 Dependent variable: Col_2 Factors: Col_1 Estimated Regression Model (Maximum Likelihood) Standard Estimated Parameter Estimate Error Odds Ratio CONSTANT 4.89692 2.84076 Col_1 -0.285592 0.141138 0.751569 Analysis of Deviance Source Deviance Df P-Value Model 5.50206 1 0.0190 Residual 23.4725 22 0.3755 Total (corr.) 28.9746 23

Page 45: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

45

Percentage of deviance explained by model = 18.9892 Adjusted percentage = 5.18405 Likelihood Ratio Tests Factor Chi-Squared Df P-Value Col_1 5.50206 1 0.0190 Residual Analysis Estimation Validation n 24 MSE 0.0319214 MAE 0.368226 MAPE ME -0.03044 MPE The StatAdvisor The output shows the results of fitting a logistic regression model to describe the relationship between Col_2 and 1 independent variable(s). The equation of the fitted model is Col_2 = exp(eta)/(1+exp(eta)) where eta = 4.89692 - 0.285592*Col_1 Because the P-value for the model in the Analysis of Deviance table is less than 0.05, there is a statistically significant relationship between the variables at the 95.0% confidence level. In addition, the P-value for the residuals is greater than or equal to 0.05, indicating that the model is not significantly worse than the best possible model for this data at the 95.0% or higher confidence level. The pane also shows that the percentage of deviance in Col_2 explained by the model equals 18.9892%. This statistic is similar to the usual R-Squared statistic. The adjusted percentage, which is more suitable for comparing models with different numbers of independent variables, is 5.18405%. In determining whether the model can be simplified, notice that the highest P-value for the likelihood ratio tests is 0.0190, belonging to Col_1. Because the P-value is less than 0.05, that term is statistically significant at the 95.0% confidence level. Consequently, you probably don't want to remove any variables from the model. Modelul de regresie logistic fitat este:

( )

11 exp 10.875 0.17132

yx

=+ − −⎡ ⎤⎣ ⎦

Page 46: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

46

temperatura12 16 20 24 28

Plot of Fitted Modelwith 95.0% confidence limits

0

0.2

0.4

0.6

0.8

1

Col

_2

Figura 11.21

Acest model diferă mult de cel fitat cu Statgraphics, cauza cred că este exprimarea temperaturii în grade Fahrenheit. Reluăm fitarea cu Statgraphics în acest sens: Logistic Regression - Col_2 Dependent variable: Col_2 Factors: Col_3 Estimated Regression Model (Maximum Likelihood) Standard Estimated Parameter Estimate Error Odds Ratio CONSTANT 9.97411 5.3281 Col_3 -0.158662 0.07841 0.853285 Analysis of Deviance Source Deviance Df P-Value Model 5.50206 1 0.0190 Residual 23.4725 22 0.3755 Total (corr.) 28.9746 23 Percentage of deviance explained by model = 18.9892 Adjusted percentage = 5.18405 Likelihood Ratio Tests Factor Chi-Squared Df P-Value Col_3 5.50206 1 0.0190 Residual Analysis Estimation Validation n 24 MSE 0.0319214 MAE 0.368226 MAPE ME -0.03044 MPE

Page 47: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

47

The StatAdvisor The output shows the results of fitting a logistic regression model to describe the relationship between Col_2 and 1 independent variable(s). The equation of the fitted model is Col_2 = exp(eta)/(1+exp(eta)) where eta = 9.97411 - 0.158662*Col_3 Because the P-value for the model in the Analysis of Deviance table is less than 0.05, there is a statistically significant relationship between the variables at the 95.0% confidence level. In addition, the P-value for the residuals is greater than or equal to 0.05, indicating that the model is not significantly worse than the best possible model for this data at the 95.0% or higher confidence level. The pane also shows that the percentage of deviance in Col_2 explained by the model equals 18.9892%. This statistic is similar to the usual R-Squared statistic. The adjusted percentage, which is more suitable for comparing models with different numbers of independent variables, is 5.18405%. In determining whether the model can be simplified, notice that the highest P-value for the likelihood ratio tests is 0.0190, belonging to Col_3. Because the P-value is less than 0.05, that term is statistically significant at the 95.0% confidence level. Consequently, you probably don't want to remove any variables from the model.

53 58 63 68 73 78 83Col_3

Plot of Fitted Modelwith 95.0% confidence limits

0

0.2

0.4

0.6

0.8

1

Col

_2

Figura 11. 21 reluată pentru temperatură în Fahrenheit

Rezultatele sunt mai apropiate. Eroarea standard pentru panta 1β este ( )1 0.08344se β = .

Pentru eşantioane mari, 1β are aproximativ o distribuţie normală, şi astfel ( )1 1/ seβ β

poate fi comparat cu distribuţia normală standard pentru a verifica 0 1: 0H β = . Statgraphics face acest test. Valoarea P este 0.04, indicând că temperatura are un efect semnificativ asupra probabilităţii de cădere a inelului O. Rata de probabilitate este 0.84. Figura 11.21 arată modelul de regresie logistic fitat. În grafic este evidentă creşterea

Page 48: solar.physics.uvt.rosolar.physics.uvt.ro/~eugeniat/metode_statistice/cursuri/...tehnicii, analiza de regresie este una din cele mai folosite tehnici statistice. În acest capitol prezentăm

48

bruscă a probabilităţii ca inelul O să cadă. Temperatura la lansarea Challenger a fost 0.5 C− . Aceasta este în afara domeniului altor temperaturi de lansare, astfel modelul

nostru de regresie logistică nu este potrivit pentru predicţii bune la această temperatură, dar este clar că o lansare la 0.5 C− este aproape sigur că va duce la căderea inelului O. Este interesant că toate aceste date au fost disponibile înainte de lansare. Totuşi inginerii nu au fost capabili să analizeze datele şi să le folosească ca argument împotriva lansării Challenger în faţa manegerilor NASA. O simplă analiză de regresie a datelor ar fi furnizat o bază cantitativă puternică pentru acest argument. Aceasta este una din cele mai dramatice instanţe care arată de ce inginerii şi cercetătorii trebuie să aibă cunoştinţe bune de tehnici statistice.