regresie simpla

REGRESIA LINIAR Ă SIMPLĂ

Scop

• Utilizând corelaţia Pearson se vizează descrierea relaţiei dintre VI (predictor notată cu X) şi VD (criteriu notată cu Y)

• Prin regresie putem determina procentul din varianţa criteriului explicată de varianţa predictorului (R2)

• Putem prezice, cu ajutorul unei ecuaţii de regresie, scorul la criteriu cunoscând scorul la predictor.

Ecuaţia de regresie în note brute (nestandardizată): Y = a + B*X

• „a” este interceptul sau constanta de regresie (punctul de intersecţie dintre dreapta de regresie şi axa OY)

• „B” este panta (arată cu cât creşte Y când X se modifică cu o unitate). Dacă B ar fi 0 atunci linia de regresie ar fi orizontală.

• Când rxy este negativă valoarea lui B este negativă, iar dreapta este descrescătoare • Când rxy este pozitivă valoarea lui B este pozitivă, iar dreapta este crescătoare

Ecuaţia de regresie în note Z (standardizată): zY = β * zX

• constanta de regresie (a) dispare • în locul lui B se foloseşte β • scorurile brute (nestandardizate) X şi Y sunt transformate în scoruri Z: zX şi zY

Condiţii de aplicare

1. VI şi VD să fie cantitative şi normal distribuite 2. Relaţia dintre VI şi VD să fie liniară 3. Erorile să fie normal distribuite 4. Cazurile influente şi cele extreme să fie evitate

3530252015105

X

10.00

8.00

6.00

4.00

2.00

Y

3530252015105

X

8.00

6.00

4.00

2.00

Y

2

EXEMPLU : prezicem rezultatele la un examen pe baza scorurilor la inteligenţa muzicală. Baza de date Regresie_simplă. Verificarea Condiţiei 1 (VI şi VD să fie normal distribuite) Analyze → Nonparametric tests → 1 Sample K-S

One-Sample Kolmogorov-Smirnov Test

118 118

23,87 6,4831

6,179 1,65227

,070 ,085

,056 ,085

-,070 -,063

,760 ,925

,611 ,360

N

Mean

Std. Deviation

Normal Parametersa,b

Absolute

Positive

Negative

Most ExtremeDifferences

Kolmogorov-Smirnov Z

Asymp. Sig. (2-tailed)

inteligentamuzicala

rezultateexamen

Test distribution is Normal.a.

Calculated from data.b.

Verificarea Condiţiei 2 (relaţie liniară între variabile) Graph → Scatter/Dot → MatrixScatter

rezultate exameninteligenta muzicala

inte

ligen

ta m

uzic

ala

rezu

ltate

exa

men

3

ANALYZE →REGRESSION→LINEAR

Variables Entered/Removed(b)

Model Variables Entered

Variables Removed Method

1 inteligenta muzicala(a) . Enter

a All requested variables entered. b Dependent Variable: rezultate examen

Tabelul prezintă VI (predictorul) şi VD (criteriul) introduse în analiză precum şi metoda de analiză.

Model Summaryb

.808a .654 .651 .97656Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), inteligenta muzicalaa.

Dependent Variable: rezultate examenb.

R este coeficientul de corelaţie Pearson dintre X şi Y. Ne spune cât de bine se grupează datele în jurul liniei de regresie. La regresia simplă R = β (coeficientul de regresie standardizat)! R2 este coeficientul de determinare. Ne spune cât din varianţa lui Y este explicată de varianţa lui X. 65% din notele la examen sunt explicate de inteligenţa muzicală sau inteligenţa muzicală influenţează în proporţie de 65% notele la examen. R2 ajustat este cel care se raportează. El este influenţat de nr. de VI şi de volumul eşantionului (N) şi are în vedere cea mai bună linie de regresie obţinută folosind datele din eşantion. Eroarea standard de estimare indică acurateţea estimării realizată cu datele din eşantion.

ANOVAb

Model Sum of Squares df Mean Square F Sig. 1 Regression 208.786 1 208.786 218.930 .000a Residual 110.625 116 .954 Total 319.411 117

a Predictors: (Constant), inteligenta muzicala b Dependent Variable: rezultate examen

F indică dacă linia de regresie este semnificativ diferită de 0 (dacă predicţia realizată este mai bună decât cea bazată pe întâmplare). F este folosit pentru a testa ipoteza nulă conform căreia B este 0. Dacă B ar fi 0 atunci linia de regresie ar fi orizontală. Deoarece F(1,116)=218,93 şi p=0.0001, respingem ipoteza de nul şi considerăm că VI ne ajută să explicăm varianţă VD.

4

Coefficientsa

1.322 .360 3.670 .000

.216 .015 .808 14.796 .000

(Constant)

inteligentamuzicala

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: rezultate examena.

Se prezintă: • coeficientul de regresie nestandardizat B şi constanta de regresie • coeficientul de regresie standardizat β, care în cazul regresiei liniare simple este coeficientul de

corelaţie (R) dintre VD şi VI. • Primul test „t” este pentru a:verifică semnificaţia diferenţei constantei faţă de zero • Al doilea test „t” este pentru B: verifică semnificaţia pantei, echivalent în acest caz cu

semnificaţia corelaţiei dintre VD şi VI (corelaţia este semnificativ diferită de zero) Cu ajutorul acestor coeficienţi putem scrie ecuaţia de regresie. Pe baza ecuaţiei putem prezice pentru un subiect scorul la criteriu în funcţie de scorul la predictor.

B = 0,216; a = 1,322, β= 0,808

Y = a + B*X = 1,322 + 0,216 * X Dacă ptr. un subiect X = 30 atunci Y = 1,322 + 0,216*30 = 7,8

Pentru a putea scrie ecuaţia în note Z (zY = β * zX), scorul X trebuie transformat în notă Z folosind media şi abaterea standard.

Residuals Statisticsa

3.2677 8.8886 6.4831 1.33585 118

-2.407 1.801 .000 1.000 118

.090 .235 .123 .033 118

3.2534 8.8907 6.4834 1.33579 118

-2.83911 2.87232 .00000 .97237 118

-2.907 2.941 .000 .996 118

-2.954 2.954 .000 1.004 118

-2.93125 2.89737 -.00033 .98770 118

-3.059 3.059 -.002 1.015 118

.000 5.794 .992 1.125 118

.000 .142 .008 .015 118

.000 .050 .008 .010 118

Predicted Value

Std. Predicted Value

Standard Error ofPredicted Value

Adjusted Predicted Value

Residual

Std. Residual

Stud. Residual

Deleted Residual

Stud. Deleted Residual

Mahal. Distance

Cook's Distance

Centered Leverage Value

Minimum Maximum Mean Std. Deviation N

Dependent Variable: rezultate examena.

5

Condiţia 4 (evitarea cazurilor influente şi a celor extreme) se verifică prin inspectarea tabelului Residuals Statistics:

• Dacă mai mult de 1% dintre valorile reziduale standardizate (Std. Residual şi Stud. Residual) se află în afara intervalului (-3, 3) atunci ecuaţia de regresie nu este stabilă. În cazul nostru valorile max. şi min. nu depăşesc acest interval, deci nu avem cazuri extreme.

• Pentru cazurile influente vom urmări valoarea maximă a Distanţei lui Cook. Dacă această valoare este mai mică decât 1 atunci nu există cazuri influente, ceea ce este valabil şi pentru exemplul nostru.

Condiţia 3 (erorile să fie normal distribuite) se verifică prin inspectarea histogramei reziduurilor standardizate şi a graficului P-P pentru VD.

3210-1-2-3

Regression Standardized Residual

25

20

15

10

5

0

Fre

qu

ency

Mean = 4.79E-16Std. Dev. = 0.996N = 118

Dependent Variable: rezultate examen

Histogram

1,00,80,60,40,20,0

Observed Cum Prob

1,0

0,8

0,6

0,4

0,2

0,0

Exp

ecte

d C

um

Pro

b

Dependent Variable: rezultate examen

Normal P-P Plot of Regression Standardized Residual

regresie simpla

Documents