regresie simpla
Post on 07-Aug-2015
24 Views
Preview:
DESCRIPTION
TRANSCRIPT
REGRESIA LINIAR Ă SIMPLĂ
Scop
• Utilizând corelaţia Pearson se vizează descrierea relaţiei dintre VI (predictor notată cu X) şi VD (criteriu notată cu Y)
• Prin regresie putem determina procentul din varianţa criteriului explicată de varianţa predictorului (R2)
• Putem prezice, cu ajutorul unei ecuaţii de regresie, scorul la criteriu cunoscând scorul la predictor.
Ecuaţia de regresie în note brute (nestandardizată): Y = a + B*X
• „a” este interceptul sau constanta de regresie (punctul de intersecţie dintre dreapta de regresie şi axa OY)
• „B” este panta (arată cu cât creşte Y când X se modifică cu o unitate). Dacă B ar fi 0 atunci linia de regresie ar fi orizontală.
• Când rxy este negativă valoarea lui B este negativă, iar dreapta este descrescătoare • Când rxy este pozitivă valoarea lui B este pozitivă, iar dreapta este crescătoare
Ecuaţia de regresie în note Z (standardizată): zY = β * zX
• constanta de regresie (a) dispare • în locul lui B se foloseşte β • scorurile brute (nestandardizate) X şi Y sunt transformate în scoruri Z: zX şi zY
Condiţii de aplicare
1. VI şi VD să fie cantitative şi normal distribuite 2. Relaţia dintre VI şi VD să fie liniară 3. Erorile să fie normal distribuite 4. Cazurile influente şi cele extreme să fie evitate
3530252015105
X
10.00
8.00
6.00
4.00
2.00
Y
3530252015105
X
8.00
6.00
4.00
2.00
Y
2
EXEMPLU : prezicem rezultatele la un examen pe baza scorurilor la inteligenţa muzicală. Baza de date Regresie_simplă. Verificarea Condiţiei 1 (VI şi VD să fie normal distribuite) Analyze → Nonparametric tests → 1 Sample K-S
One-Sample Kolmogorov-Smirnov Test
118 118
23,87 6,4831
6,179 1,65227
,070 ,085
,056 ,085
-,070 -,063
,760 ,925
,611 ,360
N
Mean
Std. Deviation
Normal Parametersa,b
Absolute
Positive
Negative
Most ExtremeDifferences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
inteligentamuzicala
rezultateexamen
Test distribution is Normal.a.
Calculated from data.b.
Verificarea Condiţiei 2 (relaţie liniară între variabile) Graph → Scatter/Dot → MatrixScatter
rezultate exameninteligenta muzicala
inte
ligen
ta m
uzic
ala
rezu
ltate
exa
men
3
ANALYZE →REGRESSION→LINEAR
Variables Entered/Removed(b)
Model Variables Entered
Variables Removed Method
1 inteligenta muzicala(a) . Enter
a All requested variables entered. b Dependent Variable: rezultate examen
Tabelul prezintă VI (predictorul) şi VD (criteriul) introduse în analiză precum şi metoda de analiză.
Model Summaryb
.808a .654 .651 .97656Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), inteligenta muzicalaa.
Dependent Variable: rezultate examenb.
R este coeficientul de corelaţie Pearson dintre X şi Y. Ne spune cât de bine se grupează datele în jurul liniei de regresie. La regresia simplă R = β (coeficientul de regresie standardizat)! R2 este coeficientul de determinare. Ne spune cât din varianţa lui Y este explicată de varianţa lui X. 65% din notele la examen sunt explicate de inteligenţa muzicală sau inteligenţa muzicală influenţează în proporţie de 65% notele la examen. R2 ajustat este cel care se raportează. El este influenţat de nr. de VI şi de volumul eşantionului (N) şi are în vedere cea mai bună linie de regresie obţinută folosind datele din eşantion. Eroarea standard de estimare indică acurateţea estimării realizată cu datele din eşantion.
ANOVAb
Model Sum of Squares df Mean Square F Sig. 1 Regression 208.786 1 208.786 218.930 .000a Residual 110.625 116 .954 Total 319.411 117
a Predictors: (Constant), inteligenta muzicala b Dependent Variable: rezultate examen
F indică dacă linia de regresie este semnificativ diferită de 0 (dacă predicţia realizată este mai bună decât cea bazată pe întâmplare). F este folosit pentru a testa ipoteza nulă conform căreia B este 0. Dacă B ar fi 0 atunci linia de regresie ar fi orizontală. Deoarece F(1,116)=218,93 şi p=0.0001, respingem ipoteza de nul şi considerăm că VI ne ajută să explicăm varianţă VD.
4
Coefficientsa
1.322 .360 3.670 .000
.216 .015 .808 14.796 .000
(Constant)
inteligentamuzicala
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: rezultate examena.
Se prezintă: • coeficientul de regresie nestandardizat B şi constanta de regresie • coeficientul de regresie standardizat β, care în cazul regresiei liniare simple este coeficientul de
corelaţie (R) dintre VD şi VI. • Primul test „t” este pentru a:verifică semnificaţia diferenţei constantei faţă de zero • Al doilea test „t” este pentru B: verifică semnificaţia pantei, echivalent în acest caz cu
semnificaţia corelaţiei dintre VD şi VI (corelaţia este semnificativ diferită de zero) Cu ajutorul acestor coeficienţi putem scrie ecuaţia de regresie. Pe baza ecuaţiei putem prezice pentru un subiect scorul la criteriu în funcţie de scorul la predictor.
B = 0,216; a = 1,322, β= 0,808
Y = a + B*X = 1,322 + 0,216 * X Dacă ptr. un subiect X = 30 atunci Y = 1,322 + 0,216*30 = 7,8
Pentru a putea scrie ecuaţia în note Z (zY = β * zX), scorul X trebuie transformat în notă Z folosind media şi abaterea standard.
Residuals Statisticsa
3.2677 8.8886 6.4831 1.33585 118
-2.407 1.801 .000 1.000 118
.090 .235 .123 .033 118
3.2534 8.8907 6.4834 1.33579 118
-2.83911 2.87232 .00000 .97237 118
-2.907 2.941 .000 .996 118
-2.954 2.954 .000 1.004 118
-2.93125 2.89737 -.00033 .98770 118
-3.059 3.059 -.002 1.015 118
.000 5.794 .992 1.125 118
.000 .142 .008 .015 118
.000 .050 .008 .010 118
Predicted Value
Std. Predicted Value
Standard Error ofPredicted Value
Adjusted Predicted Value
Residual
Std. Residual
Stud. Residual
Deleted Residual
Stud. Deleted Residual
Mahal. Distance
Cook's Distance
Centered Leverage Value
Minimum Maximum Mean Std. Deviation N
Dependent Variable: rezultate examena.
5
Condiţia 4 (evitarea cazurilor influente şi a celor extreme) se verifică prin inspectarea tabelului Residuals Statistics:
• Dacă mai mult de 1% dintre valorile reziduale standardizate (Std. Residual şi Stud. Residual) se află în afara intervalului (-3, 3) atunci ecuaţia de regresie nu este stabilă. În cazul nostru valorile max. şi min. nu depăşesc acest interval, deci nu avem cazuri extreme.
• Pentru cazurile influente vom urmări valoarea maximă a Distanţei lui Cook. Dacă această valoare este mai mică decât 1 atunci nu există cazuri influente, ceea ce este valabil şi pentru exemplul nostru.
Condiţia 3 (erorile să fie normal distribuite) se verifică prin inspectarea histogramei reziduurilor standardizate şi a graficului P-P pentru VD.
3210-1-2-3
Regression Standardized Residual
25
20
15
10
5
0
Fre
qu
ency
Mean = 4.79E-16Std. Dev. = 0.996N = 118
Dependent Variable: rezultate examen
Histogram
1,00,80,60,40,20,0
Observed Cum Prob
1,0
0,8
0,6
0,4
0,2
0,0
Exp
ecte
d C
um
Pro
b
Dependent Variable: rezultate examen
Normal P-P Plot of Regression Standardized Residual
top related