prezentare regresia multipla
DESCRIPTION
hipnozaTRANSCRIPT
REGRESIA LINIAR Ă MULTIPL Ă
Scop • Predicţia unei VD pe baza mai multor VI • Identificarea celui mai bun set de VI pentru estimarea VD (cel mai bun model de predicţie) • Introducerea unei noi VI aduce un plus explicativ? • Stabilirea importanţei unei VI incluse în analiză prin comparaţia cu celelalte VI.
Ecuaţiile de regresie multiplă
Y = a + b1X1 + b2X2 +..............bnXn (o constantă şi mai multe pante) zY = β1 zX1 + β2 zX2 + ..........βn zXn
Condiţii de aplicare
1. VD şi VI să fie variabile cantitative normal distribuite 2. Relaţia dintre VD şi VI să fie liniară (scatterplot - matrix) 3. Evitarea multicoliniarităţii (corelaţii mari: peste 0,50 – 0,60 între oricare două VI) 4. Erorile (reziduurile) să fie normal distribuite (histograma reziduurilor şi graficul P-P) 5. Evitarea cazurilor extreme şi a cazurilor influente (inspectarea tabelului Residuals Statistics) 6. Evitarea homoscedasticităţii: reziduurile vor avea aceeaşi varianţă la fiecare nivel al variabilelor
predictor (VI) Metode de analiză
1. Metoda simultană (ENTER cu toate VI simultan) – număr mic de VI şi nu avem elemente care să sugereze că unele VI contribuie la o mai bună explicaţie. Selectarea VI se face prin inspectarea coef. Beta şi apoi se repetă analiza.
2. Metoda ierarhică (ENTER cu blocuri de VI) – cercetătorul ştie ordinea în care vrea să introducă VI şi doreşte să afle modelul cel mai bun. Se pot alcătui manual mai multe blocuri de predictori (Blocks).
3. Metoda celui mai bun set posibil (STEPWISE) – calculatorul compară toate modelele posibile şi îl alege pe cel mai bun.
4. Metoda paşilor înainte (FORWARD) – se introduc VI pe rând şi se selectează pe baze statistice acele VI care explică cel mai bine VD.
5. Metoda paşilor înapoi (BACKWARD) – se porneşte cu toate VI şi se elimină VI pe rând, fiind selectate pe baze statistice acele VI care explică cel mai bine VD.
6. Metoda eliminării (REMOVE) – elimină din analiza variabile în bloc, într-un singur pas. EXEMPLU : prezicem aptitudinile de leadership pe baza scorurilor la inteligenţă emoţională, dominanţă, atitudine proactivă, autoeficienţă. Baza de date Regresie_multiplă.
2
1.VD şi VI să fie variabile cantitative normal distribuite
One-Sample Kolmogorov-Smirnov Test
100 100 100 100 100
29.53 45.19 11.57 45.93 30.89
4.511 6.788 2.875 5.006 4.968
.088 .073 .101 .086 .086
.063 .046 .064 .052 .078
-.088 -.073 -.101 -.086 -.086
.880 .728 1.014 .856 .859
.421 .664 .255 .457 .451
N
Mean
Std. Deviation
Normal Parameters a,b
Absolute
Positive
Negative
Most ExtremeDifferences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
aptitudini deleadership
inteligentaemotionala dominanta
atitudineproactiva autoeficienta
Test distribution is Normal.a.
Calculated from data.b.
2. Relaţia dintre VD şi VI să fie liniară (scatterplot - matrix)
autoeficientaatitudineproactiva
dominantainteligentaemotionala
aptitudini deleadership
aptit
udin
i de
lead
ersh
ipin
telig
enta
emot
iona
lado
min
anta
atitu
dine
proa
ctiv
aau
toef
icie
nta
3
4. Evitarea multicoliniarităţii (corelaţii mari: peste 0,50 – 0,60 între oricare două VI)
Correlations
1 .571** .473** .494** .336**
.000 .000 .000 .001
100 100 100 100 100
.571** 1 .253* .386** .217*
.000 .011 .000 .030
100 100 100 100 100
.473** .253* 1 .341** .219*
.000 .011 .001 .029
100 100 100 100 100
.494** .386** .341** 1 .560**
.000 .000 .001 .000
100 100 100 100 100
.336** .217* .219* .560** 1
.001 .030 .029 .000
100 100 100 100 100
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
aptitudini de leadership
inteligenta emotionala
dominanta
atitudine proactiva
autoeficienta
aptitudini deleadership
inteligentaemotionala dominanta
atitudineproactiva autoeficienta
Correlation is significant at the 0.01 level (2-tailed).**.
Correlation is significant at the 0.05 level (2-tailed).*.
Coefficientsa
8.667 2.448 3.541 .001 3.809 13.525
.321 .052 .482 6.152 .000 .217 .424 .571 .530 .467 .936 1.068
.551 .123 .351 4.478 .000 .307 .795 .473 .414 .340 .936 1.068
2.213 3.247 .682 .497 -4.232 8.658
.270 .053 .406 5.073 .000 .164 .376 .571 .460 .371 .835 1.198
.454 .123 .289 3.680 .000 .209 .698 .473 .352 .269 .866 1.154
.215 .074 .238 2.894 .005 .068 .362 .494 .283 .212 .788 1.269
1.853 3.279 .565 .573 -4.657 8.363
.270 .053 .406 5.069 .000 .164 .376 .571 .461 .371 .834 1.198
.450 .124 .287 3.642 .000 .205 .695 .473 .350 .267 .865 1.156
.178 .086 .197 2.058 .042 .006 .349 .494 .207 .151 .585 1.711
.068 .080 .075 .848 .398 -.091 .228 .336 .087 .062 .686 1.458
(Constant)
inteligenta emotionala
dominanta
(Constant)
inteligenta emotionala
dominanta
atitudine proactiva
(Constant)
inteligenta emotionala
dominanta
atitudine proactiva
autoeficienta
Model1
2
3
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig. Lower BoundUpper Bound
95% Confidence Interval for B
Zero-order Partial Part
Correlations
Tolerance VIF
Collinearity Statistics
Dependent Variable: aptitudini de leadershipa.
Nu există coliniarităţi dacă valorile toleranţelor pentru fiecare VI sunt mai mari decât 1-R2
ajustat
(corespunzător modelului acceptat).
• Corelaţiile zero-order sunt corelaţii Pearson între VI şi VD • Partial reprezintă corelaţia parţială dintre o VI şi VD, controlând celelalte VI din model • Part rsp reprezintă corelaţiile semiparţiale dintre fiecare VI şi VD (relaţia dintre o VI şi partea
din VD care nu este explicată de o altă VI din model sau efectul izolat al unei VI asupra VD). • R2
sp permite estimarea proporţiei ponderii unei VI asupra VD. Această valoare înmulţită cu 100 dă procentul din varianţa VD explicată de varianţa fiecărei VI.
4
Mărimea efectului • R2 mărimea efectului global al modelului • Part rsp (coeficienţii de pe coloana Part) sunt indicatori ai mărimii efectului fiecărei VI asupra VD
5. Evitarea cazurilor extreme şi a cazurilor influente (inspectarea tabelului Residuals Statistics)
Residuals Statisticsa
20.93 36.24 29.53 3.159 100
-2.723 2.125 .000 1.000 100
.383 1.335 .710 .191 100
20.92 36.47 29.53 3.176 100
-6.447 6.870 .000 3.220 100
-1.961 2.090 .000 .980 100
-1.979 2.104 .000 1.003 100
-6.563 6.965 .001 3.375 100
-2.010 2.144 .000 1.009 100
.357 15.342 3.960 2.700 100
.000 .065 .010 .012 100
.004 .155 .040 .027 100
Predicted Value
Std. Predicted Value
Standard Error ofPredicted Value
Adjusted Predicted Value
Residual
Std. Residual
Stud. Residual
Deleted Residual
Stud. Deleted Residual
Mahal. Distance
Cook's Distance
Centered Leverage Value
Minimum Maximum Mean Std. Deviation N
Dependent Variable: aptitudini de leadershipa.
Pentru cazurile extreme
• Se inspectează valorile minime şi maxime ale reziduurilor standardizate (Std Residual şi Stud Residual). Când mai mult de 1% dintre cazuri se află în afara intervalului (-3, 3) sau mai mult de 5% dintre cazuri se află în afara intervalului (-2, 2) atunci ecuaţia de regresie nu este stabilă.
Pentru cazurile influente
• Inspectăm distanţa lui Cook care trebuie să fie mai mică decât 1. Dacă un caz are valoarea mai mare decât 1 atunci el are o influenţă ridicată asupra modelului de regresie şi trebuie eliminat.
• Data → Sort cases → Sort order → Descendent
5
3. Erorile (reziduurile) să fie normal distribuite (histograma şi graficul P-P)
3210-1-2
Regression Standardized Residual
12
10
8
6
4
2
0
Freq
uenc
y
Mean = -5.34E-16Std. Dev. = 0.98N = 100
Dependent Variable: aptitudini de leadership
Histogram
1,00,80,60,40,20,0
Observed Cum Prob
1,0
0,8
0,6
0,4
0,2
0,0
Exp
ecte
d C
um
Pro
b
Dependent Variable: aptitudini de leadership
Normal P-P Plot of Regression Standardized Residual
6. Evitarea homoscedasticităţii: reziduurile vor avea aceeaşi varianţă la fiecare nivel al variabilelor predictor (VI). Vizualizăm Scatterplot – punctele de pe grafic trebuie să fie împrăştiate aleatoriu în jurul valorii zero
3210-1-2-3
Regression Standardized Predicted Value
3
2
1
0
-1
-2
Reg
ress
ion
Sta
nd
ard
ized
Res
idu
al
Dependent Variable: aptitudini de leadership
Scatterplot
Variabilele create în baza de date Std. Residual şi Stud. Residual trebuie să fie normal distribuite, ceea ce se poate verifica tot cu testul Kolmogorov-Smirnov.