prezentare regresia multipla

5
REGRESIA LINIARĂ MULTIPLĂ Scop Predicţia unei VD pe baza mai multor VI Identificarea celui mai bun set de VI pentru estimarea VD (cel mai bun model de predicţie) Introducerea unei noi VI aduce un plus explicativ? Stabilirea importanţei unei VI incluse în analiză prin comparaţia cu celelalte VI. Ecuaţiile de regresie multiplă Y = a + b 1 X 1 + b 2 X 2 +..............b n X n (o constantă şi mai multe pante) zY = β 1 zX 1 + β 2 zX 2 + ..........β n zX n Condiţii de aplicare 1. VD şi VI să fie variabile cantitative normal distribuite 2. Relaţia dintre VD şi VI să fie liniară (scatterplot - matrix) 3. Evitarea multicoliniarităţii (corelaţii mari: peste 0,50 – 0,60 între oricare două VI) 4. Erorile (reziduurile) să fie normal distribuite (histograma reziduurilor şi graficul P-P) 5. Evitarea cazurilor extreme şi a cazurilor influente (inspectarea tabelului Residuals Statistics) 6. Evitarea homoscedasticităţii: reziduurile vor avea aceeaşi varianţă la fiecare nivel al variabilelor predictor (VI) Metode de analiză 1. Metoda simultană (ENTER cu toate VI simultan) – număr mic de VI şi nu avem elemente care să sugereze că unele VI contribuie la o mai bună explicaţie. Selectarea VI se face prin inspectarea coef. Beta şi apoi se repetă analiza. 2. Metoda ierarhică (ENTER cu blocuri de VI) – cercetătorul ştie ordinea în care vrea să introducă VI şi doreşte să afle modelul cel mai bun. Se pot alcătui manual mai multe blocuri de predictori (Blocks). 3. Metoda celui mai bun set posibil (STEPWISE) – calculatorul compară toate modelele posibile şi îl alege pe cel mai bun. 4. Metoda paşilor înainte (FORWARD) – se introduc VI pe rând şi se selectează pe baze statistice acele VI care explică cel mai bine VD. 5. Metoda paşilor înapoi (BACKWARD) – se porneşte cu toate VI şi se elimină VI pe rând, fiind selectate pe baze statistice acele VI care explică cel mai bine VD. 6. Metoda eliminării (REMOVE) – elimină din analiza variabile în bloc, într-un singur pas. EXEMPLU: prezicem aptitudinile de leadership pe baza scorurilor la inteligenţă emoţională, dominanţă, atitudine proactivă, autoeficienţă. Baza de date Regresie_multiplă.

Upload: vieriu-alexandra

Post on 23-Oct-2015

32 views

Category:

Documents


0 download

DESCRIPTION

hipnoza

TRANSCRIPT

Page 1: Prezentare regresia multipla

REGRESIA LINIAR Ă MULTIPL Ă

Scop • Predicţia unei VD pe baza mai multor VI • Identificarea celui mai bun set de VI pentru estimarea VD (cel mai bun model de predicţie) • Introducerea unei noi VI aduce un plus explicativ? • Stabilirea importanţei unei VI incluse în analiză prin comparaţia cu celelalte VI.

Ecuaţiile de regresie multiplă

Y = a + b1X1 + b2X2 +..............bnXn (o constantă şi mai multe pante) zY = β1 zX1 + β2 zX2 + ..........βn zXn

Condiţii de aplicare

1. VD şi VI să fie variabile cantitative normal distribuite 2. Relaţia dintre VD şi VI să fie liniară (scatterplot - matrix) 3. Evitarea multicoliniarităţii (corelaţii mari: peste 0,50 – 0,60 între oricare două VI) 4. Erorile (reziduurile) să fie normal distribuite (histograma reziduurilor şi graficul P-P) 5. Evitarea cazurilor extreme şi a cazurilor influente (inspectarea tabelului Residuals Statistics) 6. Evitarea homoscedasticităţii: reziduurile vor avea aceeaşi varianţă la fiecare nivel al variabilelor

predictor (VI) Metode de analiză

1. Metoda simultană (ENTER cu toate VI simultan) – număr mic de VI şi nu avem elemente care să sugereze că unele VI contribuie la o mai bună explicaţie. Selectarea VI se face prin inspectarea coef. Beta şi apoi se repetă analiza.

2. Metoda ierarhică (ENTER cu blocuri de VI) – cercetătorul ştie ordinea în care vrea să introducă VI şi doreşte să afle modelul cel mai bun. Se pot alcătui manual mai multe blocuri de predictori (Blocks).

3. Metoda celui mai bun set posibil (STEPWISE) – calculatorul compară toate modelele posibile şi îl alege pe cel mai bun.

4. Metoda paşilor înainte (FORWARD) – se introduc VI pe rând şi se selectează pe baze statistice acele VI care explică cel mai bine VD.

5. Metoda paşilor înapoi (BACKWARD) – se porneşte cu toate VI şi se elimină VI pe rând, fiind selectate pe baze statistice acele VI care explică cel mai bine VD.

6. Metoda eliminării (REMOVE) – elimină din analiza variabile în bloc, într-un singur pas. EXEMPLU : prezicem aptitudinile de leadership pe baza scorurilor la inteligenţă emoţională, dominanţă, atitudine proactivă, autoeficienţă. Baza de date Regresie_multiplă.

Page 2: Prezentare regresia multipla

2

1.VD şi VI să fie variabile cantitative normal distribuite

One-Sample Kolmogorov-Smirnov Test

100 100 100 100 100

29.53 45.19 11.57 45.93 30.89

4.511 6.788 2.875 5.006 4.968

.088 .073 .101 .086 .086

.063 .046 .064 .052 .078

-.088 -.073 -.101 -.086 -.086

.880 .728 1.014 .856 .859

.421 .664 .255 .457 .451

N

Mean

Std. Deviation

Normal Parameters a,b

Absolute

Positive

Negative

Most ExtremeDifferences

Kolmogorov-Smirnov Z

Asymp. Sig. (2-tailed)

aptitudini deleadership

inteligentaemotionala dominanta

atitudineproactiva autoeficienta

Test distribution is Normal.a.

Calculated from data.b.

2. Relaţia dintre VD şi VI să fie liniară (scatterplot - matrix)

autoeficientaatitudineproactiva

dominantainteligentaemotionala

aptitudini deleadership

aptit

udin

i de

lead

ersh

ipin

telig

enta

emot

iona

lado

min

anta

atitu

dine

proa

ctiv

aau

toef

icie

nta

Page 3: Prezentare regresia multipla

3

4. Evitarea multicoliniarităţii (corelaţii mari: peste 0,50 – 0,60 între oricare două VI)

Correlations

1 .571** .473** .494** .336**

.000 .000 .000 .001

100 100 100 100 100

.571** 1 .253* .386** .217*

.000 .011 .000 .030

100 100 100 100 100

.473** .253* 1 .341** .219*

.000 .011 .001 .029

100 100 100 100 100

.494** .386** .341** 1 .560**

.000 .000 .001 .000

100 100 100 100 100

.336** .217* .219* .560** 1

.001 .030 .029 .000

100 100 100 100 100

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

aptitudini de leadership

inteligenta emotionala

dominanta

atitudine proactiva

autoeficienta

aptitudini deleadership

inteligentaemotionala dominanta

atitudineproactiva autoeficienta

Correlation is significant at the 0.01 level (2-tailed).**.

Correlation is significant at the 0.05 level (2-tailed).*.

Coefficientsa

8.667 2.448 3.541 .001 3.809 13.525

.321 .052 .482 6.152 .000 .217 .424 .571 .530 .467 .936 1.068

.551 .123 .351 4.478 .000 .307 .795 .473 .414 .340 .936 1.068

2.213 3.247 .682 .497 -4.232 8.658

.270 .053 .406 5.073 .000 .164 .376 .571 .460 .371 .835 1.198

.454 .123 .289 3.680 .000 .209 .698 .473 .352 .269 .866 1.154

.215 .074 .238 2.894 .005 .068 .362 .494 .283 .212 .788 1.269

1.853 3.279 .565 .573 -4.657 8.363

.270 .053 .406 5.069 .000 .164 .376 .571 .461 .371 .834 1.198

.450 .124 .287 3.642 .000 .205 .695 .473 .350 .267 .865 1.156

.178 .086 .197 2.058 .042 .006 .349 .494 .207 .151 .585 1.711

.068 .080 .075 .848 .398 -.091 .228 .336 .087 .062 .686 1.458

(Constant)

inteligenta emotionala

dominanta

(Constant)

inteligenta emotionala

dominanta

atitudine proactiva

(Constant)

inteligenta emotionala

dominanta

atitudine proactiva

autoeficienta

Model1

2

3

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig. Lower BoundUpper Bound

95% Confidence Interval for B

Zero-order Partial Part

Correlations

Tolerance VIF

Collinearity Statistics

Dependent Variable: aptitudini de leadershipa.

Nu există coliniarităţi dacă valorile toleranţelor pentru fiecare VI sunt mai mari decât 1-R2

ajustat

(corespunzător modelului acceptat).

• Corelaţiile zero-order sunt corelaţii Pearson între VI şi VD • Partial reprezintă corelaţia parţială dintre o VI şi VD, controlând celelalte VI din model • Part rsp reprezintă corelaţiile semiparţiale dintre fiecare VI şi VD (relaţia dintre o VI şi partea

din VD care nu este explicată de o altă VI din model sau efectul izolat al unei VI asupra VD). • R2

sp permite estimarea proporţiei ponderii unei VI asupra VD. Această valoare înmulţită cu 100 dă procentul din varianţa VD explicată de varianţa fiecărei VI.

Page 4: Prezentare regresia multipla

4

Mărimea efectului • R2 mărimea efectului global al modelului • Part rsp (coeficienţii de pe coloana Part) sunt indicatori ai mărimii efectului fiecărei VI asupra VD

5. Evitarea cazurilor extreme şi a cazurilor influente (inspectarea tabelului Residuals Statistics)

Residuals Statisticsa

20.93 36.24 29.53 3.159 100

-2.723 2.125 .000 1.000 100

.383 1.335 .710 .191 100

20.92 36.47 29.53 3.176 100

-6.447 6.870 .000 3.220 100

-1.961 2.090 .000 .980 100

-1.979 2.104 .000 1.003 100

-6.563 6.965 .001 3.375 100

-2.010 2.144 .000 1.009 100

.357 15.342 3.960 2.700 100

.000 .065 .010 .012 100

.004 .155 .040 .027 100

Predicted Value

Std. Predicted Value

Standard Error ofPredicted Value

Adjusted Predicted Value

Residual

Std. Residual

Stud. Residual

Deleted Residual

Stud. Deleted Residual

Mahal. Distance

Cook's Distance

Centered Leverage Value

Minimum Maximum Mean Std. Deviation N

Dependent Variable: aptitudini de leadershipa.

Pentru cazurile extreme

• Se inspectează valorile minime şi maxime ale reziduurilor standardizate (Std Residual şi Stud Residual). Când mai mult de 1% dintre cazuri se află în afara intervalului (-3, 3) sau mai mult de 5% dintre cazuri se află în afara intervalului (-2, 2) atunci ecuaţia de regresie nu este stabilă.

Pentru cazurile influente

• Inspectăm distanţa lui Cook care trebuie să fie mai mică decât 1. Dacă un caz are valoarea mai mare decât 1 atunci el are o influenţă ridicată asupra modelului de regresie şi trebuie eliminat.

• Data → Sort cases → Sort order → Descendent

Page 5: Prezentare regresia multipla

5

3. Erorile (reziduurile) să fie normal distribuite (histograma şi graficul P-P)

3210-1-2

Regression Standardized Residual

12

10

8

6

4

2

0

Freq

uenc

y

Mean = -5.34E-16Std. Dev. = 0.98N = 100

Dependent Variable: aptitudini de leadership

Histogram

1,00,80,60,40,20,0

Observed Cum Prob

1,0

0,8

0,6

0,4

0,2

0,0

Exp

ecte

d C

um

Pro

b

Dependent Variable: aptitudini de leadership

Normal P-P Plot of Regression Standardized Residual

6. Evitarea homoscedasticităţii: reziduurile vor avea aceeaşi varianţă la fiecare nivel al variabilelor predictor (VI). Vizualizăm Scatterplot – punctele de pe grafic trebuie să fie împrăştiate aleatoriu în jurul valorii zero

3210-1-2-3

Regression Standardized Predicted Value

3

2

1

0

-1

-2

Reg

ress

ion

Sta

nd

ard

ized

Res

idu

al

Dependent Variable: aptitudini de leadership

Scatterplot

Variabilele create în baza de date Std. Residual şi Stud. Residual trebuie să fie normal distribuite, ceea ce se poate verifica tot cu testul Kolmogorov-Smirnov.