05 statm regresia mutipla

48
Regresia liniară multiplă M. Popa

Upload: anca-dina

Post on 08-Nov-2015

255 views

Category:

Documents


0 download

DESCRIPTION

ghhth

TRANSCRIPT

  • Regresia liniar multipl

    M. Popa

  • cuprins

    1. Noiuni de baz regresia liniar simpl

    2. Modelul de predicie multivariat

    3. Obiectivele analizei de regresie multipl

    4. Condiii i limitri

    5. Alegerea modelului de analiz

    6. Volumul eantionului

    7. Regresia multipl cu SPSS Operaii preliminare

    Procedura de calcul

    Interpretarea rezultatelor

    8. Validarea modelului de regresie

    9. Raportarea rezultatelor

  • Corelaia i Regresia

    Corelaia arat legtura (asocierea) dintre variabile nu descrie relaia cauzal dintre variabile nu permite predicia unei variabile pe baza celeilalte variabile nu exist variabil dependent i dependent

    Regresia metod de predicie a valorilor unei variabile pe baza valorilor altei

    variabile

    variabila independent variabila cauz valorile ei prezic valorile variabilei dependente este denumit predictor

    variabila dependent variabila efect valorile ei sunt prezise pe baza valorilor variabilei independente este denumit i criteriu

    Situaia tipic n psihologie - examenele de selecie3

  • Tipuri de regresie liniar

    Regresia simpl

    o singur variabil predictor

    se bazeaz pe corelaia simpl dintre criteriu i predictor

    Regresia multipl

    mai multe variabile predictor

    se bazeaz pe corelaia multipl dintre criteriu i predictori

    situaia tipic n psihologie: selecia bazat pe baterii de teste

    4

    P C

    P2 C

    P3

    P1

  • Predicia perfect

    r=1

    zx=1.5

    zy=1.5

    zy crete sau scade cu aceeai unitate cu ct crete sau scade zx

    5

    xyzz '

    z(x)

    3,53,02,52,01,51,0,50,0

    z(y)

    3,5

    3,0

    2,5

    2,0

    1,5

    1,0

    ,5

    0,0

  • Predicia n cazul corelaiei imperfecte

    corelaiile sunt numai prin excepie perfecte

    n mod normal, r variaz n jurul lui 0

    exemplu: corelaia ntre cunotinele de matematic irezultatele la statistic

    6

    xyzrz *'

  • Subiect

    Nr. prezene la cursul

    de statistic

    (X)

    Rspunsuri corecte la evaluri

    pariale (P1+P2+P3)

    (Y)

    A 1 7

    B 3 18

    C 4 19

    D 7 35

    F 8 19

    G 9 28

    H 10 40

    I 11 37

    J 12 45

    K 13 54

    Exemplu(date reale, selecionate din N=253)

  • Xa=7

    Eroare de predicie

    =12.85

    Valoare real Ya=40

    Valoare prezis Ya=27.15

  • Ecuaia dreptei de regresie

    Y valoare prezis (criteriu)

    ayx originea dreptei; (punctul n care linia de regresie intersecteaz axa Oy).

    byx panta liniei de regresie poate fi exprimat ca fraciuni ale lui X determinate

    de r

    X valoare predictor a variabilei Y

    XbaY yxyx *'

    10

  • Modelul de regresie simpl

    Acurateea prediciei este dat de coeficientul de regresie R (expresia lui r)

    Exemplul nostru: R=0.528

    Semnificaia statistic se testeaz cu testul F

    Exemplul nostru: F=96.822.10; p

  • Pentru exemplul prezentat:

    R=0.528; a=8.973; b=2.598

    Y=8.973+2.598*X

    X=1 Y= 11.575

    X=2 Y= 14.171

    O prezen la curs contribuie cu 2.596

    rspunsuri corecte

  • Expresia grafic a regresiei

    aceeai origine dar pante diferite

    13

    origini diferite, dar aceeai pant

  • SubiectNr. prezene

    (X)

    Rspunsuri

    corecte

    (Y)

    Rspunsuri

    prezise

    (Y)

    Eroare de

    predicie

    (Y)

    A 1 7 11.57 -4.57

    B 3 18 16.76 1.24

    C 4 19 19.36 -0.36

    D 7 35 27.15 7.85

    F 8 19 29.75 -10.75

    G 9 28 32.35 -4.35

    H 10 40 34.95 5.05

    I 11 37 37.54 -0.54

    J 12 45 40.14 4.86

    K 13 54 42.74 11.26

    Eroarea de predicie

  • Xa=7

    Eroare de predicie

    =12.85

    Valoare real Ya=40

    Valoare prezis Ya=27.15

    Media prediciei Ym=36

    Varian

    explicat

    Ya-Ym=8.85

    Varian neexplicat

    (diferen rezidual)

    Ya-Ym=4

  • regresia nu este simetric !

    dac inversm variabilele n ecuaia de regresie se va obine o linie de regresie diferit

    dac se inverseaz ordinea variabilelor n calcularea corelaiei, se obine acelai coeficient r

    16

  • Modelul de predicie bazat pe un singur predictor (prezena la curs), explic doar o parte (27.2%) din variaia rspunsurilor corecte

    Variaie neexplicat = 72.8%

    Trebuie s existe, deci, i ali predictori

    ?

    ?

    ?

    ?

  • Modelul de predicie multivariat

    Unde

    Y este valoarea estimat pentru variabila criteriu (dependent)

    ai este punctul de origine al liniei (constanta)

    b1, b2, b3... bk sunt coeficienii b pentru cele k variabile predictor

    X1, X2, X3.... Xk sunt valorile celor k variabile predictor

    kki XbXbXbXbaY *....*** 332211'

  • Scatterplot trivariat

    Ycriteriu

    X1predictor

    X2predictor

  • Planul de regresie multivariat

    Ycriteriu

    X1predictor

    X2predictor

  • Indicatori ai intensitii prediciei

    R = coeficientul de corelaie multipl

    R2 = procentul de variaie din VD (criteriu) determinat de variaiasimultan a VI (predictori)

    R2adj=R2 corectat pentru numrul predictorilor

    R2adj > 75% - foarte bun (peste 90% rar probabil un artefact)

    50% - 75% - bun

    25% - 50% - slab dar acceptabil

    sub 25% - foarte slab (probabil inacceptabil)

    Semnificaia statistic a lui R este calculat cu ajutorul unui test de varian (F)

    Cu ct contribuie fiecare predictor la estimarea criteriului? dificil de spus, fiindc fiecare predictor acioneaz n prezena celorlali

    o soluie coeficienii beta (standardizai)

    corelaia semi-parial dintre criteriu i predictori (cursul urmator)

    NOU

  • Utilitatea regresiei multiple

    Descrierea relaiilor dintre variabile

    Predicia n scop de selecie

    Dezvoltarea teoriei testrii psihologice

  • Condiii i limitri

    Variabila dependent (criteriu):

    Trebuie s fie msurat pe scal de interval raport, cu respectarea condiiilor de aplicare a testului de corelaie (normalitatea distribuiei, n special).

    Poate fi msurat i pe scal ordinal

    n nici un caz pe scal nominal (n acest caz, se utilizeaz alte tehnici de regresie analiza de discriminare sau regresia logistic)

  • Condiii i limitri

    Variabilele independente (predictori)

    vor fi msurate pe scale de interval

    pot fi introduse n ecuaie i variabile msurate la nivel ordinal

    pot fi utilizate direct i variabile nominale categoriale dihotomice, codificate numeric (ex: masc.=0; fem.=1)

    mrimea coeficientului de regresie n acest caz, indic diferena dintre cele dou categorii

    ex: pentru b=2.7 - scorul mediu al femeilor este mai mare cu 2.7 uniti dect al brbailor (celelalte variabile fiind constante)

    NOU

  • Distribuia variabilelor cantitative trebuie s fie normal

    Dac se abat grav de la aceast condiie, se vor utiliza proceduri adecvate de transformare.

    Relaiile dintre VI i VD trebuie s fie liniare

    condiie verificabil cu ajutorul unui grafic scatterplot

    Omogenitatea pantei de regresie

    Homoscedasticitate Heterodasticitate Heterodasticitate

  • multicoliniaritatea

    Variabilele predictor trebuie s fie ortogonale e=a+b

    Corelaia dintre predictori se numete multicoliniaritate

    este mereu prezent ( conteaz mrimea ei)

    e=a+b+c

    c+d = multicolinearitate

    Efecte negative Amplific eroarea standard a coefic. de regresie

    Amplific variabilitatea coeficienilor de regresie

    Reduce puterea (probabilitatea de resp. H0)

    Reduce precizia prediciei

    a

    be

    Y

    X1

    X2

    a

    b

    c d

    Y

    X1

    X2

    e

  • multicoliniaritatea

    Evaluare Corelaii bivariate

    Matricea de scatterplot-uri

    Indicele de toleran

    ia valori ntre 0 i 1

    valorile apropiate de 0 sunt un semn al coliniaritii

    Dac tolerana este mai mic de 0.1 ridic o problem de coliniaritate

    VIF (Variation Inflation Factor) >5 sau 10 !

    Soluii: combinarea predictorilor sau eliminarea mrirea volumului eantionului

    a

    b

    c d

    Y

    X1

    X2

    e

  • Variabilele vor fi msurate fr erori

    Cazurile care prezint valori extreme vor fi analizate i tratate corespunztor

    Valorile reziduale (erorile de predicie) se vor supune urmtoarelor condiii:

    media valorilor reziduale n studii de replicare s fie zero;

    erorile din cazul unei variabile independente nu au nici o legtur cu erorile altei sau altor variabile independente;

    erorile nu coreleaz cu variabilele independente;

    variana valorilor reziduale pe toat distribuia variabilelor independente este omogen (homoscedasticitate)

    erorile au o distribuie normal;

    Testul Durbin-Watson (recom: 2; nerecom: 3)

    Condiii ale erorilor

  • poate fi considerabil

    uneori chiar i una sau dou valori excesive pot influena analiza de regresie

    aceste valori vor fi identificate i tratate corespunztor naintea calculrii ecuaiei de regresie multipl

    Efectul valorilor extreme (outliers)

  • Alegerea modelului de analiz

    Fixarea modului n care variabilele predictor sunt introduse n modelul de regresie este una dintre deciziile importante

    se refer n esen la: stabilirea importanei predictorilor

    ordinea de introducere

    modul de tratare a acestora de ctre programul de regresie

    se vor utiliza:

    informaii despre relaia bivariat dintre predictori i criteriu

    rezultate ale unor cercetri anterioare sau modele teoretice validate ori aflate n stadiul de ipotez

  • metode de introducere a variabilelor predictor n ecuaie

    Regresia multipla standard.

    Regresia multipl secvenial (regresie ierarhic).

    Regresia multipl pas cu pas.

  • Regresia multipl standard

    toate variabilele predictor sunt incluse n ecuaie,

    efectul fiecreia este evaluat dup i independent de efectul tuturor celorlalte variabile introduse anterior

    fiecare variabil independent este evaluat numai prin prisma contribuiei proprii la explicarea variabilei dependente

  • Regresia multipl secvenial (ierarhic)

    Predictorii (VI) sunt introdui n ecuaie ntr-o anumit ordine, n funcie de opiunile analistului.

    Atunci cnd acesta are motive s cread c un predictor are o influen mai mare, o poate introduce n ecuaie naintea altora

    Fiecare predictor explic o anumit cantitate de variabilitate a VD, independent de predictorii introdui anterior n ecuaie

    astfel putem determina contribuia fiecrui predictor

    validitatea incremental

  • Regresia multipl pas cu pas

    utilizat n studii exploratorii, (nr. mare de predictori)

    trei variante:

    Selecia anterograd

    Selecia pas cu pas

    Selecia retrograd

  • Selecia anterograd

    Toate variabilele predictor sunt corelate cu variabila criteriu dup care variabila care are corelaia cea mai mare este introdus prima n ecuaie

    Urmtoarea variabil introdus n ecuaie este cea care are corelaia cea mai mare, dup ce a fost eliminat efectul variabilei anterioare

    Procesul continu pn ce nivelul contribuiei variabilelor predictor este prea mic pentru a mai fi luat n considerare

    O variabil odat introdus n ecuaie rmne acolo.

  • Selecia pas cu pas

    Este o variant a metodei anterioare

    la fiecare pas, fiecare variabil deja introdus este retestat pentru a se evalua efectul ei ca i cum ar fi fost introdus ultima

    Dac o variabil nou introdus are o contribuie mai consistent asupra variabilei dependente, va determina eliminarea unei variabile anterioare care se dovedete mai puin predictiv

  • Selecia retrograd

    Pasul iniial este calcularea a unei ecuaii de regresie n care toate variabilele predictor sunt incluse

    Ulterior, pentru fiecare variabil predictor este efectuat un test de semnificaie F, pentru a se evalua contribuia fiecrui predictor la corelaia de ansamblu.

    Valorile testului F sunt comparate cu o valoare limit prestabilit, variabilele care nu trec acest prag fiind eliminate din ecuaie.

    Pe msur ce o variabil este eliminat, o nou ecuaie este calculat i un nou test F este efectuat pentru variabilele rmase, urmat de eventuala eliminare a unei alte variabile.

    Procesul continu pn cnd doar variabilele semnificative rmn n ecuaie

  • Concluzii la alegerea metodei de introducere a variabilelor

    metoda secvenial i cea pas cu pas sunt superioare metodei standard.

    n cazul metodei secveniale, decizia de selecionare a variabilelor introduse n ecuaie aparine cercettorului

    n cazul metodei pas cu pas, programul este cel care face n mod automat selecia, n funcie de parametri fixai de analist

    controversat

  • Analiza de putere pentru regresia multipl

    stabilirea volumul eantionului n funcie de:

    mrimea efectului

    numrul predictorilor

    puterea testului

    Recomandri:

    15/1 (pentru 150 de subieci se poate miza pe cel mult 10 variabile independente (predictori)

    N50+8*m

  • Mrimea efectului

    Mic = 0.02

    Mediu = 0.15

    Mare = 0.35

    G*Power

    2

    22

    1 R

    Rf

  • Obiective de cercetare specifice analizei de regresie multipl

    analiza de regresie multipl este utilizabil n situaii de predicie dorim s selectm candidai pentru o anumit profesie pe baza

    performanelor la un set de teste psihologice odat stabilit ecuaia de regresie pentru eantionul studiat, utilizm

    bateria de teste pentru a face predicii de adaptare n cazul altor subieci

    ntrebri tipice: Care dintre indicatorii testelor utilizate are capacitatea de predicie cea

    mai ridicat? Exist indicatori care nu au relevan pentru predicia performanei

    profesionale? Are ecuaia de regresie astfel obinut o capacitate sigur de

    predicie? Care dintre indicatorii testelor utilizate pot fi incluse n ecuaia de

    predicie a performanei profesionale? Are ecuaia de regresie, astfel obinut, o capacitate sigur de

    predicie?

  • Efectuarea analizei de regresie cu SPSS

  • Validarea prediciei...

  • Raportarea rezultatelor

    datele iniiale i eventualele eliminri sau transformri efectuate;

    indicatorii statistici descriptivi (medii, abateri standard), matricile de corelaie, graficele ilustrative pentru diferitele distribuii;

    coeficienii de regresie i semnificaiile lor (R2, R2adj i gradele de libertate);

    dac a fost utilizat metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru fiecare pas i nivelul lor de semnificaie;

    tabelul cu coeficienii B (sau beta), coeficienii r bivariai icorelaia parial pentru fiecare variabil independent inclus n model;

    se vor trage concluzii de ansamblu...