c13-corelatiiregresii.pdf

32
CORELAŢII SI REGRESII LEGĂTURA ÎNTRE MAI MULTE VARIABILE

Upload: impressara

Post on 15-Jan-2016

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: c13-CorelatiiRegresii.pdf

CORELAŢII SI REGRESII

LEGĂTURA ÎNTRE MAI MULTE

VARIABILE

Page 2: c13-CorelatiiRegresii.pdf

două sau mai multe variabile cantitative

două variabile de ordine

două variabile calitative

o variabilă cantitativă cu o variabilă

calitativă

2

Tipuri de “relaţii“

Page 3: c13-CorelatiiRegresii.pdf

Variabile cantitative

Varsta X: X1, X2,..., Xn

TAS Y: Y1, Y2,..., Yn.

1. Să se stabilească dacă există o legătură între variabilele X şi Y (cantitative continue) şi să se determine o modalitate de a măsura intensitatea acestei legături.

› Coeficientul de corelaţie

2. Să se stabilească dacă Y depinde de X şi dacă da în ce formă se realizează această dependenţă.

› Funcţia de regresie

3

Page 4: c13-CorelatiiRegresii.pdf

Statistici descriptive in două dimensiuni.

Diagrama de dispersie

Page 5: c13-CorelatiiRegresii.pdf

Statistici descriptive in două dimensiuni.

Diagrama de dispersie

X

Y

*

*

* *

*

*

*

*

*

*

*

*

*

*

*

*

* *

*

*

* *

*

*

*

5

Page 6: c13-CorelatiiRegresii.pdf

Statistici descriptive in două dimensiuni.

Diagrama de dispersie

X

Y

*

*

* *

*

*

*

*

*

*

*

*

III IV

*

*

*

*

II I

* *

*

*

* *

*

*

*

6

Page 7: c13-CorelatiiRegresii.pdf

Statistici descriptive in două dimensiuni.

Diagrama de dispersie

X

Y

*

*

*

III IV

*

II I

**

* *

*

**

*

*

*

**

*

*

*

*

*

*

*

**

*

7

Page 8: c13-CorelatiiRegresii.pdf

Statistici descriptive in două dimensiuni.

Diagrama de dispersie

X

Y

*

**

*

*

*

*

*

*

*

III IV

*

II I

**

*

**

*

*

*

*

*

*

**

*

*

*

*

**

*

*

8

Page 9: c13-CorelatiiRegresii.pdf

Descrierea "intensitatăţii" relaţiei dintre variabilele X

şi Y:

› (Xi,Yi) -în cadranele I sau III: ≥ 0

› (Xi,Yi) -în cadranele II sau IV: ≤ 0

9

))((1

YYXXSPE i

n

i

i

))(( YYXX ii

))(( YYXX ii

SPE va fi cu atât mai mare în valoare

absolută cu cât norul de puncte este

mai apropiat de o alură generală

crescătoare (SPE > 0 ) sau

descrescătoare (SPE < 0).

Dezavantaje: depinde de numărul de

puncte din seria statistică şi de

unităţile de măsură ale variabilelor

Indici de corelaţie.

Suma produselor ecart

Page 10: c13-CorelatiiRegresii.pdf

Indici de corelaţie.

Covarianţa

10

Avantaje: mărime independentă faţă de volumul seriei

statistice.

))((1

),(1

YYXXn

YXCOV i

n

i

i

Page 11: c13-CorelatiiRegresii.pdf

Indici de corelaţie.

Coeficientul de corelaţie

11

Pentru a obţine un indicator independent şi de unităţile de măsură

ale celor două variabile se utilizează coeficientul de corelaţie sau

coeficientul Bravais-Pearson:

SySx

YXCOVr

),(

SX şi SY reprezintă abaterile standard pentru seriile X şi respectiv Y:

n

XX

s

n

i

i

1

2

2

)(

Page 12: c13-CorelatiiRegresii.pdf

r [-1, 1]

măsoară intensitatea relaţiei dintre variabilele X şi Y

Dacă r=1 punctele sunt situate pe o dreaptă de pantă pozitivă (crescătoare).

Dacă 0 < r < 1, norul de puncte poate fi înlocuit (ajustat) printr-o dreaptă de pantă pozitivă .

Dispersia punctelor în jurul dreptei de regresie va fi cu atât mai mare cu cât r se apropie de 0 şi cu atât mai mică cu cât r se apropie de 1.

Dacă -1 < r < 0 atunci norul de puncte poate fi aproximat cu o dreaptă de pantă negativă. Dispersia punctelor faţă de dreaptă va fi cu atât mai mică cu cât r este mai apropiat de -1.

Dacă r=-1 atunci toate punctele sunt situate pe o dreaptă de pantă negativă.

12

Page 13: c13-CorelatiiRegresii.pdf

13

0

5

10

15

20

25

30

35

0 2 4 6

r=0 r=1

0

10

20

30

40

50

60

0 2 4 6

r=-1

0

10

20

30

40

50

60

0 2 4 6

0

10

20

30

40

50

60

0 2 4 6

0

10

20

30

40

50

60

0 2 4 6

r>0 r<0

Page 14: c13-CorelatiiRegresii.pdf

14

Semnificaţia coeficientului de corelaţie Pearson poate fi evaluată dacă valoarea observată a apărut datorită întâmplării (dacă este semnificativ diferită de zero).

Valorile critice ale lui r pot fi regăsite în anexe pentru n-2 grade de libertate în cazul aplicării testului unilateral sau bilateral.

Interpretarea este că datele experimentale nu ne permit enunţarea existenţei unei relaţii între variabilele luate în calcul

Page 15: c13-CorelatiiRegresii.pdf

Valoarea r p > 0,05 p < 0,05

in (-0.25 ; 0,25) corelaţie slabă sau

nulă

corelaţie slabă sau nulă

in [0.25 ; 0.50) sau

in (-0.50 ; -0,25] Nu are semnificatie

statistica

Grad de asociere acceptabil

in [0.50 ; 0.75) sau

in (-0.75 ; -0,50] Nu are semnificatie

statistica

O corelaţie moderată spre bună

>0.75 sau < -0,75 Nu are semnificatie

statistica

O foarte bună asociere sau corelaţie

>1 sau <-1 Eroare Eroare

15

Coeficintul de corelaţie -interpretare

Page 16: c13-CorelatiiRegresii.pdf

16

Atentie:

› Variabilele corelate trebuie sa fie cantitative

› Intre variabilele pentru care se calculeaza

corelatia trebuie sa existe o relatie de

cauzalitate

Page 17: c13-CorelatiiRegresii.pdf

r >0

› O creştere a lui X determină o creştere a lui Y

(direct proporţionale).

r < 0

› O creştere a lui X determină o diminuare a

lui Y (invers proporţionale)

17

Coeficientul de corelaţie-interpretare

Alura norului de puncte

Page 18: c13-CorelatiiRegresii.pdf

Indici de corelaţie.

Coeficientul de determinare

d = r2

Reprezintă partea din variaţia totală a lui Y explicată prin relaţia liniară existentă între X şi Y.

Cazuri particulare:

› d=1: Dacă toate punctele se află pe o dreaptă care nu e paralelă cu axa OX, orice variaţie a lui Y este exprimată prin relaţia liniară.

› d=0: X şi Y sunt independente, adică între cele două variabile nu există o relaţie liniară

Dacă d este exprimat în procente: reprezintă procentul în care variaţia lui Y este dată prin relaţia liniară între cele două variabile.

18

Page 19: c13-CorelatiiRegresii.pdf

Două variabile ordinale

(sau o variabilă ordinală şi una cantitativă)

Coeficientul de corelaţie al lui Spearman

Se procedeaza astfel:

i. Se inlocuieste seria bivariata (x1,…,xn;y1,…,yn) cu seria

rangurilor (Rx1,…Rxn;Ry1,…,Ryn), valorilor xi si yi dupa

ordonarea lor in ordine crescatoare (pentru valorile

egale se ia media aritmetica a rangurilor).

ii. Pentru determinarea coeficientului rs al lui Spearman se

calculeaza coeficientul de corelatie (Pearson) pentru

seria rangurilor.

19

Page 20: c13-CorelatiiRegresii.pdf

Coeficientul de corelaţie al lui Spearman

Coeficientul rs se mai poate calcula:

20

ii yxi

n

i

i

s RRdnn

d

r

,

)1(

6

1 1

2

Page 21: c13-CorelatiiRegresii.pdf

21

Semnificaţia coeficientului de corelaţie

Spearman poate fi evaluată dacă

valoarea observată a apărut datorită

întâmplării (dacă este semnificativ diferită

de zero).

Valorile critice ale lui r pot fi regăsite în

anexe pentru n grade de libertate în cazul

aplicării testului unilateral sau bilateral.

Pentru a fi semnificative, rs ≥ decât valorile

critice din tabel

Page 22: c13-CorelatiiRegresii.pdf

Coeficientul de contingenţă al lui Ciuprov

Descrie gradul de asociere intre doua variabile calitative

avand p respectiv q valori observate pe un esantion de

dimensiune N (tablou de contingenta pxq, cu

oij=frecvente observate, tij frecvente teoretice):

22

p

i

q

j ij

ijij

t

to

undeqpN

T

1 1

2

2

2

)(

,)1)(1(

21

Page 23: c13-CorelatiiRegresii.pdf

Drepte de regresie pentru variabile

cantitative continue

Dreapta de regresie Y(X):

y = a + b x

Dreapta de regresie X(Y):

x = c +dy

Dreapta de regresie a celor mai mici dreptunghiuri

y=e+fx.

23

Page 24: c13-CorelatiiRegresii.pdf

Statistici descriptive in două dimensiuni.

Drepte de regresie

Dreapta de regresie Y(X)

min ( ),a b R

i

i

n

ia bX Y

1

2

Valorile lui a şi b pentru care este atins minimul

sumei sunt date prin formulele:

bCOV X Y

SX

( , )

.

a Y b X

24

Page 25: c13-CorelatiiRegresii.pdf

Drepte de regresie

Dreapta de regresie X(Y)

2

1

)(min,

i

n

i

iRdc

XYdc

dCOV X Y

SY

( , )

c Y d X

25

Page 26: c13-CorelatiiRegresii.pdf

Drepte de regresie

Dreapta celor mai mici dreptunghiuri

y=e+fx.

Notând cu

Y e f X XY e

fi i i

i^ ^

,

, i=1,2,…,n,

se determină e şi f astfel încât suma:

( )( )^ ^

X X Y Yii

n

i i i

1

să fie minimă (după e şi f în R).

Valorile lui e şi f pentru care minimul este atins sunt următoarele:

f sign SPES

Se Y f X

Y

X

( ) , .

26

Page 27: c13-CorelatiiRegresii.pdf

Utilizarea funcţiilor de regresie

Extrapolare şi interpolare

Când se determină valoarea funcţiei (adică a lui Y),

pentru un X cuprins intervalul [Xmin, Xmax], atunci se

efectuează o operaţie de interpolare, iar când X se află

în afara intervalului se spune că este vorba de o

extrapolare.

Prezicerea lui Y pentru un X dat

Simulari

27

Page 28: c13-CorelatiiRegresii.pdf

Funcţia de regresie.

Schimbări de variabile

In unele cazuri se constată că relaţia liniară

pare a nu fi adecvată pentru descrierea

dependenţei dintre variabilele X şi Y, sau că

scalele utilizate nu sunt cele mai potrivite.

28

Page 29: c13-CorelatiiRegresii.pdf

29

* *

*

*

*

*

*

*

*

*

*

*

* *

*

*

*

*

*

* *

*

Page 30: c13-CorelatiiRegresii.pdf

Liniarizarea datelor

Din forma diagramei de dispersie s-ar putea deduce că o lege exponenţială

ar fi mai potrivită pentru descrierea dependenţei funcţionale, adică o

relaţie de forma:

Y = a ebX.

Aceasta, după o logaritmare a ambilor membri, devine:

ln Y = ln a + b X

care justifică schimbarea de variabilă Y' = ln Y pentru “liniarizarea”

relaţiei dintre cele două variabile:

Y'=a'+ b'X

unde a'=ln a şi b'=b.

30

Page 31: c13-CorelatiiRegresii.pdf

Regresii multidimensionale

Fiind date variabilele:

Xi: Xi1,...,Xin , i=1,2,...,m

Y: Y1,..., Yn

se caută o relaţie de forma:

Y = a + b1X1+...+bmXm,

unde coeficienţii a si bi (i=1,...,m) se determină astfel

încât să minimizeze expresia:

( ( ... ))Y a b X b Xii

n

i m mi

1

1 1

2

.

31

Page 32: c13-CorelatiiRegresii.pdf

Variabilă

cantitativă

Variabilă

ordinală

Variabilă

dihotomială

distribuţie

normală

distribuţie

non-normală

teste

parametrice

teste

non-

parametrice

Mann-Whitney U,

Wilcoxon

Interval de

timp

Regresie

lineară

multiplă

Log rank

Regresie

logistică

Modelul

lui Cox

Hi pătrat

Fisher exact

Corelaţie

(coeficient Pearson)/

regresie

Corelaţie

(coef. Spearman)

Comparaţia a

2 grupuri

Comparaţia a

3 grupuri Test F (ANOVA)

Corelaţia a 2

variabile în

acelaşi grup

Corelaţia a 2

variabile în

acelaşi grup

Comparaţia a

2 grupuri

Comparaţia a

3 grupuri Kruskall-Wallis

Student (t)