corelaţia şi regresia liniară

30
Corelaţia şi regresia liniară Sorana D. BOLBOACĂ

Upload: voanh

Post on 30-Jan-2017

243 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Corelaţia şi regresia liniară

Corelaţia şi regresia liniarăSorana D. BOLBOACĂ

Page 2: Corelaţia şi regresia liniară

Conținut• Corelaţia▫ Definiţie▫ Formule de calcul▫ Testarea ipotezelor

• Regresia liniară- Simplă- Multiplă

2

Page 3: Corelaţia şi regresia liniară

1. Direcţia• Pozitivă (+)• Negativă (-)

2. Gradul de asociere• Între –1 şi 1 • Valoarea absolută semnifică puterea asocierii

3. Forma• Lineară• Nelineară

Corelaţia: 3 caracteristici

3

Page 4: Corelaţia şi regresia liniară

0.0

6.7

13.3

20.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

0.0

40.0

80.0

120.0

0.0 83.3 166.7 250.0

C1 vs C2

C1

C2

Pozitivă

Valori mari ale lui X se asociază cu valori mari ale lui YValori mici ale lui X se asociază cu valori mici ale lui Y

Valori mari ale lui X se asociază cu valori mici ale lui YValori mici ale lui X se asociază cu valori mari ale lui Y

Ex. Viteza şi acurateţea

Negativă

Corelaţia: 1. direcţia

4

Page 5: Corelaţia şi regresia liniară

0.0

6.7

13.3

20.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

0.0

40.0

80.0

120.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

PuternicăSlabă(nor de puncte difuz)

Corelaţia: 2. Gradul asocierii

5

Page 6: Corelaţia şi regresia liniară

Lineară Nelineară

Corelaţia: 3. Forma

6

Page 7: Corelaţia şi regresia liniară

• Tehnică statistică care măsoară şi descrie gradul de asociere lineară dintre două variabile cantitative continue normal distribuite

Corelaţia Pearson: Definiţie

Obs X YA 1 1 B 1 3 C 3 2 D 4 5 E 6 4 F 7 5

Date

X

Y

Grafic de tip nor de puncte

7

Page 8: Corelaţia şi regresia liniară

< Media lui X > Media lui X

> Media lui Y > Media lui Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui  Y

Media lui X

Produsul ))(( YYXX −−Pentru o asociere pozitivă puternică, produsul va avea o valoare mare pozitivă

Asocierea

8

Page 9: Corelaţia şi regresia liniară

< Media lui X > Media X

> Media lui Y > Media Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui Y

Media lui X

Produsul  ))(( YYXX −−Pentru o asociere puternică negativă, produsul va avea o valoare mare negativă

9

Asocierea

Page 10: Corelaţia şi regresia liniară

< Media lui X > Media lui X

> Media lui Y > Media lui Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui Y

Media lui X

Produsul  ))(( YYXX −−Pentru o asociere slabă, valoarea produsului este fie pozitivă fie negativă  

10

Asocierea

Page 11: Corelaţia şi regresia liniară

11

Coeficientul de corelaţie PearsonSimbol: r, R

Ia valori între -1 şi +1 indicând puterea (interpretăm valoarea coeficientului) şi direcţia (interpretăm semnul coeficientului) asocierii lineare.Valoarea absolută indică puterea asocierii• + (direct proporţional)/- indică (invers proporţional) direcţia asocierii

( )( )( ) ( )∑∑∑

−−

−−=

22YYXX

YYXXr

Page 12: Corelaţia şi regresia liniară

Coeficientul de corelaţie Pearson

Asumpţii:1.Erorile din date sunt independente2.Există o relaţie de linearitate între cele două variabile de interes 3.Variabilele urmează o distribuţie normală bivariată

12

Page 13: Corelaţia şi regresia liniară

Femur Humerus

A 38 41

B 56 63

C 59 70

D 64 72

E 74 84

Mean 58.2 66.00

SSX SSY SP

)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−

YXSSSSSP

=r

Coeficientul de corelaţie Pearson

13

Page 14: Corelaţia şi regresia liniară

Femur Humerus

A 38 41 ‐20.2 ‐25 408.04 625 505

B 56 63 ‐2.2 ‐3 4.84 9 6.6

C 59 70 0.8 4 .64 16 3.2

D 64 72 5.8 6 33.64 36 34.8

E 74 84 15.8 18 249.64 324 284.4

mean 58.2 66.00 696.8 1010 834

SSX SSY SP

)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−

r = 0.99

Coeficientul de corelaţie Pearson

14

Page 15: Corelaţia şi regresia liniară

Coeficientul de corelaţie Pearson: Interpretare

• O măsură a puterii asocierii: cât de puternic punctele din grafic se aglomerează în jurul unei linii?

• O măsură a direcţiei asocierii: pozitivă sau negativă?• Reguli empirice de interpretare a coeficientului de

corelaţie: Colton [Colton T. Statistics in Medicine. Little Brown and Company, New York, NY 1974] :

R ⊂ [-0.25 to +0.25] → Nu există nici o relaţieR ⊂ (0.25 to +0.50] ∪ (-0.25 to -0.50] → relaţie slabăR ⊂ (0.50 to +0.75] ∪ (-0.50 to -0.75] → relaţie moderatăR ⊂ (0.75 to +1) ∪ (-0.75 to -1) → relaţie puternică 15

Page 16: Corelaţia şi regresia liniară

Coeficientul de corelaţie Pearson: Interpretare

• Valoarea p este probabilitatea ca valoarea coeficientului de corelaţie să fie egală cu zero (ipoteza nulă).

• Dacă probabilitatea este mai mică decât nivelul de semnificaţie (ex. p < 0.05) → coeficientul de corelaţie este semnificativ statistic.

16

Correlation coefficient

p-value

Sample size

Page 17: Corelaţia şi regresia liniară

Coeficientul de corelaţie al rangurilor Spearman

• Se poate aplica pe orice tip de variabile• Nu necesită asumpţia distribuţiei normale bivariate a

celor 2 variabile de interes• Simbol: ρ

17

Page 18: Corelaţia şi regresia liniară

Coeficientul de corelaţie al rangurilor Spearman

• Semnul coeficientului de corelaţie Spearman indică direcţia asocierii (invers proporţionale pentru semnul - şi direct proporţional pentru semnul +) dintre variabilele investigate

• ρ =1 → relaţia dintre cele două variabile investigate este monotonă . N.B. Nu va da un coeficient de corelaţie Pearsonegal cu 1.

18

Page 19: Corelaţia şi regresia liniară

Coeficientul de determinare (r2/R2)

• Valoarea covariaţiei raportat la volumul total al variaţiei

• Procentul din variaţia totală care este explicată de variabilele independente

• Exemplu▫ Dacă r = 0.80 → variabilele independente explică

64% din variabilitatea variabilei dependente

19

Page 20: Corelaţia şi regresia liniară

Proprietăţile coeficientului de corelaţie

• O statistică standardizată – nu se modifică dacă schimbăm unităţile de măsură ale variabilelor.

• Valoarea este identică dacă corelăm pe X cu Y sau pe Y cu X.

• Valoarea este destul de instabilă pentru n mic• Vulnerabil la valori extreme• Are o distribuţie asimetrică

20

Page 21: Corelaţia şi regresia liniară

Coeficientul de corelaţie: exemplu

• Enciu A, Zamfir CZ, Nicolescu A, Ida A. THE ANALYSIS OF CORRELATIONS BETWEEN THE MAIN TRAITS OF WOOL PRODUCTION ON MILK BREED – PALAS. Lucrări Ştiinţifice -Seria Zootehnie ????;57:50-54.

21

Page 22: Corelaţia şi regresia liniară

Matricea de corelaţie

Page 23: Corelaţia şi regresia liniară

Regresia lineară simplăRegresia lineară multiplă

Page 24: Corelaţia şi regresia liniară

Regresia liniară: asumpţii

• Erorile măsurătorilor sunt independente • Regresia depinde de identificarea corectă a

modelului relaţional• Nu există erori în măsurarea valorilor variabilei

dependente• Variaţia valorilor lui Y este aceeaşi pentru toate

valorile lui X• Valorile Y urmează o distribuţie normală

24

Page 25: Corelaţia şi regresia liniară

Regresia liniară

• Dacă există o relaţie de liniaritate între variabilele de interes putem identifica o ecuaţie simplă pentru a prezice o variabilă cunoscând cealaltă variabilă

• Variabila rezultate este variabila Y, iar variabila predictor este variabila X

• Exemplu: transformarea în grade Fahrenheitcunoscând valoarea în grade Celsius:

F = 32 + 1.8ºC Această formulă dă o line perfectă

25

Page 26: Corelaţia şi regresia liniară

Ecuanția dreptei

• Formula generală: Y = a + bX• Ecuaţia de predicţie: Ỹ = a+ bX▫ a = intercept, b = coeficientul dreptei, X = predictor

• a și b sunt constante într-o ecuaţie; X şi Y se modifică

26

Page 27: Corelaţia şi regresia liniară

27

Panta şi interceptul

• Ỹ = a + bXPanta b: Cantitatea cu care valoarea Y se modifică în momentul în care modificăm valoarea lui X cu o unitate

Interceptul a: valoarea lui Y când X este zero

Panta este influenţată de r, dar nu are aceeaşi semnificaţie ca şi r

Xx

y

SSSP

ss

rb ==

XbYa −=

Page 28: Corelaţia şi regresia liniară

28

http://onlinelibrary.wiley.com/doi/10.1111/j.1939-1676.2011.00812.x/pdf

Page 29: Corelaţia şi regresia liniară

29

Page 30: Corelaţia şi regresia liniară

De reţinut!▫ Evaluarea puterii asocierii dintre două variabile

cantitative continue (normal distribuite) ―›corelaţie

▫ Prezicerea unei variabile (Y) în funcţie de o altă variabilă (X) ―› regresie