corelaţia şi regresia liniară
Post on 30-Jan-2017
243 Views
Preview:
TRANSCRIPT
Corelaţia şi regresia liniarăSorana D. BOLBOACĂ
Conținut• Corelaţia▫ Definiţie▫ Formule de calcul▫ Testarea ipotezelor
• Regresia liniară- Simplă- Multiplă
2
1. Direcţia• Pozitivă (+)• Negativă (-)
2. Gradul de asociere• Între –1 şi 1 • Valoarea absolută semnifică puterea asocierii
3. Forma• Lineară• Nelineară
Corelaţia: 3 caracteristici
3
0.0
6.7
13.3
20.0
0.0 4.0 8.0 12.0
C1 vs C2
C1
C2
0.0
40.0
80.0
120.0
0.0 83.3 166.7 250.0
C1 vs C2
C1
C2
Pozitivă
Valori mari ale lui X se asociază cu valori mari ale lui YValori mici ale lui X se asociază cu valori mici ale lui Y
Valori mari ale lui X se asociază cu valori mici ale lui YValori mici ale lui X se asociază cu valori mari ale lui Y
Ex. Viteza şi acurateţea
Negativă
Corelaţia: 1. direcţia
4
0.0
6.7
13.3
20.0
0.0 4.0 8.0 12.0
C1 vs C2
C1
C2
0.0
40.0
80.0
120.0
0.0 4.0 8.0 12.0
C1 vs C2
C1
C2
PuternicăSlabă(nor de puncte difuz)
Corelaţia: 2. Gradul asocierii
5
Lineară Nelineară
Corelaţia: 3. Forma
6
• Tehnică statistică care măsoară şi descrie gradul de asociere lineară dintre două variabile cantitative continue normal distribuite
Corelaţia Pearson: Definiţie
Obs X YA 1 1 B 1 3 C 3 2 D 4 5 E 6 4 F 7 5
Date
X
Y
Grafic de tip nor de puncte
7
< Media lui X > Media lui X
> Media lui Y > Media lui Y
< Media lui X > Media lui X
< Media lui Y < Media lui Y
Media lui Y
Media lui X
Produsul ))(( YYXX −−Pentru o asociere pozitivă puternică, produsul va avea o valoare mare pozitivă
Asocierea
8
< Media lui X > Media X
> Media lui Y > Media Y
< Media lui X > Media lui X
< Media lui Y < Media lui Y
Media lui Y
Media lui X
Produsul ))(( YYXX −−Pentru o asociere puternică negativă, produsul va avea o valoare mare negativă
9
Asocierea
< Media lui X > Media lui X
> Media lui Y > Media lui Y
< Media lui X > Media lui X
< Media lui Y < Media lui Y
Media lui Y
Media lui X
Produsul ))(( YYXX −−Pentru o asociere slabă, valoarea produsului este fie pozitivă fie negativă
10
Asocierea
11
Coeficientul de corelaţie PearsonSimbol: r, R
Ia valori între -1 şi +1 indicând puterea (interpretăm valoarea coeficientului) şi direcţia (interpretăm semnul coeficientului) asocierii lineare.Valoarea absolută indică puterea asocierii• + (direct proporţional)/- indică (invers proporţional) direcţia asocierii
( )( )( ) ( )∑∑∑
−−
−−=
22YYXX
YYXXr
Coeficientul de corelaţie Pearson
Asumpţii:1.Erorile din date sunt independente2.Există o relaţie de linearitate între cele două variabile de interes 3.Variabilele urmează o distribuţie normală bivariată
12
Femur Humerus
A 38 41
B 56 63
C 59 70
D 64 72
E 74 84
Mean 58.2 66.00
SSX SSY SP
)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−
YXSSSSSP
=r
Coeficientul de corelaţie Pearson
13
Femur Humerus
A 38 41 ‐20.2 ‐25 408.04 625 505
B 56 63 ‐2.2 ‐3 4.84 9 6.6
C 59 70 0.8 4 .64 16 3.2
D 64 72 5.8 6 33.64 36 34.8
E 74 84 15.8 18 249.64 324 284.4
mean 58.2 66.00 696.8 1010 834
SSX SSY SP
)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−
r = 0.99
Coeficientul de corelaţie Pearson
14
Coeficientul de corelaţie Pearson: Interpretare
• O măsură a puterii asocierii: cât de puternic punctele din grafic se aglomerează în jurul unei linii?
• O măsură a direcţiei asocierii: pozitivă sau negativă?• Reguli empirice de interpretare a coeficientului de
corelaţie: Colton [Colton T. Statistics in Medicine. Little Brown and Company, New York, NY 1974] :
R ⊂ [-0.25 to +0.25] → Nu există nici o relaţieR ⊂ (0.25 to +0.50] ∪ (-0.25 to -0.50] → relaţie slabăR ⊂ (0.50 to +0.75] ∪ (-0.50 to -0.75] → relaţie moderatăR ⊂ (0.75 to +1) ∪ (-0.75 to -1) → relaţie puternică 15
Coeficientul de corelaţie Pearson: Interpretare
• Valoarea p este probabilitatea ca valoarea coeficientului de corelaţie să fie egală cu zero (ipoteza nulă).
• Dacă probabilitatea este mai mică decât nivelul de semnificaţie (ex. p < 0.05) → coeficientul de corelaţie este semnificativ statistic.
16
Correlation coefficient
p-value
Sample size
Coeficientul de corelaţie al rangurilor Spearman
• Se poate aplica pe orice tip de variabile• Nu necesită asumpţia distribuţiei normale bivariate a
celor 2 variabile de interes• Simbol: ρ
17
Coeficientul de corelaţie al rangurilor Spearman
• Semnul coeficientului de corelaţie Spearman indică direcţia asocierii (invers proporţionale pentru semnul - şi direct proporţional pentru semnul +) dintre variabilele investigate
• ρ =1 → relaţia dintre cele două variabile investigate este monotonă . N.B. Nu va da un coeficient de corelaţie Pearsonegal cu 1.
18
Coeficientul de determinare (r2/R2)
• Valoarea covariaţiei raportat la volumul total al variaţiei
• Procentul din variaţia totală care este explicată de variabilele independente
• Exemplu▫ Dacă r = 0.80 → variabilele independente explică
64% din variabilitatea variabilei dependente
19
Proprietăţile coeficientului de corelaţie
• O statistică standardizată – nu se modifică dacă schimbăm unităţile de măsură ale variabilelor.
• Valoarea este identică dacă corelăm pe X cu Y sau pe Y cu X.
• Valoarea este destul de instabilă pentru n mic• Vulnerabil la valori extreme• Are o distribuţie asimetrică
20
Coeficientul de corelaţie: exemplu
• Enciu A, Zamfir CZ, Nicolescu A, Ida A. THE ANALYSIS OF CORRELATIONS BETWEEN THE MAIN TRAITS OF WOOL PRODUCTION ON MILK BREED – PALAS. Lucrări Ştiinţifice -Seria Zootehnie ????;57:50-54.
21
Matricea de corelaţie
Regresia lineară simplăRegresia lineară multiplă
Regresia liniară: asumpţii
• Erorile măsurătorilor sunt independente • Regresia depinde de identificarea corectă a
modelului relaţional• Nu există erori în măsurarea valorilor variabilei
dependente• Variaţia valorilor lui Y este aceeaşi pentru toate
valorile lui X• Valorile Y urmează o distribuţie normală
24
Regresia liniară
• Dacă există o relaţie de liniaritate între variabilele de interes putem identifica o ecuaţie simplă pentru a prezice o variabilă cunoscând cealaltă variabilă
• Variabila rezultate este variabila Y, iar variabila predictor este variabila X
• Exemplu: transformarea în grade Fahrenheitcunoscând valoarea în grade Celsius:
F = 32 + 1.8ºC Această formulă dă o line perfectă
25
Ecuanția dreptei
• Formula generală: Y = a + bX• Ecuaţia de predicţie: Ỹ = a+ bX▫ a = intercept, b = coeficientul dreptei, X = predictor
• a și b sunt constante într-o ecuaţie; X şi Y se modifică
26
27
Panta şi interceptul
• Ỹ = a + bXPanta b: Cantitatea cu care valoarea Y se modifică în momentul în care modificăm valoarea lui X cu o unitate
Interceptul a: valoarea lui Y când X este zero
Panta este influenţată de r, dar nu are aceeaşi semnificaţie ca şi r
Xx
y
SSSP
ss
rb ==
XbYa −=
28
http://onlinelibrary.wiley.com/doi/10.1111/j.1939-1676.2011.00812.x/pdf
29
De reţinut!▫ Evaluarea puterii asocierii dintre două variabile
cantitative continue (normal distribuite) ―›corelaţie
▫ Prezicerea unei variabile (Y) în funcţie de o altă variabilă (X) ―› regresie
top related