c13-corelatiiregresii.pdf
TRANSCRIPT
CORELAŢII SI REGRESII
LEGĂTURA ÎNTRE MAI MULTE
VARIABILE
două sau mai multe variabile cantitative
două variabile de ordine
două variabile calitative
o variabilă cantitativă cu o variabilă
calitativă
2
Tipuri de “relaţii“
Variabile cantitative
Varsta X: X1, X2,..., Xn
TAS Y: Y1, Y2,..., Yn.
1. Să se stabilească dacă există o legătură între variabilele X şi Y (cantitative continue) şi să se determine o modalitate de a măsura intensitatea acestei legături.
› Coeficientul de corelaţie
2. Să se stabilească dacă Y depinde de X şi dacă da în ce formă se realizează această dependenţă.
› Funcţia de regresie
3
Statistici descriptive in două dimensiuni.
Diagrama de dispersie
Statistici descriptive in două dimensiuni.
Diagrama de dispersie
X
Y
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
* *
*
*
*
5
Statistici descriptive in două dimensiuni.
Diagrama de dispersie
X
Y
*
*
* *
*
*
*
*
*
*
*
*
III IV
*
*
*
*
II I
* *
*
*
* *
*
*
*
6
Statistici descriptive in două dimensiuni.
Diagrama de dispersie
X
Y
*
*
*
III IV
*
II I
**
* *
*
**
*
*
*
**
*
*
*
*
*
*
*
**
*
7
Statistici descriptive in două dimensiuni.
Diagrama de dispersie
X
Y
*
**
*
*
*
*
*
*
*
III IV
*
II I
**
*
**
*
*
*
*
*
*
**
*
*
*
*
**
*
*
8
Descrierea "intensitatăţii" relaţiei dintre variabilele X
şi Y:
› (Xi,Yi) -în cadranele I sau III: ≥ 0
› (Xi,Yi) -în cadranele II sau IV: ≤ 0
9
))((1
YYXXSPE i
n
i
i
))(( YYXX ii
))(( YYXX ii
SPE va fi cu atât mai mare în valoare
absolută cu cât norul de puncte este
mai apropiat de o alură generală
crescătoare (SPE > 0 ) sau
descrescătoare (SPE < 0).
Dezavantaje: depinde de numărul de
puncte din seria statistică şi de
unităţile de măsură ale variabilelor
Indici de corelaţie.
Suma produselor ecart
Indici de corelaţie.
Covarianţa
10
Avantaje: mărime independentă faţă de volumul seriei
statistice.
))((1
),(1
YYXXn
YXCOV i
n
i
i
Indici de corelaţie.
Coeficientul de corelaţie
11
Pentru a obţine un indicator independent şi de unităţile de măsură
ale celor două variabile se utilizează coeficientul de corelaţie sau
coeficientul Bravais-Pearson:
SySx
YXCOVr
),(
SX şi SY reprezintă abaterile standard pentru seriile X şi respectiv Y:
n
XX
s
n
i
i
1
2
2
)(
r [-1, 1]
măsoară intensitatea relaţiei dintre variabilele X şi Y
Dacă r=1 punctele sunt situate pe o dreaptă de pantă pozitivă (crescătoare).
Dacă 0 < r < 1, norul de puncte poate fi înlocuit (ajustat) printr-o dreaptă de pantă pozitivă .
Dispersia punctelor în jurul dreptei de regresie va fi cu atât mai mare cu cât r se apropie de 0 şi cu atât mai mică cu cât r se apropie de 1.
Dacă -1 < r < 0 atunci norul de puncte poate fi aproximat cu o dreaptă de pantă negativă. Dispersia punctelor faţă de dreaptă va fi cu atât mai mică cu cât r este mai apropiat de -1.
Dacă r=-1 atunci toate punctele sunt situate pe o dreaptă de pantă negativă.
12
13
0
5
10
15
20
25
30
35
0 2 4 6
r=0 r=1
0
10
20
30
40
50
60
0 2 4 6
r=-1
0
10
20
30
40
50
60
0 2 4 6
0
10
20
30
40
50
60
0 2 4 6
0
10
20
30
40
50
60
0 2 4 6
r>0 r<0
14
Semnificaţia coeficientului de corelaţie Pearson poate fi evaluată dacă valoarea observată a apărut datorită întâmplării (dacă este semnificativ diferită de zero).
Valorile critice ale lui r pot fi regăsite în anexe pentru n-2 grade de libertate în cazul aplicării testului unilateral sau bilateral.
Interpretarea este că datele experimentale nu ne permit enunţarea existenţei unei relaţii între variabilele luate în calcul
Valoarea r p > 0,05 p < 0,05
in (-0.25 ; 0,25) corelaţie slabă sau
nulă
corelaţie slabă sau nulă
in [0.25 ; 0.50) sau
in (-0.50 ; -0,25] Nu are semnificatie
statistica
Grad de asociere acceptabil
in [0.50 ; 0.75) sau
in (-0.75 ; -0,50] Nu are semnificatie
statistica
O corelaţie moderată spre bună
>0.75 sau < -0,75 Nu are semnificatie
statistica
O foarte bună asociere sau corelaţie
>1 sau <-1 Eroare Eroare
15
Coeficintul de corelaţie -interpretare
16
Atentie:
› Variabilele corelate trebuie sa fie cantitative
› Intre variabilele pentru care se calculeaza
corelatia trebuie sa existe o relatie de
cauzalitate
r >0
› O creştere a lui X determină o creştere a lui Y
(direct proporţionale).
r < 0
› O creştere a lui X determină o diminuare a
lui Y (invers proporţionale)
17
Coeficientul de corelaţie-interpretare
Alura norului de puncte
Indici de corelaţie.
Coeficientul de determinare
d = r2
Reprezintă partea din variaţia totală a lui Y explicată prin relaţia liniară existentă între X şi Y.
Cazuri particulare:
› d=1: Dacă toate punctele se află pe o dreaptă care nu e paralelă cu axa OX, orice variaţie a lui Y este exprimată prin relaţia liniară.
› d=0: X şi Y sunt independente, adică între cele două variabile nu există o relaţie liniară
Dacă d este exprimat în procente: reprezintă procentul în care variaţia lui Y este dată prin relaţia liniară între cele două variabile.
18
Două variabile ordinale
(sau o variabilă ordinală şi una cantitativă)
Coeficientul de corelaţie al lui Spearman
Se procedeaza astfel:
i. Se inlocuieste seria bivariata (x1,…,xn;y1,…,yn) cu seria
rangurilor (Rx1,…Rxn;Ry1,…,Ryn), valorilor xi si yi dupa
ordonarea lor in ordine crescatoare (pentru valorile
egale se ia media aritmetica a rangurilor).
ii. Pentru determinarea coeficientului rs al lui Spearman se
calculeaza coeficientul de corelatie (Pearson) pentru
seria rangurilor.
19
Coeficientul de corelaţie al lui Spearman
Coeficientul rs se mai poate calcula:
20
ii yxi
n
i
i
s RRdnn
d
r
,
)1(
6
1 1
2
21
Semnificaţia coeficientului de corelaţie
Spearman poate fi evaluată dacă
valoarea observată a apărut datorită
întâmplării (dacă este semnificativ diferită
de zero).
Valorile critice ale lui r pot fi regăsite în
anexe pentru n grade de libertate în cazul
aplicării testului unilateral sau bilateral.
Pentru a fi semnificative, rs ≥ decât valorile
critice din tabel
Coeficientul de contingenţă al lui Ciuprov
Descrie gradul de asociere intre doua variabile calitative
avand p respectiv q valori observate pe un esantion de
dimensiune N (tablou de contingenta pxq, cu
oij=frecvente observate, tij frecvente teoretice):
22
p
i
q
j ij
ijij
t
to
undeqpN
T
1 1
2
2
2
)(
,)1)(1(
21
Drepte de regresie pentru variabile
cantitative continue
Dreapta de regresie Y(X):
y = a + b x
Dreapta de regresie X(Y):
x = c +dy
Dreapta de regresie a celor mai mici dreptunghiuri
y=e+fx.
23
Statistici descriptive in două dimensiuni.
Drepte de regresie
Dreapta de regresie Y(X)
min ( ),a b R
i
i
n
ia bX Y
1
2
Valorile lui a şi b pentru care este atins minimul
sumei sunt date prin formulele:
bCOV X Y
SX
( , )
.
a Y b X
24
Drepte de regresie
Dreapta de regresie X(Y)
2
1
)(min,
i
n
i
iRdc
XYdc
dCOV X Y
SY
( , )
c Y d X
25
Drepte de regresie
Dreapta celor mai mici dreptunghiuri
y=e+fx.
Notând cu
Y e f X XY e
fi i i
i^ ^
,
, i=1,2,…,n,
se determină e şi f astfel încât suma:
( )( )^ ^
X X Y Yii
n
i i i
1
să fie minimă (după e şi f în R).
Valorile lui e şi f pentru care minimul este atins sunt următoarele:
f sign SPES
Se Y f X
Y
X
( ) , .
26
Utilizarea funcţiilor de regresie
Extrapolare şi interpolare
Când se determină valoarea funcţiei (adică a lui Y),
pentru un X cuprins intervalul [Xmin, Xmax], atunci se
efectuează o operaţie de interpolare, iar când X se află
în afara intervalului se spune că este vorba de o
extrapolare.
Prezicerea lui Y pentru un X dat
Simulari
27
Funcţia de regresie.
Schimbări de variabile
In unele cazuri se constată că relaţia liniară
pare a nu fi adecvată pentru descrierea
dependenţei dintre variabilele X şi Y, sau că
scalele utilizate nu sunt cele mai potrivite.
28
29
* *
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
* *
*
Liniarizarea datelor
Din forma diagramei de dispersie s-ar putea deduce că o lege exponenţială
ar fi mai potrivită pentru descrierea dependenţei funcţionale, adică o
relaţie de forma:
Y = a ebX.
Aceasta, după o logaritmare a ambilor membri, devine:
ln Y = ln a + b X
care justifică schimbarea de variabilă Y' = ln Y pentru “liniarizarea”
relaţiei dintre cele două variabile:
Y'=a'+ b'X
unde a'=ln a şi b'=b.
30
Regresii multidimensionale
Fiind date variabilele:
Xi: Xi1,...,Xin , i=1,2,...,m
Y: Y1,..., Yn
se caută o relaţie de forma:
Y = a + b1X1+...+bmXm,
unde coeficienţii a si bi (i=1,...,m) se determină astfel
încât să minimizeze expresia:
( ( ... ))Y a b X b Xii
n
i m mi
1
1 1
2
.
31
Variabilă
cantitativă
Variabilă
ordinală
Variabilă
dihotomială
distribuţie
normală
distribuţie
non-normală
teste
parametrice
teste
non-
parametrice
Mann-Whitney U,
Wilcoxon
Interval de
timp
Regresie
lineară
multiplă
Log rank
Regresie
logistică
Modelul
lui Cox
Hi pătrat
Fisher exact
Corelaţie
(coeficient Pearson)/
regresie
Corelaţie
(coef. Spearman)
Comparaţia a
2 grupuri
Comparaţia a
3 grupuri Test F (ANOVA)
Corelaţia a 2
variabile în
acelaşi grup
Corelaţia a 2
variabile în
acelaşi grup
Comparaţia a
2 grupuri
Comparaţia a
3 grupuri Kruskall-Wallis
Student (t)