analiza de corelatie
DESCRIPTION
Analiza de CorelatieTRANSCRIPT
12 Analiza de corelatie
Consideram o selectie bivariata (1 1) ( ) pe care o privim ca un set de valori (esantion) al unei variabile
aleatoare bidimensionale ( ).
Spunem ca variabilele si sunt corelate daca una din ele este o functie de cealalta variabila (spre exemplu
= + sau = ∗ + ∗).
Figure 13:
Examinând vizual reprezentarea grafica a punctelor ( ), se pot observa diverse posibilitati, spre exemplu:
- corelatie pozitiva între si (valorile lui cresc atunci când valorile corespunzatoare cresc)
- corelatie negativa între si (valorile lui scad atunci când valorile corespunzatoare cresc)
- inexistenta unei corelatii (valorile si nu par a fi legate)
- existenta unei anumite corelatii între si , dar corelatia nu este lineara
Ca o masura a corelatiei lineare între valorile si introducem coeficientul de corelatie (liniara) al selectiei
prin
=
(26)
unde
=1
− 1X=1
( − ) ( − )
este covarianta esantionului, iar
2 =1
− 1X=1
( − )2
si 2 =1
− 1X=1
( − )2
sunt dispersiile de selectie corespunzatoare valorilor , respectiv .
Observatia 12.1 Alternativ, coeficientul de corelatie se poate calcula folosind formula echivalenta
= (P
=1 )− (P
=1 ) (P
=1 )q (P
=1 )2 −P
=1 2
q (P
=1 )2 −P
=1 2
(27)
49
sau
=1
− 1X=1
(28)
unde
= −
si
=
−
sunt valorile standardizate (scazând media si împartind la abaterea patratica medie).
Atât cât si sunt o masura a relatiilor existente între valorile si dar are avantajul ca ca nu se modifica
atunci când valorile sunt înmultite cu un anumit factor (spre exemplu la schimbarea unitatii de masura, când se
trece la la la ).
Figure 14:
Observam ca daca valorile si sunt pozitiv corelate, atunci va avea o valoare apropiata de 1, daca sunt
negativ corelate atunci ≈ −1, iar daca ele sunt necorelate (liniar), atunci ≈ 0.Are loc urmatoarea
Propozitia 12.2 Coeficientul de corelatie liniara verifica
−1 ≤ ≤ 1
si în plus = ±1 daca si numai daca punctele ( ) se afla pe o dreapta.
Demonstratie. Rezulta din inegalitatea Cauchy-Buniakovski-Schwarz.
Corespunzator coeficientului de corelatie , introducem coeficientul de corelatie a doua variabile aleatoare
si prin
=
(29)
unde
= [( −) ( − )]
50
este covarianta variabilelor aleatoare si , iar
2 = h( −)
2i
si 2 = h( − )
2i
sunt dispersiile variabilelor aleatoare si .
Similar propozitiei anterioare se poate demonstra urmatoarea:
Propozitia 12.3 Coeficientul de corelatie a doua variabile aleatoare si verifica
−1 ≤ ≤ 1
si în plus = ±1 daca si numai daca variabilele aleatoare si sunt liniar dependente (adica = + sau
= ∗ + ∗).
Demonstratie. Rezulta din inegalitatea Schwartz.
Definitia 12.4 Spunem ca variabilele aleatoare si sunt necorelate daca coeficientul de corelatie = 0 este
nul.
Se poate demonstra urmatoarea.
Propozitia 12.5 a) Daca variabilele aleatoare si sunt independente, atunci ele sunt necorelate.
b) Daca variabilele aleatoare sunt necorelate, si în plus ( ) are o distributie normala, atunci si sunt
independente.
Observatia 12.6 Spunem ca ( ) are o distributie normala (bidimensionala), daca are densitatea de forma
( ) =1
2p1− 2
−()
2
unde
( ) =1
1− 2
"µ−
¶2− 2
µ−
¶µ −
¶+
µ −
¶2#
Partea b) a propozitiei anterioare nu ramâne adevarata fara ipoteza suplimentara ca ( ) este o variabila
aleatoare normala, dupa cum rezulta din urmatorul exemplu.
Exemplul 12.7 Fie o variabila aleatoare ce ia valorile −1 0 1 cu probabilitati 13 si fie = 2, adica
=
µ −1 0 1
13 13 13
¶si =
µ0 1
13 23
¶
Avem = 0 si deci
= [( −) ( − )]
= ( )− ·= ( )
= ¡ ·2
¢=
¡3¢
= (−1)3 · 13+ (0)
3 · 13+ (1)
3 · 13
= 0
Variabilele aleatoare si sunt necorelate, dar evident nu sunt independente ( = 2).
51
12.1 Test asupra coeficientului de corelatie
Prespunem ca ( ) este o variabila aleatoare nromala.
Se poate arata ca dac[ variabilele aleatoare si sunt necorelate ( = 0), atunci
=
r− 21− 2
este valoarea observata a a unei variabile aleatoare T(Student) cu − 2 grade de libertate. Putem putem construi
un test statistic pentru astfel.
Consideram testul
0 : = 0 (nu exista o dependenta liniara între si )
1 : 6= 0 (exista o dependenta liniara între si )
Pentru un nivel de semnificatie fixat ( = 5% sau = 1% spre exemplu), calculam valoarea 2−2 folosindo tabela de valori a distributiei T (Student) cu − 2 grade de libertate astfel încât aria la dreapta acestui puncteste egala cu 2 (adica
¡1−2−2
¢= 1−
2).
Daca valoarea calculata ∈ ¡−−2−2 2−2¢, atunci se accepta ipoteza nula, iar în caz contrar aceastaeste respinsa.
În mod similar, pentru a testa existenta unei dependente liniare pozitive între si se poate considera testul
0 : = 0 (nu exista o dependenta liniara între si )
1 : 0 (exista o dependenta liniara pozitiva între si )
cu intervalul de acceptare al ipotezei nule ∈ (−∞ −2).
Exemplul 12.8 Sa se testeze ipoteza = 0 (adica independenta variabilelor aleatoare si , conform propozitiei
anterioare) cu alternativa 0, folosind un esantion de volum = 10 pentru care coeficientul de corelatie = 06.
Pentru un nivel de semnificatie = 5% = 005 din tabela de valori a distributiei Student determinam 00510−2 =0958 astfel încât (005 8) = 1− 005 = 095, si obtinem 0058 = 186
Valoarea
=
r− 21− 2
= 06
r10− 21− 062 = 212 186
si deci respingem ipoteza nula = 0. Aceasta arata existenta (cu siguranta 1 − = 95%) a unei corelatii pozitive
între variabilele aleatoare considerate.
Exercitii
Exercitiul 12.1 Numarul de carti împrumutate de la o biblioteca a fost de 500 în ziua de Luni, 450 Marti, 480
Miercuri, 460 Joi, si 510 Vineri. Sa se testeze ipoteza ca ca numarul de carti împrumutate de la biblioteca nu
depinde de ziua saptamânii, folosind un nivel de semnificatie = 5%.
52