analiza de corelatie

4
12 Analiz˘ a de corela¸tie Consider˘ am o selec¸tie bivariat˘ a ( 1 1 ) ( ) pe care o privim ca un set de valori (e¸santion) al unei variabile aleatoare bidimensionale ( ). Spunem c˘ a variabilele ¸si sunt corelate dac˘ a una din ele este o func¸tie de cealalt˘ a variabil˘ a (spre exemplu = + sau = + ). Figure 13: Examinând vizual reprezentarea grac˘ a a punctelor ( ), se pot observa diverse posibilit˘ a¸ti, spre exemplu: - corela¸ tie pozitiv ˘ a între ¸si (valorile lui cresc atunci când valorile corespunz˘ atoare cresc) - corela¸ tie negativ ˘ a între ¸si (valorile lui scad atunci când valorile corespunz˘ atoare cresc) - inexisten¸ ta unei corela¸ tii (valorile ¸si nu par a legate) - existen¸ta unei anumite corela¸tii între ¸si , dar corela¸tia nu este linear˘ a Ca o m˘ asur˘ a a corela¸tiei lineare între valorile ¸si introducem coecientul de corela¸ tie (liniar˘ a) alselec¸tiei prin = (26) unde = 1 1 X =1 ( )( ) este covarian¸ta e¸ santionului, iar 2 = 1 1 X =1 ( ) 2 ¸ si 2 = 1 1 X =1 ( ) 2 sunt dispersiile de selec¸tie corespunz˘ atoare valorilor , respectiv . Observa¸tia12.1 Alternativ, coecientul de corela¸ tie se poate calcula folosind formula echivalent ˘ a = ( P =1 ) ( P =1 )( P =1 ) q ( P =1 ) 2 P =1 2 q ( P =1 ) 2 P =1 2 (27) 49

Upload: andreea-nutu

Post on 12-Feb-2015

123 views

Category:

Documents


1 download

DESCRIPTION

Analiza de Corelatie

TRANSCRIPT

Page 1: Analiza de Corelatie

12 Analiza de corelatie

Consideram o selectie bivariata (1 1) ( ) pe care o privim ca un set de valori (esantion) al unei variabile

aleatoare bidimensionale ( ).

Spunem ca variabilele si sunt corelate daca una din ele este o functie de cealalta variabila (spre exemplu

= + sau = ∗ + ∗).

Figure 13:

Examinând vizual reprezentarea grafica a punctelor ( ), se pot observa diverse posibilitati, spre exemplu:

- corelatie pozitiva între si (valorile lui cresc atunci când valorile corespunzatoare cresc)

- corelatie negativa între si (valorile lui scad atunci când valorile corespunzatoare cresc)

- inexistenta unei corelatii (valorile si nu par a fi legate)

- existenta unei anumite corelatii între si , dar corelatia nu este lineara

Ca o masura a corelatiei lineare între valorile si introducem coeficientul de corelatie (liniara) al selectiei

prin

=

(26)

unde

=1

− 1X=1

( − ) ( − )

este covarianta esantionului, iar

2 =1

− 1X=1

( − )2

si 2 =1

− 1X=1

( − )2

sunt dispersiile de selectie corespunzatoare valorilor , respectiv .

Observatia 12.1 Alternativ, coeficientul de corelatie se poate calcula folosind formula echivalenta

= (P

=1 )− (P

=1 ) (P

=1 )q (P

=1 )2 −P

=1 2

q (P

=1 )2 −P

=1 2

(27)

49

Page 2: Analiza de Corelatie

sau

=1

− 1X=1

(28)

unde

= −

si

=

sunt valorile standardizate (scazând media si împartind la abaterea patratica medie).

Atât cât si sunt o masura a relatiilor existente între valorile si dar are avantajul ca ca nu se modifica

atunci când valorile sunt înmultite cu un anumit factor (spre exemplu la schimbarea unitatii de masura, când se

trece la la la ).

Figure 14:

Observam ca daca valorile si sunt pozitiv corelate, atunci va avea o valoare apropiata de 1, daca sunt

negativ corelate atunci ≈ −1, iar daca ele sunt necorelate (liniar), atunci ≈ 0.Are loc urmatoarea

Propozitia 12.2 Coeficientul de corelatie liniara verifica

−1 ≤ ≤ 1

si în plus = ±1 daca si numai daca punctele ( ) se afla pe o dreapta.

Demonstratie. Rezulta din inegalitatea Cauchy-Buniakovski-Schwarz.

Corespunzator coeficientului de corelatie , introducem coeficientul de corelatie a doua variabile aleatoare

si prin

=

(29)

unde

= [( −) ( − )]

50

Page 3: Analiza de Corelatie

este covarianta variabilelor aleatoare si , iar

2 = h( −)

2i

si 2 = h( − )

2i

sunt dispersiile variabilelor aleatoare si .

Similar propozitiei anterioare se poate demonstra urmatoarea:

Propozitia 12.3 Coeficientul de corelatie a doua variabile aleatoare si verifica

−1 ≤ ≤ 1

si în plus = ±1 daca si numai daca variabilele aleatoare si sunt liniar dependente (adica = + sau

= ∗ + ∗).

Demonstratie. Rezulta din inegalitatea Schwartz.

Definitia 12.4 Spunem ca variabilele aleatoare si sunt necorelate daca coeficientul de corelatie = 0 este

nul.

Se poate demonstra urmatoarea.

Propozitia 12.5 a) Daca variabilele aleatoare si sunt independente, atunci ele sunt necorelate.

b) Daca variabilele aleatoare sunt necorelate, si în plus ( ) are o distributie normala, atunci si sunt

independente.

Observatia 12.6 Spunem ca ( ) are o distributie normala (bidimensionala), daca are densitatea de forma

( ) =1

2p1− 2

−()

2

unde

( ) =1

1− 2

"µ−

¶2− 2

µ−

¶µ −

¶+

µ −

¶2#

Partea b) a propozitiei anterioare nu ramâne adevarata fara ipoteza suplimentara ca ( ) este o variabila

aleatoare normala, dupa cum rezulta din urmatorul exemplu.

Exemplul 12.7 Fie o variabila aleatoare ce ia valorile −1 0 1 cu probabilitati 13 si fie = 2, adica

=

µ −1 0 1

13 13 13

¶si =

µ0 1

13 23

Avem = 0 si deci

= [( −) ( − )]

= ( )− ·= ( )

= ¡ ·2

¢=

¡3¢

= (−1)3 · 13+ (0)

3 · 13+ (1)

3 · 13

= 0

Variabilele aleatoare si sunt necorelate, dar evident nu sunt independente ( = 2).

51

Page 4: Analiza de Corelatie

12.1 Test asupra coeficientului de corelatie

Prespunem ca ( ) este o variabila aleatoare nromala.

Se poate arata ca dac[ variabilele aleatoare si sunt necorelate ( = 0), atunci

=

r− 21− 2

este valoarea observata a a unei variabile aleatoare T(Student) cu − 2 grade de libertate. Putem putem construi

un test statistic pentru astfel.

Consideram testul

0 : = 0 (nu exista o dependenta liniara între si )

1 : 6= 0 (exista o dependenta liniara între si )

Pentru un nivel de semnificatie fixat ( = 5% sau = 1% spre exemplu), calculam valoarea 2−2 folosindo tabela de valori a distributiei T (Student) cu − 2 grade de libertate astfel încât aria la dreapta acestui puncteste egala cu 2 (adica

¡1−2−2

¢= 1−

2).

Daca valoarea calculata ∈ ¡−−2−2 2−2¢, atunci se accepta ipoteza nula, iar în caz contrar aceastaeste respinsa.

În mod similar, pentru a testa existenta unei dependente liniare pozitive între si se poate considera testul

0 : = 0 (nu exista o dependenta liniara între si )

1 : 0 (exista o dependenta liniara pozitiva între si )

cu intervalul de acceptare al ipotezei nule ∈ (−∞ −2).

Exemplul 12.8 Sa se testeze ipoteza = 0 (adica independenta variabilelor aleatoare si , conform propozitiei

anterioare) cu alternativa 0, folosind un esantion de volum = 10 pentru care coeficientul de corelatie = 06.

Pentru un nivel de semnificatie = 5% = 005 din tabela de valori a distributiei Student determinam 00510−2 =0958 astfel încât (005 8) = 1− 005 = 095, si obtinem 0058 = 186

Valoarea

=

r− 21− 2

= 06

r10− 21− 062 = 212 186

si deci respingem ipoteza nula = 0. Aceasta arata existenta (cu siguranta 1 − = 95%) a unei corelatii pozitive

între variabilele aleatoare considerate.

Exercitii

Exercitiul 12.1 Numarul de carti împrumutate de la o biblioteca a fost de 500 în ziua de Luni, 450 Marti, 480

Miercuri, 460 Joi, si 510 Vineri. Sa se testeze ipoteza ca ca numarul de carti împrumutate de la biblioteca nu

depinde de ziua saptamânii, folosind un nivel de semnificatie = 5%.

52