tratarea simultana a doua variabile statistica bivariata lumea

26
1 Liviu Dragomirescu - draft provizoriu 1 Tratarea simultana a doua variabile STATISTICA BIVARIATA Eco2-09 Liviu Dragomirescu - draft provizoriu 2 Lumea REALA Perechi de aspecte in fenomene: I. Caldura in acest amfiteatru Atentia studentilor din el II. Caldura in acest amfiteatru Marimea populatiei de pinguini din statiunea X de la Polul Sud. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.

Upload: buingoc

Post on 16-Dec-2016

231 views

Category:

Documents


1 download

TRANSCRIPT

1

Liviu Dragomirescu - draft provizoriu 1

Tratarea simultana a doua variabile

STATISTICA BIVARIATAEco2-09

Liviu Dragomirescu - draft provizoriu 2

Lumea REALA

• Perechi de aspecte in fenomene:

I. – Caldura in acest amfiteatru

– Atentia studentilor din el

II.– Caldura in acest amfiteatru

– Marimea populatiei de pinguini din statiunea X de la Polul Sud.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

2

Liviu Dragomirescu - draft provizoriu 3

Care sunt “legate intre ele”?Care sunt “libere intre ele”

– Caldura in acest amfiteatru

– Atentia studentilor din el• “legate intre ele”

– Caldura in acest amfiteatru

– Marimea populatiei de pinguini din statiunea X de la Polul Sud.

• “libere intre ele”

Liviu Dragomirescu - draft provizoriu 4

Lumea REALA Planul DATELOR

• Temperatura in acest amfiteatru

• Media coeficientilor de atentie ai studentilor

• Temperatura in acest amfiteatru

• Numarul de pinguini din statiunea X de la Polul Sud.

– Caldura in acest amfiteatru

– Atentia studentilor din el

– Caldura in acest amfiteatru

– Marimea populatiei de pinguini din statiunea X de la Polul Sud.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

3

Liviu Dragomirescu - draft provizoriu 5

Planul DATELOR

• Temperatura in acest amfiteatru

• Media coeficientului de atentie al studentilor

• Temperatura in acest amfiteatru

• Numarul de pinguini din statiunea X de la Polul Sud.

• DEPENDENTE

• INDEPENDENTE

Liviu Dragomirescu - draft provizoriu 6

• Legate intre ele • DEPENDENTE

• Libere intre ele • INDEPENDDENTE

Lumea REALA Planul DATELOR

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

4

Liviu Dragomirescu - draft provizoriu 7

Planul DATELORTratare Cantitativa Tratare Calitativa

• Dependenta:

•• CORELATIECORELATIE

• Dependenta

•• ASOCIEREASOCIERE

• Independenta

• INDEPENDENTA

• Independenta:

• INDEPENDENTA

Liviu Dragomirescu - draft provizoriu 8

Axioma de legatura intre Lumea REALA si Planul DATELOR

(Axioma gnosticului)

Legatura

(a

DEPENDENTA

(CORELATIE / ASOCIERE)

b)

Lipsa de legatura (libertate)

(Non a

INDEPENDENTA

Non b)

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

5

Liviu Dragomirescu - draft provizoriu 9

CORELATIACORELATIA

(Dependenta statistica intre variabile cantitative / ordinale)

Liviu Dragomirescu - draft provizoriu 10

• Independenta in date INSEAMNA lipsa de legatura in fenomen.

• Corelatia in date POATE INSEMNA legatura in feneomen dar si o falsa corelatie.

–– Legatura in fenomen trebuie sustinuta cu Legatura in fenomen trebuie sustinuta cu argumente de specialitate si/sau logice.argumente de specialitate si/sau logice.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

6

Liviu Dragomirescu - draft provizoriu 11

CORELATII

3 Neliniare

Nemonotone

4 Neliniare

Monotone

2 Liniare

InverseDirecte

Liviu Dragomirescu - draft provizoriu 12

Masurarea intensitatii corelatiei liniare

– Coeficientul de corelatie (liniara) R.

– Coeficientul de determinatie R2

• Ambele masoara gradul de grupare a punctelor in jurul DREPTEI de REGRESIE (dreapta care se “stravede” in spatele norului de puncte):

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

7

Liviu Dragomirescu - draft provizoriu 13

Prezenta la curs produce note mai mari la Lp-uri. Se valideaza calitatea cursului.

Liviu Dragomirescu - draft provizoriu 14

Regresie, corelatie neliniara (parabolica de grad 2). Ajustare mai buna (0,5246 > 0,4507)

Nota de Invatare Continua (NIC) depinde de Numarul de

prezente la curs (Npc)

y = 0,0575x2 - 0,2284x + 4,5588

R2 = 0,5246 p = 0

0

2

4

6

8

10

0 2 4 6 8 10

Npc

NIC

reprezinta studenti care s-au bazat doar pe Lp-uri si drafturile de curs primite prin e-mail. Se valideaza calitatea drafturilor si a studentilor respectivi.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

8

Liviu Dragomirescu - draft provizoriu 15

Ajustarea liniară Ajustarea liniară -- dreapta de dreapta de regresieregresie

Liviu Dragomirescu - draft provizoriu 16

• Fie o serie bidimensională (x, y) de volum N, seria unidimensională (x) având media iar seria (y), media .

• Dreapta de regresie a lui y în x are ecuaţia (graficului) Y = a + b x, în care:

b = =

a = =

xy

2)(

)()(

xx

yyxx22 )(

xxN

yxyxN

xby N

xby

ce teoretiformule exact) si (rapid calcul de formule

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

9

Liviu Dragomirescu - draft provizoriu 17

Coeficientul b, adică panta dreptei de regresie (a lui y în x), se

numeşte coeficientul de regresie (a lui y în x).

• Formula teoretică a lui a(ordonata în origine a dreptei de regresie) provine dintr-o proprietate remarcabilă şi anume:

• "Dreapta de regresie trece prin punctul mediu, adică punctul de coordonate ."

)y,x( Aici Y = 2,(3) - 0,5 x.

Liviu Dragomirescu - draft provizoriu 18

Interpretarea coeficientului de regresie, b

• Exemplu:Studierea efectului marimii dozei unui medicament x –

masurata in mg, asupra duratei bolii tratate, y –exprimata in saptamani:

bb esteeste numarulnumarul cu care se cu care se modificamodifica variabilavariabiladependentadependenta yy, la o , la o modificaremodificare cu o cu o unitateunitate a a variabilevariabile independenteindependente, , xx..

Pt. ex: b = 0,5 inseamna ca la marirea dozei cu 1 mg durata se mareste cu -0,5 saptamani, adica se REDUCE cu 0,5 saptamani.

(mai corect: y = Y + = a + b x + = 2,(3) - 0,5 x + )

y = a + b x = 2,(3) - 0,5 x

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

10

Liviu Dragomirescu - draft provizoriu 19

Interpretarea coeficientului de regresie, b. Aplicatie reala in EXCEL:

Liviu Dragomirescu - draft provizoriu 20

Provenienţa denumirii de regresie

• Francis Galton în memoriul "Regresion toward mediocrity in hereditary stature" (1886), studiind – cum ar putea rămâne în echilibru dinamic o populaţie dacă

generaţiile noi ar moşteni caracteristicile măsurabile ale părinţilor, – a observat că fiii (la maturitate) se abat de la înălţimea medie mai

puţin decât taţii, deci că fiii regresează către medie.

• De aceea, Galton a denumit linia care leagă înălţimile fiilor de cele ale taţilor, linie de regresie,

• iar procesul general de predicţie a unei variabile – (de exemplu înălţimea copiilor) dintr-o altă variabilă (de exemplu

înălţimea părinţilor)

• a rămas în literatura statistică sub denumirea de regresie.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

11

Liviu Dragomirescu - draft provizoriu 21

• Prin urmare sintagma linie (dreaptă sau curbă) de regresie este improprie.

• Ea se păstrează din motive de tradiţie, • dar cititorul trebuie să se gândească, de fapt, la ideea

de linie de – dependenţă, – corelaţie, – predicţie, – estimaţie – tendinţă.

• In mod analog, in loc sa spunem “fotocopiem”spunem “xeroxam”, firma Xeros fiind cea care a cucerit piata cu fotocopii.

Liviu Dragomirescu - draft provizoriu 22

Măsurarea gradului de corelaMăsurarea gradului de corelaţţie ie

liniară liniară -- coeficientul de coeficientul de corelacorelaţţie liniarăie liniară

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

12

Liviu Dragomirescu - draft provizoriu 23

Definiţie: S.n. covariaţia seriei bidimensionale (x, y) de volum N, expresia:

Definiţie: S.n. covarianţa seriei (notată cov(x, y)), covariaţia divizată prin volumul N.

Exprimă împrăştierea simultană a două variabile în jurul punctului mediu , [aşa cum variaţia şi varianţa exprimă împrăştierea în jurul mediei.]– Variaţia unei serii unidimensionale (x) este covariaţia seriei bidimensionale (x,

x).

– Varianţa seriei unidimensionale (x) este covarianţa seriei bidimensionale (x, x) • adică var (x) = cov (x, x).

)()( yyxx

) ,( yx

Liviu Dragomirescu - draft provizoriu 24

Coeficientul de corelaţie liniară(Bravais-Pearson)

Proprietăţi ale coeficientului de corelaţie liniară:

1. –1 R 1.

Deci R poate avea şi valori negative. Într-adevăr, semnul este dat doar de numărător adica de covarianţă, iar covarianţa (cov (x,y) = ) poate avea şi valori negative.

)(var)(var

),(cov

yx

yxR

))(())((

2222 yyNxxN

yxyxN

ca teoretiformula exact) si (rapid calcul de formula

N

yyxx )()(

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

13

Liviu Dragomirescu - draft provizoriu 25

Punctul mediu este pentru covarianţă o nouă origine, generând în plan 4 noi cadrane.

• Produsele din covarianţă vor avea semnele dictate de cadranul unde se află.

– Ex: Pentru primul punct (1,2) produsul abaterilor faţă de medii va fi negativ.

• In cadranele – I şi III semnul va fi pozitiv,– în cadranele II şi IV semnul va fi

negativ.

• Dacă luăm în consideraţie şi mărimile acestor produse de abateri, rezultă că

– un R pozitiv va indica o preponderenţă a punctelor din cadranele I şi III, deci o alură ascendentă,

– iar un rezultat negativ o preponderenţă a punctelor din cadranele II şi IV, adică o alură descendentă, ca în cazul nostru.

N

yyxx )()(

Liviu Dragomirescu - draft provizoriu 26

2. R > 0 norul are o tendinţă ascendentă. În acest caz spunem că există o corelaţie liniară directă (adică “x şi y variază în acelaşi sens”)

3. R = 1 norul se plasează pe o dreaptă ascendentă există o corelaţie funcţională liniară directă. În acest caz spunem că există o corelaţie liniară directă perfectă şi

4. R < 0 norul are o tendinţă descendentă. În acest caz spunem că există o corelaţie liniară inversă (adică “x şi y variază în sens contrar”).

5. R = -1 norul se plasează pe o dreaptă descendentă există o corelaţie funcţională liniară inversă. În acest caz spunem că există o corelaţie liniară inversă perfectă.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

14

Liviu Dragomirescu - draft provizoriu 27

6. R = 0 dacă şi numai dacă nu există o corelaţie liniară.

Adică R = 0 dacă şi numai dacă:

- variabilele sunt independente ori

- există o corelaţie dar neliniară, de ex.

Liviu Dragomirescu - draft provizoriu 28

7. R măsoară gradul de grupare a punctelor în jurul dreptei de regresie. Altfel spus, valoarea absolută a lui R exprimă calitatea ajustării.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

15

Liviu Dragomirescu - draft provizoriu 29

• Greşela foarte răspândita: calculul coeficientului de corelaţie liniară R şi în cazurile în care dependenţa nu este liniara şi nici nu este indicată aproximarea sa liniară.

• Altfel spus, se consideră în mod eronat că R este un coeficient universal de corelaţie, neaprofundându-se ideea că o corelaţie nu are sens decât raportată la o anumită formă.

• Greşeala provine şi din faptul că în multe lucrări Reste denumit coeficient de corelaţie, fără atributul “liniară”.

Liviu Dragomirescu - draft provizoriu 30

Coeficientul de determinaţie

Definiţie: Se numeşte coeficient de determinaţie pătratul coeficientului de corelaţie liniară. Se notează, în mod firesc, R2.

+ E+ Exprimă proporxprimă proporţţia variaia variaţţiei variabilei iei variabilei yy care care este este ““explicatăexplicată”” de dreapta de regresie. de dreapta de regresie.

De exemplu, atunci când De exemplu, atunci când RR22 = 1 = 1 îîntreaga variantreaga variaţţie a ie a lui lui yy este este ““explicatăexplicată”” de dreapta de regresie de dreapta de regresie deoarece toate punctele se află pe dreapta deoarece toate punctele se află pe dreapta respectivărespectivă..

- Deoarece 0 R2 1, coeficientul de determinaţie, “pierde semnul” şi deci nu poate indica corelaţiile liniare inverse.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

16

Liviu Dragomirescu - draft provizoriu 31

Calcul simultan rapid şi exact al dreptei de regresie şi al coeficientului de

corelaţie liniară şi al coeficientului de determinaţie

22 )(

xxN

yxyxNb 5,0

2

1

6

3

3642

2421

6143

46732

N

xbya

)3(,2

3

7

3

34

3

6)2

1(4

))(())(( 2222

yyNxxN

yxyxNR

)463()6143(

467322

)1618()3642(

2421

87,046,3

3

12

3

26

3

Liviu Dragomirescu - draft provizoriu 32

Interpretari:

• Deoarece R < 0, corelaţia liniară este inversă, iar pentru că R=0,87 este relativ apropiat de 1, calitatea ajustării liniare este satisfăcătoare.

Coeficientul de determinaţie, R2, are valoarea:R2 = (-0,87)2 = 0,7569.

Interpretare:

•• 75,69 % din varia75,69 % din variaţţia lui ia lui yy este explicată de dreapta de este explicată de dreapta de regresieregresie Y = 2,(3) – 0,5 x.

Altfel spus,

• dreapta Y = 2,(3) – 0,5 x explică 75,69 % din variaţia lui y.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

17

Liviu Dragomirescu - draft provizoriu 33

Explicatii posibile pentru corelatii

O corelaţie între două variabile x şi y (în planul datelor) poate însemna pentru aspectele X şi Y din planul fenomenologic că:

• 1. X este cauza lui Y,

• 2. Y este cauza lui X,

• 3. ambele sunt efectele unei a treia cauze,

• 4. ambele variază concomitent cu un al treilea factor,

• de exemplu, “evoluţia paralelă cu vârsta a două caractere biologice, ceea ce de multe ori creează aparenţa unei legături între ele”.

• 5. X şi Y sunt puse în legătură fără sens.

Liviu Dragomirescu - draft provizoriu 34

Test de semnifica\ie pentru coeficientul de corela\ie liniar` r

Cuplul de ipoteze statistice:

• H0: = 0 (nu exist` corela\ie liniar`)

• HA: 0 (exist` corela\ie liniar`)

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

18

Liviu Dragomirescu - draft provizoriu 35

Tipuri de CORELATII si instrumente de masurare instrumente de masurare a intensitatiia intensitatii lor

Instrumente speciale, putin cunoscute, gresit aplicate ADESEA

Neliniare

nemonotone

RS SpearmanNeliniare monotone

R Bravais-Pearson

R2

Liniare

Instrumente de masura a intensitatiiInverseDirecte

Liviu Dragomirescu - draft provizoriu 36

Supliment

Pentru Lp12

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

19

Liviu Dragomirescu - draft provizoriu 37

• Tabela statistica specifica statisticii bivariate se numeste tabela cu dubla intrare.

• Tabela statistica specifica statisticii bidimensionale se numeste tabela de corelatie.

Liviu Dragomirescu - draft provizoriu 38

Exemplu (tabela de corelatie)

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

20

Liviu Dragomirescu - draft provizoriu 39

Liviu Dragomirescu - draft provizoriu 40

Diagramă în batoane în spaţiu (stereogramă)

şi stereohistogramă

0

2

1 2 3

2

4

56

8

0

2

1 2 3

24

568

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

21

Liviu Dragomirescu - draft provizoriu 41

• loturi de câte 100 de indivizi cât mai asemănători din aceeaşi specie, sunt menţinute –acelasi interval de timp -la o anumita temperatura constanta. Alte cateva loturi la o alta temperatura constanta si tot asa mai departe, la alte valori constante de temperatura. În final vom consemna pe un grafic perechile de valori (temperatură, număr de indivizi în viaţă). Se va obţine un nor de puncte de forma din figura a.

Liviu Dragomirescu - draft provizoriu 42

Independenţă statistică totală

• Daca reprezentăm pe abscisă vârsta, iar pe ordonată temperatura şi figurăm mai multe puncte corespunzătoare unor indivizi sănătoşi, obţinem diagrama alăturată

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

22

Liviu Dragomirescu - draft provizoriu 43

Independenţă statistică reală

• Situaţia din figura de mai sus este însă mai rar întâlnită în practică deoarece, de regulă, variabilitatea biologică produce, la extremele unei caracteristici, indivizi mai puţini, astfel încât, cel mai adesea, independenţa a două caracteristici apare în nori de puncte sub formă relativ circulară.

Liviu Dragomirescu - draft provizoriu 44

Daca ecologul sustine sau postuleaza o legatura in fenomen:

Biostatisticianul urmeaza etapele:

1. Alegerea (identificarea, modelarea) unei anumite forme de depedenta (corelatie)

2. Determinarea (ajustarea) parametrilor formei alese

3. Controlul validitatii modelului ales (formei alese) - validarea

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

23

Liviu Dragomirescu - draft provizoriu 45

Daca ecologul sustine sau postuleaza o legatura in fenomen:

Biostatisticianul urmeaza etapele:

1. Alegerea (identificarea, modelarea) unei anumite forme de depedenta (corelatie)

2. Determinarea (ajustarea) parametrilor formei alese

3. Controlul validitatii modelului ales (formei alese) - validarea

Exemple:

1. Dreapta

2. Calcul a si b

3. Calcul R sau R2

Liviu Dragomirescu - draft provizoriu 46

Trei “filozofii” de modelare (alegerea a formei corelatiei)

I. forma este determinată de considerente de principiu şi / sau specialitate;

II. forma este observată repetându-se pe multe seturi de date similare (proprii sau din literatură);

III. forma este o aproximaţie convenabilă pe setul de date respective şi, eventual, alte câteva seturi similare.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

24

Liviu Dragomirescu - draft provizoriu 47

Probleme REALE

• Un biolog a găsit urma labei din spate a unui urs. Aceasta avea 26 cm. Dorind să estimeze lungimea corpului ursului respectiv, a tranchilizat 9 urşi şi le-a măsurat lungimea labei din spate, precum şi lungimea corpului. A obţinut următoarea serie bidimensională:

Lungimea

labei din

spate, în cm

Lungimea

corpului, în

cm

16 181

18 202

18 192

19 215

22 234

22 225

23 237

25 245

27 256

Liviu Dragomirescu - draft provizoriu 48

Cum a procedat în continuare şi ce valoare a obţinut pentru lungimea corpului ursului ?

• Rezolvare:• Între lungimile a diferite

segmente ale unui organism viu există, de regulă, o legătură directă. Desenând norul celor 9 puncte se observă că putem aproxima forma legăturii printr-o dreaptă De aceea, vom calcula dreapta de regresie a lui y în x, y fiind lungimea corpului, iar x lungimea labei din spate.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

25

Liviu Dragomirescu - draft provizoriu 49

• Pentru a măsura gradul de grupare a punctelor în jurul dreptei de regresie calculăm r şi r2. Deoarece cele nouă perechi de puncte formează un eşantion, testăm semnificaţia lui r. Dacă r este cel puţin semnificativ (diferit de zero) putem considera corelaţia liniară, cel puţin semnificativă şi va avea sens să facem o prognoză (estimare) prin dreapta de regresie determinată pe baza celor 9 puncte.

Liviu Dragomirescu - draft provizoriu 50

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

26

Liviu Dragomirescu - draft provizoriu 51

• Deci a= 77,63 b= 6,78 r2 =95%

• Predicţie: Pentru x0 = 26 y0 = a + b x0= 77,63 + 6,78 26 = 253,91 254.

• Deci ursul cu lungimea labei din spate de 26 de cm are, cel mai probabil, lungimea de 254 cm.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.