tratarea simultana a doua variabile statistica bivariata lumea
TRANSCRIPT
1
Liviu Dragomirescu - draft provizoriu 1
Tratarea simultana a doua variabile
STATISTICA BIVARIATAEco2-09
Liviu Dragomirescu - draft provizoriu 2
Lumea REALA
• Perechi de aspecte in fenomene:
I. – Caldura in acest amfiteatru
– Atentia studentilor din el
II.– Caldura in acest amfiteatru
– Marimea populatiei de pinguini din statiunea X de la Polul Sud.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
2
Liviu Dragomirescu - draft provizoriu 3
Care sunt “legate intre ele”?Care sunt “libere intre ele”
– Caldura in acest amfiteatru
– Atentia studentilor din el• “legate intre ele”
– Caldura in acest amfiteatru
– Marimea populatiei de pinguini din statiunea X de la Polul Sud.
• “libere intre ele”
Liviu Dragomirescu - draft provizoriu 4
Lumea REALA Planul DATELOR
• Temperatura in acest amfiteatru
• Media coeficientilor de atentie ai studentilor
• Temperatura in acest amfiteatru
• Numarul de pinguini din statiunea X de la Polul Sud.
– Caldura in acest amfiteatru
– Atentia studentilor din el
– Caldura in acest amfiteatru
– Marimea populatiei de pinguini din statiunea X de la Polul Sud.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
3
Liviu Dragomirescu - draft provizoriu 5
Planul DATELOR
• Temperatura in acest amfiteatru
• Media coeficientului de atentie al studentilor
• Temperatura in acest amfiteatru
• Numarul de pinguini din statiunea X de la Polul Sud.
• DEPENDENTE
• INDEPENDENTE
Liviu Dragomirescu - draft provizoriu 6
• Legate intre ele • DEPENDENTE
• Libere intre ele • INDEPENDDENTE
Lumea REALA Planul DATELOR
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
4
Liviu Dragomirescu - draft provizoriu 7
Planul DATELORTratare Cantitativa Tratare Calitativa
• Dependenta:
•• CORELATIECORELATIE
• Dependenta
•• ASOCIEREASOCIERE
• Independenta
• INDEPENDENTA
• Independenta:
• INDEPENDENTA
Liviu Dragomirescu - draft provizoriu 8
Axioma de legatura intre Lumea REALA si Planul DATELOR
(Axioma gnosticului)
Legatura
(a
DEPENDENTA
(CORELATIE / ASOCIERE)
b)
Lipsa de legatura (libertate)
(Non a
INDEPENDENTA
Non b)
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
5
Liviu Dragomirescu - draft provizoriu 9
CORELATIACORELATIA
(Dependenta statistica intre variabile cantitative / ordinale)
Liviu Dragomirescu - draft provizoriu 10
• Independenta in date INSEAMNA lipsa de legatura in fenomen.
• Corelatia in date POATE INSEMNA legatura in feneomen dar si o falsa corelatie.
–– Legatura in fenomen trebuie sustinuta cu Legatura in fenomen trebuie sustinuta cu argumente de specialitate si/sau logice.argumente de specialitate si/sau logice.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
6
Liviu Dragomirescu - draft provizoriu 11
CORELATII
3 Neliniare
Nemonotone
4 Neliniare
Monotone
2 Liniare
InverseDirecte
Liviu Dragomirescu - draft provizoriu 12
Masurarea intensitatii corelatiei liniare
– Coeficientul de corelatie (liniara) R.
– Coeficientul de determinatie R2
• Ambele masoara gradul de grupare a punctelor in jurul DREPTEI de REGRESIE (dreapta care se “stravede” in spatele norului de puncte):
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
7
Liviu Dragomirescu - draft provizoriu 13
Prezenta la curs produce note mai mari la Lp-uri. Se valideaza calitatea cursului.
Liviu Dragomirescu - draft provizoriu 14
Regresie, corelatie neliniara (parabolica de grad 2). Ajustare mai buna (0,5246 > 0,4507)
Nota de Invatare Continua (NIC) depinde de Numarul de
prezente la curs (Npc)
y = 0,0575x2 - 0,2284x + 4,5588
R2 = 0,5246 p = 0
0
2
4
6
8
10
0 2 4 6 8 10
Npc
NIC
reprezinta studenti care s-au bazat doar pe Lp-uri si drafturile de curs primite prin e-mail. Se valideaza calitatea drafturilor si a studentilor respectivi.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
8
Liviu Dragomirescu - draft provizoriu 15
Ajustarea liniară Ajustarea liniară -- dreapta de dreapta de regresieregresie
Liviu Dragomirescu - draft provizoriu 16
• Fie o serie bidimensională (x, y) de volum N, seria unidimensională (x) având media iar seria (y), media .
• Dreapta de regresie a lui y în x are ecuaţia (graficului) Y = a + b x, în care:
b = =
a = =
xy
2)(
)()(
xx
yyxx22 )(
xxN
yxyxN
xby N
xby
ce teoretiformule exact) si (rapid calcul de formule
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
9
Liviu Dragomirescu - draft provizoriu 17
Coeficientul b, adică panta dreptei de regresie (a lui y în x), se
numeşte coeficientul de regresie (a lui y în x).
• Formula teoretică a lui a(ordonata în origine a dreptei de regresie) provine dintr-o proprietate remarcabilă şi anume:
• "Dreapta de regresie trece prin punctul mediu, adică punctul de coordonate ."
)y,x( Aici Y = 2,(3) - 0,5 x.
Liviu Dragomirescu - draft provizoriu 18
Interpretarea coeficientului de regresie, b
• Exemplu:Studierea efectului marimii dozei unui medicament x –
masurata in mg, asupra duratei bolii tratate, y –exprimata in saptamani:
bb esteeste numarulnumarul cu care se cu care se modificamodifica variabilavariabiladependentadependenta yy, la o , la o modificaremodificare cu o cu o unitateunitate a a variabilevariabile independenteindependente, , xx..
Pt. ex: b = 0,5 inseamna ca la marirea dozei cu 1 mg durata se mareste cu -0,5 saptamani, adica se REDUCE cu 0,5 saptamani.
(mai corect: y = Y + = a + b x + = 2,(3) - 0,5 x + )
y = a + b x = 2,(3) - 0,5 x
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
10
Liviu Dragomirescu - draft provizoriu 19
Interpretarea coeficientului de regresie, b. Aplicatie reala in EXCEL:
Liviu Dragomirescu - draft provizoriu 20
Provenienţa denumirii de regresie
• Francis Galton în memoriul "Regresion toward mediocrity in hereditary stature" (1886), studiind – cum ar putea rămâne în echilibru dinamic o populaţie dacă
generaţiile noi ar moşteni caracteristicile măsurabile ale părinţilor, – a observat că fiii (la maturitate) se abat de la înălţimea medie mai
puţin decât taţii, deci că fiii regresează către medie.
• De aceea, Galton a denumit linia care leagă înălţimile fiilor de cele ale taţilor, linie de regresie,
• iar procesul general de predicţie a unei variabile – (de exemplu înălţimea copiilor) dintr-o altă variabilă (de exemplu
înălţimea părinţilor)
• a rămas în literatura statistică sub denumirea de regresie.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
11
Liviu Dragomirescu - draft provizoriu 21
• Prin urmare sintagma linie (dreaptă sau curbă) de regresie este improprie.
• Ea se păstrează din motive de tradiţie, • dar cititorul trebuie să se gândească, de fapt, la ideea
de linie de – dependenţă, – corelaţie, – predicţie, – estimaţie – tendinţă.
• In mod analog, in loc sa spunem “fotocopiem”spunem “xeroxam”, firma Xeros fiind cea care a cucerit piata cu fotocopii.
Liviu Dragomirescu - draft provizoriu 22
Măsurarea gradului de corelaMăsurarea gradului de corelaţţie ie
liniară liniară -- coeficientul de coeficientul de corelacorelaţţie liniarăie liniară
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
12
Liviu Dragomirescu - draft provizoriu 23
Definiţie: S.n. covariaţia seriei bidimensionale (x, y) de volum N, expresia:
Definiţie: S.n. covarianţa seriei (notată cov(x, y)), covariaţia divizată prin volumul N.
Exprimă împrăştierea simultană a două variabile în jurul punctului mediu , [aşa cum variaţia şi varianţa exprimă împrăştierea în jurul mediei.]– Variaţia unei serii unidimensionale (x) este covariaţia seriei bidimensionale (x,
x).
– Varianţa seriei unidimensionale (x) este covarianţa seriei bidimensionale (x, x) • adică var (x) = cov (x, x).
)()( yyxx
) ,( yx
Liviu Dragomirescu - draft provizoriu 24
Coeficientul de corelaţie liniară(Bravais-Pearson)
Proprietăţi ale coeficientului de corelaţie liniară:
1. –1 R 1.
Deci R poate avea şi valori negative. Într-adevăr, semnul este dat doar de numărător adica de covarianţă, iar covarianţa (cov (x,y) = ) poate avea şi valori negative.
)(var)(var
),(cov
yx
yxR
))(())((
2222 yyNxxN
yxyxN
ca teoretiformula exact) si (rapid calcul de formula
N
yyxx )()(
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
13
Liviu Dragomirescu - draft provizoriu 25
Punctul mediu este pentru covarianţă o nouă origine, generând în plan 4 noi cadrane.
• Produsele din covarianţă vor avea semnele dictate de cadranul unde se află.
– Ex: Pentru primul punct (1,2) produsul abaterilor faţă de medii va fi negativ.
• In cadranele – I şi III semnul va fi pozitiv,– în cadranele II şi IV semnul va fi
negativ.
• Dacă luăm în consideraţie şi mărimile acestor produse de abateri, rezultă că
– un R pozitiv va indica o preponderenţă a punctelor din cadranele I şi III, deci o alură ascendentă,
– iar un rezultat negativ o preponderenţă a punctelor din cadranele II şi IV, adică o alură descendentă, ca în cazul nostru.
N
yyxx )()(
Liviu Dragomirescu - draft provizoriu 26
2. R > 0 norul are o tendinţă ascendentă. În acest caz spunem că există o corelaţie liniară directă (adică “x şi y variază în acelaşi sens”)
3. R = 1 norul se plasează pe o dreaptă ascendentă există o corelaţie funcţională liniară directă. În acest caz spunem că există o corelaţie liniară directă perfectă şi
4. R < 0 norul are o tendinţă descendentă. În acest caz spunem că există o corelaţie liniară inversă (adică “x şi y variază în sens contrar”).
5. R = -1 norul se plasează pe o dreaptă descendentă există o corelaţie funcţională liniară inversă. În acest caz spunem că există o corelaţie liniară inversă perfectă.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
14
Liviu Dragomirescu - draft provizoriu 27
6. R = 0 dacă şi numai dacă nu există o corelaţie liniară.
Adică R = 0 dacă şi numai dacă:
- variabilele sunt independente ori
- există o corelaţie dar neliniară, de ex.
Liviu Dragomirescu - draft provizoriu 28
7. R măsoară gradul de grupare a punctelor în jurul dreptei de regresie. Altfel spus, valoarea absolută a lui R exprimă calitatea ajustării.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
15
Liviu Dragomirescu - draft provizoriu 29
• Greşela foarte răspândita: calculul coeficientului de corelaţie liniară R şi în cazurile în care dependenţa nu este liniara şi nici nu este indicată aproximarea sa liniară.
• Altfel spus, se consideră în mod eronat că R este un coeficient universal de corelaţie, neaprofundându-se ideea că o corelaţie nu are sens decât raportată la o anumită formă.
• Greşeala provine şi din faptul că în multe lucrări Reste denumit coeficient de corelaţie, fără atributul “liniară”.
Liviu Dragomirescu - draft provizoriu 30
Coeficientul de determinaţie
Definiţie: Se numeşte coeficient de determinaţie pătratul coeficientului de corelaţie liniară. Se notează, în mod firesc, R2.
+ E+ Exprimă proporxprimă proporţţia variaia variaţţiei variabilei iei variabilei yy care care este este ““explicatăexplicată”” de dreapta de regresie. de dreapta de regresie.
De exemplu, atunci când De exemplu, atunci când RR22 = 1 = 1 îîntreaga variantreaga variaţţie a ie a lui lui yy este este ““explicatăexplicată”” de dreapta de regresie de dreapta de regresie deoarece toate punctele se află pe dreapta deoarece toate punctele se află pe dreapta respectivărespectivă..
- Deoarece 0 R2 1, coeficientul de determinaţie, “pierde semnul” şi deci nu poate indica corelaţiile liniare inverse.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
16
Liviu Dragomirescu - draft provizoriu 31
Calcul simultan rapid şi exact al dreptei de regresie şi al coeficientului de
corelaţie liniară şi al coeficientului de determinaţie
22 )(
xxN
yxyxNb 5,0
2
1
6
3
3642
2421
6143
46732
N
xbya
)3(,2
3
7
3
34
3
6)2
1(4
))(())(( 2222
yyNxxN
yxyxNR
)463()6143(
467322
)1618()3642(
2421
87,046,3
3
12
3
26
3
Liviu Dragomirescu - draft provizoriu 32
Interpretari:
• Deoarece R < 0, corelaţia liniară este inversă, iar pentru că R=0,87 este relativ apropiat de 1, calitatea ajustării liniare este satisfăcătoare.
Coeficientul de determinaţie, R2, are valoarea:R2 = (-0,87)2 = 0,7569.
Interpretare:
•• 75,69 % din varia75,69 % din variaţţia lui ia lui yy este explicată de dreapta de este explicată de dreapta de regresieregresie Y = 2,(3) – 0,5 x.
Altfel spus,
• dreapta Y = 2,(3) – 0,5 x explică 75,69 % din variaţia lui y.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
17
Liviu Dragomirescu - draft provizoriu 33
Explicatii posibile pentru corelatii
O corelaţie între două variabile x şi y (în planul datelor) poate însemna pentru aspectele X şi Y din planul fenomenologic că:
• 1. X este cauza lui Y,
• 2. Y este cauza lui X,
• 3. ambele sunt efectele unei a treia cauze,
• 4. ambele variază concomitent cu un al treilea factor,
• de exemplu, “evoluţia paralelă cu vârsta a două caractere biologice, ceea ce de multe ori creează aparenţa unei legături între ele”.
• 5. X şi Y sunt puse în legătură fără sens.
Liviu Dragomirescu - draft provizoriu 34
Test de semnifica\ie pentru coeficientul de corela\ie liniar` r
Cuplul de ipoteze statistice:
• H0: = 0 (nu exist` corela\ie liniar`)
• HA: 0 (exist` corela\ie liniar`)
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
18
Liviu Dragomirescu - draft provizoriu 35
Tipuri de CORELATII si instrumente de masurare instrumente de masurare a intensitatiia intensitatii lor
Instrumente speciale, putin cunoscute, gresit aplicate ADESEA
Neliniare
nemonotone
RS SpearmanNeliniare monotone
R Bravais-Pearson
R2
Liniare
Instrumente de masura a intensitatiiInverseDirecte
Liviu Dragomirescu - draft provizoriu 36
Supliment
Pentru Lp12
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
19
Liviu Dragomirescu - draft provizoriu 37
• Tabela statistica specifica statisticii bivariate se numeste tabela cu dubla intrare.
• Tabela statistica specifica statisticii bidimensionale se numeste tabela de corelatie.
Liviu Dragomirescu - draft provizoriu 38
Exemplu (tabela de corelatie)
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
20
Liviu Dragomirescu - draft provizoriu 39
Liviu Dragomirescu - draft provizoriu 40
Diagramă în batoane în spaţiu (stereogramă)
şi stereohistogramă
0
2
1 2 3
2
4
56
8
0
2
1 2 3
24
568
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
21
Liviu Dragomirescu - draft provizoriu 41
• loturi de câte 100 de indivizi cât mai asemănători din aceeaşi specie, sunt menţinute –acelasi interval de timp -la o anumita temperatura constanta. Alte cateva loturi la o alta temperatura constanta si tot asa mai departe, la alte valori constante de temperatura. În final vom consemna pe un grafic perechile de valori (temperatură, număr de indivizi în viaţă). Se va obţine un nor de puncte de forma din figura a.
Liviu Dragomirescu - draft provizoriu 42
Independenţă statistică totală
• Daca reprezentăm pe abscisă vârsta, iar pe ordonată temperatura şi figurăm mai multe puncte corespunzătoare unor indivizi sănătoşi, obţinem diagrama alăturată
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
22
Liviu Dragomirescu - draft provizoriu 43
Independenţă statistică reală
• Situaţia din figura de mai sus este însă mai rar întâlnită în practică deoarece, de regulă, variabilitatea biologică produce, la extremele unei caracteristici, indivizi mai puţini, astfel încât, cel mai adesea, independenţa a două caracteristici apare în nori de puncte sub formă relativ circulară.
Liviu Dragomirescu - draft provizoriu 44
Daca ecologul sustine sau postuleaza o legatura in fenomen:
Biostatisticianul urmeaza etapele:
1. Alegerea (identificarea, modelarea) unei anumite forme de depedenta (corelatie)
2. Determinarea (ajustarea) parametrilor formei alese
3. Controlul validitatii modelului ales (formei alese) - validarea
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
23
Liviu Dragomirescu - draft provizoriu 45
Daca ecologul sustine sau postuleaza o legatura in fenomen:
Biostatisticianul urmeaza etapele:
1. Alegerea (identificarea, modelarea) unei anumite forme de depedenta (corelatie)
2. Determinarea (ajustarea) parametrilor formei alese
3. Controlul validitatii modelului ales (formei alese) - validarea
Exemple:
1. Dreapta
2. Calcul a si b
3. Calcul R sau R2
Liviu Dragomirescu - draft provizoriu 46
Trei “filozofii” de modelare (alegerea a formei corelatiei)
I. forma este determinată de considerente de principiu şi / sau specialitate;
II. forma este observată repetându-se pe multe seturi de date similare (proprii sau din literatură);
III. forma este o aproximaţie convenabilă pe setul de date respective şi, eventual, alte câteva seturi similare.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
24
Liviu Dragomirescu - draft provizoriu 47
Probleme REALE
• Un biolog a găsit urma labei din spate a unui urs. Aceasta avea 26 cm. Dorind să estimeze lungimea corpului ursului respectiv, a tranchilizat 9 urşi şi le-a măsurat lungimea labei din spate, precum şi lungimea corpului. A obţinut următoarea serie bidimensională:
Lungimea
labei din
spate, în cm
Lungimea
corpului, în
cm
16 181
18 202
18 192
19 215
22 234
22 225
23 237
25 245
27 256
Liviu Dragomirescu - draft provizoriu 48
Cum a procedat în continuare şi ce valoare a obţinut pentru lungimea corpului ursului ?
• Rezolvare:• Între lungimile a diferite
segmente ale unui organism viu există, de regulă, o legătură directă. Desenând norul celor 9 puncte se observă că putem aproxima forma legăturii printr-o dreaptă De aceea, vom calcula dreapta de regresie a lui y în x, y fiind lungimea corpului, iar x lungimea labei din spate.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
25
Liviu Dragomirescu - draft provizoriu 49
• Pentru a măsura gradul de grupare a punctelor în jurul dreptei de regresie calculăm r şi r2. Deoarece cele nouă perechi de puncte formează un eşantion, testăm semnificaţia lui r. Dacă r este cel puţin semnificativ (diferit de zero) putem considera corelaţia liniară, cel puţin semnificativă şi va avea sens să facem o prognoză (estimare) prin dreapta de regresie determinată pe baza celor 9 puncte.
Liviu Dragomirescu - draft provizoriu 50
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.
26
Liviu Dragomirescu - draft provizoriu 51
• Deci a= 77,63 b= 6,78 r2 =95%
• Predicţie: Pentru x0 = 26 y0 = a + b x0= 77,63 + 6,78 26 = 253,91 254.
• Deci ursul cu lungimea labei din spate de 26 de cm are, cel mai probabil, lungimea de 254 cm.
Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.