Download - TDM - Laborator 07
-
7/23/2019 TDM - Laborator 07
1/15
Laborator 7. Analiza statistic a legturilor dintre variabile
Procedura CORR
- Testeaz corelaia (legtura) ntre variabile.
Sintaxa procedurii:
PROC CORR ; ;RU;
Una din cele mai olosite msuri ale legturii dintre dou variabile este coeicientul decorelaie parametric !earson. "cesta ia valori n intervalul (-#$#) %i exprim at&t tria$ c&t %idirecia dependenei liniare. 'aloarea a coeicientului indic lipsa legturii liniare. valoarepozitiv a coeicientului indic o dependen direct a celor dou variabile (cre%terea uneia duce
la cre%terea celei de-a doua). valoare negativ a coeicientului indic o dependen invers acelor dou variabile (cre%terea uneia duce la scderea celei de-a doua).
"lte msuri ale corelaiei sunt coeicientul Spearman$ coeicientul *endall Tau-b %icoeicientul +oeding. "cestea sunt msuri neparametrice ale corelaiei (pot i aplicate inclusivvariabilelor care nu sunt numerice)$ prin calcularea rangurilor corespunztoare valorilor ordinale.
!"e#plul 7.$. Coe%icientul de corela&ie Pearson
Tabelul'itness conine date reeritoare la persoanele care au participat la un curs deitness. 'ariabilele sunt: varsta (n ani)$ greutate (n ,g)$ oxigen (oxigenul inalat$ n ml per ,g
per minut) %i timp (timpul n minute obinut la alergarea a ,m).
data Fitness; input varsta greutate oxigen timp @@; datalines; 44 89.47 44.609 11.37 40 75.07 45.313 10.07
44 85.84 54.297 8.65 42 68.15 59.571 8.1738 89.02 49.874 . 47 77.45 44.811 11.6340 75.98 45.681 11.95 43 81.19 49.091 10.8544 81.42 39.442 13.08 38 81.87 60.055 8.6344 73.03 50.541 10.13 45 87.66 37.388 14.0345 66.45 44.754 11.12 47 79.15 47.273 10.6054 83.12 51.855 10.33 49 81.42 49.156 8.95
51 69.63 40.836 10.95 51 77.91 46.672 10.0048 91.63 46.774 10.25 49 73.37 . 10.0857 73.37 39.407 12.63 54 79.38 46.080 11.1752 76.32 45.441 9.63 50 70.87 54.625 8.9251 67.25 45.118 11.08 54 91.63 39.203 12.8851 73.71 45.790 10.47 57 59.08 50.545 9.9349 76.32 . . 48 61.24 47.920 11.5052 82.78 47.467 10.50;
ods tml;
-
7/23/2019 TDM - Laborator 07
2/15
ods grapi!s on;pro! !orr data"Fitness plots;run;ods grapi!s o##;ods tml !lose;
/ezultatele rulrii aplicaiei sunt cele din igurile 0.# %i 0.:
'igura 7.$. (tatistici si#ple )i coe%icientul Pearson
-
7/23/2019 TDM - Laborator 07
3/15
'igura 7.*. +atricea gra%ic de corela&ie
Observa&ii,
!rocedura 1// ai%eaz statistici simple$ precum numr de observaii$ medie$deviaie standard$ sum$ valoare minim %i maxim (2igura 0.#)3
4ntruc&t nu este speciicat o list de variabile cu opiunea '"/$ procedura 1//analizeaz corelaia pentru toate perecile de c&te dou variabile numerice(2igura 0.#)3
Tabelul de corelaie este o matrice simetric de dimensiune 5x5$ av&nd pediagonala principal valoarea coeicientului de corelaie !earson pentru ovariabil cu ea ns%i (coeicient egal cu #).
2iecare celul a tabelului conine coeicientul de corelaie$ valoarea p calculatpentru testarea valorii coeicientului %i numrul de observaii valide. !entruiecare coeicient de corelaie calculat este eectuat testul av&nd ipoteza nulconorm creia valoarea coeicientului este . valoare mic p-value respingeipoteza nul.
6e exemplu$ valoarea coeicientului de corelaie pentru variabilele timp %i oxigen
este -.78759$ cu valoarea p mai mic de .#. "cest apt indic o dependenliniar invers puternic ntre cele dou variabile. 4n timp ce timpul de alergarecre%te$ nivelul oxigenului scade.
piunea !TS a procedurii 1// produce o matrice graic simetric$ pentruvariabilele analizate. Se observ %i din graicul corespunztor variabilelor timp %ioxigen dependena liniar invers. (2igura 0.)3
-
7/23/2019 TDM - Laborator 07
4/15
!"e#plul 7.*. Alte #suri ale corela&iei -corela&ia para#etric )i
nepara#etric
ods tml;
title $%asuri ale !orelatiei$;pro! !orr data"Fitness pearson spearman &endall oe##ding; var greutate oxigen timp;run;
ods tml !lose;
Tabelul de dat este cel cu numele 'itness/ creat n exemplul anterior (vezi exemplul 0.#).!rocedura 1// calculeaz patru msuri ale corelaiei dintre dou variabile: coeicientul
!earson$ coeicientul Spearman$ coeicientul *endall Tau-b %i coeicientul +oeding. S-aspeciicat cu clauza '"/ lista de variabile analizate (greutate$ oxigen %i timp).
bservaie: coeicientul !earson este calculat implicit numai dac nu sunt speciicate altemsuri$ a%a cum a ost n cazul exemplului 0.#.
6e%i este calculat n mod dierit$ valorile iind dierite ntre diversele metode decorelaie$ se observ din nou c singura corelaie semniicativ este cea ntre variabilele ti#p%io"igen.
/ezultatele rulrii aplicaiei sunt cele din igurile 0.9 %i 0.5:
'igura 7.0. (tatistici si#ple
-
7/23/2019 TDM - Laborator 07
5/15
'igura 7.1. Coe%icien&i de corela&ie
!"e#plul 0. Corela&ii 2ntre dou seturi de variabile
Tabelul de date iris3setosaconine o parte din msurtorile eectuate de 2iser asuprairi%ilor. Tabelul se reer la specia Setosa %i conine ca variabile lungimea %i limera sepalei %ilungimea %i limea petalei pentru ; de lori studiate.
"cest exemplu studiaz corelaia ntre dou seturi de variabile: cel reeritor la mrimea(lungime %i lime) sepalei %i cel reeritor la mrimea petalei.
data iris'setosa;
input (g)epala l)epala (g*etala l*etala @@; la+el (g)epala "$(ungimea sepalei in mm$ l)epala "$(atimea sepalei in mm$ (g*etala "$(ungimea petalei in mm$ l*etala "$(atimea petalei in mm$; datalines; 50 33 14 02 46 34 14 03 46 36 . 02 51 33 17 05 55 35 13 02 48 31 16 02 52 34 14 02 49 36 14 01 44 32 13 02
-
7/23/2019 TDM - Laborator 07
6/15
50 35 16 06 44 30 13 02 47 32 16 02 48 30 14 03 51 38 16 02 48 34 19 02 50 30 16 02 50 32 12 02 43 30 11 . 58 40 12 02 51 38 19 04 49 30 14 02 51 35 14 02 50 34 16 04 46 32 14 02 57 44 15 04 50 36 14 02 54 34 15 04 52 41 15 . 55 42 14 02 49 31 15 02 54 39 17 04 50 34 15 02 44 29 14 02 47 32 13 02 46 31 15 02 51 34 15 02 50 35 13 03 49 31 15 01 54 37 15 02 54 39 13 04 51 35 14 03 48 34 16 02 48 30 14 01 45 23 13 03 57 38 17 03 51 38 15 03 54 34 17 02 51 37 15 04 52 35 15 02 53 37 15 02 ; ods tml; title $)tudiul lui Fiser , spe!ia )etosa $; pro! !orr data"iris'setosa !ov; var (g)epala l)epala; -it (g*etala l*etala;
run; ods tml !lose;
/ezultatele rulrii aplicaiei sunt cele din igurile 0.; %i 0.8:
'igura 7.4. +atricea de covarian&5varian&
-
7/23/2019 TDM - Laborator 07
7/15
'igura 7.6. (tatistici si#ple )i coe%icientul de corela&ie Pearson
Observa&ii,
!rocedura 1// este olosit cu opiunea 1'$ care produce matricea decovarian din igura 0.;. 4n iecare celul a matricii$ pe prima linie este valoareacovarianei$ a doua este valoarea varianei (dispersiei) pentru variabilacorespunztoare liniei$ a treia este variana variabilei corespunztoare coloanei$iar a patra valoare din celul este numrul gradelor de libertate pentru respectiva
perece de variabile. Toate aceste valori se calculeaz olosind observaiile rvalori lips (de aici dierena numrul gradelor de libertate)3 !rocedura 1// este olosit cu clauzele '"/ %i
-
7/23/2019 TDM - Laborator 07
8/15
!"e#plul 7.1. !lipse de predic&ie
Tabelul de date Pesticonine msurtori eectuate asupra unui set de 9; de pe%ti dinspecia >ream$ capturai ntr-un lac din 2inlanda. 2iecrui pe%te i s-au msurat: greutatea (n
grame)$ lungimea (n cm$ de la nas p&n la v&rul cozii)$ nlimea (n cm$ inclusiv cu aripioareledorsale) %i limea (n cm$ r aripioare).
data*esti ; title $%asurari asupra pestilor$; input greutate lungime inaltime latime @@; datalines;242 30.00 11.52 4.02 290 31.20 12.48 4.31340 31.10 12.38 4.70 363 33.50 12.73 4.46430 34.00 12.44 5.13 450 34.70 13.60 4.93500 34.50 14.18 5.28 390 35.00 12.67 4.69450 35.10 14.00 4.84 500 36.20 14.23 4.96475 36.20 14.26 5.10 500 36.20 14.37 4.81
500 36.40 13.76 4.37 . 37.30 13.91 5.07600 37.20 14.95 5.17 600 37.20 15.44 5.58700 38.30 14.86 5.29 700 38.50 14.94 5.20610 38.60 15.63 5.13 650 38.70 14.47 5.73575 39.50 15.13 5.57 685 39.20 15.99 5.37620 39.70 15.52 5.28 680 40.60 15.47 6.13700 40.50 16.24 5.59 725 40.90 16.36 6.05720 40.60 16.36 6.09 714 41.50 16.52 5.85850 41.60 16.89 6.20 1000 42.60 18.96 6.60920 44.10 18.04 6.31 955 44.00 18.08 6.29925 45.30 18.75 6.75 975 45.90 18.64 6.75950 46.50 17.62 6.37;
ods tml;ods grapi!s on;
proccorrdata"pesti nomiss plots"s!atternmaxvar"2alpa".20.30/; var latime lungime inaltime greutate;run;
ods grapi!s o##;ods tml !lose;
/ezultatele rulrii aplicaiei sunt cele din igurile 0.0. %i 0.7.
-
7/23/2019 TDM - Laborator 07
9/15
'igura 7.7. (tatistici si#plu )i coe%icien&i de corela&ie
'igura 7.. !lipse de predic&ie
-
7/23/2019 TDM - Laborator 07
10/15
Observa&ii,
!rocedura 1// este olosit cu opiunea !T -plots"s!atternmaxvar"2alpa".20.30/). "ceasta creeaz un graic de tip Scatter pentru primele dou variabilespeciicate n clauza '"/ (latime %i lungime). piunea ?@"A'"/ indic numrul de
variabile pentru care s se realizeze graicul (aici )$ iar opiunea "!+" indic limitele dencredere ale regiunilor (elipselor) de predicie. "stel$ semniicaia valorii alpaB. esteurmtoarea: cunosc&nd una dintre variabilele lungime sau latime$ se poate airma cu oprobabilitate de 7C (.7) c cealalt variabil (cea necunoscut) se al n interiorul elipseiconstruite3
!rocedura 1// produce tabelul de statistici simple din igura 0.0. reeritor lacele patru variabile speciicate n clauza '"/$ precum %i tabelul conin&nd coeicientul decorelaie !earson. Se observ o dependen direct oarte puternic ntre cele patru variabile.
!"e#plul 7.4. Corela&ii par&iale
1orelaia dintre dou variabile poate induce uneori n eroare %i poate i diicil deinterpretat atunci c&nd ntre cele dou variabile exist alte variabile$ responsabile de dependenacomun a celor dou.
Corela&ia par&ialmsoar dependena liniar dintre dou variabile$ elimin&nd eectul(prin meninerea constant) a celorlalte variabile din model.
Dxemplul 0.;. olose%te tabelul de date pesti(vezi exemplul 0.5). Se va calcula corelaiaparial a variabilelor latime %i lungime$ prin eliminarea eectului variabilelor inaltime %igreutate.
ods tml;ods grapi!s on;
proccorrdata"pesti plots"s!atteralpa".20.30/; var latime lungime; partial inaltime greutate;run;
ods grapi!s o##;ods tml !lose;
/ezultatele execuiei aplicaiei sunt cele din igurile 0.E %i 0.#. Se observ coeicientulde corelaie parial al variabilelor lungime %i latime (.#8)$ mult mai mic dec&t cel obinut la
exemplul anterior.4n igura 0.#. sunt reprezentate graic reziduurile variabilelor lungime %i latime$ n urma
eliminrii eectului celorlalte variabile. deviaie standard a variabilei latime are aproapeaceea%i lungime pe axa x cu o deviaie standard a variabilei lungime pe axa F$ ceea ce indico slab corelaie a celor dou variabile.
-
7/23/2019 TDM - Laborator 07
11/15
'igura 7.8. Coe%icientul de corela&ie par&ial
'igura 7.$9. Reziduuri par&iale
-
7/23/2019 TDM - Laborator 07
12/15
!"e#plul 7.6. Aplica&ii ale trans%or#rii : -'iser#. Testul privind egalitatea coeicientului de corelaie cu o valoare dat2. Testul privind egalitatea corelaiei pentru dou grupuri
Urmtorul cod S"S creeaz un tabel de date prin generarea aleatoare a 5 de valori
pentru variabilele A %i G av&nd o distribuie normal. !rimul grup de #; de observaii estegenerat olosind o corelaie cunoscut de .9. "l doilea grup de #; de observaii este generat cuo corelaie de .;$ iar al treilea grup de # de observaii cu corelaia .9.
data simulare drop"i/; do i"1 to 400; " rannor135791/; rup " 1 i150/ i300/; i# rup " 1 ten " 0.3 0.9rannor246791/; i# rup " 2 ten " 0.25 srt.8375/rannor246791/; i# rup " 3 ten " 0.3 0.9rannor246791/; output; end;
run;
Observa&ii,
piunea 6/!Bi inib adugarea lui i ca variabil n tabelul de date3 2uncia /"??/(n) genereaz aleator valori ale unei variabile normale ?($#)3 !arametrul unciei /"??/(n) este numit %i seed. 2unciile de generare
aleatoare genereaz %iruri (stream-uri) de numere aleatoare ncep&nd de la unpunct de start (numit seed) dat de utilizator sau de ceasul sistem. valoare seedtrebuie s ie un ntreg nenegativ mai mic dec&t 9#-# (sau $#50$579$850). 6acse olose%te un seed strict pozitiv$ %irul de numere generate poate i oric&ndrepetat$ prin olosirea aceluia%i cod 6"T". 6ac valoarea seed este $ atunci
generarea este iniializat de ceasul sistem$ iar %irul de numere aleatoare nu poatei obinut n mod repetat3
instruciune " % srt)/rannorseed/; are ca eect generarea uneivalori aleatoare pentru variabila GH?(@$S) (normal de medie @ %i dispersie S)
$. estul privind egalitatea coe%icientului de corela&ie cu o valoare dat
2olosind tabelul si#ulare$ pentru observaiile din grupul #$ se va testa ipoteza nulconorm creia coeicienul de corelaie al variabilelor A %i I este .;
+: JB.;+#: JK.;
ods tml;ods grapi!s on; ods sele!t Fiser*earsonorr; title $nalia pentru rupul 1$; pro! !orr data"simulare -ere"grup"1// #iserro0".5/; var ;
run;
-
7/23/2019 TDM - Laborator 07
13/15
ods grapi!s o##;ods tml !lose;
/ezultatele rulrii aplicaiei sunt cele din igurile 0.## %i 0.#. Testul este produs cuopiunea #iserro0".5. /ezultatul$ bazat pe transormarea I a lui 2iser$ este prezentat nigura 0.#. 'aloarea p calculat (p-value) iind mai mic dec&t .#$ ipoteza nul se respinge.
2igura 0.##. Statistici simple %i coeicientul de corelaie
2igura 0.#. Testul I pentru ipoteza nul +: JB.;
*. estul privind egalitatea corela&iei pentru dou grupuri
2olosind tabelul si#ulare$ pentru observaiile din grupurile # %i se va testa ipoteza nulconorm creia corelaia ntre variabilele A %i G este aceea%i n cele dou grupuri.
+: J# B J+#: J# K J
-
7/23/2019 TDM - Laborator 07
14/15
ods tml;ods output Fiser*earsonorr")imorr;title $:estul privind egalitatea !orelatiei pentru doua grupuri$;
proccorrdata"simulare -ere"grup"1or grup"2// #iser nosimple no!orr; var ; + grup;run;ods tml !lose;
'igura 7.$0. rans%or#rile : pentru cele dou grupuri
Observa&ii,
piunile ?S=@!D %i ?1// inib ai%area statisticilor simple %i a tabelului cucoeicienii de corelaie !earson3
Speciicaia ods output Fiser*earsonorr")imorr; creeaz tabelul Sim1orr$conin&nd valorile I pentru cele dou grupuri analizate3
'aloarea p (p-value) pentru testarea ipotezei + rezult din tratarea diereneiz1-z2 ca ovariabil aleatoare normal de medie %i dispersie 1/(n1-3) + 1/(n2-3), undez1iz2
-
7/23/2019 TDM - Laborator 07
15/15
sunt transormrile I pentru cele dou grupuri$ iar n1i n2 sunt numrul de observaiicorespunztoare celor dou grupuri. "cest valoare p se calculeaz cu urmtorul codS"S:
data )im:est drop"grup/; merge )imorr -ere"grup"1/ &eep"al grup
rename"?/@ (x) returneaz probabilitatea ca o observaie dintr-o distribuie
normal s ie mai mic sau egal dec&t argumentul x.