tdm - laborator 07

Upload: popescu-stefania

Post on 13-Feb-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/23/2019 TDM - Laborator 07

    1/15

    Laborator 7. Analiza statistic a legturilor dintre variabile

    Procedura CORR

    - Testeaz corelaia (legtura) ntre variabile.

    Sintaxa procedurii:

    PROC CORR ; ;RU;

    Una din cele mai olosite msuri ale legturii dintre dou variabile este coeicientul decorelaie parametric !earson. "cesta ia valori n intervalul (-#$#) %i exprim at&t tria$ c&t %idirecia dependenei liniare. 'aloarea a coeicientului indic lipsa legturii liniare. valoarepozitiv a coeicientului indic o dependen direct a celor dou variabile (cre%terea uneia duce

    la cre%terea celei de-a doua). valoare negativ a coeicientului indic o dependen invers acelor dou variabile (cre%terea uneia duce la scderea celei de-a doua).

    "lte msuri ale corelaiei sunt coeicientul Spearman$ coeicientul *endall Tau-b %icoeicientul +oeding. "cestea sunt msuri neparametrice ale corelaiei (pot i aplicate inclusivvariabilelor care nu sunt numerice)$ prin calcularea rangurilor corespunztoare valorilor ordinale.

    !"e#plul 7.$. Coe%icientul de corela&ie Pearson

    Tabelul'itness conine date reeritoare la persoanele care au participat la un curs deitness. 'ariabilele sunt: varsta (n ani)$ greutate (n ,g)$ oxigen (oxigenul inalat$ n ml per ,g

    per minut) %i timp (timpul n minute obinut la alergarea a ,m).

    data Fitness; input varsta greutate oxigen timp @@; datalines; 44 89.47 44.609 11.37 40 75.07 45.313 10.07

    44 85.84 54.297 8.65 42 68.15 59.571 8.1738 89.02 49.874 . 47 77.45 44.811 11.6340 75.98 45.681 11.95 43 81.19 49.091 10.8544 81.42 39.442 13.08 38 81.87 60.055 8.6344 73.03 50.541 10.13 45 87.66 37.388 14.0345 66.45 44.754 11.12 47 79.15 47.273 10.6054 83.12 51.855 10.33 49 81.42 49.156 8.95

    51 69.63 40.836 10.95 51 77.91 46.672 10.0048 91.63 46.774 10.25 49 73.37 . 10.0857 73.37 39.407 12.63 54 79.38 46.080 11.1752 76.32 45.441 9.63 50 70.87 54.625 8.9251 67.25 45.118 11.08 54 91.63 39.203 12.8851 73.71 45.790 10.47 57 59.08 50.545 9.9349 76.32 . . 48 61.24 47.920 11.5052 82.78 47.467 10.50;

    ods tml;

  • 7/23/2019 TDM - Laborator 07

    2/15

    ods grapi!s on;pro! !orr data"Fitness plots;run;ods grapi!s o##;ods tml !lose;

    /ezultatele rulrii aplicaiei sunt cele din igurile 0.# %i 0.:

    'igura 7.$. (tatistici si#ple )i coe%icientul Pearson

  • 7/23/2019 TDM - Laborator 07

    3/15

    'igura 7.*. +atricea gra%ic de corela&ie

    Observa&ii,

    !rocedura 1// ai%eaz statistici simple$ precum numr de observaii$ medie$deviaie standard$ sum$ valoare minim %i maxim (2igura 0.#)3

    4ntruc&t nu este speciicat o list de variabile cu opiunea '"/$ procedura 1//analizeaz corelaia pentru toate perecile de c&te dou variabile numerice(2igura 0.#)3

    Tabelul de corelaie este o matrice simetric de dimensiune 5x5$ av&nd pediagonala principal valoarea coeicientului de corelaie !earson pentru ovariabil cu ea ns%i (coeicient egal cu #).

    2iecare celul a tabelului conine coeicientul de corelaie$ valoarea p calculatpentru testarea valorii coeicientului %i numrul de observaii valide. !entruiecare coeicient de corelaie calculat este eectuat testul av&nd ipoteza nulconorm creia valoarea coeicientului este . valoare mic p-value respingeipoteza nul.

    6e exemplu$ valoarea coeicientului de corelaie pentru variabilele timp %i oxigen

    este -.78759$ cu valoarea p mai mic de .#. "cest apt indic o dependenliniar invers puternic ntre cele dou variabile. 4n timp ce timpul de alergarecre%te$ nivelul oxigenului scade.

    piunea !TS a procedurii 1// produce o matrice graic simetric$ pentruvariabilele analizate. Se observ %i din graicul corespunztor variabilelor timp %ioxigen dependena liniar invers. (2igura 0.)3

  • 7/23/2019 TDM - Laborator 07

    4/15

    !"e#plul 7.*. Alte #suri ale corela&iei -corela&ia para#etric )i

    nepara#etric

    ods tml;

    title $%asuri ale !orelatiei$;pro! !orr data"Fitness pearson spearman &endall oe##ding; var greutate oxigen timp;run;

    ods tml !lose;

    Tabelul de dat este cel cu numele 'itness/ creat n exemplul anterior (vezi exemplul 0.#).!rocedura 1// calculeaz patru msuri ale corelaiei dintre dou variabile: coeicientul

    !earson$ coeicientul Spearman$ coeicientul *endall Tau-b %i coeicientul +oeding. S-aspeciicat cu clauza '"/ lista de variabile analizate (greutate$ oxigen %i timp).

    bservaie: coeicientul !earson este calculat implicit numai dac nu sunt speciicate altemsuri$ a%a cum a ost n cazul exemplului 0.#.

    6e%i este calculat n mod dierit$ valorile iind dierite ntre diversele metode decorelaie$ se observ din nou c singura corelaie semniicativ este cea ntre variabilele ti#p%io"igen.

    /ezultatele rulrii aplicaiei sunt cele din igurile 0.9 %i 0.5:

    'igura 7.0. (tatistici si#ple

  • 7/23/2019 TDM - Laborator 07

    5/15

    'igura 7.1. Coe%icien&i de corela&ie

    !"e#plul 0. Corela&ii 2ntre dou seturi de variabile

    Tabelul de date iris3setosaconine o parte din msurtorile eectuate de 2iser asuprairi%ilor. Tabelul se reer la specia Setosa %i conine ca variabile lungimea %i limera sepalei %ilungimea %i limea petalei pentru ; de lori studiate.

    "cest exemplu studiaz corelaia ntre dou seturi de variabile: cel reeritor la mrimea(lungime %i lime) sepalei %i cel reeritor la mrimea petalei.

    data iris'setosa;

    input (g)epala l)epala (g*etala l*etala @@; la+el (g)epala "$(ungimea sepalei in mm$ l)epala "$(atimea sepalei in mm$ (g*etala "$(ungimea petalei in mm$ l*etala "$(atimea petalei in mm$; datalines; 50 33 14 02 46 34 14 03 46 36 . 02 51 33 17 05 55 35 13 02 48 31 16 02 52 34 14 02 49 36 14 01 44 32 13 02

  • 7/23/2019 TDM - Laborator 07

    6/15

    50 35 16 06 44 30 13 02 47 32 16 02 48 30 14 03 51 38 16 02 48 34 19 02 50 30 16 02 50 32 12 02 43 30 11 . 58 40 12 02 51 38 19 04 49 30 14 02 51 35 14 02 50 34 16 04 46 32 14 02 57 44 15 04 50 36 14 02 54 34 15 04 52 41 15 . 55 42 14 02 49 31 15 02 54 39 17 04 50 34 15 02 44 29 14 02 47 32 13 02 46 31 15 02 51 34 15 02 50 35 13 03 49 31 15 01 54 37 15 02 54 39 13 04 51 35 14 03 48 34 16 02 48 30 14 01 45 23 13 03 57 38 17 03 51 38 15 03 54 34 17 02 51 37 15 04 52 35 15 02 53 37 15 02 ; ods tml; title $)tudiul lui Fiser , spe!ia )etosa $; pro! !orr data"iris'setosa !ov; var (g)epala l)epala; -it (g*etala l*etala;

    run; ods tml !lose;

    /ezultatele rulrii aplicaiei sunt cele din igurile 0.; %i 0.8:

    'igura 7.4. +atricea de covarian&5varian&

  • 7/23/2019 TDM - Laborator 07

    7/15

    'igura 7.6. (tatistici si#ple )i coe%icientul de corela&ie Pearson

    Observa&ii,

    !rocedura 1// este olosit cu opiunea 1'$ care produce matricea decovarian din igura 0.;. 4n iecare celul a matricii$ pe prima linie este valoareacovarianei$ a doua este valoarea varianei (dispersiei) pentru variabilacorespunztoare liniei$ a treia este variana variabilei corespunztoare coloanei$iar a patra valoare din celul este numrul gradelor de libertate pentru respectiva

    perece de variabile. Toate aceste valori se calculeaz olosind observaiile rvalori lips (de aici dierena numrul gradelor de libertate)3 !rocedura 1// este olosit cu clauzele '"/ %i

  • 7/23/2019 TDM - Laborator 07

    8/15

    !"e#plul 7.1. !lipse de predic&ie

    Tabelul de date Pesticonine msurtori eectuate asupra unui set de 9; de pe%ti dinspecia >ream$ capturai ntr-un lac din 2inlanda. 2iecrui pe%te i s-au msurat: greutatea (n

    grame)$ lungimea (n cm$ de la nas p&n la v&rul cozii)$ nlimea (n cm$ inclusiv cu aripioareledorsale) %i limea (n cm$ r aripioare).

    data*esti ; title $%asurari asupra pestilor$; input greutate lungime inaltime latime @@; datalines;242 30.00 11.52 4.02 290 31.20 12.48 4.31340 31.10 12.38 4.70 363 33.50 12.73 4.46430 34.00 12.44 5.13 450 34.70 13.60 4.93500 34.50 14.18 5.28 390 35.00 12.67 4.69450 35.10 14.00 4.84 500 36.20 14.23 4.96475 36.20 14.26 5.10 500 36.20 14.37 4.81

    500 36.40 13.76 4.37 . 37.30 13.91 5.07600 37.20 14.95 5.17 600 37.20 15.44 5.58700 38.30 14.86 5.29 700 38.50 14.94 5.20610 38.60 15.63 5.13 650 38.70 14.47 5.73575 39.50 15.13 5.57 685 39.20 15.99 5.37620 39.70 15.52 5.28 680 40.60 15.47 6.13700 40.50 16.24 5.59 725 40.90 16.36 6.05720 40.60 16.36 6.09 714 41.50 16.52 5.85850 41.60 16.89 6.20 1000 42.60 18.96 6.60920 44.10 18.04 6.31 955 44.00 18.08 6.29925 45.30 18.75 6.75 975 45.90 18.64 6.75950 46.50 17.62 6.37;

    ods tml;ods grapi!s on;

    proccorrdata"pesti nomiss plots"s!atternmaxvar"2alpa".20.30/; var latime lungime inaltime greutate;run;

    ods grapi!s o##;ods tml !lose;

    /ezultatele rulrii aplicaiei sunt cele din igurile 0.0. %i 0.7.

  • 7/23/2019 TDM - Laborator 07

    9/15

    'igura 7.7. (tatistici si#plu )i coe%icien&i de corela&ie

    'igura 7.. !lipse de predic&ie

  • 7/23/2019 TDM - Laborator 07

    10/15

    Observa&ii,

    !rocedura 1// este olosit cu opiunea !T -plots"s!atternmaxvar"2alpa".20.30/). "ceasta creeaz un graic de tip Scatter pentru primele dou variabilespeciicate n clauza '"/ (latime %i lungime). piunea ?@"A'"/ indic numrul de

    variabile pentru care s se realizeze graicul (aici )$ iar opiunea "!+" indic limitele dencredere ale regiunilor (elipselor) de predicie. "stel$ semniicaia valorii alpaB. esteurmtoarea: cunosc&nd una dintre variabilele lungime sau latime$ se poate airma cu oprobabilitate de 7C (.7) c cealalt variabil (cea necunoscut) se al n interiorul elipseiconstruite3

    !rocedura 1// produce tabelul de statistici simple din igura 0.0. reeritor lacele patru variabile speciicate n clauza '"/$ precum %i tabelul conin&nd coeicientul decorelaie !earson. Se observ o dependen direct oarte puternic ntre cele patru variabile.

    !"e#plul 7.4. Corela&ii par&iale

    1orelaia dintre dou variabile poate induce uneori n eroare %i poate i diicil deinterpretat atunci c&nd ntre cele dou variabile exist alte variabile$ responsabile de dependenacomun a celor dou.

    Corela&ia par&ialmsoar dependena liniar dintre dou variabile$ elimin&nd eectul(prin meninerea constant) a celorlalte variabile din model.

    Dxemplul 0.;. olose%te tabelul de date pesti(vezi exemplul 0.5). Se va calcula corelaiaparial a variabilelor latime %i lungime$ prin eliminarea eectului variabilelor inaltime %igreutate.

    ods tml;ods grapi!s on;

    proccorrdata"pesti plots"s!atteralpa".20.30/; var latime lungime; partial inaltime greutate;run;

    ods grapi!s o##;ods tml !lose;

    /ezultatele execuiei aplicaiei sunt cele din igurile 0.E %i 0.#. Se observ coeicientulde corelaie parial al variabilelor lungime %i latime (.#8)$ mult mai mic dec&t cel obinut la

    exemplul anterior.4n igura 0.#. sunt reprezentate graic reziduurile variabilelor lungime %i latime$ n urma

    eliminrii eectului celorlalte variabile. deviaie standard a variabilei latime are aproapeaceea%i lungime pe axa x cu o deviaie standard a variabilei lungime pe axa F$ ceea ce indico slab corelaie a celor dou variabile.

  • 7/23/2019 TDM - Laborator 07

    11/15

    'igura 7.8. Coe%icientul de corela&ie par&ial

    'igura 7.$9. Reziduuri par&iale

  • 7/23/2019 TDM - Laborator 07

    12/15

    !"e#plul 7.6. Aplica&ii ale trans%or#rii : -'iser#. Testul privind egalitatea coeicientului de corelaie cu o valoare dat2. Testul privind egalitatea corelaiei pentru dou grupuri

    Urmtorul cod S"S creeaz un tabel de date prin generarea aleatoare a 5 de valori

    pentru variabilele A %i G av&nd o distribuie normal. !rimul grup de #; de observaii estegenerat olosind o corelaie cunoscut de .9. "l doilea grup de #; de observaii este generat cuo corelaie de .;$ iar al treilea grup de # de observaii cu corelaia .9.

    data simulare drop"i/; do i"1 to 400; " rannor135791/; rup " 1 i150/ i300/; i# rup " 1 ten " 0.3 0.9rannor246791/; i# rup " 2 ten " 0.25 srt.8375/rannor246791/; i# rup " 3 ten " 0.3 0.9rannor246791/; output; end;

    run;

    Observa&ii,

    piunea 6/!Bi inib adugarea lui i ca variabil n tabelul de date3 2uncia /"??/(n) genereaz aleator valori ale unei variabile normale ?($#)3 !arametrul unciei /"??/(n) este numit %i seed. 2unciile de generare

    aleatoare genereaz %iruri (stream-uri) de numere aleatoare ncep&nd de la unpunct de start (numit seed) dat de utilizator sau de ceasul sistem. valoare seedtrebuie s ie un ntreg nenegativ mai mic dec&t 9#-# (sau $#50$579$850). 6acse olose%te un seed strict pozitiv$ %irul de numere generate poate i oric&ndrepetat$ prin olosirea aceluia%i cod 6"T". 6ac valoarea seed este $ atunci

    generarea este iniializat de ceasul sistem$ iar %irul de numere aleatoare nu poatei obinut n mod repetat3

    instruciune " % srt)/rannorseed/; are ca eect generarea uneivalori aleatoare pentru variabila GH?(@$S) (normal de medie @ %i dispersie S)

    $. estul privind egalitatea coe%icientului de corela&ie cu o valoare dat

    2olosind tabelul si#ulare$ pentru observaiile din grupul #$ se va testa ipoteza nulconorm creia coeicienul de corelaie al variabilelor A %i I este .;

    +: JB.;+#: JK.;

    ods tml;ods grapi!s on; ods sele!t Fiser*earsonorr; title $nalia pentru rupul 1$; pro! !orr data"simulare -ere"grup"1// #iserro0".5/; var ;

    run;

  • 7/23/2019 TDM - Laborator 07

    13/15

    ods grapi!s o##;ods tml !lose;

    /ezultatele rulrii aplicaiei sunt cele din igurile 0.## %i 0.#. Testul este produs cuopiunea #iserro0".5. /ezultatul$ bazat pe transormarea I a lui 2iser$ este prezentat nigura 0.#. 'aloarea p calculat (p-value) iind mai mic dec&t .#$ ipoteza nul se respinge.

    2igura 0.##. Statistici simple %i coeicientul de corelaie

    2igura 0.#. Testul I pentru ipoteza nul +: JB.;

    *. estul privind egalitatea corela&iei pentru dou grupuri

    2olosind tabelul si#ulare$ pentru observaiile din grupurile # %i se va testa ipoteza nulconorm creia corelaia ntre variabilele A %i G este aceea%i n cele dou grupuri.

    +: J# B J+#: J# K J

  • 7/23/2019 TDM - Laborator 07

    14/15

    ods tml;ods output Fiser*earsonorr")imorr;title $:estul privind egalitatea !orelatiei pentru doua grupuri$;

    proccorrdata"simulare -ere"grup"1or grup"2// #iser nosimple no!orr; var ; + grup;run;ods tml !lose;

    'igura 7.$0. rans%or#rile : pentru cele dou grupuri

    Observa&ii,

    piunile ?S=@!D %i ?1// inib ai%area statisticilor simple %i a tabelului cucoeicienii de corelaie !earson3

    Speciicaia ods output Fiser*earsonorr")imorr; creeaz tabelul Sim1orr$conin&nd valorile I pentru cele dou grupuri analizate3

    'aloarea p (p-value) pentru testarea ipotezei + rezult din tratarea diereneiz1-z2 ca ovariabil aleatoare normal de medie %i dispersie 1/(n1-3) + 1/(n2-3), undez1iz2

  • 7/23/2019 TDM - Laborator 07

    15/15

    sunt transormrile I pentru cele dou grupuri$ iar n1i n2 sunt numrul de observaiicorespunztoare celor dou grupuri. "cest valoare p se calculeaz cu urmtorul codS"S:

    data )im:est drop"grup/; merge )imorr -ere"grup"1/ &eep"al grup

    rename"?/@ (x) returneaz probabilitatea ca o observaie dintr-o distribuie

    normal s ie mai mic sau egal dec&t argumentul x.