lp 18/24 an 2 2008 - seria 7 - homeseria7.weebly.com/uploads/4/0/8/5/4085189/mg_lp10_2011.pdf · ca...

9

Click here to load reader

Upload: phamnga

Post on 07-Feb-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: lp 18/24 an 2 2008 - Seria 7 - Homeseria7.weebly.com/uploads/4/0/8/5/4085189/mg_lp10_2011.pdf · ca scop determinarea relaţiei între obezitatea femeilor şi unele date antropometrice

UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 10 2011/2011

119

Indicaţii generale:

În cadrul modelelor de regresie multiplă ne interesează influenţa variabilelor

predictor (în număr de două sau mai multe) asupra variabilei răspuns.

Variabila răspuns ar putea fi, de exemplu, durata de spitalizare a pacientului, pentru

care am dori o estimare în momentul internării. Variabila răspuns ar putea reprezenta, de

asemenea, o mărime dificil de măsurat, în condiţiile în care variabilele predictor sunt

măsurabile mult mai facil.

Pot prezenta interes următoarele:

1. Care este importanţa relativă a efectului fiecărei variabile predictor?

2. Ar putea fi oare eliminată din model o anumită variabilă predictor, dat fiind

că efectul ei asupra variabilei răspuns pare neglijabil?

3. Ar trebui incluse în model alte variabile predictor?

4. Modelul obţinut este bun pentru a face predicţii?

În această lucrare practică veţi exemplifica diverse situaţii în care s-ar putea obţine

modele de regresie:

a) simplă, liniară sau neliniară,

b) multiplă, liniară sau cu interacţiune,

încercând validarea lor pentru a fi folosite în prognoze.

Teme 44: folosirea testului Student

45: linii de tendinţă în Excel

46: regresia liniară cu Epi Info

specială: regresia multiplă

Softul ce va fi utilizat în lucrarea practică:

Excel, Epi Info

Page 2: lp 18/24 an 2 2008 - Seria 7 - Homeseria7.weebly.com/uploads/4/0/8/5/4085189/mg_lp10_2011.pdf · ca scop determinarea relaţiei între obezitatea femeilor şi unele date antropometrice

MG - Lucrarea practică 10 2011/2012 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

120

Tema 44: folosirea testului Student.

Creaţi documentul Word denumit nume_TESTULT, cu următorul conţinut:

Testul t (Student) este folosit de obicei în două situaţii:

(a) cele două grupuri de observaţii (ce trebuie comparate) sunt obţinute de la aceiaşi

indivizi, testaţi de două ori (de exemplu înainte şi după un tratament). Este evident că

datele obţinute sunt „în perechi”, prin urmare Type = 1. Se testează:

a1) în cazul unui test unilateral, afirmaţia „în urma tratamentului, situaţia

pacientului se îmbunătăţeşte”. Este evident că va trebui să controlăm, anterior efectuării

testului, dacă între mediile observaţiilor există relaţia corespunzătoare afirmaţiei (în caz

contrar testul nu-şi are rostul, el se aplică de fapt pentru afirmaţia „în urma tratamentului,

situaţia pacientului se înrăutăţeşte”); în acest caz Tails = 1;

a2) în cazul unui test bilateral, afirmaţia „în urma tratamentului, situaţia pacientului

se modifică”; în acest caz Tails = 2;

(b) cele două grupuri de observaţii sunt obţinute de la indivizi din grupuri net diferite

(de exemplu, un grup este format din pacienţii trataţi cu un medicament, celălalt grup, cel

de control, este format din pacienţii „trataţi” cu placebo). De data aceasta Type este 2 sau

3, în funcţie de situaţia varianţelor celor două grupuri. De regulă nu avem informaţi despre

varianţe, ceea ce ne obligă să acceptăm că ele ar fi diferite între ele (cazul

heteroscedastic), ceea ce înseamnă că Type = 3. Uni- sau bilateralitatea se tratează exact

ca în situaţia (a). Se testează de fapt afirmaţia „pacienţii trataţi medicamentos se comportă

mai bine (respectiv diferit) faţă de cei trataţi cu placebo”.

Testul t este un test parametric, comparaţia făcându-se la nivelul mediilor. Testul

neparametric corespunzător, aplicabil în cazul datelor ordinale, este testul Wilcoxon.

Tema 45: linii de tendinţă în Excel.

Tabelul următor prezintă vârsta şi nivelul steroizilor în plasmă pentru câteva persoane

de sex feminin.

vârsta 8 9 10 10 11 12 13 14 15 16 18 18 20 20 23 23 25

nivelul 4 6 8 11 11 15 20 22 22 25 23 25 24 22 18 20 15

Ce sugerează aceste date?

Chiar dacă răspunsul pare evident (deoarece datele au fost ordonate crescător după

vârstă): nivelul steroizilor creşte odată cu vârsta, până la circa 20 ani, apoi scade, este

recomandată întocmirea unei diagrame de tipul X-Y şi aplicarea metodei regresiei (dar nu

liniare!)

Plasând datele întro foaie de calcul a fişierului Excel denumit nume_STEROIZI

(recomandăm plasarea datelor pe două coloane şi redenumirea foii ca „Datele”!), putem

crea imediat diagrama (ca foaie separată, denumită „Diagrama”): Nivelul steroizilor y = -0.212x

2 + 7.7085x - 45.845

R2 = 0.961

0

5

10

15

20

25

30

0 5 10 15 20 25 30

Vârsta (ani)

Page 3: lp 18/24 an 2 2008 - Seria 7 - Homeseria7.weebly.com/uploads/4/0/8/5/4085189/mg_lp10_2011.pdf · ca scop determinarea relaţiei între obezitatea femeilor şi unele date antropometrice

UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 10 2011/2011

121

Inseraţi pe diagramă dreapta de tendinţă liniară (se mai numeşte şi dreapta de regresie).

Este vizibil că dreapta de tendinţă liniară nu ajustează bine datele. În schimb, o curbă

parabolică (tendinţă polinomială de gradul 2) are un coeficient de determinaţie foarte bun

(0.961) şi poate fi folosită pentru a efectua „prognoze”. Curba ne sugerează inversarea la

vârsta de 18 ani a tendinţei de creştere a nivelului steroizilor.

Ce nivel al steroizilor ne aşteptăm să găsim la persoanele în vârstă de 21 şi 24 ani? Este

utilă curba pentru a prognoza nivelul steroizilor la persoanele în vârstă de 40 ani?

Părerea nutriţioniştilor este că masa musculară, la persoanele de sex feminin şi vârstă

înaintată, descreşte odată cu vârsta. Datele de care dispunem, măsurate de un nutriţionist

pentru 16 persoane de sex feminin, sunt următoarele.

vârsta 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78

masa musc. 41 45 50 34 43 36 39 40 32 42 58 38 48 50 52 38

Putem estima masa musculară medie pentru o femeie de 60 de ani? Putem accepta

părerea nutriţioniştilor?

Adăugaţi masa musculară evaluată de d-voastră pentru alte două persoane, şi încercaţi

să interpretaţi datele obţinute prin regresie liniară simplă şi prin regresie neliniară. Plasaţi

datele din cele două tabele anterioare, explicaţiile despre ele şi diagramele obţinute întrun

document denumit nume_REGRESII.doc.

Tema 46: regresia liniară cu Epi Info.

Dorim să găsim o formulă care să ne ajute să prezicem durata de spitalizare (D) odată

ce cunoaştem vârsta (V) şi sexul (S) al pacientului. Valorile lui S le definim astfel: 1 =

masculin, 0 = feminin.

Cea mai simplă formulă o obţinem folosind un model de regresie liniară multiplă

D = 0 + 1V + 2S

în care coeficienţii 0, 1, 2 vor fi obţinuţi prin estimare, odată ce cunoaştem datele (di, vi,

si) dintr-un eşantion.

Folosind sub-eşantionul format doar din pacienţii de sex feminin, modelul de regresie se

reduce (teoretic) la

D = 0 + 1V.

Iar dacă folosim sub-eşantionul format doar din pacienţii de sex masculin, modelul de

regresie devine

D = (0 + 2) + 1V.

Observăm că în toate cele trei modele avem acelaşi coeficient pentru vârsta V, iar

termenii liberi diferă între ei exact prin coeficientul lui S.

Însă este esenţial să ne dăm seama că din sub-eşantioane nu vom obţine decât estimaţii

ale parametrilor. De exemplu, pentru parametrul 1 vom obţine estimaţiile 1 şi 1 . Nu

avem motive să credem că aceste estimaţii ar fi egale. Dar oare sunt „apropiate” ca valori?

Să exploatăm datele din fişierul LP10_1.xls, în care coloanele corespund variabilelor

noastre în mod evident.

DURATA = D, VARSTA = V, SEXUL = S.

Adăugaţi datele a doi pacienţi suplimentari (de sexe diferite), apoi preluaţi-le în tabel în

fişierul document nume_PREDICTIE.doc, dedesubtul unei explicaţii de clarificare

Tabelul următor conţine vârsta (în ani), sexul şi durata de spitalizare a 56 de pacienţi

internaţi în Spitalul Judeţean începând cu data de 1 mai 2008

şi deasupra textului următor:

Pe baza acestor date dorim să determinăm o formulă de calcul care să ne permită

prognozarea duratei de spitalizare pentru un pacient nou, odată ce-i înregistrăm vârsta şi

sexul. Folosim în acest scop comanda REGRESS din EpiInfo.

Page 4: lp 18/24 an 2 2008 - Seria 7 - Homeseria7.weebly.com/uploads/4/0/8/5/4085189/mg_lp10_2011.pdf · ca scop determinarea relaţiei între obezitatea femeilor şi unele date antropometrice

MG - Lucrarea practică 10 2011/2012 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

122

Preluaţi aşadar datele în EpiInfo, apoi folosiţi comanda Advanced Statistics→ Linear

Regression, încercând să determinaţi execuţia comenzii (în clar)

REGRESS DURATA = VARSTA SEXUL

EpiInfo vă va oferi rapid, ca rezultate, valorile

0̂ (CONSTANT) = (aproximativ) –22.477

1̂ (VARSTA) = (aproximativ) 0.699, 2̂ (SEXUL) = (aproximativ) 0.014.

Cu toate că se raportează un coeficient de determinaţie multiplă destul de mare

(aproximativ 0.73), valoarea p ataşată variabilei SEXUL – de aproximativ 0.97 – ne

determină (la prima vedere) să validăm mai degrabă ipoteza nulă H0: 02 . Facem însă o

eroare de principiu (care?).

Să verificăm că EpiInfo „calculează” bine, exploatând în acest scop cele două regresii

simple corespunzătoare sub-eşantioanelor stratificate după sex.

Vom utiliza mai întâi comanda Select/If→Select, impunând condiţia SEXUL = 0.

Pentru datele rămase vom comanda

REGRESS DURATA = VARSTA.

Ca rezultate ar trebui să obţinem estimaţiile pentru parametrii 0 (CONSTANT) şi 1

(VARSTA). Aproximativ, aceste estimaţii sunt 5.170 şi 6.01 .

Reluaţi schimbând sub-eşantionul. Va trebui să comandaţi Select/If→Cancel Select,

apoi să selectaţi impunând condiţia SEXUL = 1. în final comanda

REGRESS DURATA = VARSTA

va avea ca efect obţinerea unei noi estimaţii pentru parametrul 1 (VARSTA). Această

estimaţie este, aproximativ, 76.01 .

Coeficienţii de determinaţie multiplă sunt, în ambele situaţii, destul de mari, iar valorile

p asociate sunt foarte mici, ceea ce ne determină acceptarea ipotezelor că avem coeficienţi

diferiţi de zero. Erorile standard raportate ne ajută să formăm intervale de încredere 95%

pentru coeficienţi.

Completaţi documentul cu următoarele (înlocuind numerele dintre paranteze):

Pentru pacienţii bărbaţi, formula de calcul a duratei de spitalizare este

Durata de spitalizare (în zile) = (–25.6) + (0.76) *Vârsta (în ani)

Statistica ne indică, datorită mărimii eşantionului pe care l-am folosit – şi datorită

unor ipoteze de normalitate – următoarele intervale de încredere 95%

[(–33.4), (–17.8)] pentru constanta din formulă,

[(0.6), (0.9)] pentru coeficientul 1 al lui VARSTA.

Al doilea interval de încredere conţine „in extremis” estimaţia 1 obţinută anterior.

Încrederea în rezultatele calculate cu această formulă ar trebui să fie mediocră,

întrucât coeficientul de determinaţie este mare, dar nu suficient pentru a accepta pentru

prognoze o formulă liniară.

De fapt, situaţia anterioară (în care avem de-a face cu variabile predictor de tip binar)

este tipică pentru inserarea în model a unor termeni reprezentând interacţiuni. Mai precis,

ar trebui să folosim un model de regresie (liniară?) multiplă

D = 0 + 1V + 2S + 3V*S

în care termenul produs V*S poartă numele de termen de interacţiune.

În EpiInfo includerea unui asemenea termen este facilă. Calea cea mai simplă constă în

exploatarea ferestrei REGRESS. După selectarea variabilelor VARSTA şi SEXUL din lista

derulantă Other Variables şi trecerea lor în lista de dedesubt, o nouă selectare a lor va

Page 5: lp 18/24 an 2 2008 - Seria 7 - Homeseria7.weebly.com/uploads/4/0/8/5/4085189/mg_lp10_2011.pdf · ca scop determinarea relaţiei între obezitatea femeilor şi unele date antropometrice

UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 10 2011/2011

123

determina activarea butonului Make Interaction. Apăsarea acestui buton va determina

apariţia termenului dorit VARSTA*SEXUL în lista Interaction Terms.

Comentaţi în documentul nume_PREDICTIE.doc informaţiile raportate de către

EpiInfo pentru o asemenea situaţie. Identificaţi de asemenea intervale de încredere 95%

pentru cei patru parametri ai regresiei liniare multiple. (Atenţie, plasaţi în document

valorile numerice pe care le-aţi obţinut, NU cele care sunt în chenar!)

Informaţi-vă asupra tratării unei variabile ca variabilă dummy.

Puteţi imagina situaţii în care din date medicale se pot crea formule valabile pentru

prognoze?

În fişierul LP10_2.xls se află o parte dintre datele obţinute în urma unui studiu ce avea

ca scop determinarea relaţiei între obezitatea femeilor şi unele date antropometrice care pot

fi măsurate direct, fără dificultăţi: grosimea pielii tricepsului (X1), circumferinţa coapsei

(X2), circumferinţa braţului (X3).

Cantitatea de grăsime în corp (Y) nu poate fi „măsurată” direct; ea poate fi evaluată

prin procedura imersiunii persoanelor în apă, procedură care nu poate fi aplicată în mod

curent.

Este oare posibil să găsim o formulă care să ne permită să evaluăm cantitatea de

grăsime în corp bazându-ne doar pe cele trei date obţinute prin măsurare directă? Dacă

da, este oare necesar să efectuăm toate cele trei măsurători?

Adăugaţi două înregistrări noi (a 21-a şi a 22-a), apoi încercaţi să daţi răspunsuri la

întrebări şi inseraţi textul încadrat şi răspunsurile în documentul nume_PREDICTIE. Ar

trebui să efectuaţi următoarele operaţiuni cu Excel:

- trei diagrame de tipul X-Y, anume

a) ale perechii SKIN_THICK, THIGH_CIRC,

b) ale perechii SKIN_THICK, MIDARM_CIRC,

c) ale perechii THIGH_CIRC, MIDARM_CIRC.

- inserarea pe diagrame a celor trei „drepte de tendinţă”, precum şi a coeficienţilor de

determinaţie respectivi;

- calculul coeficienţilor de corelaţie Pearson. De exemplu, coeficientul de corelaţie

între setul de date THIGH_CIRC şi setul de date MIDARM_CIRC se obţine prin

formula =CORREL(B2:B22,C2:C22).

Această ultimă valoare este apropiată de 0, ceea ce indică faptul că rezultatele măsură-

torilor circumferinţei coapsei sunt independente de cele ale măsurătorilor circumferinţei

braţului. În schimb, coeficientul de determinaţie între grosimea pielii tricepsului

(SKIN_THICK = X1) şi circumferinţa coapsei (THIGH_CIRC = X2) este destul de mare,

ceea ce indică o posibilă legătură liniară între aceste date. Completaţi documentul cu

următoarele (introducând coeficienţii numerici pe care i-aţi obţinut):

Dacă ar fi să renunţăm la una dintre cele trei măsurători, atunci am putea renunţa mai

degrabă la măsurarea grosimii pielii tricepsului, această grosime fiind corelată pozitiv cu

circumferinţa coapsei. O bună aproximare pentru grosimea pielii tricepsului este

obţinută prin formula

SKIN_THICK = (0.89)* THIGH_CIRC + (–20.06)

Dacă avem la dispoziţie toate cele trei date, atunci formula pe care o obţinem prin

regresie liniară multiplă este următoarea:

Y (BODY_FAT) = ( ) + ( )*SKIN_THICK + ( )*THIGH_CIRC + ( )*MIDARM_CIRC

Ea este obţinută ca urmare a comenzii Analiza Datelor→Regresie/Data Analysis→

Regression din meniul Instrumente/Tools din Excel.

Page 6: lp 18/24 an 2 2008 - Seria 7 - Homeseria7.weebly.com/uploads/4/0/8/5/4085189/mg_lp10_2011.pdf · ca scop determinarea relaţiei între obezitatea femeilor şi unele date antropometrice

MG - Lucrarea practică 10 2011/2012 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

124

Este posibil ca modulul de analiză a datelor să nu fie disponibil în Excel. Exact aceleaşi

rezultate numerice vor fi obţinute – încercaţi – cu EpiInfo, în urma executării unei

comenzi

REGRESS BODY_FAT = SKIN_THICK THIGH_CIRC MIDARM_CIRC

Dintre celelalte rezultate ale comenzii, sunt importante următoarele:

- coeficientul de determinaţie multiplă, de aproximativ 0.80. Valoarea sa destul de

ridicată validează formula (o face utilizabilă);

- valorile p ataşate coeficienţilor. De fapt, o asemenea valoare p este ataşată ipotezei

că coeficientul respectiv este nenul, ceea ce exprimă faptul că variabila predictor

respectivă trebuie să apară în formulă. Lăsând la o parte constanta, observăm o

valoare p destul de mare ataşată coeficientului lui THIGH_CIRC.

Merită analizată situaţia în care renunţăm la a insera variabila THIGH_CIRC în

modelul nostru liniar. În urma executării unei comenzi

REGRESS BODY_FAT = SKIN_THICK MIDARM_CIRC

vom obţine un coeficient de determinaţie multiplă doar puţin mai mic, de aproximativ

0.79, iar valorile p vor confirma necesitatea apariţiei ambelor variabile în modelul liniar,

formula

BODY_FAT = (6.79) + (1.01)*SKIN_THICK + (–0.43)*MIDARM_CIRC

putând fi folosită pentru evaluarea cantităţii de grăsime corporală.

Astfel, pentru o persoană pentru care se constată o grosime a pielii tricepsului de 22 şi o

circumferinţă a braţului de 25, se poate estima la 18.25 kg cantitatea de grăsime în corp.

Iar pentru o persoană pentru care se constată o grosime a pielii tricepsului de 10 şi o

circumferinţă a braţului de 22, se poate estima la 8.25 kg cantitatea de grăsime în corp.

Dar, atenţie, ultima evaluare este riscantă, valorile de 10, respectiv 22 aflându-se în afara

domeniilor de valori ce au fost constatate!

Apare şi problema unităţilor de măsură, care ar fi trebuit precizate de la început? Ce

înseamnă de fapt 22 ca grosime a pielii tricepsului? (Reamintim că datele din fişier au fost

obţinute în urma unui studiu efectuat în S.U.A.).

Calculaţi valorile minime şi maxime ale datelor din coloanele foii de calcul BODYFAT

a cărţii de calcul LP10_2.xls. Ar trebui să aveţi datele coloanei SKIN_THICK între 14 şi

32, iar ale coloanei MIDARM_CIRC între 21 şi 37. Adăugaţi o foaie de calcul nouă,

denumind-o „Grid”. În ea, pregătiţi în domeniul B3:B21 o grilă 14, 15, ..., 32 pentru

valorile grosimii pielii tricepsului, iar în domeniul C2:S2 o grilă 21, 22, ..., 37 pentru

valorile circumferinţei braţului. Plasaţi în celula C1 textul „Circumferinţa braţului”, apoi

unificaţi celulele din domeniul C1:S1. Plasaţi în celula A3 textul „Grosimea pielii

tricepsului”, apoi unificaţi celulele din domeniul A3:A21. Direcţionaţi textul pe verticală.

Plasaţi în celula A1 textul „Grăsimea corporală medie”, apoi unificaţi celulele din

domeniul A1:B2.

Aţi obţinut un tabel, în domeniul C3:S21, ale cărui celule le veţi completa cu numerele

date de formula obţinută. Introduceţi astfel în celula C3 formula =6.79+1.01*$B3–0.43*C$2

(atenţie, folosiţi coeficienţii pe care i-aţi obţinut!) apoi extindeţi-o, prin tragere, la întreg

domeniul. Salvaţi în această ultimă formă cartea de calcul, cu denumirea

nume_CORPORAL.xls.

Sunt plauzibile datele obţinute în acest fel? Unde credeţi că s-a greşit? Care sunt

riscurile folosirii „oarbe” a formulelor?

Page 7: lp 18/24 an 2 2008 - Seria 7 - Homeseria7.weebly.com/uploads/4/0/8/5/4085189/mg_lp10_2011.pdf · ca scop determinarea relaţiei între obezitatea femeilor şi unele date antropometrice

UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 10 2011/2011

125

Tema specială: regresia multiplă.

Scopul propus al SENIC (Studiul Eficacităţii Controlului Infecţiilor Nosocomiale) a

fost acela de a confirma faptul că programele de supraveghere şi control au redus rata

infecţiilor spitaliceşti în S.U.A. Studiul s-a desfăşurat (în perioada 1995-96) pe un eşantion

de 113 spitale alese aleator dintre cele 338 controlate. Au fost prelevate următoarele date:

- durata medie a internării pentru pacienţii spitalului (în zile)

- vârsta medie a pacienţilor (în ani)

- riscul de infecţie = probabilitatea dobândirii unei infecţii în spital, estimată pe baza

datelor statistice

- rata culturilor de rutină = raportul dintre numărul de culturi prelevate şi numărul de

pacienţi fără semne/simptome de infecţii nosocomiale

- rata radiografiilor pulmonare = raportul dintre numărul de radiografii efectuate şi

numărul de pacienţi fără semne/simptome de pneumonie

- numărul de paturi de spital

- afilierea spitalului la o universitate de medicină (1 = da, 2 = nu)

- numărul mediu de pacienţi internaţi zilnic în spital

- numărul de asistente medicale angajate cu normă întreagă.

Datele pot fi preluate din fişierul LP10_3.xls. Identificaţi variabilele şi interpretarea

fiecăreia.

Începeţi completarea documentului nume_SENIC cu următorul text:

Alegem ca variabilă răspuns pe ADM_AVG (durata medie de spitalizare). Anticipăm

că durata medie a internării într-un spital depinde de riscul de infecţie şi de rata

radiografiilor pulmonare. Este oare adecvată formula de calcul obţinută prin regresie

liniară?

Răspunsul este imediat dacă folosim EpiInfo. Evident, variabilele predictor sunt cele

identificate prin INFCT_PROB şi XRAY_Q. Principalul efect al comenzii

REGRESS ADM_AVG = AGE_AVG INFCT_PROB XRAY_Q

este prezentat în tabelul următor

Coefficient Std Error F-test P-Value

AGE_AVG 0.092 0.038 5.9988 0.016501

INFCT_PROB 52.276 14.247 13.4632 0.000437

XRAY_Q 2.424 1.066 5.1718 0.025636

CONSTANT 0.283 2.238 0.0160 0.899588

Chiar dacă valorile p din tabel ne arată că, în formula de dependenţă liniară, coeficienţii

variabilelor predictor sunt semnificativ diferiţi de 0, valoarea mică (de doar 0.32) a

coeficientul de determinaţie multiplă afişat ne determină să apreciem formula ca

inadecvată.

Răspunsul este negativ. Nici introducerea termenului INFCT_PROB*XRAY_Q ca

interacţiune nu ridică prea mult valoarea coeficientului de determinaţie.

Dar oare includerea tuturor variabilelor în model ar produce o formulă adecvată?

Nici această ultimă situaţie nu determină obţinerea unei formule liniare acceptabile.

Acest exemplu ne arată dificultăţile pe care le întâmpinăm în încercările de a „explica”

anumite variabilităţi prin formule liniare, atunci când nu avem bănuieli asupra variabilelor

predictor „veritabile” şi/sau datele de care dispunem sunt lipsite de credibilitate.

Atunci când începem un studiu observaţional, ar trebui să avem în vedere ipoteze clare

bazate pe studii anterioare sau pe bănuieli justificate. Ar trebui să ţinem seama şi de

factorii de risc cunoscuţi.

Page 8: lp 18/24 an 2 2008 - Seria 7 - Homeseria7.weebly.com/uploads/4/0/8/5/4085189/mg_lp10_2011.pdf · ca scop determinarea relaţiei între obezitatea femeilor şi unele date antropometrice

MG - Lucrarea practică 10 2011/2012 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

126

Să examinăm un alt exemplu, legat de un studiu observaţional în care iniţial au fost luate

în considerare 4 variabile explicative. Anume, într-o unitate clinică s-a încercat aflarea unei

formule de prognoză a duratei de supravieţuire a pacienţilor supuşi unei proceduri

chirurgicale asupra ficatului. Din evaluările pre-operatorii au fost luate în considerare,

conform opiniei specialiştilor, următoarele informaţii:

- scorul de coagulare sanguină BLOOD_SCORE,

- indicele de prognostic PROGN_INDEX (în care se include şi vârsta pacientului),

- scorul de funcţionare enzimatic ENZYME_TST,

- scorul de funcţionare a ficatului LIVER_TST.

Variabila răspuns, dependentă, este evident durata de supravieţuire SURV_TIME.

Datele de care dispunem au fost obţinute de la 54 de pacienţi aleşi aleator dintre cei ai

unităţii clinice, şi pot fi găsite în fişierul LP10_4.xls.

Adăugaţi o înregistrare suplimentară, a 55-a.

Evident, vom începe prin a

estima parametrii modelului liniar.

Folosind Excel, şi anume comanda

Analiza Datelor→Regresie/Data

Analysis→Regression din meniul

Instrumente/Tools, vom obţine

un coeficient de determinaţie

multiplă destul de bun (0.837).

Vom avea însă grijă să „bifăm”

casetele de validare Residuals şi

Normal Probability Plots (vezi

figura alăturată).

Chiar dacă valorile p raportate în tabel: Coefficients Standard Error t Stat P-value

Intercept -621.59755 64.80042601 -9.59249 7.86E-13 X Variable 1 33.1638281 7.017274632 4.726027 1.97E-05 X Variable 2 4.27185982 0.563384543 7.582494 8.35E-10 X Variable 3 4.12573829 0.511160932 8.07131 1.49E-10 X Variable 4 14.0915626 12.52532754 1.125045 0.266051

ne îndeamnă să acceptăm coefi-

cienţii modelului liniar (cu o

excepţie!), nu acelaşi lucru rezultă

din analizarea reziduurilor prin

reprezentarea diagramatică a lor!

Este vizibilă o plasare în formă

de potcoavă, ceea ce ne determină

să adoptăm o transformare loga-

ritmică a variabilei răspuns.

Normal Probability Plot

0

100

200

300

400

500

600

700

800

900

0 20 40 60 80 100 120

Sample Percentile

Y

Page 9: lp 18/24 an 2 2008 - Seria 7 - Homeseria7.weebly.com/uploads/4/0/8/5/4085189/mg_lp10_2011.pdf · ca scop determinarea relaţiei între obezitatea femeilor şi unele date antropometrice

UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 10 2011/2011

127

Să trecem la prelucrarea cu EpiInfo. După preluarea datelor din fişierul LP10_4.xls,

vom comanda crearea noii variabile: Variables→Define YLOG, apoi completarea

automată a valorilor ei: Variables→Assign YLOG=LOG(SURV_TIME).

Acum vom trece la aflarea coeficienţilor modelului de regresie:

REGRESS YLOG = BLOOD_SCORE PROGN_INDEX ENZYME_TST LIVER_TST

Coeficientul de determinaţie multiplă va fi excelent (0.97), dar unul dintre coeficienţi,

mai precis cel al variabilei LIVER_TST, va avea ataşată o valoare p mult prea mare.

Aceasta ne va determina să eliminăm variabila din model. Comanda finală va fi:

REGRESS YLOG = BLOOD_SCORE PROGN_INDEX ENZYME_TST

iar formula de predicţie a duratei de supravieţuire va fi (aproximativ) următoarea:

LN(SURV_TIME) = (1.114) + (0.159)*.BLOOD_SCORE

+ (0.021)*PROGN_INDEX + (0.022)*ENZYME_TST

Durata de supravieţuire prognozată va fi obţinută prin exponenţiere.

Completaţi documentul nume_SENIC cu următorul text:

Chiar dacă, prin regresie liniară, vom obţine un coeficient de determinaţie foarte bun

şi valori p – ataşate coeficienţilor – foarte mici, modelul nu va fi acceptat până nu se va

efectua verificarea normalităţii reziduurilor. Această verificare nu este efectuată de

EpiInfo; în schimb, Excel o poate face prezentând o diagramă de normalitate. În aceasta

punctele care reprezintă reziduurile trebuie să fie aliniate. Dacă nu sunt, atunci va trebui

să efectuăm anumite transformări asupra variabilei răspuns şi să inserăm în modelul

nostru variabila transformată. Formula obţinută nu va mai fi liniară.