cursul al vi-lea 1. introducere mg - cursul vi.pdf · testul chi patrat este valid daca cel putin...

13
Biostatistică - Cursul al VI-lea CURSUL AL VI-LEA 1. Introducere S-a văzut că atunci când avem coloane cu date numerice, este foarte util să se calculeze indicatori statistici care să ne ofere o imagine sintetică a valorilor care se află pe acele coloane. Dacă însă pe o coloană avem înregistrate date ordinale sau nominale, nu mai este posibilă calcularea acestor indicatori. De fapt, ce se poate sintetiza pe o coloană care are înregistrate date despre prezenţa unei afecţiuni, sau a unui simptom, sau despre grupele sanguine, sau despre stadiul de evoluţie al unei afecţiuni maligne? Răspunsul este simplu, nu putem decât număra la astfel de coloane, câţi pacienţi sunt din fiecare categorie. Dacă este vorba de stadiul evolutiv al unei afecţiuni maligne, vom număra câţi pacienţi sunt în stadiul 0, câţi sunt în stadiul I şi tot astfel pînă la stadiul IV. Putem eventual exprima aceste numere prin procente. În figura de mai jos, este prezentat începutul unui tabel în care, pe primele coloane s-a înregistrat Numărul curent, Numele, Vârsta, Sexul, Mediul de provenienţă, Stadiul clinic şi Durata supravieţuirii, măsurată în luni. Tabelul conţine 650 de paciente cu cancer de sân, dintre care în figura de mai jos sunt listate primele 23 (nume fictive!). În tabelul de mai jos, sunt centralizate rezultatele numărării pacientelor pe stadii ale bolii. Sunt listate frecvenţele absolute (sau numărul de paciente) din fiecare stadiu în parte (stadializarea este 0, 1, IIA, IIB, IIIA, IIIB şi IV). Pe coloana cea mai din dreapta sunt listate şi procentele sau frecvenţele relative. Nr Stadiul clinic Frecvenţa (numărul de paciente) Procentul (frecvenţa relativă) 1 0 26 4.0% 2 I 46 7.1% 3 IIA 76 11.7% 4 IIB 102 15.7% 5 IIIA 108 16.6% 6 IIIB 195 30.0% 7 IV 97 14.9% 8 Total 650 100.0% În cazul coloanelor pe care s-au înregistrat date de tipul DA-NU, Prezent-Absent, numărătoarea va stabili numai câţi pacienţi au pe coloana respectivă „DA” şi câţi au „NU”. În plus, vor fi listate la fel, frecvenţele procentuale. 1

Upload: others

Post on 22-Sep-2019

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea

CURSUL AL VI-LEA 1. Introducere S-a văzut că atunci când avem coloane cu date numerice, este foarte util să se calculeze indicatori statistici care să ne ofere o imagine sintetică a valorilor care se află pe acele coloane. Dacă însă pe o coloană avem înregistrate date ordinale sau nominale, nu mai este posibilă calcularea acestor indicatori. De fapt, ce se poate sintetiza pe o coloană care are înregistrate date despre prezenţa unei afecţiuni, sau a unui simptom, sau despre grupele sanguine, sau despre stadiul de evoluţie al unei afecţiuni maligne?

Răspunsul este simplu, nu putem decât număra la astfel de coloane, câţi pacienţi sunt din fiecare categorie. Dacă este vorba de stadiul evolutiv al unei afecţiuni maligne, vom număra câţi pacienţi sunt în stadiul 0, câţi sunt în stadiul I şi tot astfel pînă la stadiul IV. Putem eventual exprima aceste numere prin procente.

În figura de mai jos, este prezentat începutul unui tabel în care, pe primele coloane s-a înregistrat Numărul curent, Numele, Vârsta, Sexul, Mediul de provenienţă, Stadiul clinic şi Durata supravieţuirii, măsurată în luni. Tabelul conţine 650 de paciente cu cancer de sân, dintre care în figura de mai jos sunt listate primele 23 (nume fictive!).

În tabelul de mai jos, sunt centralizate rezultatele numărării pacientelor pe stadii ale bolii. Sunt listate frecvenţele absolute (sau numărul de paciente) din fiecare stadiu în parte (stadializarea este 0, 1, IIA, IIB, IIIA, IIIB şi IV). Pe coloana cea mai din dreapta sunt listate şi procentele sau frecvenţele relative.

Nr

Stadiul clinic

Frecvenţa (numărul de

paciente)

Procentul (frecvenţa relativă)

1 0 26 4.0% 2 I 46 7.1% 3 IIA 76 11.7% 4 IIB 102 15.7% 5 IIIA 108 16.6% 6 IIIB 195 30.0% 7 IV 97 14.9%

8 Total 650 100.0%

În cazul coloanelor pe care s-au înregistrat date de tipul DA-NU, Prezent-Absent, numărătoarea va stabili numai câţi pacienţi au pe coloana respectivă „DA” şi câţi au „NU”. În plus, vor fi listate la fel, frecvenţele procentuale.

1

Page 2: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea

2. Tabele de incidenţă, noţiuni introductive Datele înregistrate pe două sau mai multe coloane şi care sunt de tip nominal sau ordinal, pot fi studiate prin aşa-numitele tabele de incidenţă. De exemplu, dacă unul din criteriile după care au fost înregistraţi pacienţii este stadiul evolutiv al unei afecţiuni maligne, iar celălalt este răspunsul terapeutic, fiecare din cele două criterii de clasificare are în mod normal, un anumit număr de categorii (clase) în care trebuie clasificaţi pacienţii.

Stadiul evolutiv ar avea cel puţin patru categorii (stadiul I, II, III şi IV), iar răspunsul terapeutic ar putea avea categoriile RC (remisiune completă, tumora se remite), RP (remisiune parţială), RN (răspuns negativ) şi D (dispărut). Un exemplu este furnizat de tabelul 1, care are 16 celule, corespunzător la 4x4 categorii (celulele cu totaluri depind de celelalte şi ele nu sunt considerate în tabelele statistice ca aducătoare de informaţie nouă).

Tabelul 1. Clasificarea a 84 de pacienţi după stadiu şi răspuns terapeutic

RASPUNS TERAPEUTIC

RC RP RN D Total

STADIU

EVOLUTIV

I 7 1 0 0 8

II 19 7 1 1 28

III 12 10 6 4 32

IV 10 2 3 1 16

Total 48 20 10 6 84

Alt exemplu. Într-un studiu în care 260 de pacienţi au fost clasificaţi după tipul de astm şi după stadiul acestuia, tabelul care redă situaţia centralizată, arată astfel:

Tabelul 2. Clasificarea a 240 de pacienţi după stadiu şi tipul de astm

Stadiu Alergic Intrinsec Mixt Total I 19 13 2 34 II 54 30 6 90 III 21 40 26 87 IV 2 16 17 35

Total 86 99 51 246

III

IIIIV

Alergic

Intrinsec

Mixt

0

10

20

30

40

50

60

StadiulTip astm

Din reprezentarea grafică care se vede în figura de mai sus, se observă că astmul Alergic este mai frecvent la stadiile incipiente (I, II şi III), în timp ce astmul Mixt este mai frecvent în stadiile III sau IV. Acest fapt poate fi absolut întâmplător, dar poate avea şi o semnificaţie utilă medicului. O problemă a statisticii ar fi să decidem dacă astfel de situaţii sunt întâmplătoare sau nu.

2

Page 3: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea Mai jos, este redat un tabel mai complex, în care sunt centralizate vârstele la căsătorie ale soţiilor din cuplurile din Dolj, căsătorite pe o anumită perioadă de timp, în funcţie de vârstele soţilor. De exemplu, se observă că pentru soţi între 15 şi 19 ani, sunt 11 soţii sub 15 ani, 194 de soţii între 15 şi 19 ani, 43 între 20 şi 24 de ani şi un aîntre 25 şi 29 de ani. Aceste tabele, au uneori o formă accentuat “diagonală”, adică celulele de pe diagonală şi apropiate de diagonală au înscrise în ele un număr mare de indivizi, iar celulele îndepărate de diagonală au un număr mic de indivizi sau sunt vide. Se mai numesc, printr-un abuz de limbaj, tabele de corelaţie.

Tabelul 3 Clasificarea cuplurilor din Dolj după grupa de vârstă ale soţilor (1996-2001)

15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 peste 50 sub 15 11 4 3 15 - 19 194 721 465 60 11 20 - 24 43 1098 1455 255 78 12 25 - 29 1 128 1089 457 139 27 5 30 - 34 3 65 138 115 41 5 35 - 39 1 1 6 14 65 50 10 2 40 - 44 1 2 7 14 14 7 45 - 49 2 1 1

Există tehnici statistice care încearcă să răspundă la întrebarea dacă există o tendinţă de legătură între cele două criterii de clasificare dintr-un astfel de tabel. În general, aceste tehnici sunt destul de complicate şi deşi siguranţa concluziilor care pot fi trase prin aplicarea lor este foarte bună, sunt mânuite în practică mai mult de specialişti în statistică şi mai puţin de medici.

Testul Chi pătrat este un test statistic ce arata daca exista vreo legatura (influenta reciproca) intre doi factori. El este folosit pentru a interpreta tabelele de incidenţă generate prin aplicarea încrucişata („cross tabulation”) a perechilor de factori urmăriţi in acest studiu.

La testul chi patrat de testare a dependentei ( χ2 ) s-a calculat rezultatul testului pentru datele din tabelele de incidenta, rezultat care a fost comparat cu valoarea prag care indica o dependenta semnificativa (prag de 95% sau 99%) sau o dependenta inalt semnificativa (prag de 99.9%) intre cei doi factori de clasificare. Valoarea lui χ2 se calculeaza prin formula:

∑=

−=

n

i i

ii

EEO

1

22 |)(|

χ ,

unde O - frecventa observata, E - frecventa teoretica

Ipotezele testate sunt:

H0 (ipoteza nula) – cei doi factori sunt independenti;

Ha (ipoteza alternativa) – exista o asociere (dependenta) intre cei doi factori.

Se foloseste următoarea interpretare a valorilor lui p, furnizate direct de programul cu care se realizează prelucrarea statistica a datelor, prin aplicarea testului de mai sus:

• p < 0.05, rezultat semnificativ (S, încredere 95% că exista o asociere intre factori);

• p < 0.01, rezultat semnificativ (S, încredere 99% că exista o asociere intre factori);

• p < 0.001, rezultat înalt semnificativ (HS, încredere 99,9% că exista o asociere intre factori);

• p > 0.05, rezultat nesemnificativ (NS, încrederea de a considera ca exista o dependenta intre factorii studiati este mai mica de 95%, deci eroarea de a respinge ipoteza ca factorii sunt independenti este mai mare de 5%, prag considerat prea mare).

Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc valoarea 1.

Condiția de validitate limitează semnificativ utilizarea testului Chi pătrat. In cazul in care o frecventa probabila este sub valoarea 1, sau daca mai mult de 20% din frecventele probabile sunt sub valoarea 5, se recomanda utilizarea testului exact al lui Fisher, atunci când este permisa aplicarea acestuia - loturi mici,

3

Page 4: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea tabele de incidenta 2x2, 3x2, 3x3 sau 4x2. In situațiile menționate, am apelat la testul exact al lui Fisher, pentru a avea o precizie mai mare a rezultatelor statistice.

Atenție: frecventele probabile sunt calculate in cadrul testului, nu trebuie confundate cu frecventele observate (datele din tabel).

Testul exact al lui Fisher reprezintă deci o alternativa a testului Chi pătrat in examinarea asociațiilor in cadrul unui tabel de contingenta 2 x 2 etc., atunci când frecventele probabile sunt mici. Condiția de aplicare a acestui test este ca totalurile pe rânduri si pe coloane sa fie fixe, cunoscute dinainte. Testul exact al lui Fisher se regăsește in majoritatea pachetelor statistice existente si returnează, ca si alte teste, o valoare a lui p.

3. Tabele de incidenţă 2x2 Cazul cel mai simplu de tabel de incidenţă este tabelul 2x2. Un astfel de tabel centralizează date referitoare la două caracteristici care au câte două posibilităţi. De exemplu, dacă din 260 de pacienţi diabetici se constată că 86 au făcut retinopatie, dintre care 29 au şi nefropatie, iar din restul fără retinopatie, 2 au nefropatie, atunci aceste date pot fi sintetizate astfel:

Tabelul 4. Clasificarea a 260 de pacienţi cu diabet juvenil, după prezenţa sau absenţa retinopatiei diabetice şi a nefropatiei.

Nefropatie "+" "-" Total Retinopatie "+" 29 57 86

"-" 2 172 174 Total 31 229 260

Un astfel de tabel oferă posibilitatea de a aprecia dacă există sau nu o dependenţă între prezenţa retinopatiei şi a nefropatiei, adică dacă cei doi factori au sau nu tendinţa de a apărea în tandem. Din inspecţia datelor din tabel se poate observa mai greu dacă avem o astfel de tendinţă de apariţie împreună a celor doi factori. Pentru a înţelege mai bine cum se pune problema acestei dependenţe între factori să mai considerăm şi următoarele situaţii:

Tabelul 5. Clasificarea a 74 de subiecţi după criteriul prezenţei sau absenţei bolii şi după criteriul consumului de piure de cartofi (Cazul Oswego, tabelul TOP)

Potato (Cartofi)

DA NU Total

Bolnavi

DA 23 23 46

NU 14 14 28

Total 37 37 74

Este vorba despre un eveniment petrecut în urmă cu mai mulţi ani în America, şi anume, după ce au luat masa la o cantină, dintr-un număr de 75 de indivizi, foarte mulţi s-au prezentat la medic cu simptomele clare ale unei intoxicaţii acute. Indivizii consumaseră alimentele dintr-un meniu multiplu, ceea ce făcuse ca fiecare aliment să fie consumat doar de o parte a lor, din cei 75 îmbolnăvindu-se 46.

Era natural să se încerce să se centralizeze ce alimente a consumat fiecare individ (bolnav sau nu) şi să se încerce să se stabilească o dependenţă între consumul unui anumit aliment şi îmbolnăviri. În tabelul 5, este redată situaţia referitoare la consumul de piuré de cartofi, iar în tabelul 6, situaţia referitoare la consumul de îngheţată de vanilie, un alt fel de servit în acea seară.

Aceste tabele sunt foarte utile în medicină deoarece, în ciuda informaţiei sărace pe care o conţin, (doar patru numere, în esenţă, cele patru numere din căsuţele evidenţiate cu text îngroşat în fiecare dintre tabele), posibilităţile de a aprecia o dependenţă între clasificările pe orizontală şi verticală sunt destul de bine studiate în acest moment.

În cele două tabele de mai sus, factorii de clasificare sunt Retinopatie, Nefropatie şi respectiv, Bolnavi şi Cartofi. Retinopatie, este aici criteriu de clasificare în sensul că pacienţii sunt împărţiţi după acest criteriu în

4

Page 5: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea două: cei care au retinopatie şi cei care nu au retinopatie. Acest lucru, poate fi simbolizat prin DA şi prin NU, iar în cazul din tabel cu “+” şi “-“. Îl numim criteriu orizontal spre deosebire de Nefropatie care este numit criteriu vertical, pentru uşurinţa expunerii. La fel, în al doilea tabel, Bolnavi şi Cartofi, simbolizează faptul că indivizii cuprinşi în tabel sunt sau nu sunt bolnavi şi respectiv au consumat sau nu au consumat piuré de cartofi.

Să încercăm acum să verificăm în ce măsură factorii de clasificare de pe orizontală şi de pe verticală depind unul de altul.

La tabelul TOP, (factorii de pe orizontală şi verticală sunt îmbolnăvirile şi consumul de cartofi) întâmplarea a făcut ca exact jumătate din cei înregistraţi au consumat mâncare de cartofi iar între cei bolnavi şi sănătoşi tot jumătate au consumat acest fel de mâncare. La o examinare sumară a tabelului se poate deduce imediat că nu acest fel de mâncare este vinovat de infestarea indivizilor bolnavi, fiind evident că jumătate din cei bolnavi nu au consumat acest fel şi deci este clar că s-au îmbolnăvit de la altceva. Pe de altă parte, se vede că şi 14 indivizi care au mâncat din acest fel de mâncare nu s-au îmbolnăvit. Concluzie: consumul de cartofi şi îmbolnavirile nu sunt dependente.

Tabelul 6. Clasificarea a 75 de subiecţi după criteriul prezenţei sau absenţei bolii şi după criteriul consumului de îngheţată de vanilie (Cazul Oswego, tabelul TOV)

Vanilla (Ingheţata de Vanilie)

DA NU Total

Bolnavi

DA 43 3 46

NU 11 18 29

Total 54 21 75

În, tabelul TOV, se prezintă o situaţie diferită, căci se observă că din cei 46 de bolnavi 43 au consumat îngheţată de vanilie iar marea majoritate a celor care sunt sănătoşi nu au consumat. Mai putem privi situaţia şi astfel: din 54 indivizi care au consumat îngheţată, 43 s-au îmbolnăvit, iar din cei 21 care nu au consumat, 18 nu s-au îmbolnăvit.

Altfel spus,

• 43/54=0,796=79,6% este procentul îmbolnăvirilor la cei care au consumat şi

• 3/21=0,142=14,2%, procentul îmbolnăvirilor la cei care nu au consumat acest aliment.

Este destul de clar că între consumul de îngheţată de vanilie şi îmbolnăviri este o dependenţă.

Am ales aceste exemple tocmai pentru faptul că se vede fără dificultate care este situaţia şi în acest fel ne va fi mai uşoară înţelegerea principiilor care stau la baza aprecierii acestui tip de dependenţe. Din examinarea exemplelor de mai sus se vede că în fond se poate judeca fiecare situaţie care apare într-un mod asemănător, judecând de la caz la caz dacă există sau nu o dependenţă între criteriile de clasificare pe orizontală şi pe verticală.

Dacă am judeca mereu ca mai sus am fi puşi des în situaţia de a nu putea lua o decizie suficient de obiectivă. Dacă de exemplu, la cei care au consumat alimentul proporţia îmbolnăvirilor este 79,6% (vezi tabelul 6), iar la ceilalţi este doar de 14,2%, oricine va spune că îmbolnăvirile sunt într-o relaţie de dependenţă cu alimentul consumat, iar dacă procentele ar fi, 79,6% şi respectiv 77,4%, oricine ar spune că mica diferenţă se datorează întâmplării şi nu este nici o dependenţă între îmbolnăviri şi consumul alimentului.

Dar dacă cele două procente sunt 79,6% şi 62,4% ce concluzie tragem? Căci dacă am spune că avem o dependenţă din cauza diferenţei dintre procente, oricine poate replica că această diferenţă este întâmplătoare, mai ales dacă numărul de pacienţi pe care l-am luat în calcul a fost relativ mic. De aceea este nevoie de criterii mai obiective de apreciere a situaţiilor cu care ne putem confrunta în astfel de studii. Trebuie reţinut din cele discutate:

• Uneori se constată prin simplă inspecţie sau din calcule foarte simple o tendinţă de dependenţă între factorul de clasificare pe orizontală şi cel de clasificare pe verticală.

5

Page 6: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea • Decizia dacă există sau nu o dependenţă este de natură subiectivă, deoarece, pentru moment, nu avem un criteriu clar prin care să putem decide aceasta.

În cele ce urmează, să încercăm să generalizăm situaţiile de mai sus, presupunând că, de obicei avem de a face cu:

1). Un factor activ (consumul unui aliment, al unui medicament, aplicarea unui anumit tip de tratament, etc) şi putem clasifica indivizii în două categorii din punctul de vedere al acestui factor (de obicei ele fiind simbolizate prin Da/Nu, +/-, Yes/No)

2). Un factor pasiv (rezultat al celui activ) care clasifică indivizii tot în două categorii (Bolnav/Sănătos, Da/Nu, +/-).

Să notăm cu • Poz+ numărul indivizilor asupra cărora acţionează factorul activ şi rezultatul este pozitiv • Neg+ numărul indivizilor asupra cărora acţionează factorul activ şi rezultatul este negativ • Poz- numărul indivizilor asupra cărora nu acţionează factorul activ şi rezultatul este pozitiv • Neg- numărul indivizilor asupra cărora nu acţionează factorul activ şi rezultatul este negativ

Această situaţie se poate centraliza într-un tabel ca tabelul 7, care este foarte asemănător cu cele care au fost date ca exemplu mai sus:

Tabelul 7. Tabel general de incidenţă 2x2 (TG)

Factor Activ (Cauza)

Pozitiv Negativ Total

Factor Pasiv

(Efect)

Pozitiv Poz+ (a) Poz-(b) Poz

Negativ Neg+ (c) Neg- (d) Neg

Total + - N

Să încercăm să sistematizăm observaţii mai generale care să ne ofere, pe cât posibil criterii mai obiective:

Dacă factorul pasiv are tendinţa de a apare în tandem cu cel activ, atunci ne putem aştepta, ca tendinţă generală, ca cei mai mulţi indivizi să apară înscrişi în celulele Poz+ şi Neg-, iar celulele Poz- şi Neg+ să rămână mai nepopulate. Este de uz comun etichetarea celulelor cu a, b, c, d, ca în tabelul TG şi deci vom spune că în acest caz, majoritatea indivizilor sunt în celulele a, d, iar în celulele b, c avem mai puţini indivizi (este cazul tabelului TOV). Ţinând cont de această observaţie, vom introduce câteva criterii de dependenţă care ne permit o apreciere mai obiectivă a unei eventuale dependenţe.

4. Criterii de dependenţă O modalitate de a aprecia tendinţa celor doi factori de a apare în tandem adică tendinţa lor de dependenţă, este de a urmări care este raportul dintre numărul pacienţilor la care avem potrivire, adică ambii factori sunt prezenţi sau ambii sunt absenţi, şi numărul pacienţilor la care nu avem potrivire, adică un factor este prezent iar celălalt absent.

Se observă uşor că acest raport, pe care îl vom numi Criteriul Diagonal, este:

cbdaCD

++

=

În tabelul TOV, avem CD = (43+18)/(3+11) = 61/14 = 4,35, adică sunt de 4,35 ori mai mulţi pacienţi la care cei doi factori apar în tandem decât cei la care un factor este prezent şi celălalt absent. Tendinţa de dependenţă este clară între consumul îngheţatei de vanilie şi îmbolnăviri.

Un alt criteriu este de a calcula raportul dintre numărul pacienţilor la care cei doi factori apar în tandem şi numărul total de pacienţi(Criteriul Procentual). Este un criteriu mai natural căci calculează de fapt procentul de pacienţi la care apar aceste potriviri. Deci:

6

Page 7: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea

dcbadaCP+++

+=

În tabelul TOV, avem, CP = (43+18)/75 = 61/75 = 0,813, adică sunt 81,3% potriviri, ceea ce este o majoritate care arată o tendinţă clară de dependenţă între consumul îngheţatei de vanilie şi îmbolnăviri.

5. Riscul relativ Este o măsură a legăturii între o boală şi prezenţa unui factor de risc, presupus a influenţa apariţia bolii. Deoarece se măsoară în funcţie de riscul la cei expuşi şi riscul la cei neexpuşi, trebuie ştiut ce înseamnă aceste două riscuri.

Riscul la cei expuşi este probabilitatea ca un individ expus, sa facă boala (indiferent din ce motiv). Se calculează pe un lot cum este cel din exemplul din tabel, ca raportul dintre numărul celor care au făcut boala fiind expuşi (48), şi numărul tuturor celor expuşi (200). Deci, în tabelul de mai jos, riscul la cei expuşi este de 48/200, adică de 0,24 sau 24%.

Riscul la cei neexpuşi este probabilitatea ca un individ neexpus, sa facă boala (indiferent din ce motiv). Se calculează pe un lot cum este cel din exemplul din tabel, ca raportul dintre numărul celor care au făcut boala fiind neexpuşi (36), şi numărul tuturor celor neexpuşi (2000). Deci, în tabelul de mai jos, riscul la cei neexpuşi este de 36/2000, adică de 0,018 sau 1,8%.

Riscul Relativ, este raportul dintre riscul la cei expuşi, şi riscul la cei neexpuşi. În tabelul de mai jos, riscul relativ este 24/1,8=13,3

Tabelul 8

Boala

"+" prezentă "-"absentă Total

Factor de risc

Expuşi"+" 48 152 200

Neexpuşi"-" 36 1964 2000

Total 84 2116 2200

Tabelul 9

Boala

„+” prezentă „-„absentă Total

Factor de risc

Expuşi »+ » a b a+b

Neexpuşi »-« c d c+d

Total a+c b+d N=a+b+c+d

Formulele sunt : • Riscul la cei expuşi: Re = a/(a+b) • Riscul la cei neexpuşi: Rn = c/(c+d)

• Riscul relativ RR=Re/Rn, sau ( )( )bac

dcaRR+⋅+⋅

=

7

Page 8: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea Interpretare: Riscul relativ ne spune de câte ori este mai mare probabilitatea de a face boala când eşti expus decât atunci când eşti neexpus. În tabelul de mai sus, riscul relativ fiind 13,3, înseamnă că cei expuşi au probabilitatea de a face boala de 13,3 ori mai mare decât cei neexpuşi.

În general, valori ale riscului relativ apropiate de 1 arată aproximativ aceeaşi probabilitate de a face boala, atât la expuşi, cât şi la neexpuşi, şi trebuie considerat că factorul de risc respectiv nu are o influenţă reală asupra apariţiei bolii.

Dacă riscul relativ are valori mult mai mari ca 1, este o indicaţie că între factorul de risc şi boală este o legătură de corelaţie care, de obicei este interpretată ca fiind CAUZALĂ, deşi nu este chiar obligatoriu ca factorul de risc să fie CAUZĂ pentru apariţia bolii.

Există cazuri în care riscul relativ are valori subunitare (mai mici ca 1), caz în care este asimilat cu un factor PROTECTOR. Aceasta deoarece, în aceste cazuri, este mai MIC riscul de a face boala la cei expuşi, decît la cei neexpuşi.

În toate cazurile, valoarea obţinută este numai o aproximare a valorii reale care s-ar obţine dacă ar fi consideraţi toţi indivizii populaţiei de referinţă (atât cei expuşi cât şi cei neexpuşi).

Riscul atribuabil este diferenţa dintre riscul la cei expuşi şi riscul la cei neexpuşi. Deşi pare la prima vedere destul de util ca informaţie pe care o poartă, este mai puţin utilizat în practică. Are avantajul că se exprimă în procente. De exemplu, pentru tabelul de mai sus, riscul atribuabil este 24%-1,8%, deci este de 22,2%.

Aceasta înseamnă că procentul de îmbolnăviri la cei expuşi este cu 22,25 puncte procentuale mai mare decît procentul de îmbolnăviri la cei neexpuşi. Ca interpretare, se interpretează de la caz la caz, şi este mai subiectiv decât riscul relativ, care are un grad de obiectivitate mai mare.

6. Odds Ratio Nu are traducere consacrată în limba română. Se foloseşte termenul de “Raportul cotelor”, sau mai puţin inspirat, “Raportul şanselor”.

Deoarece este raportul a două “cote”, trebuie întâi înţeles ce înseamnă cotă. În engleză, cotele se folosesc la casele de pariuri. O cotă de 3 la 2 pentru un eveniment, înseamnă că la acea casă de pariuri se consideră că sunt 3 şanse pentru şi 2 şanse contra ca evenimentul să se întâmpe.Sau, două şanse să nu se întâmple, şi trei să se întâmple.

De exemplu, cota echipei României la CM de fotbal a fost într-un an de 1 la 32, adică o şansă pentru, şi 32 contra. Atenţie, nu e corect să se spună “o şansă din 32…..”. Corect este 1 pentru şi 32 contra.

În studiile clinice, în special în studiile Caz-Martor sau, mai rar, în studiile de cohortă, se foloseşte Odds Ratio, ca raportul între cota de îmbolnăviri la cei expuşi şi cota de îmbolnăviri la cei neexpuşi. • Cota de îmbolnăviri la cei expuşi este raportul dintre numărul celor expuşi la care boala este prezentă şi

numărul celor expuşi la care boala este absentă • Cota de îmbolnăviri la cei neexpuşi este raportul dintre numărul celor neexpuşi la care boala este

prezentă şi numărul celor neexpuşi la care boala este absentă

Tabelul 10

Boala

"+" prezentă "-"absentă Total

Factor de risc

Expuşi"+" 50 150 200

Neexpuşi"-" 40 1960 2000

Total 90 2110 2200

8

Page 9: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea În tabelul de mai sus, cotele de îmbolnăviri sunt: la cei expuşi 50/150, adică de 1 la 3, iar la neexpuşi de 40/1960, adică de 1 la 49.

Raportul celor două cote, adică Odds Ratio, este raportul dintre 1/3 şi 1/49, adică 49/3=16.3

Tabelul 11

Boala

"+" prezentă "-"absentă Total

Factor de risc

Expuşi"+" a b a+b

Neexpuşi"-" c d c+d

Total a+c b+d N=a+b+c+d

Formulele sunt: • Cota de îmbolnăviri la expuşi a/b • Cota de îmbolnăviri la neexpuşi c/d

• Odds Ratio cbdaOR⋅⋅

=

Ca şi interpretare, valori apropiate de 1, arată cote asemănătoare, cea ce înseamnă că expunerea nu influenţrază prezenţa bolii. Valori mult peste 1, arată o tendinţă de corelaţie între prezenţa expunerii şi a bolii la pacienţi, corelaţie care este considerată de obicei ca fiind CAUZALĂ, deşi nu totdeauna este cazul.

Va lori mult sub 1 arată tot o corelaţie, dar în acest caz, expunerea este considerată un factor de PROTECŢIE.

7. Teste clinice şi aprecierea calităţii lor Alte cazuri în care este utilă folosirea tabelelor 2x2, sunt cele în care se evaluează calitatea unui test clinic la care pacienţii sunt supuşi. Un test clinic, este o metodă de a decide dacă un pacient este pozitiv sau negativ în ce priveşte existenţa unui simptom, a unei afecţiuni, a unui risc, etc.

Deci, un astfel de test trebuie să ofere posibilitatea de a alege pacienţii care prezintă sau nu un simptom, o afecţiune, un semn sau altă caracteristică necesară în procesul diagnosticării. • Vom numi pozitivi, pacienţii care în urma testului au un rezultat pozitiv, adică testul indică prezenţa

afecţiunii, indiferent dacă în realitate afecţiunea este sau nu prezentă la pacientul respectiv • Vom numi negativi, pacienţii care în urma testului au un rezultat negativ, indiferent dacă în realitate au

sau nu prezentă afecţiunea respectivă.

Un test care se aplică pacienţilor este o metodă care trebuie să aibă mai multe calităţi, între care, vom enumera două:

• Un procent cât mai mare dintre pacienţii care sunt în realitate pozitivi, ar trebui să apară în urma testului ca fiind pozitivi

• Un procent cât mai mare dintre pacienţii care sunt în realitate negativi, ar trebui să apară în urma testului ca fiind negativi

Ideal ar fi ca toţi pacienţii să fie diagnosticaţi de test corect, dar acesta este un ideal care este foarte greu de atins chiar cu aparatură perfecţionată. Totdeauna există cazuri care sunt extrem de greu de încadrat sigur într-o categorie sau alta. Aşadar, totdeauna, în urma aplicării unui test la mai mulţi pacienţi, se vor întâlni cazuri de pacienţi care, fie în realitate sunt pozitivi, iar în urma efectuării testului apar ca negativi, fie invers.

Pacienţii diagnosticaţi cu un test clinic se împart după două criterii:

9

Page 10: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea • După criteriul bolii (sau al caracteristicii diagnosticate), sunt două categorii : Bolnavi (engl:

diseased) şi Sănătoşi (engl: diseased free). Faptul că un pacient este în una dintre cele două categorii se stabileşte cu ajutorul aşa-numitului test sigur sau test de aur (engl: golden test). Acest test este un test care a fost deja verificat ca fiind extrem de precis şi dă o rată de erori minimă.

• După criteriul testului clinic studiat sunt tot două categorii: Pozitivi şi Negativi.

Deci, fiecare din pacienţi, va aparţine uneia din următoarele patru clase, care rezultă în urma combinării în toate modurile posibile a celor patru categorii de mai sus:

• Real Pozitivi, pacienţii care în realitate sunt Bolnavi iar în urma testului sunt Pozitivi. • Fals Negativi, pacienţii care în realitate sunt Bolnavi iar în urma testului sunt Negativi. Constituie

erori pentru test. • Fals Pozitivi, pacienţii care în realitate sunt Sănătoşi iar în urma testului sunt Pozitivi. Constituie

celălalt tip de eroare a unui test. • Real Negativi, pacienţii care în realitate sunt Sănătoşi iar în urma testului sunt Negativi.

După ce se stabileşte la fiecare pacient cărei clase aparţine, din cele patru enumerate mai sus, se realizează un tabel 2x2 ca în tabelul 1.8.

Tabelul 12. Clasificarea unor subiecţi după faptul că sunt sau că nu sunt bolnavi (testul sigur) şi după rezultatul pe care îl obţin la un test de diagnosticare pe care dorim să îl evaluăm calitativ. (Tabelul TGT)

Testul sigur (Golden test)

Bolnavi Sănătoşi Total

Testul propus (Testul clinic)

Pozitivi Real Pozitivi

(RP sau B+)

Fals Pozitivi

(FP sau S+)

P

Negativi Fals Negativi

(FN sau B-)

Real Negativi

(RN sau S-)

N

Total B S B+S=P+N

Aprecierea calităţii unui test propus trebuie evident să ţină seama de procentul de reuşite ale acestuia. Dar ce înseamnă reuşite pentru un test clinic? Câteva propuneri ar fi:

• Ce procent din pacienţii bolnavi sunt diagnosticaţi de test ca pozitivi? • Ce procent din pacienţii sănătoşi sunt diagnosticaţi de test ca negativi? • Ce procent din pacienţii diagnosticaţi de test ca pozitivi sunt bolnavi? • Ce procent din pacienţii diagnosticaţi de test ca negativi sunt sănătoşi?

Vom defini aceste rapoarte procentuale şi vom studia modul cum le folosim în aprecierea calităţii testului. Aceste procente arată calitatea unui test clinic în sensul că testul este cu atât mai valoros cu cât ele au valori mai mari, mai apropiate de 100%. În plus, vor fi definite mai jos şi două rapoarte procentuale care exprimă erorile unui test. Este clar că procentele care exprimă erorile trebuie să fie cât mai mici pentru ca testul să fie valoros.

• Sensibilitatea (Sn) unui test este raportul dintre numărul pacienţilor bolnavi, diagnosticaţi ca pozitivi şi numărul total de bolnavi. BBSn /+=

• Specificitatea (Sp) unui test este raportul dintre numărul pacienţilor sănătoşi, diagnosticaţi ca negativi şi numărul total de sănătoşi. SSSn /−=

• Valoarea predictivă pozitivă (VPP), este raportul dintre numărul pacienţilor disgnosticaţi corect ca pozitivi şi numărul total al celor diagnosticaţi de test ca pozitivi. PBVPP /+=

• Valoarea predictivă negativă (VPN), este raportul dintre numărul pacienţilor disgnosticaţi corect ca negativi şi numărul total al celor diagnosticaţi de test ca negativi. NSVPN /−=

• Rata fals pozitivă (RFP), este raportul dintre numărul pacienţilor sănătoşi diagnosticaţi greşit ca pozitivi şi numărul pacienţilor sănătoşi. SSRFP /+=

10

Page 11: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea • Rata fals negativă (RFN), este raportul dintre numărul pacienţilor bolnavi diagnosticaţi greşit ca

negativi şi numărul pacienţilor bolnavi. BBRFN /−=

Ca exemplu, să urmărim situaţia din tabelul 1.9.

Tabelul 13 Clasificarea a 109 femei după tipul de naştere (prematură sau normală) şi după lungimea colului uterin ca test de decizie a riscului de naştere prematură. Se observă că din 41 de naşteri premature, 33 au colul sub 26mm iar din 68 de naşteri normale, 53 au colul peste 26, deci limita de 26mm a lungimii colului uterin este un criteriu de decizie al riscului de naştere prematură.

Naştere

Prematură Normală Total

Lungime col <26 mm 33 15 48

>26mm 8 53 61

Total 41 68 109

În tabelul 1.9, valorile indicatorilor de mai sus sunt: • Sn=33/41=0,804=80,4%, Sp=53/68=0,779=77,9% • VPP=33/48=0,687=68,7%, VPN=53/61=0,868=86,8% • RFP=15/68=0,221=22,1%, RFN=8/41=0,196=19,6%

După cum s-a precizat mai sus, un test este cu atât mai valoros cu cât primii patru din cei şase indicatori sunt mai mari, iar ultimii doi mai mici. Ideal ar fi ca primii patru să fie apropiaţi de 100%, iar ultimii doi, apropiaţi de 0%. În practică, se constată că este foarte greu să se atingă valori foarte mari pentru toţi cei patru şi valori foarte mici pentru ultimii doi. De exemplu, testul studiat prin tabelul 13 este un test destul de valoros.

Doar primii doi indicatori sunt consideraţi fundamentali, ei fiind cei care dau de fapt calitatea testului clinic propus, în comparaţie cu testul considerat sigur (testul de aur), în cazul de mai sus testul sigur fiind naşterea propriu-zisă.

Chestiuni de examen: 1.Criteriul procentual indică o tendinţă foarte puternică de dependenţă între cei doi factori de clasificare într-un tabel de incidenţă dacă:

1. are valori mult mai mari ca 100% 2. are valori mult mai mici ca 50% 3. are valori foarte apropiate de 50% 4. are valori apropiate de 100%

2.Tabelele de incidenţă sunt: 1. tabele cu dublă intrare în care pacienţii sunt înregistraţi după două criterii 2. tabele de frecvenţă pe clase 3. tabele cu date brute 4. tabele folosite la teste statistice de compararea mediei

3.Sensibilitatea unui test clinic este Sn=0,862, iar specificitatea este Sp=0,893. Aceasta înseamnă că testul este: 1. un test valoros deoarece ambii indicatori sunt mult peste 50% 2. un test fără valoare doarece dă erori şi la bolnavi, şi la sănătoşi 3. un test fără valoare, deoarece specificitatea este mai mare ca sensibilitatea 4. un test perfect

4.Criteriul diagonal calculat pentru un tabel de incidenţă 2x2 care conţine în total 236 de pacienţi este 7,185. El indică în acest caz:

1. corelaţie foarte slabă între cei doi factori de clasificare 2. lipsa unei corelaţii 3. corelaţie puternică între cei doi parametri 4. nu este un indicator al corelaţiei ci al împrăştierii datelor

11

Page 12: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea 5.Criteriul OR calculat pentru un tabel de incidenţă 2x2 care conţine în total 144 de pacienţi este 6,785. El indică în acest caz:

1. corelaţie foarte slabă între cei doi factori de clasificare 2. lipsa unei corelaţii 3. corelaţie puternică între cei doi parametri 4. nu este un indicator al corelaţiei ci al împrăştierii datelor

6.Criteriul OR calculat pentru un tabel de incidenţă 2x2 care conţine în total 14 de pacienţi este 8,785. El indică în acest caz:

1. corelaţie foarte slabă între cei doi factori. 2. lipsa unei corelaţii 3. corelaţie destul de puternică între cei doi factori 4. fiind prea puţini pacienţi, nu avem încredere în valoarea lui

7. Sensibilitatea unui test exploratoriu în clinică este Sn=0,862. Aceasta înseamnă că testul este: 1. un test valoros din punct de vedere clinic 2. este un test prost, deoarece doar 86,2% din bolnavii reali sunt pozitivi 3. depinde şi de specificitate, dacă este foarte mică, testul nu este un test bun 4. dacă şi specificitatea este mult mai mare ca 50%, testul este valoros

8.Sensibilitatea unui test este: A. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca pozitivi şi numărul total al pacienţilor

bolnavi B. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca pozitivi şi numărul total al pacienţilor bolnavi C. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi D. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca negativi şi numărul total al pacienţilor bolnavi

9.Specificitatea unui test este: A. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi B. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca negativi şi numărul total al pacienţilor

sănătoşi C. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi D. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca negativi şi numărul total al pacienţilor bolnavi

10.Un test clinic este cu atât mai valoros cu cât: A. Sensibilitatea este mai mare şi specificitatea mai mică B. Sensibilitatea este mai mică şi specificitatea mai mare C. Sensibilitatea şi specificitatea sunt mai mari D. Sensibilitatea şi specificitatea sunt mai mici

11.Un test clinic este cu atât mai valoros cu cât: A. Sensibilitatea şi specificitatea sunt mai apropiate de 1 B. Sensibilitatea şi specificitatea sunt mai apropiate de 0 C. Sensibilitatea şi specificitatea sunt mai mari D. Sensibilitatea şi specificitatea sunt mai mici

12.Rata fals pozitivă a unui test este: A. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi B. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca negativi şi numărul total al pacienţilor sănătoşi C. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca pozitivi şi numărul total al pacienţilor

sănătoşi D. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca negativi şi numărul total al pacienţilor bolnavi

13.Rata fals negativă a unui test este: A. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi B. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca negativi şi numărul total al pacienţilor sănătoşi C. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi D. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca negativi şi numărul total al pacienţilor

bolnavi

14.Un test clinic este cu atât mai valoros cu cât: A. Rata fals pozitivă este mai mare şi rata fals negativă mai mică B. Rata fals pozitivă este mai mică şi rata fals negativă mai mare C. Rata fals pozitivă şi rata fals negativă sunt mai mari D. Rata fals pozitivă şi rata fals negativă sunt mai mici

12

Page 13: CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistică - Cursul al VI-lea 15.Sensibilitatea unui test clinic este Sn=0,562, iar specificitatea este Sp=0,893. Aceasta înseamnă că testul este:

1. un test valoros deoarece ambii indicatori sunt mult peste 50% 2. un test fără valoare doarece dă erori şi la bolnavi, şi la sănătoşi 3. un test fără valoare, deoarece specificitatea este prea mică 4. un test perfect

16. Criteriul RR calculat pentru un tabel de incidenţă 2x2 care conţine în total 149 de pacienţi este 8,785. El indică în acest caz:

1. corelaţie foarte slabă între cei doi factori. 2. lipsa unei corelaţii 3. corelaţie puternică între cei doi factori 4. fiind prea puţini pacienţi, nu avem încredere în valoarea lui

13