curs6_2015_s_vii info

46
ANALIZA DATELOR CALITATIVE CURSUL 6

Upload: diana-elena-bizadea

Post on 16-Sep-2015

242 views

Category:

Documents


0 download

DESCRIPTION

curs info mg umfcd

TRANSCRIPT

  • ANALIZA DATELOR CALITATIVE

    CURSUL 6

  • DATE CALITATIVE

    Datele calitative (nominale sau categoriale) i apar atunci cnd subieciise pot clasifica n dou sau mai multe categorii

    bolnav/sntos

    starea unui pacient ca fiind "precar", "echilibrat", "bun" sau "excelent

    M/F

    Datele calitative pot fi nregistrate i sub form de coduri numerice 1, 2, 3, sau 4 ns numrul nu are o semnificaie numeric (nu reprezint o cantitate). Am putea codifica "da" ca fiind 1 i "nu" ca fiind 2, sau "da", ca fiind 2 i "nu" ca fiind 1 i nu s-ar face nici o diferen n analiza lor.

    Variabile categorice cu doar dou categorii, de exemplu "viu" sau "mort", sau "feminin" sau "masculin" sunt numite atribute, date dicotomice sau binare

    datele cantitative - numere pentru care magnitudinea (valoarea) reprezint ceva (sunt rezultatul unei msurtori) - tensiunea arterial

  • Metode statistice pentru analiza datelor calitative

    testul hi-ptrat de asociere

    testul Fisher exact

    testul hi-ptrat pentru trend-uri

    raportul riscurilor, riscul relativ sau raportul anselor (RR)

    riscul relativ estimat sau raportul cotelor (OR)

    numrul necesar de pacieni care trebuie tratai.

  • TABELE DE CONTINGEN Un tabel de contingen este un tabel construit pentru dou variabile categoriale (tabel

    cu dou intrri)

    Acceptarea testului HIV n funcie de grupele strii civile (Meadows et al., 1994)

    Totalurile rndurilor i coloanelor sunt numite totaluri marginale, iar numrul total de observaiidin tabel se numete total general

    Ne vom referi adesea la un tabel folosind dimensiunea tabelului. Tabel de tip 4x2 deoarece are patru rnduri i dou coloane. Uneori se folosete termenul

    general de tabel de tip rxc unde r indic numrul de rnduri i c numrul de coloane

  • TESTUL HI-PTRAT

    Testarea ipotezei nule - nu exist nici o relaie ntre dou variabile. Vom folosi termenul de "asociere" pentru o relaie ntre dou variabile categorice.

    Dac eantionul este mare putem s folosim testul hi-ptrat.

    Dac eantionul este mic, vom folosi testul Fisher exact

    Ipoteza nul stabilete c nu exist nici o asociere ntre cele dou variabile (pentru care este construit tabelul de contingen).

    Ipoteza alternativ se refer la faptul c exist o asociere de un anumit tip.

    Testul hi-ptrat se bazeaz pe calculul frecvenelor pe care ne-am atepta s le obinem n celule, n cazul n care nu exist absolut nici o asociere (frecvene estimate sau frecvene ateptate).

  • Proporia de femei care au acceptat testul HIV este de 134/788. Deci, din 486 de femei cstorite neateptm ca 486 134/788 = 82.6 s accepte testul HIV, dac ipoteza nul (referitoare la asociere) esteadevrat.

    n mod similar, proporia de femei care au refuzat testul este = 654/788. Deci din 486 de femei cstorite,ne ateptm ca 486 654/788 = 403.4 s refuze testul, dac ipoteza nul este adevrat.

    Se observ c 82.6 + 403.4 = 486. Deci suma frecvenelor estimate (ateptate) este aceeai ca i sumafrecvenelor observate.

    n acelai mod, pentru 222 femei necastorite care au un partener ne ateptm ca 222 134/788 = 37.8s accepte testul HIV, dac ipoteza nul este adevrat, i 222 654/788 = 184.2 s refuze testul. Din nouse observ c 37.8 + 184.2 = 222, numrul total din al doilea rnd.

    n mod similar se obin frecvenele estimate sau ateptate pentru toate celulele din tabel. Se observ c82.6 + 37.8 + 8.5 + 5.1 = 134.0 i 403.4 + 184.2 + 41.5 + 24.9 = 654.0. Frecvenele observate i cele estimateau aceleai totaluri pe rnduri i pe coloane. Se poate vedea, de asemenea, c pentru fiecare celuldin Tabelul 1, am calculat o frecven la care ne ateptm (frecven estimat) n Tabelul 2, cu ajutorulformulei

  • n mod similar se obin frecvenele estimate sau ateptate pentru toate celulele din tabel. Se observ c 82.6 + 37.8 + 8.5 + 5.1 = 134.0 i 403.4 + 184.2 + 41.5 + 24.9 = 654.0.

    Frecvenele observate i cele estimate au aceleai totaluri pe rnduri i pe coloane. Pentru fiecare celul din frecvenelor observate, am calculat o frecven la care ne ateptm (frecven estimat) n cel de-al doilea tabel, cu ajutorul formulei

  • TESTUL HI-PTRAT

    Testul hi-ptrat pentru tabele de contingen folosete diferenele dintre frecvenele observate i cele ateptate (estimate). Cu ct sunt mai mari aceste diferene cu att aceasta reprezint o dovad mai puternic a faptului c cele dou variabile sunt asociate. Nu se poate face doar o nsumare a acestor diferene pentru c suma lor este ntotdeauna zero.

    Vom proceda n acelai fel ca atunci cnd am calculat abaterea standard i anume, le vom ridica la ptrat.

    Cu ct sunt mai mari frecvenele, cu att este mai mare i valoarea posibil a diferenei dintre frecvenele observate i cele estimate.

    Eantioanele mari produc diferene mai mari dect eantioanele de mici dimensiuni.

    Aceast problem se poate corecta prin mprirea ptratului diferenei dintre frecvena observat i cea ateptat la valorile estimate (ateptate) - motivele exacte pentru aceast alegere sunt mai degrab abstracte i matematice

    Vom calcula acest raport (observat - ateptat)2/ateptat pentru fiecare celul din tabel i apoi vom nsuma toate rapoartele

  • TESTUL HI-PTRAT

    n exemplul nostru aceast sum este de 9.15

    Suma rapoartelor (observat - ateptat)2/ateptat este numit statistica hi-ptrat i uneori este scris ca X2.

    Aceasta reprezint statistica testului. Din formularea clasic a unui test de semnificaie, aceast statistic ar trebui s urmeze o anumit distribuie, n cazul n care ipoteza nul este adevrat. Pentru acest test, distribuia este distribuia hi-ptrat.

    "Hi-ptrat", de cele mai multe ori apare scris ca fiind 2, unde este litera greceasc "chi", pronunat "ki".

    Distribuia hi-ptrat este asemntoare cu distribuia t, de care este strns legat.

    Exist o ntreag familie de distribuii, iar un membru special al acestei familii este definit printr-un singur parametru numit grade de libertate

  • TESTUL HI-PTRAT

    Atunci cnd numrul gradelor de libertate este micdistribuia este asimetric spre dreapta, iar cndnumrul gradelor de libertate crete ea devine mult maisimetric, putnd eventual s arate ca i distribuianormal. Ne ateptm ca acest lucru s se ntmple,deoarece aceast distribuie este obinut prinnsumarea unor entiti i, acestea tind s generezedistribuia normal, cnd numrul de entiti nsumatecrete.

    La fel ca i la distribuia t, la distribuia normal nu exist o formulsimpl pentru calculul ariei de sub curb i, prin urmare, pentru acalcula probabilitatea de a depi o anumit valoare dat.Se poate folosi un tabel de probabiliti laborios calculate printr-ometod matematic de aproximare

  • TESTUL HI-PTRAT

    Pentru un tabel de contingen gradele de libertate sunt date de formula:

    (nr de rnduri 1) x (nr de coloane 1)

    (4 - 1) (2 - 1) = 3 grade de libertate

    Statistica testului chi-ptrat pentru datele noastre este 9.15, valoare care se afl ntre cele dou puncte, astfel nct probabilitatea testului este ntre 5% i 1%. Vom scrie acest lucru ca p

  • Condiii care trebuiesc ndeplinite referitor la datele observate pentru ca testul hi-ptrat s fie valid:

    eantionul trebuie s fie suficient de mare

    observaiile trebuie s fie independente ntre ele

    Testul hi-ptrat este valid n cazul n care cel puin 80% din frecvenele estimate (ateptate) depesc valoarea 5 i toate frecvenele estimate depesc valoarea 1. Acest criteriu este ndeplinit pentru eantioane mari.

    Cu ct valorile estimate tind s devin mai mici, cu att va fi testul mai instabil.

  • Pentru tabelul nostru, toate valorile estimate depesc 5.0

    Deoarece avem 8 frecvene estimate am putea accepta ca 8 x 0.2 = 1.6 din frecvenelor estimate s fie mai mici ca valoarea 5.

    Vom rotunji aceast valoare n jos la 1.0 i vom spune c o frecven estimat cu valoare ntre 1 i 5 nu ar fi o problem.

    Pentru un tabel de tip 2 x 2, 20% din celule reprezint 4 x 0.20 = 0.80, care este mai puin de 1, deci nici o celul nu ar trebui s aib frecvena estimat mai mic dect 5

    Testul hi-ptrat pentru asociere ntr-un tabel de contingen este, de asemenea, cunoscut i sub numele de testul hi-ptrat Pearson

    Statistica hi-ptrat nu este un indice care indic puterea de asociere.

    Dac vom dubla frecvenele, se va dubla i valoarea statisticii hi-ptrat ns puterea de asociere rmne neschimbat.

  • TESTUL FISHER EXACT

    (testul exact Fisher-Irwin)

    n cazul n care testul hi-ptrat nu este valid, deoarece frecveneleestimate sunt prea mici

    se poate aplica pentru orice tip de eantion, dei este folosit ngeneral numai pentru eantioane mici n tabele de tip 2 x 2, dincauza problemelor de calcul

    Se calculeaz probabilitile tuturor tabelelor posibile, care audate totalurile pe rnduri i coloane.

    Se nsumeaz apoi probabilitile pentru toate tabelele pentrucare am obinut probabiliti mai mici dect cea observat

    Pentru ex testul Fisher exact d p = 0.029. Vom compara aceastvaloare cu cea obinut pentru testul hi-ptrat, adic cu p = 0.027.Sunt foarte asemntoare. Acest lucru nu este ntotdeaunaadevrat

  • testul Fisher exact: p = 0.029 testul hi-ptrat p = 0.027.

  • CORECIA YATES corecia de continuitate a testului hi-ptrat

    Pentru tabele cu frecvenele estimate mici, testul hi-ptrat d probabiliti mai mici dect testul Fisher exact.

    Yates a introdus o modificare a testului hi-ptrat pentru tabele de tip 2 x 2 ale crui valori aproximeaz foarte bine probabilitile obinute n testul Fisher exact.

    Testul modific diferena dintre frecvena observat i cea ateapt fcnd-o mai apropiat de zero cu 0.5 nainte de ridicarea la ptrat

    este aplicat la tabele 22 atunci cnd exist celule cu mai puinde 5 elemente (anumii autori o recomand la toate tabelele 22).

    Prin corecia Yates se obine o mai bun aproximare a distribuieibinomiale, rezultatul este conservator n sensul c se obine mai greu semnificaia dect la aplicarea direct a testului 2 .

  • YATES

  • Este o msur a legturii ntre o boal i prezena unui factor de risc, presupus a influena apariia bolii Riscul Relativ, este raportul dintre riscul la cei expui, i riscul la cei neexpui.

    Riscul relativ - definiii

  • Ne arat de cte ori este mai mare riscul la expui fade neexpui i este o msur a forei asocierii dintrefactorul de risc (expunere) i efect (boal)

    Cu ct este mai mare RR, cu att argumentul cexpunerea i efectul sunt asociate este mai puternic

    Riscul atribuibil ne arat ci indivizi vom salva de laefectul urmrit dac eradicm expunerea. Cu ct risculatribuibil este mai mare, cu att efectul evitrii expuneriieste mai mare

    Riscul relativ

  • Studiile caz-

    control

    Studii n care se urmrete realizarea asocierii expunerii la un factor de risc a unei serii de cazuri ce prezint boala respectiv (caz), n comparaie cu un grup neafectat de boal (control, martor)

    I. Recenzii sistematice, metaanaliza

    II. Studii clinice randomizate

    III. Studii de cohort

    IV. Studii caz-control

    V. Studii transversale

    VI. Studii de caz i serii de cazuri

    Nivelul dovezii (evidence-based medicine).

    Piramida studiilor

  • Sunt cele mai frecvente studii epidemiologice analitice, observaionale

    Sunt studii longitudinale (se refer la un interval de timp)

    Retrospective (cercettorul privete napoi, de la boal spre o cauz posibil a acesteia)

    Unitatea de observaie: individul (nu grupul, populaia)

    Se studiaz n special bolile cu:

    o perioad lung de laten (ex. cancerul)

    cu o incubaie de durat

    boli care sunt rare

    Studiile caz-control

  • Factorul de risc (FR), n studiul caz-control este reprezentat de un eveniment care a survenit n trecutul subiecilor, naintea declanrii bolii

    Exemple de FR:

    Fumatul Medicamente administrate Caracteristici individuale (grupa

    sanguin), etc.

    Un indicator al asocierii ntre factorul de risc i boal este depistarea unei expuneri mai mari la factorul de risc al cazurilor, comparativ cu cel al

    grupului de control, asocierea avnd importan etiologic

    Sursa informaiilor: anamneza, istoricul afeciunii din fia medical, etc.

  • Studiul caz- martor se utilizeaz cnd prevalena bolii n populaie este mic

    Permite studiul asociaiei mai multor factori de risc cu aceeai boal

    maladiile cronice unde sunt incriminai mai muli factori de risc

    Studiile caz martor sunt criticate deoarece nu sunt realizate ntr-o manier experimental, direcia studiului fiind de la boal spre factorul de risc

  • Este necesar eantionarea

    cazurile luate n studiu trebuie s fie reprezentative pentru toate cazurile din maladia luat n studiu

    ntrebare: selectm cazuri prevalente (care au boala de un timp), sau incidente (nou diagn.)

    mai uor s lum prevalente, mai ales n cazul bolilor rare, unde pentru a gsi incidente trebuie s ateptm destul de mult

    Din punctul de vedere al validitii - indicat s lum cazuri incidente (reducem suprareprezentarea cazurilor cu evoluiede lung durat i erorile sistematice de memorie)

    n cazul maladiilor rare lum n studiu i cazuri noi i cazuri vechi

    Exemplu: n cazurile vechi de boal, frecvena FR < n urma comportamentului modificat al bolnavului; va fi o diferen sistematic ntre cazurile diagnosticate de mai mult timp, deoarece pacienii pot fi informai despre cauzele bolii, iar martorii nu sunt informai

  • Lotul martor poate fi constituit din:

    B. Lotul martor

    Un eantion dintr-o anumit populaie, pentru grupul de cazuri ce fac parte din acea populaie

    Un grup de pacieni internai sau luai n eviden la aceeai instituie de unde sunt selectate cazurile, dar cu alt diagnostic

    Un grup de persoane din aceeai populaie ca icazurile, asemntoare cu acestea din punct de vedere al altor factori de risc

    Grupuri de vecintate - grup de rude sau vecini ale cazurilor

    1.

    2.

    3.

    4.

  • Msurarea asociaiei FR - efect

    Datele obinute ntr-un studiu caz martor se introduc ntr-un tabel de contingen 2x2

    SAU

    a persoanele ce fac boala dintre cei expui ; b - persoanele ce nu fac boala dintre cei expui.c - persoanele ce fac boala dintre cei nonexpui ; d - persoanele ce nu fac boala dintre cei nonexpui.a+b totalul expuilor. c+d totalul nonexpuilor. a+c totalul bolnavilor. b+d - totalul nonbolnavilor

  • Pentru msurarea forei asociaiei epidemiologice n anchetele de tip caz control se utilizeaz odds ratio (raportul cotelor, OR)

    Cota (odds, O) unui eveniment este definit ca raportul dintre probabilitatea realizrii acelui eveniment raportat la probabilitatea nerealizrii lui

  • Diferena ntre probabilitate i cot (ODDS)

    Termenii cot i probabilitate (risc) sunt folosii frecvent, n situaii diverse, de multe ori fcnd confuzie ntre ei. n statistic lucrurile sunt diferite.

    Ambii termeni arat ct de probabil este ceva, dar se calculeaz diferit, fiind folosii n situaii diferite.

    Probabilitatea =numrul cazurilor egal posibile care realizeaz evenimentul

    numrul cazurilor egal posibile

    Cota =numrul de apariii ale evenimentului

    numrul de neapariii ale sale

    Prob=1/6

    Odds=1/5 Odds=

    1

    Riscul este probabilitatea de a suferi efectul

    Cota (odds) este raportul dintre probabilitatea de a suferi

    efectul i probabilitatea de a nu-l suferi

  • n cazul unei anchete epidemiologice raportul cotelor (OR) se definete:

    OR = cota bolii la expui

    cota bolii la nonexpui

    n cazul bolilor rare (ex: bolile cronice cu prevalen

  • cota este ntotdeauna mai mare dect riscul, iar raportul cotelor (odds ratio) este ntotdeauna mai mare dect riscul relativ.

    Riscul bolii la expui

    Riscul bolii la nonexpui

    Riscul relativ - demonstreaz de cte ori este mai mare riscul bolii la expui fa de cei nonexpui. Deci, grupul expuilor are un risc de RR ori mai mare de apariie a bolii dect grupul nonexpui

    Cota bolii la expui e de OR mai mare dect la neexpui sau ansa expunerii la factorul de risc (F) este de (OR) mai mare n cazul celor care sufer deboala B fa de ansa de a fi fost expus la factorul F n cazul persoanelor sntoase

    Riscul relativ

    Cota bolii la expui OREXP= a/c

    Cota bolii la ne-expui ORNEEXP= b/d

    Raportul cotelor

  • Exemplul 1:

    este diabetul factor de risc pentru infarctul acut de miocard?

    Identificm

    cazurile (indivizi cu infarct miocardic acut)

    martorii (indivizi fr infarct miocardic acut)

    i comparm pe unii cu ceilali n privina existenei diabetului:

    Dac diabetul este mai frecvent la cazuri dect la martori, este posibil ca acesta s fie factor de risc.

  • Care sunt cotele (odds) diabetului zaharat (n acest caz factor de risc) la cazuri, respectiv la martori (aadar, cotele factorului de risc la bolnavi i la sntoi?

    Dac avem mai muli martori pentru 1 caz, puterea studiului va crete. Numrul cazurilor este de obicei limitat (boala este rar de cele mai multe ori), dar martorii ar putea fi orici. Creterea puterii statistice a studiului nu mai e la fel de spectaculoas atunci cnd se depete un nr. de 4 martori/1caz

  • cota diabetului la cei cu infarct miocardic este

    ORIMA/DZ=20/80=0,25 ; ORMARTORI=40/360=0,111

    raportul cotelor OR= 0,250/0,111=2,25

    Cum OR estimeaz riscul relativ (RR), pe care n studiile caz-martor nu avem cum s-l calculm, putem spune c pacienii cu infarct miocardic au un risc de 2,25 de ori mai mare s aib diabet dect pacienii fr infarct miocardic, iar transpus n relaia cauz-efect pe care o studiam noi, c pacienii cu diabet au un risc de 2,25 ori mai mare s fac infarct dect pacienii fr diabet

  • Date iniiale

    Calculul valorilor ateptate

  • Valori ateptate

    Dac in urma analizei statistice se obine p

  • Prezentarea i prelucrarea datelor n EpiInfo

    Pentru OR sunt calculate i intervalele de ncredere [a, b]. Interpretarea lor este

    imediat: Dac a1b, atunci variabila de expunere este

    un factor indiferent

    Dac 1 < a, atunci variabila de expunere este

    un factor de risc

    Dac b < 1, atunci variabila de expunere este un factor de protecie

  • Testul statistic adecvat este testul Chi

    Dac in urma analizei statistice se obine p

  • Pentru evaluarea existenei unei legturi ntre boal i factorul de risc

    -testul Hi ptrat (Chi square) (testul bidirecional two tails)

    interpretare:

    dac p0,05 nu se poate respinge ipoteza nul p este probabilitatea de a obine un rezultat ca cel gsit din cauza

    ntmplrii n situaia n care n realitate nu exist legtur ntre parametrii urmrii

    ales ntruct sunt date de tip calitativn formatul: p=valoare (cu maxim 3 zecimale)-numele testului folositEx: p=0.005 test student pentru eantioane perechi

  • NUMRUL NECESAR DE PACIENI CARE TREBUIESC TRATAI

    NNT (number needed to treat)

    conceput ca o modalitate util de a prezenta rezultatele unui studiu clinic, astfel ca medicii s poataprecia cu uurin eficacitatea unui tratament

    reprezint numrul de pacieni care ar trebui s urmeze, mai degrab un anumit tratament dect altul,pentru a se obine beneficii suplimentare pentru un singur pacient

    EXEMPLU:

    Ct de muli oameni trebuie s se trateze cu bandaj elastic n loc de inelastic pentru a obine o singurvindecare suplimentar?

    Dac diferena este de 25.4%, aceasta nseamn c pentru fiecare 100 de persoane pe care le tratmcu bandaj elastic n loc de inelastic, 25.4 se vor vindeca suplimentar. Prin urmare, pentru a vindeca opersoan n plus, trebuie s se trateze 100/25.4 = 3.9 pacieni. Pentru fiecare 3.9 persoane tratate cubandaj elastic n loc de inelastic, se estimeaz c o persoan n plus va fi vindecat

    n mod clar un NNT mic este bun, deoarece este necesar s tratm doar civa pacieni pentru ca unul nplus s se vindece

    NNT poate fi negativ? Un NNT negativ apare cnd proporia de vindecai pentru tratamentul testat(bandaj elastic) este mai mic dect proporia de vindecai pentru tratamentul de control (bandajinelastic). Tratamentul face mai mult ru dect bine. n acest caz, avem numrul de pacieni necesar a fitratai pentru a determina apariia unui efect negativ, notat cu NNTH (number needed to treat to harm)