3 - probabilitate si metode probabilistice

61
PROBABILITATE ŞI MODELE PROBABILISTICE Capitolul 3 20-Apr-15 1

Upload: geopopiku

Post on 17-Dec-2015

31 views

Category:

Documents


3 download

DESCRIPTION

statistica

TRANSCRIPT

  • PROBABILITATE I MODELE PROBABILISTICE

    Capitolul 3

    20-Apr-15 1

  • 3.1 PROBABILITATE

    O proporie este definit pentru a reprezenta mrimea relativ a poriunii din populaie cu o anumitcaracteristic (binar).

    De exemplu, prevalena unei boli este proporia din populaie care prezint boala.

    Similar, putem discuta despre proporia reaciei pozitive la un anumit test screening (test de identificare asimptomelor unei afeciuni la pacienii aparent sntoi), proporia de brbai n cuprini n forme de studii depost-liceale, etc.

    O proporie este folosit ca o msur descriptiv pentru o populaie int n raport cu o caracteristic binar(dihotomic).

    Ea este un numr cuprins ntre 0 i 1 (sau 100%); cu ct numrul este mai mare, cu att sub-populaia cu caracteristica respectiv este mai mare [de exemplu, 70% brbai nseamn mai muli brbai dect femei (dect 50%)].

    20-Apr-15 2

  • Cu ct este mai mare proporia, cu att este mai mare ansa (unei astfel de persoane de a fi selectat).

    Aceast ans este msurat prin proporie, un numr ntre 0 i 1, numit probabilitate.

    Proporia msoar mrimea; ea este o caracteristic statistic descriptiv.

    Probabilitatea msoar ansa.

    Cnd ne intereseaz rezultatul (nc incert n aceast etap) unei selecii aleatoare, o proporie (static, fr aciune) devine o probabilitate (aciunea pe cale de a fi luat).

    S considerm acum o populaie cu o anumit caracteristic binar.

    O selecie aleatoare este definit ca fiind una n care fiecare persoan are ans egal de a fi selectat.

    Care este ansa ca o persoan cu respectiva caracteristic s fie selectat (de exemplu, ansa de selecie a uneipersoane bolnave)?

    Rspunsul depinde de mrimea sub-populaiei din care face parte aceasta (adic, proporia).

    20-Apr-15 3

  • S ne gndim la un exemplu simplu privind o cutie ce conine 100 de bile, 90 dintre ele roii i 10 albastre.

    Dac ntrebarea este:Cte bile roii sunt n cutie?, cineva poate rspunde 90%.

    Dar dac ntrebarea este:Dac luai o bil la ntmplare, credei c vei extrage una roie?, rspunsul ar trebui s fie 90% ans.

    Primul 90% reprezint o proporie; cel de-al doilea 90% indic o probabilitate.

    n plus, dac facem mai multe selecii aleatoare (numite eantionri repetate),frecvena relativ acumulat pe termen lung (cumulativ) cu care apare un eveniment

    (caracteristica de observat) este egal cu proporia sub-populaiei cu aceast caracteristic.

    Datorit acestei observaii, proporia i probabilitatea sunt uneori folosite alternativ.

    n seciunile urmtoare vom opera cu conceptul de probabilitate i unele aplicaii simple pentru luarea deciziilor medicale.

    20-Apr-15 4

  • 3.1.1 Certitudinea Incertitudinii

    Chiar i tiina este incert.Oamenii de tiin greesc deseori.

    Ei ajung la concluzii diferite n multe domenii: efectul anumitor ingrediente alimentare sau cel al radioactivitii denivel sczut, rolul grsimilor n diete i altele.

    Multe studii nu ajung la nici o concluzie.

    De exemplu, zeci de ani chirurgii au crezut c o mastectomie radical ar fi fost singurul tratament pentru cancerulde sn.

    Recent ns, teste clinice atent proiectate au artat c tratamente mai puin drastice par s fie la fel de eficace.

    De ce nu este ntotdeauna tiina sigur?

    Pentru c natura este complex i plin de variabiliti biologice neexplicate.

    n plus, aproape toate metodele de observare i experimentare sunt imperfecte.

    Observatorii sunt supui prejudecilor i erorilor umane.

    20-Apr-15 5

  • tiina (bio-) medical, mai ales, conine controverse i dezacorduri;

    cu cele mai bune intenii, datele biomedicale istoricul medical, examinrile fizice, interpretarea testelor clinice, descrierea simptomelor i afeciunilor sunt cumva inexacte.

    Dar cel mai important dintre toate, ntotdeauna avem de a face cu informaii incomplete:

    - este fie imposibil, fie mult prea costisitor, sau necesit prea mult timp pentru a studia ntreaga populaie;

    - de cele mai multe ori trebuie s ne rezumm la informaiilor obinute dintr-un eantion adic un subgrup alpopulaiei investigate.

    Astfel, ntotdeauna predomin o anumit incertitudine.

    tiina i oamenii de tiin se asigur n privina incertitudinii folosind conceptul de probabilitate.

    Calculnd probabilitile, acetia sunt n msur s descrie ce se ntmpl i s prezic ce ar trebui s se ntmple n viitor n condiii similare.

    20-Apr-15 6

  • 3.1.2 Probabilitate

    Populaia int pentru a anumit cercetare este ntreg setul de subieci la care se refer cercetarea.

    De exemplu, ntr-un screening pentru cancer ntr-o comunitate, populaia int va consta din toate persoanelecomunitii care sunt supuse riscului bolii.

    Pentru una din situaii, populaia int poate fi constituit din toate femeile cu vrsta peste 35 de ani; pentru alta,poate fi constituit din toi brbaii peste 50 de ani.

    Probabilitatea unui eveniment, cum ar fi rezultatul pozitiv la un test screening, ntr-o populaie int este definitca frecvena relativ (adic proporia) cu care evenimentul apare n acea populaie int.

    De exemplu, probabilitatea de a avea boala este prevalena bolii.

    Ca un alt exemplu, s presupunem c dintr-un total de = 100.000 de persoane dintr-o anumit populaie int,un total de 5.500 au reacie pozitiv la un anumit test screening; ca urmare, probabilitatea de a fi pozitiv, notat cuPr(pozitiv), este

    Pr pozitiv =5.500

    100.000= 0,055 sau 5,5%

    Astfel, o probabilitate este o msur descriptiv a unei populaii int n raport cu un anumit eveniment de interes.

    Ea este un numr ntre 0 i 1 (sau 0 i 100%); cu ct este mai mare numrul, cu att este mai mare sub-populaia.20-Apr-15 7

  • Pentru cazul msurtorilor continue, exist probabilitatea de a ncepe cu un anumit interval.

    De exemplu, probabilitatea unui nivel al colesterolului n snge ntre 180 i 210 (mg/100ml) este proporia de indivizidin populaia int care au nivelurile colesterolului situat ntre limitele specificate.

    Acesta este msurat, n contextul histogramei din Capitolul 2, prin suprafaa barei rectangulare corespunztoare clasei(180-210).

    De mare interes este interpretarea probabilitii drept conceptul eantionrii aleatoare astfel nct s se asociezeconceptul de probabilitate cu incertitudinea i ansa.

    S notm mrimea (volumul) populaiei int cu (de obicei un numr mare), iar cea al unui subset cu , un numrn < N, din populaia int.

    Eantionarea aleatoare simpl din populaia int este eantionarea realizat astfel nct fiecare eantion posibil de volum s aib ans egal de selecie.

    Pentru eantionarea aleatoare simpl:

    1. Fiecare extragere individual este incert n raport cu orice eveniment sau caracteristic investigat (de exemplu,

    existena unei boli), dar

    2. n eantionarea repetat din populaie, frecvena relativ acumulat (cumulativ) pe termen lung cu care

    evenimentul apare reprezint frecvena relativ a evenimentului n populaie.20-Apr-15 8

  • Procesul fizic de eantionare aleatoare poate fi realizat dup cum urmeaz (sau ntr-o manier logic echivalentpailor ce urmeaz).

    1. Se pornete de la o list a tuturor celor subieci din populaie. O astfel de list este denumit referin (frame) pentru populaie. Subiecii sunt astfel disponibili pentru o numrtoare aleatoare (de ex., de la 000 la N = 999). Referina se bazeaz de obicei pe un anuar (carte de telefon, carte de adrese, etc.) sau pe nregistrrile unui spital.

    2. Se pregtete cte o etichet (bileel) pentru fiecare subiect, purtnd un numr 1,2,,.

    3. Etichetele sunt puse ntr-o caset i apoi sunt amestecate foarte bine.

    4. Se extrage o etichet.

    Numrul etichetei identific apoi subiectul din populaie; acest subiect devine membru al eantionului.

    Paii de la 2 la 4 pot fi de asemenea realizai folosind o tabel de numere aleatoare (Anexa A).

    Se alege arbitrar o coloan de 3 digii (sau de 4 digii, dac volumul populaiei este mare) i un numr selectatarbitrar din acea coloan servete pentru identificarea subiectului din populaie.

    n practic, acest proces se realizeaz cu ajutorul calculatorului.

    Astfel putem face legtura dintre conceptele de probabilitate i eantionare aleatoare dup cum se descrie n continuare.

    20-Apr-15 9

  • n exemplul cu screening-ul pentru cancer ntr-o comunitate de = 100.000 de persoane, probabilitatea calculatde 0,055 este interpretat astfel:

    Probabilitatea ca o persoan aleas aleatoriu din populaia int s aib un rezultat pozitiv este 0,055 sau 5,5%.

    Explicaia este argumentat n continuare.

    La o extragere iniial, subiectul ales sau unul cu rspuns pozitiv.

    Totui, dac acest proces de extragere aleatoare a unui subiect la un anumit moment din populaie este repetatde mai multe ori, frecvena relativ cumulativ pe termen lung a receptorilor pozitivi din eantion va aproxima 0,055.

    20-Apr-15 10

  • 3.1.3 Legturi statistice

    Datele din testul screening de cancer din Exemplul 1.4 sunt reproduse aici n Tabelul 3.1.

    Rezultatul Testului, Afeciune, + Total+ 154 225 379 362 23.362 23.724Total 516 23.587 24.103

    TABELUL 3.1 Aici, fiecare membru al populaiei este caracterizat de dou variabile:- rezultatul testului i - starea de boal constatat .

    Urmnd definiia anterioar, probabilitatea unui rezultat pozitiv al testului, notat cu Pr = + , este

    = + =516

    24,103= 0,021

    iar probabilitatea unui test cu rezultat negativ, notat cu Pr = , este

    = =23.587

    24.103= 0,979

    i similar, probabilitile de a avea = + i de a nu avea = afeciunea sunt date de

    Pr = + =379

    24,103= 0,016

    i

    Pr = =23.724

    24.103= 0,984

    20-Apr-15 11

  • S remarcm i c suma probabilitilor pentru fiecare variabil este egal cu unitatea:Pr = + + Pr = = 1,0Pr = + + Pr = = 1,0

    Acesta este un exemplu de existen a regulii de aditivitate a probabilitilor pentru evenimentele mutual exclusive:

    Unul din cele dou evenimente = + sau = este sigur c va fi adevrat pentru o persoan aleas aleatoriu din populaie.

    Mai departe, putem calcula probabilitile asociate (joint probabilities).

    Acestea sunt probabilitile celor dou evenimente precum a avea boala i a avea un rezultat pozitiv al testului de a apare simultan.

    Cu dou variabile, i , exist patru condiii de rezultate i probabilitile asociate sunt

    Pr X = +, Y = + =154

    24.103= 0,006

    Pr X = +, Y = =362

    24.103= 0,015

    Pr X = , Y = + =225

    24.103= 0,009

    Pr X = , Y = =23.362

    24.103= 0,970

    Cea de-a doua din cele patru probabiliti asociate, 0,015, reprezint probabilitatea ca o persoan extras aleatoriu din populaia int s aib rezultat pozitiv la test, dar s fie sntoas (adic, s fie fals pozitiv).

    20-Apr-15 12

  • Aceste probabiliti asociate i probabilitile marginale de mai sus, calculate separat pentru X i Y, sunt centralizate n Tabelul 3.2.

    + Total+ 0,006 0,009 0,015 0,015 0,970 0,985Total 0,021 0,979 1,000

    TABELUL 3.2Se poate observa c cele patru celule cu probabiliti conduc la valoareaunitar[adic unul din cele patru evenimente = +, = + sau = +, = sau = , = + sau = , =

    este sigur adevrat pentru un individ selectat aleatoriu din populaie].

    De asemenea, trebuie remarcat c probabilitile asociate de pe fiecare rnd (sau coloan) se nsumeaz laprobabilitatea marginal sau unidimensional la marginea rndului respectiv (sau coloanei).

    De exemplu,Pr X = +, Y = + + Pr X = , Y = + = Pr Y = + = 0,015

    20-Apr-15 13

  • S considerm acum un al treilea tip de probabilitate.

    De exemplu, sensibilitatea se poate exprima prin

    =154

    379= 0,406

    calculat pentru evenimentul = + folosind sub-populaia avnd = + .

    Adic, din numrul total de 379 de persoane avnd cancer, proporia celor cu rezultat pozitiv la test este 0,406 sau40,6%.

    Acest numr, reprezentat prin Pr = +| = + , este denumit probabilitate condiionat ( = + fiind condiia) i estelegat de alte dou tipuri de probabiliti:

    Pr = +| = + =Pr = +, = +

    Pr = +sau

    Pr = +, = + = Pr = +| = + Pr = +

    Evident, facem distincie ntre aceast probabilitate condiionat Pr X = +|Y = + i probabilitatea marginalPr X = + .

    Dac ele sunt egale, Pr X = +|Y = + = Pr X = +cele dou evenimente X = + i Y = + se spune c sunt independente (deoarece condiia Y = + nu schimbprobabilitatea X = +) i avem de-a face cu regula de multiplicare a probabilitilor evenimentelor independente:

    Pr X = +, Y = + = Pr X = + Pr Y = +

    20-Apr-15 14

  • Dac dou evenimente nu sunt independente, ele au o legtur statistic sau spunem c ele sunt statistic asociate.

    Pentru exemplul relativ la screening-ul anterior,Pr X = + = 0,021

    Pr X = +|Y = + = 0,406valori ce indic n mod clar o puternic legtur statistic [deoarece Pr X = +|Y = + Pr X = + ].

    Evident, are sens s existe o puternic legtur statistic aici; altfel screening-ul este inutil.

    Totui, trebuie subliniat c o asociere statistic nu nseamn neaprat c exist o cauz i un efect.

    Cu excepia cazului n care o relaie este att de puternic i se repet n mod constant astfel nct situaia estecopleitoare prin eviden,

    o relaie statistic,

    n special una observat pe baza unui eantion (deoarece totalitatea informaiilor asupra populaiei este rareoridisponibil),

    este doar un indiciu,

    ceea ce nseamn c este necesar un studiu mai aprofundat sau existena unei confirmri.

    20-Apr-15 15

  • Trebuie semnalat c sunt cteva moduri diferite de a verifica prezena unei legturi statistice.

    1. Calculul raiei anselor. Cnd i sunt independente, sau nu sunt asociate statistic, raia anselor este egal cu 1.Aici facem referin la valoarea raiei anselor pentru populaie; aceast valoare este definit prin

    raia anselor =Pr X = +|Y = + /Pr X = |Y = +

    Pr X = +|Y = /Pr X = |Y = i poate fi exprimat, echivalent, n termeni de probabiliti asociate astfel

    raia anselor =Pr X = +|Y = + Pr X = |Y =

    Pr X = +|Y = Pr X = |Y = +i, pentru exemplu de mai sus, conduce la

    OR =0,006 0,970

    0,015 0,009= 43,11 ceea ce indic n mod clar o legtur statistic.

    2. Compararea probabilitii condiionate cu cea necondiionat (sau marginal): de exemplu, Pr = + = cu Pr( = +).

    3. Compararea probabilitilor condiionate: de exemplu, Pr( = +| = +) cu Pr( = +| = ). Exemplul de mai sus privind screening-ul conduce la

    Pr X = + Y = + = 0,406

    n timp ce Pr X = + Y = =362

    23.742= 0,015 din nou, indic n mod clar o legtur statistic.

    20-Apr-15 16

  • 3.1.4 Folosirea Testelor Screening

    Am introdus deja conceptul de probabilitate condiional.

    Acesta este important pentru a face distincie ntre dou probabiliti condiionale, Pr( = +| = +) i Pr( = +| = +).

    n Exemplul 1.4, reintrodus n Seciunea 3.1.3, avem

    Pr = + = + =154

    379= 0,406

    n timp ce

    Pr = + = + =154

    516= 0,298

    Rezultatul Testului,

    Afeciune, + Total+ 154 225 379 362 23.362 23.724Total 516 23.587 24.103

    n contextul evalurii testului screening:

    1. Pr = + = + i Pr = = sunt respectiv sensibilitatea i specificitatea.

    2. Pr = + = + i Pr = = sunt denumite predictibilitate pozitiv i predictibilitate negativ.

    Cu predictibilitatea pozitiv (sau valoarea predictiv pozitiv), ntrebarea este:

    tiind c testul sugereaz cancerul, care este probabilitatea ca, de fapt, cancerul s fie prezent?20-Apr-15 17

  • Argumentarea pentru aceste valori predictive este aceea c un test trece prin cteva stadii.

    Iniial, ideea original a testului apare de la un cercettor.

    Trebuie apoi s treac printr-un stadiu de dezvoltare.

    Acesta poate avea mai multe aspecte (n biochimie, microbiologie, etc.) unul din care fiind cel biostatistic:ncercarea testului pe o populaie pilot.

    Din acest stadiu de dezvoltare, eficiena testului este caracterizat prin sensibilitate i specificitate.

    Un test eficient va trece apoi printr-un stadiu aplicativ cu aplicarea efectiv a testului pe o populaie int; i aici ne concentrm doar pe valorile predictive ale acestuia.

    20-Apr-15 18

  • Exemplul simplu prezentat n Tabelul 3.3 arat c, spre deosebire de sensibilitate i specificitate, valorile predictivepozitive i negative depind nu doar de eficiena testului dar i de prevalena bolii n populaia int.

    TABELUL 3.3

    Populaia A Populaia B

    + + + 45.000 5.000 + 9.000 1.000 5.000 45.000 9.000 81.000

    n ambele cazuri testul are sensibilitate 90%i specificitate 90%.

    Totui:1. Populaia A are o prevalen de 50%, ceea ce conduce la o valoare predictiv pozitiv de 90%.2. Populaia B are o prevalen de 10%, ceea ce conduce la o valoare predictiv pozitiv de 50%.

    Concluzia este clar:Dac un test chiar puternic sensibil i puternic specific este aplicat unei populaii int n care prevalena boliieste sczut (adic, screening-ul populaiei pentru boli rare), valoarea predictiv pozitiv este sczut.

    20-Apr-15 19

  • Valorile predictive sunt calculate din

    predictibilitatea pozitiv =prevalena sensibilitatea

    prevalena sensibilitatea + 1 prevalena (1 specificitatea)

    i

    predictibilitatea negativ =1 prevalena specificitatea

    1 prevalena specificitatea + prevalena (1 sensibilitatea)

    Aceste formule, denumite teorema lui Bayes, ne permit s calculm valorile predictive fr a avea la dispoziiedatele din stadiul de aplicare.

    Tot ce ne trebuie este s avem la dispoziie prevalena bolii (obinut din datele ageniei naionale de sntate) isensibilitatea i specificitatea; aceste au fost obinute dup stadiul de dezvoltare.

    Nu este prea dificil de demonstrat aceste formule, folosind regulile de adiie i multiplicare ale probabilitilor.

    Totui, prevalenele bolilor sunt de multe ori disponibile din datele ageniilor naionale i supravegherii strii desntate a populaiei.

    n aplicarea real a testului screening unei populaii int (stadiul de aplicare), datele asupra strii de boal aindivizilor nu sunt disponibile (altfel, screening-ul nu ar mai fi necesar).

    20-Apr-15 20

  • Putei de asemenea observa c, n loc de a cuta dovezi formale, ilustrm validitatea acestora folosind datelepopulaiei B de mai sus:

    1. Calculul direct al predictibilitii pozitive conduce la 9.00018.000= 0,5

    2. Folosirea prevalenei, sensibilitii i specificitii implicprevalena sensibilitatea

    prevalena sensibilitatea + 1 prevalena (1 specificitatea)=

    0,1 0,9

    0,1 0,9 + 1 0,1 (1 0,9)= 0,5

    De exemplu, avem

    Pr = + = + =Pr = +, = +

    Pr = +=

    Pr = +, = +

    Pr = +, = + + Pr = +, = =

    =Pr = + Pr = +| = +

    Pr = + Pr = +| = + + Pr = Pr = +| = =

    =Pr = + Pr = +| = +

    Pr = + Pr = +| = + + 1 Pr = + 1 Pr = | =

    care este prima ecuaie pentru predictibilitatea pozitiv.

    20-Apr-15 21

  • 3.1.5 Concordana Msurtorilor

    Multe cercetri experimentale se bazeaz pe judecata unui observator pentru a determina dac o afeciune, untratament sau un atribut este prezent sau absent.

    De exemplu, rezultatul examinrii ORL va avea categoric efecte asupra comparrii tratamentelor concurente pentruinfecia urechii.

    Bine neles, preocuparea de baz este caracteristica de ncredere.

    Seciunile 1.1.2 i 3.1.4 opereaz cu un aspect important al ncrederii, valabilitatea estimrii.

    Cu toate acestea, pentru a judeca valabilitatea metodei, trebuie s fie disponibil o metod exact de clasificare,sau standardul de aur, pentru calculul sensibilitii i specificitii.

    Cnd nu este disponibil o metod exact, ncrederea poate fi judecat indirect n termeni de reproductibilitate; celmai uzual mod de a face acest lucru este acela de a msura concordana dintre examinatori.

    20-Apr-15 22

  • Pentru simplitate, s presupunem c fiecare din cei doi observatori independeni include fiecare din cele n elemente sau subieci ntr-una din dou categorii.

    TABELUL 3.4

    Observatorul 2Observatorul 1 Categoria 1 Categoria 2 TotalCategoria 1 11 12 1+Categoria 2 21 22 2+Total +1 +2

    TABELUL 3.5

    Observatorul 2Observatorul 1 Categoria 1 Categoria 2 TotalCategoria 1 11 12 1+Categoria 2 21 22 2+Total +1 +2 1,0

    Eantionul poate fi astfel centralizat ntr-un tabel 2 2 (Tabelul 3.4) sau n termeni de probabiliti (Tabelul 3.5).

    Folosind aceste frecvene, putem defini:

    O proporie global a concordanei: =11+22

    Proporii specifice pe categorii de concordan: 1 =211

    211+12+212 =

    222222+12+21

    20-Apr-15 23

  • 20-Apr-15 24

    Distincia dintre concordan i asociere este aceea c- pentru ca dou rspunsuri s fie asociate perfect, trebuie s prezicem categoria unui rspuns din categoria

    celuilalt rspuns, n timp ce

    - pentru ca dou rspunsuri s aib concordan perfect, ele trebuie s cad n categoria identic.

    Totui, proporia concordanei, global sau specific pe categorii, nu msoar corespondena.

    Printre alte raiuni, ele sunt afectate de totalurile marginale.

    O posibilitate este aceea de a compara concordana global,

    1 =

    unde sunt proporiile din cel de-al doilea tabel 2 2 de mai sus, cu concordana de ans,

    2 =

    ++

    care apare dac variabila rnd este independent de variabila coloan, deoarece dac dou evenimente sunt independente, probabilitatea lor de mbinare ntmpltoare este produsul probabilitilor lor marginale individuale (regula de multiplicare).

  • Aceasta conduce la o msur a concordanei, =1212

    numit kapa, 0 1,

    care poate fi exprimat ca =2 112212211++2++12+

    iar evaluarea valorii calculate a lui kapa pentru cercetrile clinice se poate face dup regulile de mai jos: > 0,75: reproductibilitate excelent0,40 0,75: reproductibilitate bun0 < 0,40: reproductibilitate slab/marginal

    n general, reproductibilitatea care nu este bun indic necesitatea efecturii mai multor estimri.

    20-Apr-15 25

  • Exemplul 3.1Dou asistente fac examinri ale urechii, concentrndu-se pe culoarea membranei timpanului; fiecare asistentatribuie, pentru fiecare din cele 100 de urechi examinate, ncadrarea n una din dou categorii:

    (a) normal sau gri, sau(b) anormal (alb, roz, portocalie sau roie).

    TABELUL 3.6

    Asistenta 2Asistenta 1 Normal Anormal TotalNormal 35 10 45Anormal 20 35 55Total 55 45 100

    Datele sunt prezentate n Tabelul 3.6.Rezultatul este

    =2 35 35 20 10

    45 45 + 55 55= 0,406

    Valoarea lui arat c ipoteza concordanei este greu de acceptat.

    Kapa, ca msur a concordanei, poate fi folosit i cnd avem mai mult de dou categorii pentru clasificare:

    = ++1 ++

    Putem forma criterii specifice pentru categorii (de ex., pentru dou categorii)

    1 =111++111++1

    2 =222++212++2

    Problema mai dificil cu este aceea c el se apropie de zero (chiar pentru un mare grad de concordan) dacprevalena este apropiat de 0 sau de 1.

    20-Apr-15 26

  • 3.2 DISTRIBUIA NORMAL

    3.2.1 Forma Curbei Normale

    Histograma din figura 2.3 este reprodus aici ca Figura 3.1 (pentru detalii numerice, vezi Tabelul 2.2).

    O examinare atent arat c n general frecvenele (sau densitile) relative sunt mari n vecintateaintervalelor 20-29, 30-39 i 40-49 i scad ctre ambele extreme a domeniului de msurtori.

    Figura 3.1 Distribuia greutilor celor 57 de copii

    S ne imaginm acum c numrul de copii crete la 50.000 iscdem limea intervalului la 0,01 livre.

    Figura 3.2 Histogram bazat pe un set mare de date de greuti

    Dac vom continua cu creterea volumuluisetului de date i cu scderea limii intervalului,vom ajunge eventual la o curb neted care sesuprapune peste histograma din Figura 3.2,denumit curb de densitate.

    20-Apr-15 27

  • Probabil ai auzit deja de distribuia normal; este descris ca o distribuie avnd aspectul unei seciuni printr-unclopot, similar Figurii 3.2.

    Numele poate sugera c cele mai multe distribuii din natur sunt normale. Aceast presupunere este FALS.

    Mai mult, distribuiile nu pot fi exact normale.

    Unele, cum ar fi nlimea adulilor de un anumit gen i ras, sunt spectaculos de aproape de distribuia normal, darniciodat exact.

    Distribuia normal este extrem de util n statistic, dar dintr-un motiv foarte diferit nu pentru c apare n natur.

    Matematicienii au dovedit c pentru eantioane suficient de mari, valorile mediilor de eantion, (incluzndproporiile eantionului ca un caz special), sunt distribuite aproximativ normal, chiar dac eantioanele sunt dindistribuii reale asimetrice.

    Acest rezultat important poart numele de teorema limitei centrale.

    Este important pentru statistic, precum este important nelegerea germenilor pentru nelegerea afeciunilor.

    20-Apr-15 28

  • Reinei c normal este doar o denumire pentru aceast curb; dac o mrime nu este distribuit normal, nunseamn c este anormal.

    Multe texte statistice furnizeaz proceduri statistice pentru a identifica dac o distribuie este normal, dar ele nu sencadreaz n scopul acestui curs.

    De acum ncolo, pentru a face distincie ntre eantioane i populaie (un eantion este un subgrup din populaie),vom adopta setul de noiuni definit n Tabelul 3.7.

    TABELUL 3.7

    NotaieCantitatea Eantion PopulaieMedie Varian (Dispersie) 2 2

    Deviaie standard (Abatere medie ptratic) Proporie

    Cantitile din prima coloan (, 2, ) sunt mrimi statistice reprezentnd centralizarea informaiilor din eantion.

    Parametrii corespunztori pentru populaie sunt fici (constani) dar necunoscui i fiecare mrime statistic poate fi folosit ca o estimare a parametrului corespunztor al populaiei.

    20-Apr-15 29

  • De exemplu, este folosit ca o estimare a ; acest aspect va fi discutat n detaliu n Capitolul 4.

    O problem major n manipularea mrimilor statistice precum i este aceea c, dac vom considera un alt eantion chiar folosind unul de acelai volum valorile mrimilor statistice se schimb de la un eantion la altul.

    Teorema limitei centrale ne spune c dac mrimile eantioanelor sunt suficient de mari, valorile (sau ) neantionri repetate au o distribuie foarte apropiat de cea normal.

    Ca urmare, pentru a opera cu variabilitatea datorat ansei, astfel nct s putem declara de exemplu c o anumitdiferen observat este mai mare dect cea care apare ntmpltor i este real, mai nti trebuie s nvm cum scalculm probabilitile asociate curbelor normale.

    Termenul curb normal, de fapt, se refer nu doar o curb ci la o familie de curbe, fiecare caracterizat printr-o medie i o dispersie 2.

    n cazul special n care = 0 i 2 = 1, avem de-a face cu curba normal standard.

    Pentru o medie i o dispersie 2 date, curba are form de clopot cu cozile cobornd puternic ctre linia de baz.

    n teorie, cozile se apropie din ce n ce mai mult de linia de baz dar nu o ating niciodat, tinznd ctre zero cnd tinde ctre infinit, n ambele direcii. n practic, ignorm acest lucru i lucrm cu limite practice.

    Vrful curbei apare la media (care pentru aceast distribuie special este de asemenea medie i mod) i nlimea curbei la vrf depinde, invers proporional, de dispersia 2.

    20-Apr-15 30

  • Figura 3.3 Familii de curbe normale:sus - dou distribuii normale cu aceeai medie, dar cu dispersii diferite; jos - dou distribuii normale cu medii diferite, dar cu aceeai dispersie.

    20-Apr-15 31

  • 3.2.2 Aria de sub Curba Normal Standard

    O variabil care este distribuit normal cu media = 0 i dispersia 2 = 1 este denumit variabil normalstandard i este notat cu litera .

    Ca pentru orice variabil continu, calculele de probabilitate au ntotdeauna scopul de a gsi probabilitatea cavariabila s aib o valoare cuprins ntr-un interval limitat de dou puncte specifice i .

    Probabilitatea ca o variabil continu s aib valori ntre dou puncte i este chiar aria de sub curbadensitii ntre i ; axa vertical reprezint densitile aa cum au fost definite n Capitolul 2.

    Aria total de sub o astfel de curb reprezint unitatea (100%), iar Figura 3.4 prezint curba normal standard cuunele subdiviziuni importante.

    Figura 3.4 Curba normal standard i unele subdiviziuni importante

    De exemplu, aproximativ 68% din arie este coninut n intervalul1: 1 < < 1 = 0,6826

    i aproximativ 95% n intervalul2: 2 < < 2 = 0,9545

    20-Apr-15 32

  • Alte arii de sub curba normal standard au fost calculate i sunt disponibile tabelat(vezi Anexa B).

    Intrrile din tabelul din Anexa B ofer aria de sub curba normal standard ntremedie ( = 0) i o valoare pozitiv specificat pentru .

    Figura 3.5 Aria de sub curba normal standard

    Folosind tabelul din Anexa B i proprietatea de simetrie a curbei normale standard, putem prezenta i alte ariicalculate.

    Folosind pachetele software uzuale, acestea pot fi obinute uor; vedei Seciunea 3.5.

    Totui, credem c aceste aplicaii practice ajut nsuirea, chiar dac ele nu mai sunt strictnecesare.

    20-Apr-15 33

  • Cum de Citete Tabelul din Anexa B

    Intrrile n Anexa B ne ofer aria de sub curba normal standard dintre 0 i o valoare pozitiv pentru .

    S presupunem c ne intereseaz aria dintre = 0 i = 1,35 (numerele sunt mai nti rotunjite la dou zecimale, sauputem face o interpolare).

    Pentru a afla acest lucru, mai nti cutm n rndul marcat cu 1,3 n coloana din stnga a tabelului, dup caregsim coloana marcat cu 0,05 n partea superioar a primului rnd al tabelului (1.35 = 1.30 + 0,05).

    Apoi ne uitm n corpul tabelului i gsim la intersecia rndului 1,30 cu coloana 0,05 valoarea 0,4115.

    Acest numr, 0,4115, este aria cutat ntre = 0 i = 1,35.

    O poriune din Anexa B, care face referire la aceti paieste prezentat n Tabelul 3.8.

    TABELUL 3.8

    20-Apr-15 34

  • Tabelul poate fi folosit i invers, cnd avem la dispoziie aria dintre zero i o valoare pozitiv i vrem s aflmvaloarea lui .

    S presupunem c ne intereseaz s aflm valoarea pentru care aria dintre zero i este 0,20.

    Pentru aceasta ne vom uita n corpul tabelului pentru a gsi cea mai apropiat valoare de 0,20, care este0,2019.

    Acest numr se gsete la intersecia rndului 0,5 i coloanei 0,03.

    Ca urmare valoarea cutat este 0,53 (0,53 = 0,50 + 0,03).

    Un alt exemplu:

    Aria dintre = 0 i = 1,23 este 0,3907; aceast valoare se afl la intersecia rndului 1,2 cu coloana 0,03 a tabelului.

    20-Apr-15 35

  • Exemplul 3.2 Care este probabilitatea de a obine o valoare a lui situat ntre 1 i 1?

    Avem 1 1 = 1 0 + 0 1 = 2 0 1 = 2 0,3413 = 0,6826

    ceea ce confirm numrul prezentat n Figura 3.4.

    Figura 3.6 Aspectul grafic al Exemplului 3.2

    Exemplul 3.3 Care este probabilitatea de a obine o valoare alui de cel puin 1,58?

    Vom avea 1,58 = 0,5 0 1,58 = 0,5 0,4429 = 0,0571

    i aceast probabilitate este prezentat n Figura 3.7.

    Figura 3.7 Aspectul grafic al Exemplului 3.320-Apr-15 36

  • Exemplul 3.4 Care este probabilitatea de a obine o valoare de 0,5 sau mai mare?

    Avem 0,5 = 0.5 0 + 0 = 0 0,5 + 0 =

    = 0,1915 + 0,5 = 0,6915i probabilitatea este prezentat n Figura 3.8.

    Figura 3.8 Aspectul grafic al Exemplului 3.4Exemplul 3.5 Care este probabilitatea de a obine o valoare ntre 1,0 i 1,58?

    Avem 1,0 1,58 = 0 1,58 0 1,0 =

    = 0,4429 0,3413 = 0,1016i probabilitatea este prezentat n Figura 3.9.

    Figura 3.9 Aspectul grafic al Exemplului 3.520-Apr-15 37

  • Exemplul 3.6 S se gseasc valoarea astfel nct probabilitatea de a obine o valoare mai mare s fie de doar 0,10.

    Avem( ? ) = 0,10

    i aceasta este ilustrat n Figura 3.10.

    Figura 3.10 Aspectul grafic al Exemplului 3.6

    Cutnd n tabelul dina Anexa B, gsim 0,3994 (aria dintre 0 i 1,28), astfel c 1.28 = 0,5 0 1,28 = 0,5 0,3997 0,10

    n termenii ntrebrii iniiale, este o probabilitate de aproximativ 0,1 (10%) de a obine o valoare de 1,28 sau mai mare.

    20-Apr-15 38

  • 3.2.3 Distribuia Normal ca Model Probabilistic

    Motivul pentru care am discutat att de mult despre distribuia normal standard i cu att de multe exemple esteacela c probabilitile, pentru toate distribuiile normale, sunt calculate folosind distribuia normal standard.

    Adic, atunci cnd avem o distribuie normal cu o medie i o abatere medie ptratic (sau dispersie 2) date,vom pune ntrebrile privind probabilitile distribuiei dup ce mai nti o convertim (standardizm) ladistribuia normal standard:

    =

    Aici interpretm valoarea (sau scorul ) ca numrul abaterilor medii ptratice de la medie.

    Exemplul 3.7Dac valorile colesterolului total pentru o anumit populaie int sunt distribuite aproximativ normal cu

    media de 200 (mg/100 ml) iabaterea media ptratic de 20 (mg/100 ml),

    probabilitatea ca o persoan aleas la ntmplare din aceast populaie sa aib valoarea colesterolului mai maredect 240 (mg/100 ml) este

    Pr 240 = Pr 200

    20240 200

    20= Pr 2,0 =

    = 0,5 Pr 2,0 = 0,5 0,4772 = 0,0288 sau 2,28%

    20-Apr-15 39

  • Exemplul 3.8Figura 3.11 este un model pentru hipertensiune i hipotensiune (Journal ofAmerican Medical Association, 1964), prezentat aici ca o ilustrare simpl autilizrii distribuiei normale; chiar acceptarea unui astfel de model nu esteunanim.

    Hipotensiv Limit Presiune sangvin normal

    Limit HipertensivDatele dintr-o populaie masculin au fost grupate dup vrstn Tabelul 3.9.Din acest tabel, folosind Anexa B, au fost calculate limitele presiunii sangvine sistolice pentru fiecare grup (Tabelul 3.10).

    Figura 3.11 Reprezentarea grafic a modelului hipertensiunii

    Presiunea sanguin sistolic (mmHg)Vrsta(ani)

    Media Abaterea Medie Ptratic

    16 118,4 12,1717 121,0 12,8818 119,8 11,9519 121,8 14,992024 123,9 13,742529 125,1 12,583034 126,1 13,613539 127,1 14,204044 129,0 15,074554 132,3 18,115564 139,8 19,99

    TABELUL 3.9

    TABELUL 3.10Vrsta(ani)

    Hipotensiunea este sub:

    Lim. inf. (sntos)

    Lim. sup. (sntos)

    Hipertensiunea este peste:

    16 98,34 102,80 134,00 138,4617 99,77 104,49 137,51 142,2318 100,11 104,48 135,12 139,4919 97,10 102,58 141,02 146,502024 ? ? ? ?2529 ? ? ? ?3034 130,67 108,65 143,55 148,533539 130,70 108,90 145,30 150,504044 104,16 109,68 148,32 153,844554 102,47 109,09 155,41 162,035564 106,91 114,22 165,38 172,74

    20-Apr-15 40

  • De exemplu, cea mai mare limit superioar (sntos) pentru grupul 2025 ani se obine astfel:

    Pr ? = 0,10 = Pr 123,9

    13,74?123,9

    13,74i, din Exemplul 3.6, obinem

    1,28 =?123,9

    13,74ceea ce conduce la

    ?= 123,9 + 1,28 13,74 = 141,49

    20-Apr-15 41

  • 3.3 MODELE PROBABILISTICE PENTRU DATE CONTINUE

    n Seciunea 3.2 am trecut rapid peste familia de curbe normale deoarece am dorit s facem o introducere pentrucei pentru care formulele matematice nu sunt poate foarte relevante.

    Aici ns, vom oferi informaii suplimentare pentru cei ce sunt mai interesai de bazele raionamentelorbiostatistice.

    O clas de msurtori sau o caracteristic a unor observaii sau msurtori individuale efectuate se numete ovariabil.

    Dac valorile unei variabile pot avea teoretic orice valoare pe o scal numeric, avem de-a face cu o variabilcontinu; exemple de acest tip pot fi nlimea, greutatea i tensiunea arterial.

    Spuneam n Seciunea 3.2 c fiecare variabil continu este caracterizat de o curb de densitate neted.

    Matematic, o curb este caracterizat de o ecuaie de forma =

    denumit funcia de densitate de probabiliti, care include unul sau mai muli parametri;aria total de sub curba de densitate este 1,0.

    Probabilitatea ca aceast variabil s ia orice valoare ntr-un interval delimitat de dou puncte i este dat de

    20-Apr-15 42

  • Funcia densitate de probabiliti pentru o familie de curbe normale, denumit i distribuie Gaussian, este dat de

    =1

    2

    1

    2

    2

    pentru

    Semnificaia parametrilor i /2 a fost discutat n Seciunea 3.2; este media, 2 este dispersia (variana) i esteabaterea media ptratic (deviaia standard).

    Cnd = 0 i 2 = 1 avem o distribuie normal standard.

    Valorile numerice listate n Anexa B sunt cele date de

    0

    1

    2exp

    1

    2 2

    Distribuia normal joac un rol important n raionamentele statistice deoarece:

    Multe distribuii din viaa real sunt aproximativ normale. Multe alte distribuii pot fi normalizate prin transformri convenabile ale datelor (de ex. folosind logaritmarea).

    Cnd log are o distribuie normal, se spune c are o distribuie log-normal.

    20-Apr-15 43

  • Pe msur ce volumul datelor msurate crete, mediile eantioanelor extrase din populaie ale oricrei distribuii tindctre distribuia normal.

    Aceast teorem, cnd este formulat riguros, este cunoscut drept teorema limitei centrale (mai multe detalii nCapitolul 4).

    n plus fa de distribuia normal (Anexa B), noiunile introduse n capitolele ce urmeaz implic trei alte distribuiicontinue:

    Distribuia (Anexa C)Distribuia 2 (Anexa D)Distribuia (Anexa E)

    Distribuia este similar distribuiei normale standard prin aceea c este uni-modal, n form de clopot i simetric;se extinde infinit n ambele direcii; are media 0.

    Aceasta este o familie de curbe, fiecare indexat de un numr numit grade de libertate (df degrees of freedom sau ).

    Fiind dat un eantion de date continue, gradele de libertate msoar cantitatea de informaie disponibil n setul dedate care poate fi folosit pentru estimarea dispersiei populaiei 2 (adic 1, numrtorul din expresia pentru 2).

    Curbele au cozi mai groase dect cele ale curbei normale standard; dispersia lor este uor mai mare dect 1 [= df/(df 2)].

    Totui, aria de sub fiecare curb rmne egal cu unitatea (sau 100%).

    20-Apr-15 44

  • Spre deosebire de distribuiile normal i , distribuiile 2 i se refer doar la atribute pozitive i vor fi folosite nanumite teste n Capitolul 6 (distribuia 2) i Capitolul 7 (distribuia ).

    Similar cazului distribuiei , formulele pentru funciile distribuiilor probabilitilor pentru distribuiile 2 i auformule matematice complexe i nu vor fi abordate aici.

    Fiecare distribuie 2 este indexat printr-un numr numit grade de libertate .

    Vom face astfel referire la distribuia 2 cu grade de libertate;media i dispersia acesteia sunt respectiv i 2.

    O distribuie este indexat cu 2 grade de libertate (, ).

    Ariile de sub o curb pornind de la coada (ramura) dreapt pn la o anumit valoare (ariile haurate), sunt listate nAnexa C; distribuia cu grad de libertate infinit este egal cu distribuia normal standard.

    Aceast egalitate este uor de observat examinnd coloana marcat, s spunem, cu Aria = 0,025.

    Ultima linie ( = ) conine valoarea 1,96 (verificarea se face folosind Anexa B).

    20-Apr-15 45

  • 3.4 MODELE PROBABILISTICE PENTRU DATE DISCRETE

    Ne reamintim c o clas de msurtori sau o caracteristic asupra creia s-au fcut observaii sau msurtori senumete variabil.

    Dac valorile unei variabile se plaseaz doar n puine puncte izolate, discutm despre o variabil discret;exemplele includ rasa, sexul sau unele etichetri artificiale.

    Subiectele introduse n capitolele urmtoare implic dou din aceste distribuii discrete: distribuia binomial idistribuia Poisson.

    3.4.1 Distribuia binomial

    n Capitolul 1 am discutat despre cazul rezultatelor dihotomice (opuse) precum brbatfemeie, supravieuitordecedat,infectatneinfectat, albnon-alb, sau pur i simplu pozitivnegativ.Am vzut c astfel de date pot fi centralizate n proporii, rate i raii.

    n aceast seciune ne concentrm pe probabilitatea unui eveniment compus: apariia a rezultate (pozitive) (0 )din ncercri, numit probabilitate binomial.

    20-Apr-15 46

  • S notm cu un rezultat cu efect secundar i cu un rezultat normal, fr acest efect.

    Procesul de determinare a ansei de a obine situaii din ncercri se realizeaz prin

    - listarea tuturor rezultatelor posibile,

    - calculul probabilitii fiecrui rezultat folosind regula de multiplicare (unde ncercrile se presupun a fiindependente) i n final prin

    - combinarea probabilitilor tuturor acestor rezultate care sunt compatibile cu rezultatul dorit folosindregula aditivitii.

    Cu cinci pacieni sunt posibile 32 de rezultate reciproce exclusive, aa cum se arat n Tabelul 3.11.

    De exemplu, dac un anumit medicament este cunoscut a avea un efect colateral n 10% din cazuri i dac cincipacieni sunt tratai cu acest medicament, care este probabilitatea ca patru sau mai muli s prezinte acest efectcolateral?

    20-Apr-15 47

  • TABELUL 3.11

    Nr. Rezultat Numrul PacienilorCrt. Pacient 1 Pacient 2 Pacient 3 Pacient 4 Pacient 5 Probabilitatea cu efect secundar

    1 S S S S S 0,1 5 52 N S S S S 0,1 4 0,9 43 S N S S S 0,1 4 0,9 44 S S N S S 0,1 4 0,9 45 S S S N S 0,1 4 0,9 46 S S S S N 0,1 4 0,9 47 N N S S S 0,1 3 0,9 2 38 N S N S S 0,1 3 0,9 2 39 N S S N S 0,1 3 0,9 2 310 N S S S N 0,1 3 0,9 2 311 S N N S S 0,1 3 0,9 2 312 S N S N S 0,1 3 0,9 2 313 S N S S N 0,1 3 0,9 2 314 S S N N S 0,1 3 0,9 2 315 S S N S N 0,1 3 0,9 2 316 S S S N N 0,1 3 0,9 2 317 N N N S S 0,1 2 0,9 3 218 N N S N S 0,1 2 0,9 3 219 N N S S N 0,1 2 0,9 3 220 N S N N S 0,1 2 0,9 3 221 N S N S N 0,1 2 0,9 3 222 N S S N N 0,1 2 0,9 3 223 S N N N S 0,1 2 0,9 3 224 S N N S N 0,1 2 0,9 3 225 S N S N N 0,1 2 0,9 3 226 S S N N N 0,1 2 0,9 3 227 S N N N N 0,1 0,9 4 128 N S N N N 0,1 0,9 4 129 N N S N N 0,1 0,9 4 130 N N N S N 0,1 0,9 4 131 N N N N S 0,1 0,9 4 132 N N N N N 0,9 5 0

    Deoarece rezultatele celor cinci pacieni sunt inde-pendente, regula multiplicrii produce probabilitiledin Tabelul 3.11.

    De exemplu: Probabilitatea de a obine un rezultat cu 4 i 1

    este0,1 0,1 0,1 0,1 1 0,1 = 0,1 4 0,9

    Probabilitatea de a obine toate 5 rezultatele este0,1 0,1 0,1 0,1 0,1 = 0,1 5

    Deoarece evenimentul toate cele cinci cazuri cu efectsecundar corespunde doar unuia din cele 32 derezultate,

    iar evenimentul patru cazuri cu efect secundar iunul fr aparine unui grup de cinci din cele 32,fiecare cu probabilitatea 0,1 4 0,9 ,

    regula aditivitii conduce la probabilitatea0,1 5 + 5 0,1 4 0,9 = 0,00046

    pentru evenimentul compus cu patru sau mai multecu efect secundar.

    n general, modelul binomial se aplic atunci cnd fiecare ncercare a unui experiment are dou rezultate posibile(de multe ori referite ca eec i succes sau negativ i pozitiv;

    considerm c avem un succes atunci cnd este observat rezultatul primar). 20-Apr-15 48

  • S considerm c probabilitile eecului i succesului sunt, respectiv, 1 i , iar codificarea acestor dourezultate este 0 (eec) i 1 (succes).

    Experimentul const n ncercri repetate ce satisfac urmtoarele supoziii:

    1. Cele ncercri sunt toate independente.2. Parametrul este acelai pentru fiecare ncercare.

    Modelul se refer la numrul total de succese din ncercri, care este o variabil aleatoare .

    Funcia densitii de probabilitate este dat de

    = = 1 = 0,1,2, ,

    unde este numrul de combinri ale obiectelor selectate dintr-un set de obiecte,

    =

    !

    ! !i ! este produsul primilor ntregi.

    De exemplu 3! = 1 2 3

    20-Apr-15 49

  • De exemplu, pentru = 0,1 i = 30, avem = 30 0,1 = 3

    2 = 30 0,1 0,9 = 2,7astfel c

    Pr 7 Pr 7 3

    2,7= Pr 2.43 = 0,0075

    Cu alte cuvinte, dac probabilitatea real de a avea efect secundar este de 10%, probabilitatea de a avea apte saumai muli pacieni din 30 care s prezinte efectul secundar este mai mic de 1% (= 0,0075).

    Media i dispersia distribuiei binomiale sunt =

    2 = 1 i cnd numrul de ncercri este de la moderat ctre mare (de ex., > 25), putem aproxima distribuia binomialprintr-o distribuie normal i s rspundem la ntrebrile despre probabilitate fcnd mai nti conversia ctre unscor normal standard:

    =

    1 unde este probabilitatea de a obine un rezultat pozitiv pentru o singur ncercare.

    20-Apr-15 50

  • 3.4.2 Distribuia Poisson

    Aceast distribuie a fost folosit extensiv n tiinele sntii pentru a modela distribuia numrului de apariii aunor evenimente aleatoare ntr-un interval de timp sau spaiu sau ntr-un anumit volum de materie.

    De exemplu, administrator de spital a studiat prezentrile zilnice la serviciile de urgen pe o perioad de cteva lunii a gsit c acestea au fost n medie de trei pe zi.

    Administratorul este apoi interesat s afle probabilitatea ca ntr-o anumit zi s nu apar nici o prezentare deurgen.

    Distribuia Poisson este caracterizat prin densitatea sa de probabilitate:

    = =

    ! = 0,1,2,

    Interesant pentru aceast distribuie este faptul c dispersia este egal cu media, i anume cu parametrul de mai sus. = 2 =

    Ca urmare, putem rspunde chestiunilor de probabilitate folosind formula densitii de probabilitate Poisson sau convertind numrul apariiilor x n scorul standard normal, tiind c 10:

    =

    Cu alte cuvinte, putem aproxima o distribuie Poisson printr-o distribuie normal cu media , dac este cel puin 10.20-Apr-15 51

  • Iat un alt exemplu care implic o distribuie Poisson.

    Rata mortalitii nou-nscuilor (IMR infant mortality rate) se definete ca

    pentru o anumit populaie int pe durata unui an, unde d este numrul de decese pe durata primului an de via iN este numrul total de nscui vii.

    n studiile de IMR, N este convenional presupus fix i d urmeaz o distribuie Poisson.

    =

    Exemplul 3.9

    Pentru anul 1981 avem la dispoziie urmtoarele date pentru statele din New England (Connecticut, Maine,Massachusetts, New Hampshire, Rhode Island i Vermont):

    = 1585 = 164.200

    Pentru acelai an, rata naional a mortalitii infantile a fost 11,9 (la 1000 de nscui vii).

    Dac aplicm IMR-ul naional (SUA) la statele din New England, vom obine

    = 11,9 164,2 1954 decese de nou-nscui

    Apoi, evenimentul de avea mai puin de 1585 decese de nou-nscui poate apare cu probabilitatea

    Pr 1585 = Pr 1585 1954

    1954= Pr( 8,35) 0

    Concluzia este clar:Fie am luat n analiz un eveniment extrem de improbabil, fie mortalitatea infantil n statele din NewEngland este mai mic dect media naional.

    Rata observat pentru statele din New England a fost de 9,7 decese la 1000 de nscui vii.

    20-Apr-15 52

  • 3.5 CTEVA OBSERVAII ASUPRA ELEMENTELOR FUNDAMENTALE

    3.5.1 Media i Dispersia

    Aa cum am vzut n Seciunile 3.3 i 3.4, o funcie de densitate de probabilitate este definit astfel ca:

    = Pr( = ) pentru cazul discret

    = Pr( + ) pentru cazul continuu

    Pentru o distribuie continu, aa cum este distribuia normal, media i dispersia 2 sunt calculate cu: = 2 = 2

    Pentru o distribuie discret, cum sunt distribuiile binomial i Poisson, media i dispersia 2 sunt calculate cu: = 2 = 2

    De exemplu, pentru distribuia binomial avem = 2 = 1

    i pentru distribuia Poisson = 2 =

    20-Apr-15 53

  • 3.5.2 Studiul de tip caz/control pentru date pereche (mperecheate)

    Datele din studiile epidemiologice pot proveni din diferite surse, dar cele dou modaliti experimentale de baz sunt cel retrospectiv i cel prospectiv (sau cohort de grupuri).

    Studiile retrospective preiau date din cazuri anterioare selectate (indivizi cu afeciune) i controale (indivizi frafeciunea respectiv) pentru a determina diferenele, dac exist vreuna, la expunerea la un anumit factor de riscsuspectat.

    Acestea sunt de obicei denumite studii de tip caz/control.

    Cazurile unei afeciuni specifice, cum ar fi cancerul de plmni, sunt constatate pe msur ce apar din registreleprimare ale afeciunilor populaiei sau din listele de internare n spitale, iar controalele sunt eantionate dinpersoane din populaie care nu prezint afeciunea sau din pacienii spitalizai care prezint alt afeciune dect ceastudiat.

    Avantajele studiului de caz/control sunt acelea c sunt economice i c devine posibil s se rspund ntrebrilor relativ repede, deoarece cazurile sunt deja disponibile.

    20-Apr-15 54

  • S presupunem c fiecare persoan dintr-o populaie mare a fost clasificat ca expus sau neexpus la un anumit factor de risc i ca avnd sau neavnd o anumit afeciune.

    Populaia poate fi acum rezumat ntr-un tabel 2 2 (Tabelul 3.12), cu intrri ce reprezint proporiile din populaia total.

    TABELUL 3.12

    AfeciuneFactor + Total+ 1 3 1 + 3 2 4 2 + 4Total 1 + 2 3 + 4 1

    Folosind aceste proporii, asocierea (dac exist vreuna) ntre factorul de risc i boala respectiv poate fi msurat prin raia de risc (sau riscul relativ) de a fi gsit pozitiv la afeciune pentru cei ce au fost sau nu expui factorului:

    =11 + 3

    22 + 4

    =1 2 + 42 1 + 3

    deoarece n multe situaii (chiar dac nu n toate), proporiile subiecilor clasificai ca pozitiv bolnavi va fi mic.

    Adic, 1 este mic n raport cu 3 i 2 este mic n raport cu 4.20-Apr-15 55

  • ntr-un astfel de caz riscul relativ este aproape egal cu :

    =1423=1/32/4

    raia ansei de a fi pozitiv afectat sau =1/23/4

    raia ansei de a fi expus.

    Aceasta justific folosirea raiei de ans pentru a determina diferenele, dac sunt, n expunerea la un factor de risc suspectat.

    Ca tehnic de control a factorilor ce pot fi confundai ntr-un studiu proiectat, cazurile individuale sunt corelate, demulte ori direct unu-la-unu, cu un set de controale alese pentru a avea valori similare pentru variabilele confundateimportante.

    Cel mai simplu exemplu de date corelate n pereche apare n cazul unei expuneri binare simple(cum ar fi fumtor nefumtor).

    Datele rezultatelor pot fi prezentate ntr-un tabel 2 2 (Tabelul 3.13) n care +, reprezint (expus, neexpus).

    20-Apr-15 56

    TABELUL 3.13

    CazControl +

    + 1,1 0,1 1,0 0,0

    Cum 1 este mic n raport cu 3 i 2 este mic n raport cu 4,

  • Dovada poate fi prezentat pe scurt dup cum urmeaz.Remarcnd c

    1 = 1 1 0 1 10 = 1 0 0 0 1

    sunt probabilitile expunerilor pentru cazuri i respectiv pentru controale, probabilitatea de a observa perechicaz/control doar cu cazuri expuse este 10, n timp ce probabilitatea de a observa perechi n care doar controluleste expus este 10.

    ntruct probabilitatea condiional de a observa o pereche din primul tip, care este discordant, este

    =10

    10 + 10=10/1010/10 + 1

    =11 / 0011 / 00 + 1

    =

    + 1

    care depinde doar de raia de ans .

    20-Apr-15 57

    De exemplu, 1,0 reprezint numrul perechilor n care cazul este expus,dar perechea de control nu este expus.

    Cel mai potrivit model statistic pentru a evidenia concluzia n privinaraiei ansei este folosirea probabilitii condiionale a numrului decazuri expuse printre perechile discordante.

    = 1,0 + 0,1 fiind fix, se poate observa c 1,0 are o distribuie , , n care =

    1

  • 3.6 NOTE ASUPRA CALCULELOR

    n Seciunile 1.4 i 2.5 am acoperit tehnicile de baz din MS Excel: cum se deschide/organizeaz o foaie de calcul, cumse salveaz, rencarc i cum se rezolv unele probleme de statistic descriptiv.

    Subiectele au inclus paii de introducere a datelor, precum selectarea i tragerea, folosirea barei de formule, hrile cubare sau plcint, histogramele, calculul mrimilor statistice descriptive precum media i abaterea medie ptratic, cti calculul unui coeficient de corelaie.

    n aceast seciune ne vom concentra pe modelele probabilistice utilizate n calculul ariilor de sub curbele dedensitate, n special curbele normal i .

    Curbele normale

    Primii doi pai sunt aceeai cu cei pentru obinerea informaiilor statistice descriptive (ns de aceast dat nuavem nevoie de date): (1) dm clic pe paste function - i (2) apoi pe Statistical.

    Dintre funciile disponibile, dou sunt legate de curbele normale: NORMDIST i NORMINV.

    Excel furnizeaz informaii pentru orice distribuie normal, nu doar pentru distribuia normal standard ca nAnexa B.

    20-Apr-15 58

  • NORMDIST furnizeaz aria de sub curba normal (cu media i abaterea medie ptratic indicate) ncepnd din partea stng (minus infinit) pn la valoarea pe care trebuie s o specificm.

    De exemplu, dac specificm = 0 i = 1, rspunsul va fi aria de sub curba normal standard pn lapunctul specificat (care este acelai numr cu cel din Anexa B + 0,5).

    NORMINV realizeaz procesul invers, cnd furnizm c aria de sub curba normal (un numr ntre 0 i 1),mpreun cu media i abaterea media ptratic , i avem nevoie de punctul de pe axa orizontal pentru carearia, de sub curba normal de la minus infinit pn la valoarea , este egal cu numrul indicat ntre 0 i 1.

    De exemplu, dac punem = 0, = 1 i probabilitatea =0,975, rezultatul va fi 1,96; spre deosebire deAnexa B, dac vrem un numr situat n partea dreapt a curbei, probabilitatea trebuie s fie un numr maimare ca 0,5.

    Dup selectarea uneia din cele dou funcii de mai sus, apare o cutie de dialog care cere furnizarea(1) mediei ,(2) abaterii medii ptratice i(3) n ultimul rnd, marcat drept cumulativ, s introducem valoarea TRUE

    (exist i o opiune FALSE, dar nu avem nevoie de ea).

    Rspunsul va apare n celula preselectat.

    20-Apr-15 59

  • Curbele t: procedurile TDIST i TINV

    Vrem s aflm acum modul n care gsim ariile de sub curbele normale astfel nct s determinm valorile pentrutestele statistice (un subiect discutat n Capitolul 5).

    Un alt subiect important din aceast categorie este distribuia , care ncepe cu aceeai doi pai: (1) paste function

    i (2) Statistical.

    Dintre funciile disponibile, cele dou sunt legate de distribuia sunt TDIST i TINV.

    Similar cazurilor corespunztor unei anumite arii de sub curb.

    n fiecare caz trebuie s NORMDIST i NORMINV, TDIST ofer aria de sub curba t i cu TINV aflm punctul de peaxa orizontal furnizm gradele de libertate.

    n plus, pe ultimul rnd, marcat cu tails, introducem: (Tails=) 1 dac avem risc unilateral (one-sided) (Tails=) 2 dac avem risc bilateral (two-sided)

    (Mai multe detalii asupra conceptelor de risc unilateral i bilateral sunt oferite n Capitolul 5.)

    20-Apr-15 60

  • De exemplu:

    Exemplul 1: Dac introducei (x=) 2,73, (grade de libertate=) 18, (Risc=) 1, ai cerut aria de sub curba cu 18 gradede libertate i la dreapta de 2,73 (adic n coada dreapt); rspunsul este 0,00687.

    Exemplul 2: Dac introducei (x=) 2,73, (grade de libertate=) 18, (Risc=) 2, ai cerut aria de sub curba cu 18 gradede libertate i att la dreapta de 2,73, ct i la stnga de 2,73 (adic n ambele cozi); rspunsul este 0,01374, adicde dou ori valoarea anterioar de 0,00687.

    EXERCIII

    3.1 3.25

    20-Apr-15 61