curs5_2015_s_vii info

50
CURSUL 5 Inferență referitoare la medii

Upload: diana-elena-bizadea

Post on 06-Nov-2015

229 views

Category:

Documents


4 download

DESCRIPTION

curs info mg umfcd

TRANSCRIPT

  • CURSUL 5

    Inferen referitoare la medii

  • Metode de inferen pentru medii

    CE ESTE INFERENA STATISTIC?

    fundamentarea unor concluzii generale pe baza utilizrii unor date empirice limitate

    n virtutea unor raionamente logico-probabilistice

    presupune existena unui eantion servete drept baz pentru descrierea populaiei din care a fost extras

  • CONCEPTE AJUTTOARE

    Distribuia de eantionare

    Eroarea standard

    Distribuia normal

    Intervalul de ncredere

  • Distribuia de eantionare

    Toate eantioanele au o msur numeric folosit pentru a spune ceva (a face inferene) despre aceeai msur n populaie.

    Facem inferene despre parametrul din populaie, folosind statistica din eantion.

    Parametrul este ntotdeauna o constant.

    Statistica din eantion variaz ntotdeauna, deci constituie o variabil aleatoare - posed o distribuie de probabilitate.

    Pentru media din eantion, avem distribuia de eantionare a mediilor.

    Pentru abaterea standard din eantion, avem distribuia de eantionare a abaterilor standard.

  • Distribuia de eantionare Cte eantioane posibile exist?

    R: o infinitate

    Cte medii posibile de eantioane exist? R: o infinitate

    Eroarea de eantionare:

    distana de la statistica din eantion la parametrul din populaie. Este datorat ntmplrii

    Eroarea de non-eantionare:erori datorate altor factori, nealeatori (operatori de teren, operatori de introducere,

    de prelucrare, etc.)

  • Observaii:

    deviaia standard a distribuiei de eantionare este mai mic dect cea din populaie

    deviaia standard a distribuiei de eantionare scade din ce n ce mai mult, pe msur ce cretem mrimea eantionului

    Teorema Limit Central

    Pentru un eantion de mrime mare, forma distribuiei de eantionare este normal, indiferent de forma distribuiei n populaie.

    Concluzii: Dac vom calcula mediile tuturor eantioanelor de aceeai mrime (mare), vom constata c: aproximativ 68% dintre acestea se afl la o distan de 1 E.S. fa de media din populaie aproximativ 95% dintre acestea se afl la o distan de 2 E.S. fa de media din populaie

  • Rezult c distribuia de eantionare este o distribuie de probabilitate continu, care arat statisticile din eantion iprobabilitile asociate acestora.

    Media acestei distribuii x este media tuturor mediilor de eantioaneposibile i este chiar media din populaie.

    Abaterea standard a acestei distribuii (a acestei variabile aleatoare) se numete Eroare Standard i este egal cu:

  • Principii Generale

    n studiul ntr-o populaie P a parametrilor a unei caracteristici oarecare (cantitative saucalitative) este necesar n mod frecvent s se urmeze procedeul:

    1. Se extrage un eantion reprezentativ al acestei populaii.

    2. Prin mijloacele statisticii descriptive se descrie distribuia caracteristicii pe eantionulextras. Astfel se poate determina frecvena observat, dac este vorba de o caracteristiccalitativ, sau se calculeaz media i variaia, n cazul unei caracteristici cantitative.

    3. Prin mijloacele statisticii infereniale sau inductive se extind la ntreaga populaierezultatele observate pe eantion. Pornind de la parametrii observai (frecvena, media,variaia, etc) pe eantion se ncearc s se estimeze parametrii teoretici ai ntregiipopulaii.

  • Metode de inferen pentru medii

  • O SINGUR MEDIE-METODA PENTRU EANTIOANE MARI

    Pentru a calcula intervale de ncredere i pentru a aplica testareastatistic de semnificaie n cazul mediilor eantioanelor mari vomfolosi distribuia normal

    Proprieti aplicabile doar n cazul eantioanelor mari:

    mediile eantioanelor mari extrase n acelai mod urmeaz odistribuie normal

    abaterea standard estimat ntr-un eantion mare va fi aproape deaceea a ntregii populaii - eroarea standard estimat n eantioneste o bun estimaie

  • O SINGUR MEDIE-METODA PENTRU EANTIOANE MARI

    vom determina intervale de ncredere pentru mediile eantioanelor mari folosind distribuia normal.

    estimm eroarea standard a mediei - se obine cu ajutorul abaterii standard calculat pentru observaiile din eantion (eroarea standard a mediei fiind abaterea standard mprit la rdcina ptrat a numrului de observaii din eantion)

    Intervalul de 95% ncredere este de la media minus 1.96 x eroarea standard la media plus 1.96 x eroarea standard

  • O SINGUR MEDIE-METODA PENTRU EANTIOANE MARI

  • Condiii care trebuie ndeplinite:

    Observaiile sunt independente ntre ele

    Nu putem folosi, de exemplu, un eantion de 100 de observaii ncare avem 10 subieci cu cte 10 observaii fiecare

    Eantionul este suficient de mare pentru ca erorile standard s fiebine estimate.

    Ca regul empiric: ar trebui s avem cel puin 100 observaiipentru un grup.

  • DIFERENE NTRE MEDIILE EANTIOANELOR PERECHI

    n cercetarea medical se dorete adesea, mai degrab s se compare grupuri de subieci dect s se estimeze media unei populaii, pe baza datelor provenite dintr-un eantion

    Studiu - Christensen et al. (2004) - se compar modificrile strii de depresie cu ajutorul unui chestionar aflat pe internet.

    Au fost recrutate 525 persoane cu simptome de depresie identificate printr-un sondaj. Ei au fost alocai aleatoriu la site-ul web BluePages care ofer informaii despre depresie (N = 166), la site-ul web MoodGYM prin se realizeaz o terapie cognitiv comportament (N = 182) sau la un grup de control care folosete placebo (N = 178). Principalele rezultate a fost msurate la Centrul pentru Studii epidemiologice cu ajutorul unei scale pentru depresie

  • DIFERENE NTRE MEDIILE EANTIOANELOR PERECHI

    Scorul iniial i dup ase sptmni de tratament pentru un grup de 525 pacieni cu depresie

    Deoarece cele trei grupuri de tratament sunt toate eantioane destul de mari, se poate estima un interval de ncredere pentru media fiecruia dintre ele

  • BluePages - 165 de subieci

    - o medie diferenelor n scoruri de 3.9

    - abatere standard de 9.1.

    - Eroarea standard a mediei este 0.71

    - astfel, intervalul de 95% ncredere pentru media diferenelor este de 3.9 - 1.96 x 0.71 la 3.9

    + 1.96 x 0.71, adic de la 2.5 la 5.3 puncte pe scala depresiei. !Atenie: 0 nu se afl n interval

    - Aceasta reprezint o estimare pentru intervalul de diferene ale mediilor punctajelor,

    presupunnd ca rspunsul nonrespondenilor este acelai.

  • Putem testa

    ipoteza nul - stabilete c media diferenelor este zero

    ipoteza alternativ - stabilete c exist o schimbare, n orice direcie

    Deoarece eantionul este mare, media va avea o distribuie normal cu o abatere standard egal cu eroarea standard a mediei (0.71)

    Diferena dintre media observat n eantion i media necunoscut a populaiei (0) mprit prin eroarea standard (statistica testului) va urma distribuia normal standard

    DIFERENE NTRE MEDIILE EANTIOANELOR PERECHI

  • Ipoteza nul: media schimbrilor n populaie este zero

    dac acest lucru este adevrat, media observat n eantion mprit prin eroarea standard va urma o distribuie normal standard

    Pentru grupul BluePages aceasta este z = 3.9/0.71 = 5.49. Probabilitatea de a obine o astfel de o valoare extrem la distribuianormal standard este foarte mic, de 0.00000004. Nu putem fi siguri c aproximarea distribuiei normale este suficient de bun pentru probabiliti foarte mici, aa c vom cita rezultatul n forma: p

  • Condiiile care trebuiesc ndeplinite pentru aplicarea acestei metode sunt:

    Observaiile trebuie s fie independente;

    Eantionul trebuie s fie suficient de mare. Regula empiric spune ctrebuie s avem cel puin 100 observaii pentru un grup;

    Media i abaterea standard a diferenelor sunt constante, adic nu aulegtur cu dimensiunea variabilelor.

  • COMPARAREA MEDIILOR A DOU EANTIOANE MARI INDEPENDENTE

  • COMPARAREA MEDIILOR A DOU EANTIOANE MARI INDEPENDENTE

  • Putem efectua aceleai calcule pentru a compara fiecare grup cu intervenie activ cu grupul de control.

    Pentru BluePages comparat cu grupul de control diferena mediilor este 3.9 - 1.0 = 2.9

    eroarea standard a diferenei este de 0.95

    intervalul de 95% ncredere este de la 2.9 - 1.96 x 0.95 la - 2.9 + 1.96 x 0.95, adic de la 1.0 la 4.8. 0 nu se afl n interval

    Testul de semnificaie d z = 2.9/0.95 = 3.05, p = 0.002.

    Pentru MoodGYM comparat cu grupul de control diferena mediilor este de 3.2

    eroarea standard de 0.92

    intervalul de 95% ncredere este de la 1.4 la 5.0 0 nu se afl n interval

    z = 3.48, p = 0.0005

    COMPARAREA MEDIILOR A DOU EANTIOANE MARI INDEPENDENTE

  • Dac se dorete testarea ipotezei nule de ansamblu care stabilete c cele trei tratamente produc aceeai scdere medie n populaie, aceasta se poate face prin aplicarea coreciei Bonferroni pentru cele trei valori p

    Multiplicarea cu 3 ar da cea mai mic valoare p = 0.0005 x 3 = 0.0015, care rmne nc extrem de important

    COMPARAREA MEDIILOR A DOU EANTIOANE MARI INDEPENDENTE

  • Metoda pentru compararea a dou medii n cazul eantioanelor mari, normal distribuite, necesit ndeplinirea a dou condiii:

    Observaiile i grupurile trebuie s fie independente ntre ele. Nu trebuie s existe legturi ntre observaiile dintre cele dou grupuri

    Ex: un studiu n care fiecare subiect dintr-un grup este relaionat, de exemplu, prin vrst i sex, cu un subiect din cellalt grup.

    Eantioanele trebuie s suficient de mari pentru ca erorile standard s fie bine estimate iar mediile s aib o distribuie normal.

    Regula empiric spune c pentru un singur eantion ar trebui s avem cel puin 100 de observaii, iar pentru dou eantioane de cel puin 50 de observaii n fiecare dintre ele.

    COMPARAREA MEDIILOR A DOU EANTIOANE MARI INDEPENDENTE

  • DISTRIBUIA T n cazul eantioanelor mici nu se pot aplica metodele pentru eantioane mari care sunt normal

    distribuite - problem abordat de un statistician care i-a publicat rezultatele sub pseudonimul de Student - distribuia t sau Student

    Condiii de utilizare pentru testul z:

    cunoatem media populaiei de referin

    eantion mare (N 30)

    pentru eantioane cu N

  • La fel ca i distribuia normal, distribuia Student t este o familie de distribuii.

    Aceasta familie are un singur parametru, numrul care ne spune cu ce membru al familiei de distribuii t ne confruntm. Acesta este cunoscut sub numele de grade de libertate.

    NB: Am folosit deja acest termen n calcul varianelor i abaterilor standard. Numrul gradelor de libertate al distribuiei t este egal cu numrul gradelor de libertate de la abaterea standard folosit n calculul erorii standard.

    DISTRIBUIA T

  • DISTRIBUIA T

    Cnd numrul gradelor de libertate este mic(eantioane de mici dimensiuni) distribuia tare cozile mult mai mult lungi dect

    distribuia normal. Acest lucru reflect omai mare incertitudine la eroarea standard a

    mediei.

    Cnd numrul gradelor de libertate i, prinurmare dimensiunea eantionului ncepe s

    creasc, distribuia t tinde s se apropie de

    distribuia normal standard.

    Distribuiile t se identific cu distribuianormal n teorie, atunci cnd eantionul

    este infinit de mare.

    n practic, este greu de spus dac avem odistribuie normal sau t la aproximativ 30

    de grade de libertate

  • La fel ca la distribuianormal, distribuia t nu areo formul simpl pentrucalculul probabilitilorsale.

    S-au folosit aproximrinumerice pentru a calculanumrul care este nlocuitde 1.96 n calculeleintervalelor de ncredere ia valorile p n testele desemnificaie

  • DISTRIBUIA T

    Puncte critice la pragul de 5% pentru distribuia t cu 4 grade

    de libertate

    Puncte critice pentru pragurile de 1%, 5%, 0.1% i 0.01% pentru distribuia t

  • METODA T PENTRU UN EANTION Vom folosi distribuia t pentru a face analiza mediilor n eantioanele

    de mici dimensiuni, analiz pe care am fcut-o mai sus pentru eantioane mari folosind distribuia normal

    Rareori se ntmpl s fie necesar estimarea mediei unei populaiipe baza mediei unui eantion mic, dar vom ncepe cu aceasta deoarece este cel mai simplu caz

    Pentru nelegerea metodei vom folosi datele a 9 pacieni cu rni cronice nevindecate (Shukla et al., 2004). Biopsiile au fost evaluate folosind scorul obinut de la un sistem care gradeaz angiogenezamicroscopic (MAGS) i care furnizeaz un indice ce evalueaz ct de bine vasele mici de snge sunt n curs de dezvoltare, evalund astfel regenerarea epitelial.

    Scorurile mari sunt cele mai bune

  • Cele nou observaii au fost: 20, 31, 34, 39, 43, 45, 49, 51 i 63 df=8

    Dac am avea un eantion mare am putea estima un interval de 95% ncredere prin scderea/adunarea la medie a 1.96 x eroarea standard: de la 41.7 - 1.96 x 4.2 la 41.7 + 1.96 x 4.2

    METODA T PENTRU UN EANTION

  • avem numai 9 observaii - acest interval nu este valid. Vom folosi o distribuie t cu 8 grade de libertate

    punctul critic la pragul de 5% pentru distribuia t cu 8 grade de libertate este 2.31(to.o5) , astfel c intervalul de ncredere pentru media scorurilor MAGS este de la 41.7 - 2.31 x 4.2 la 41.7 + 2.31 x 4.2, adic de la 32.0 la 51.4

    METODA T PENTRU UN EANTION

    Calculele sunt valabile numai dac observaiile

    provin dintr-o distribuie normal

  • VERIFICAREA PRESUPUNERILOR REFERITOARE LA NORMALITATE

    Cnd am vorbit despre distribuia normal am prezentat histograme pentru mai multe eantioane mari i am suprapus curbe normale pe acestea, pentru a vedea dac distribuia normal se potrivete acestor date. Pentru eantioane de dimensiuni mici este foarte dificil, pornind de la o histogram, s se trag o concluzie referitoare la normalitatea distribuiei

    Exist o metod grafic bun prin care se poate examina compatibilitatea dintre o distribuie normal i un set de date, anume reprezentarea grafic a cuantilelornormalei (Normal quantile plot) sau pe scurt reprezentarea grafic a normalitii (Normal plot)

    O reprezentarea grafic a normalitii este o reprezentare grafic a perechilor de date observate i a valorilor pe care ne ateptm s le obinem (valori teoretice), n cazul n care datele urmeaz o distribuie normal

  • VERIFICAREA PRESUPUNERILOR REFERITOARE LA NORMALITATE

    Mai nti se ordoneaz observaiileascendent

    Se calculeaz valoarea estimat pentruobservaia cu cea mai mic valoare dineantion pentru distribuia normal. ncazul distribuiei normale standardaceasta este -1.28 o face programulde analiz statistic

    Vom transforma acum aceste valori ntr-odistribuie normal cu aceeai medie ivarian precum datele observate prinnmulirea valorilor distribuiei normalestandard cu abaterea standard calculatn eantion i adugarea apoi a medieieantionului

    -1.28 x 12 0.5 + 41.7 = 25.6 Vom compara aceast valoare cu cea mai mic valoare observat care este de 20

  • Estimm cele 9 observaii (valorile medii pentru cele 9 observaii dintr-o distribuie normal standard):

    Pentru un eantion extras dintr-o distribuie normal cu media i abaterea standard precum eantionul MAGS, vom nmuli cu abaterea standard (x12.5) i vom aduna cu media (41.7). Valorile obinute:

    VERIFICAREA PRESUPUNERILOR REFERITOARE LA NORMALITATE

  • VERIFICAREA PRESUPUNERILOR REFERITOARE LA NORMALITATE

  • Reprezentare grafic perechi formate din scorurile MAGS observate i scorurile MAGS calculate pentru cazul n care datele ar urma o distribuie normal.

    n cazul n care valorile observate i cele calculate sunt similare atunci perechile de puncte se aliniaz sau sunt foarte aproape de linia de egalitate (prima bisectoare) format din puncte pentru care valorile observate i cele calculate sunt egale

    Cele mai multe dintre observaii sunt aproape de linie, ceea ce sugereaz c observaiile sunt destul de aproape de ceea ce am calculat pornind de la o distribuie normal (adic de ceea ce ne-am fi ateptat dac presupunerea de normalitate a datelor era adevrat)

  • Reprezentarea grafic a normalitii pentru datele referitoare de greutatea la natere

    Distribuiile asimetriceproduc n jurul liniei deegalitate o curb

    Distribuia este negativasimetric (asimetric lastnga) i punctele se abatmult de la linie ncadrndu-se sub ea spre capete (maimult spre cel inferior) idepind-o spre mijloc

  • Reprezentarea grafic a normalitii pentru colesterol la

    pacienii cu accident vascular cerebral

    Distribuiile asimetrice produc n jurulliniei de egalitate o curb

    Distribuie pozitiv asimetric(asimetric la dreapta) i este vizibil ocurbur n sens opus celei carecorespunde distribuiei negativasimetrice

  • Reprezentarea grafic a normalitii pentru greutatea la

    natere pentru vrsta gestaional de 37 sptmni

    Distribuie aproximativ simetric

    Se poate observa c aceste date se

    potrivesc cu distribuia normaldestul de bine

  • Exist i teste de semnificaie precum:

    teste Shapiro-Wilk

    Shapiro-Francia

    Kolmogorov-Smirnov

    care pot fi folosite pentru a testa ipoteza nul ce stabilete c datele provin dintr-odistribuie normal. Metodele grafice sunt ns, mult mai utile n practic

    Dac eantionul este mic, plecnd de la distribuia normal, acestea nu pot fisemnificative deoarece nu exist date suficiente pentru a detecta normalitatea

    Dac eantionul este mare, pot exista abateri foarte mici de la normalitate carepot fi semnificative, dar astfel de abateri nu afecteaz rezultatele analizelor

  • Metoda t pentru eantioane perechi

    lucrm cu observaii care sunt perechi (observaiile care provin de la acelaisubiect nainte i dup o intervenie i observaiile care provin de la acelaisubiect pentru care se fac dou intervenii diferite, de exemplu ntr-un studiudublu-ncruciat numit i studiu cross-over sau ntr-un studiu de tip caz-control)

  • Metoda t pentru eantioane perechi Dorim s tim dac media scorurilor MAGS s-

    a modificat semnificativ i care este media scorurilor.

    Calculm diferena dintre scorul MAGS dup tratament i scorul MAGS nainte de tratament, adic creterea n scor pentru MAGS

    Avem 9 observaii, astfel c numrul gradelor de libertate folosite n calculul abaterii standard este de 9 - 1 = 8

    Pentru a estima intervalul de 95% ncredere pentru media calculat n acest eantion mic, vom folosi punctul critic pentru pragul de 5% din distribuia t cu 8 grade de libertate. (Pentru 8 grade de libertate valoarea din tabel este 2.31)

    Media diferenelor=9.33Abaterea standard pentru diferene=4.03

    Eroarea std a mediei diferenelor=1.34

  • Pentru eantioane mici presupunem c diferenele urmeaz o distribuie normal

    Intervalul de 95% ncredere:

    Media-t0.05xeroarea standard a mediei , Media+t0.05xeroarea standard a mediei

    t0.05 reprezint valoarea critic pentru pragul de 5% al distribuiei t cu un nr de grade de libertate=n-1

    De la 9.33 - 2.31 1.34 la 9.33 + 2.31 1.34 (de la 6.2 la 12.4)

    Testul de semnificaie se refer la:

    Media diferenelor/Eroarea standard (Statistica testului) urmeaz o distribuie t cu n-1 grade de libertate

    =9.33/1.34=6.96

    Din tabelul t, p

  • Condiii care trebuiesc ndeplinite de datele testate, pentru ca metoda tpentru eantioane perechi s fie valid:

    1. observaiile trebuie s fie independente, cu excepia asocierii

    2. diferenele trebuie s urmeze o distribuie normal

    3. media i abaterea standard a diferenelor trebuie s nu depind de mrimea (magnitudinea) msurtorilor.

    Metoda t pentru eantioane perechi

  • 1. observaiile trebuie s fie independente, cu excepia asocierii

    - depinde de modul de proiectare al studiului. Acest condiie este ndeplinit pentru datele MAGS, deoarece perechile de date provin de la nou subieci diferii

    2. folosim reprezentarea grafic a normalitii - Datele par a fi apropiate de linia de egalitate i nu exist nici un motiv s presupunem c diferenele nu urmeaz o distribuie normal

    Metoda t pentru eantioane perechi

  • 3. media i abaterea standard a diferenelor trebuie s nu depind de mrimea (magnitudinea) msurtorilor.

    Metoda t pentru eantioane perechi

    Diferenele n comparaie cu mediile creterilor n scorul MAGSreprezentare grafic de tip scatter plot

    media diferenelor sauvariabilitatea diferenelelor nueste influenat sau este foartepuin influenat demagnitudinea scorilor MAGS

  • METODA T PENTRU DOU EANTIOANE INDEPENDENTE

    este cunoscut sub mai multe denumiri: metoda t pentrueantioane neperechi, testul t nepereche, metoda t pentru dougrupuri sau testul Student t pentru dou eantioane

    ne permite s estimm diferena dintre medii sau s testmipoteza nul, care stabilete c nu exist nici o diferen npopulaie, chiar i n cazul n care eantioanele sunt mici

  • METODA T PENTRU DOU EANTIOANE INDEPENDENTE

    vom face o comparaie a densitii capilare (msurat pe mm2) pentru dou grupuri de pacieni: un grup de pacienii cu ulcer diabetic la picior i un grup de control fr ulcer (Marc Lamah)

    Eantioanele sunt prea mici - nu se poatefolosi metoda pentru eantioane mari bazatpe distribuia normal

    Nu se poate estima suficient de bine eroareastandard

    Distribuia erorilor standard estimate depindede distribuia observaiilor