curs1_2015_s_vii

17
„...gândirea statistică va deveni într-o zi la fel de necesară pentru un cetăţean eficient, la fel ca şi abilitatea de a citi şi a scrie”. H.G. Wells (1866-1946) CURSUL 1 Date, frecvențe și distribuții

Upload: anca-lungu

Post on 24-Sep-2015

217 views

Category:

Documents


5 download

DESCRIPTION

Informatica

TRANSCRIPT

  • ...gndirea statistic va deveni ntr-o zi la fel de necesar pentru un cetean eficient, la fel ca i abilitatea de a citi i a scrie.

    H.G. Wells (1866-1946)

    CURSUL 1

    Date, frecvene i distribuii

  • domeniu al matematicii cu ramuri aplicativerecoltarea, descrierea i analizarea datelor n vederea extragerii unor concluzii pe baza acestoraopereaz cu date numerice care descriu realitatea din jurul nostruDateleinformaii obinute prin categorializare, numrare sau msurare, pe baza utilizrii unor metode adecvate

  • Observaie

    Definirea problemei

    Ipotez

    Date

    Testarea ipotezei

    Publicare/Concluzie

    Respingere Acceptare

    Un nou tratament n ICC

    Este eficient noul tratament?

    Terapeutul: DACercettorul: ????

    Msurm eficacitatea tratamentului pe 2 grupuri

    Compararea mediilor

    Este/Nu este diferena semnificativ?

    Publicarea concluziei ntr-un anumit format

  • Date, frecvene i distribuii

  • TIPURI DE DATE

    Variabila termen folosit pentru a defini o calitate sau cantitate, cu valori diferite de la o populaie la alta sau de la un individ la altul (n cadrul unui eantion)

    Exemplul 1 valoarea concentraiei glucozei n snge = variabil ce poate avea valori diferite ntre diferite persoane, dar i ntre diferite msurtori la aceeai persoan

    Exemplul 2 variabila sex n cadrul unei populaii/eantion, indivizii pot fi de sex masculin sau feminin

  • Calitative pot lua cteva valori asociate unor clase (categorii) diferite / cnd indivizii aparin unor clase separate

    Variabila calitativ mai este denumit i variabil categorial sau variabil de clasificare.

    Exemplu: Diagnosticul sau Sexul (feminin sau masculin)

    Cantitative - sunt cifre (numere) ce pot fi obinute prin numrare / pot fi rezultatul unor msurtori.

    Ex: Orice variabil a crei valoare poate fi exprimat n cifre este o variabil cantitativ

    Variabilele cantitative pot fi :

    Discrete sau Discontinue variabile ce pot fi descrise numai prin uniti ntregi ce nu pot fi msurate n intervale mai mici dect unitatea. Variabilele pot lua doar cteva valori separate, de ce mai multe ori numere ntregi (Ex: Nr. de nateri, frecvena cardiac)

    Continue variabile cu un numr potenial infinit de valori n cadrul unui continuum. Valorile msurtorilor pot lua orice numr dintr-un interval (Ex: Greutatea, TA, etc.)

  • DISTRIBUII DE FRECVEN

    a) pentru variabilele calitative

    Indicatori utilizai:

    - frecvena unei categorii: numrul de persoane care aparin unei anumite categorii

    - frecvena relativ (numit i frecven proporional ): reprezint proporia pacienilor care aparin unei anumite categorii

    raportat la totalul pacienilor inclui ntr-un studiu

    - distribuia de frecven: mulimea valorilor frecvenelor pentru toate categoriile posibile

    - frecvena cumulat: procentul de indivizi ce se gsesc pn la sau sub o treapt (valoare) a scalei.

    Definiie alternativ: Frecvena cumulat pentru o valoare a unei variabile reprezint numrul de indivizi cu valori mai mici sau

    egale cu aceast valoare.

    - frecvena cumulat relativ = proporia de indivizi din eantion cu valori mai mici sau egale cu aceast valoare

    b) pentru variabilele cantitative

    - se poate obine distribuia de frecvene a unei variabile cantitative discrete prin determinarea numrului de apariii pentru

    fiecare valoare pe care aceasta o poate avea.

    - n cazul unei variabile cantitative continue - pentru a obine o distribuie de frecven este util s se mpart scala (sau plaja de

    valori) n intervale (clase)

  • GRAFICE REFERITOARE LA FRECVENE - HISTOGRAME

    Histograma = reprezentare grafic a frecvenei de apariie a unui anumit parametru ntr-o populaie/grup; grafic care arat o distribuie de frecven. -Histograma este o imagine a distribuiei valorilor unui anumit parametru-Histogramele sunt printre cele mai importante grafice n statistic, deoarece sunt bogate n informaie despre distribuiavalorilor pe o coloan numeric-Intervalele parametrului, ordonate cresctor sunt reprezentate pe abscis, iar pe ordonat este reprezentat frecvena de apariie- Histogramele care reprezint frecvenele relative au aceeai alur cu cele care reprezint frecvenele absolute, dar au avantajul c pot fi utilizate pentru comparaii de distribuii n populaii diferiteDensitatea de frecven reprezint nr. de observaii pe unitatea de variabil / frecvena mprit la limea intervalului respectiv.(Utilitate: permite folosirea intervalelor de dimensiuni diferite)Poligonul de frecven - variaie a histogramei n care este prezentat i distribuia variabilei respective suprapus pe graficul frecvenelor, sub form de linie; util atunci cnd trebuie s prezentm mai multe distribuii de frecven (pentru mai multe variabile care au aceleai uniti de msur sau se raporteaz la aceleai intervale) folosind aceleai axe.

  • FORMA DISTRIBUIILOR DE FRECVEN

    Modul reprezint valoarea cea mai frecvent ntlnit n cadrul distribuiein general nesigur, mai ales n cazul eantioanelor mici, cnd se poate modifica dramatic la o modificare minor a unei valori; Poate fi greit interpretat. Se identific total cu un scor anume, fr a spune nimic despre celelalte valori; Cozile - reprezentate de extremitile distribuiei de frecven, acolo unde observaiile sunt, de obicei rareDistribuia unimodal - distribuia are un singur mod (o singur categorie cu frecvena maxim); majoritatea datelor medicale au distributii unimodaleDistribuie bimodal - distribuia n care exist i un al doilea modul de distribuie (interval modal)Distribuiile cu mai mult de un modul - rare n datele provenite din domeniul sntii; atunci cnd se ntlnete o astfel de distribuie, de obicei suspectm existena mai multor populaii mixate mpreun. Considerm distribuii bimodale distribuiile pentru care exist o separare clar a vrfurilor

    Modul i cozile unei distribuii unimodale Distribuie bimodal

  • Distribuia simetric - coada din extremitatea dreapt are o lungime similar cu cea din stnga; cozile trebuie s fie doar aproximativ aceleai; forma exact depinde de alegerea celui care realizeaz analiza statistic n ceea ce privete punctul de plecare i mrimea intervalului pentru orice reprezentare

    Distribuia asimetric la dreapta sau pozitiv asimetric - coada din extremitatea dreapt este mai mare dect coada din extremitatea stng

    Distribuia asimetric la stnga sau negativ asimetric - coada din stnga este mai mare dect coada din dreapta

    Majoritatea datelor medicale urmeaz o distribuie, fie simetric, fie pozitiv asimetric

  • SINTETIZAREA DATELORMEDIANE I CUARTILE

    Mediana - valoarea din mijlocul unei distribuii are 50% dintre valori deasupra ei i 50% dintre valori dedesubtul ei- Poate s nu corespund unei valori reale (N par);- Nu reflect valorile distribuiei (un scor extrem se poate modifica, fr a afecta Mediana);- Este mai puin sigur n extrapolarea de la eantion la populaie; - Greu de utilizat n statistici avansateQuantilele sunt valori numerice care mpart setul de date n q grupe egale. Constanta q se numete ordinul quantilei. Mediana este quantila de ordinul doi.Quantilele de ordinul patru mpart setul de date n patru grupe egale i se numesc quartile. Quartilele sunt n numr de trei, notate de obicei cu Q1, Q2, Q3.Prima quartil Q1 este reprezentat de valoarea care delimiteaz primul sfert de distribuie.Quartila Q2 este chiar mediana.Cea de-a treia cuartil Q3 este valoarea situat la limita dintre primele trei sferturi de distribuie i ultimul sfert.Cele trei cuartile mpart distribuia n patru pri egale. Astfel, prima cuartil las la stnga un sfert din observaiile obinute (un sfert din observaii sunt mai mici dect ea), cea de-a treia cuartil las la stnga trei sferturi din observaiile obinute (adic trei sferturi din observaii sunt mai mici dect ea). Cea de-a doua cuartil las la stnga dou sferturi, adic jumtate, din observaii (jumatate din observaii sunt mai mici decat ea) i este de fapt mediana.

  • - decilele care mpart setul de date n 10 grupe egale. - centilele care mpart setul de date n 100 grupe egale.- promilele care mpart setul de date n 1000 grupe egale

    Astfel, putem mpri distribuia n 100 de pri egale adic n centile sau percentile, iar punctul care delimiteaz 20% din observaii va fi centila numrul 20 sau a 20-a percentil.

    Pe de alt parte, numrul unei centile nu trebuie s fie obligatoriu o valoare ntreag. Vorbim adesea, de exemplu, despre centila a 2.5-a, aceasta reprezentnd o valoare care las n stnga 2.5% dintre subieci.

    Alte categorii de quantile folosite sunt:

  • MEDIA

    o alt modalitate de a identifica mijlocul unei distribuii cel mai frecvent se ntlnete media aritmetic se poate calcula prin nsumarea tuturor observaiilor i mprirea sumei obinute

    la numrul acestora

    Media utilizeaz toate valorile observate, fiecare dintre acestea contribuind n mod egal la calculul acesteia.

    n cazul medianei valorile observate la extreme au un efect foarte redus asupra sa; valorile acestora pot fi modificate destul de mult fr ca mediana s fie afectat.

    !!!TAKING HOME MESSAGE!!! - media utilizeaz informaiile mai eficient dect mediana; astfel se modific mai puin de la un eantion la altul n comparaie cu mediana.

    Cnd distribuia este simetric, valoarea mediei i valoarea medianei vor fi aproximativ aceleai. ntr-o distribuie asimetric, media i mediana vor fi de obicei diferiteDistribuia este asimetric la dreapta - valoarea mediei va fi de obicei mai mare dect valoarea medianeiDistribuia este asimetric la stnga - valoarea medianei va fi de obicei mai mare dect cea a mediei.

    Acest lucru se datoreaz faptului c valorile din coada distribuiei afecteaz valoarea mediei i nu afecteaz valoarea medianei.

  • MSURAREA VARIABILITII FOLOSIND AMPLITUDINEA

    Media i mediana - indicatori de tendin central (ncearc s determine poziia de mijloc dintr-o distribuie)

    Amplitudinea - msur pentru mprtiere, dispersie sau variabilitate a datelor din cadrul distribuiei- diferena dintre cea mai mare i cea mai mic valoare- msur util din punct de vedere descriptiv

    Dezavantaje:1. depinde doar de valorile extreme care pot varia foarte mult de la un eantion la altul2. depinde i de mrimea eantionului (eantion mai mare - extremele sunt susceptibile de a fi departe una de

    cealalt)

    Amplitudinea intercuartile (interquartile range sau IQR) - diferena dintre prima i a treia cuartil (este folosit aproape ntotdeauna doar ca o statistic descriptiv, ca i amplitudinea)Amplitudine de 95% - amplitudine situat ntre centila 2.5 i centila 97.5; calculul ei necesit un eantion mare nu se folosete ca statistic descriptiv

  • MSURAREA VARIABILITII FOLOSIND VARIANA

    Abaterea fa de medie - diferena dintre medie i fiecare valoare observat

    abateri fa de medie mari - variabilitatea valorilor observate ridicat abateri fa de medie mici - variabilitatea valorilor observate redus (valorile observate sunt asemntoare

    ntre ele)

    Media abaterilor nu reprezint un indicator potrivit pentru variabilitate (unele valori observate vor fi mai mari dect media - abateri pozitive, altele vor fi mai mici dect media - abateri negative)

    Suma abateri pozitive + negative= zero

    Se folosete suma ptratelor abaterilor fa de medie (sum de ptrate) date cu variabilitate extrem - suma de ptrate ale abaterilor fa de medie = mare date cu variabilitate redus - suma de ptrate ale abaterilor fa de medie = mic Suma de ptrate - depinde de dimensiunea eantionului

    - indicatorul statistic pe care dorim s l obinem este o medie, nu o sum

  • Suma ptratelor diferenelor fa de medie proporional cu numrul observaiilor minus 1 valoare cunoscut sub numele de grade de libertate (suma ptratelor abaterilor fa de medie nu poate s fie proporional cu numrul de observaii din eantion - la o dimensiune a eantionului de o observaie, suma de ptrate este ntotdeauna zero)

    Variana se estimeaz ca media ptratelor abaterilor fa de medie - un raport ntre suma de ptrate mprit la numrul de observaii minus unu (la numrul de grade de libertate pentru varian)

    Variana eantionului este suma ptratelor abaterilor fa de medie mprit la gradele de libertate

  • MSURAREA VARIABILITII FOLOSIND DEVIAIA STANDARD

    Variana se bazeaz pe ptratul valorilor observaiilor (unitile de msur pentru varian exprimate n unitile de msur iniiale la ptrat).

    Dac ns vom extrage rdcina ptrat din varian, indicatorul rezultat va fi cuantificat n aceleai uniti de msur ca iobservaiile originale.

    Indicatorul care rezult din extragerea rdcinii ptrate din varian se numete abatere standard sau SD (Standard deviation) i de obicei se noteaz cu s.

    Pentru cele mai multe tipuri de distribuii, aproximativ dou treimi (65%) din valorile observate se afl la o deviaie standard (SD) fa de medie, iar majoritatea (aproximativ 95%) se ncadreaz n aproximativ dou deviaii standard (2xSD) fa de medie. Informaiile poziionate n afara acestui interval pot fi toate, fie spre limita inferioar, fie spre cea superioar, fie distribuite n mod egal ntre cele dou limite.

    Distribuie asimetric media sau mediana sunt apropiate ca valori de una din limitele amplitudinii sau amplitudinii intercuartile

    Media sau mediana apropiate de limita inferioar distribuie pozitiv asimetricMedia sau mediana apropiate de limita superioar distribuie negativ asimetric