curs2_2015_s_vii info

41
Cursul 2 ESTIMARE

Upload: diana-elena-bizadea

Post on 06-Nov-2015

228 views

Category:

Documents


0 download

DESCRIPTION

curs info mg umfcd

TRANSCRIPT

  • Cursul 2

    ESTIMARE

  • {1,2,3,4,5} n=5/m= 3 Xi/n

    Ct de departe fa de medie se afl fiecare valoare?

    1 2 3 4 52 1 0 1 2 - - - - - - (2+1+0+1+2)/5=1.2 - - - - - - - -1.2 (distana medie fa de medie)

    (Xi-m) /n(1-3)+(2-3)+(3-3)+(4-3)+(5-3)=?Dac se ignor semnele (pozitiv i negativ), considernd toate cifrele ca fiind pozitive (adic valori absolute- dificulti din punct de vedere matematic (modulul nu are proprieti de continuitate si derivabilitate), ceea ce nu se dovedete a fi foarte util pentru analiza statistic. Exist ns i o alt posibilitate de a scpa de semne i anume folosind ptratul acestor abateri. Astfel, prin nsumarea ptratelor abaterilor vom obine un numr pozitiv numit suma ptratelor abaterilor fa de medie.

    (Xi-m)2 /n varian (dispersie)

    Abaterea standard-exemplu

  • Suma ptratelor abaterilor fa de medie depinde de dimensiunea eantionului, iar indicatorul statistic

    pe care dorim s l obinem este o medie i nu o sum.

    Cnd eantionul are o singur valoare observat (media va fi egal cu valoarea observat singular,

    diferena dintre valoarea observat i aceast medie calculat va fi nul) - abaterea fa medie va fi

    ntotdeauna zero pentru o singur observaie.

    Astfel, pentru a estima variabilitatea este necesar ca eantionul s conin cel puin dou observaii.

    La o dimensiune a eantionului de o observaie, suma de ptrate este ntotdeauna zero. Astfel, pentru

    un calcul corect, suma ptratelor diferenelor fa de medie trebuie s fie proporional cu numrul de

    observaii minus 1 i nu cu numrul de observaii

    Numrul de observaii minus unu = grade de libertate pentru varian. Astfel, variana se estimeaz

    ca media ptratelor abaterilor fa de medie, adic un raport ntre suma de ptrate mprit la

    numrul de observaii minus unu (adic la numrul de grade de libertate pentru varian).

    Variana eantionului este suma ptratelor abaterilor fa de medie mprit la

    gradele de libertate.

    (Xi-m)2 /(n-1)

  • Preliminarii: Distribuia Normal

    -numit si distribuia Gauss (descoperit de ctre Carl Friedrich Gauss) -este o distribuie continu (cea mai important distribuie continu), simetric i unimodal -valabilitatea multor metode statistice este real dac se poate presupune c datele urmeaz o

    distribuie normal -numeroase variabile care apar n mod natural, biologic urmeaz distribuii care sunt foarte

    asemntoare cu distribuia normal

    Scurt istoric: Originea acestui model o gsim n lucrarea Dialog despre cele dou sisteme fundamentale ale lumii a lui

    Galileo GALILEI (1564-1642)- i expune prerile referitoare la msurarea distanelor dintre diferite corpuri cereti

    Repartiia normal apare de fapt pentru prima oar n 1733 ntr-o lucrare a lui Abraham de MOIVRE (1667-1754), matematician cunoscut mai curnd prin formula Moivre referitoare la numerele complexe

    Abia odat cu lucrrile lui Carl Friedrich GAUSS (1777-1855) i cele ale lui Pierre Simon, Marquis de LAPLACE (1749-1827) se pun n lumin proprietile i importana deosebit a acestei legi statistice

    Laplace (1810/1811 n Theorie analitique des Probabilites din 1812) arat rolul teoretic (i practic) excepional jucat de legea normal prin aa-numita TEOREM LIMIT CENTRAL.

  • Distribuia normal este reprezentat de o familie decurbe definite prin doi parametri: media aritmetic ()i deviaia standard () a seriei de valori. Distribuianormal de medie i abatere standard se noteazN (, ).

    Parametrul (termen matematic)=nr. care definete unmembru al unei anumite clase. i identific membrulfamiliei distribuiei normale.

    Curbele au ntotdeauna form de clopot simetric, iargradul de alungire sau de aplatizare al clopotuluidepinde de valoarea deviaiei standard a eantionului.

    Faptul c o curb are form de clopot, nu nseamn creprezint o distribuie normal, deoarece i altedistribuii pot avea forme similare

    ntruct poate fi orice numr real, iar orice numrreal strict pozitiv, rezult c exist, de fapt, o infinitatede distribuii normale

    Distribuie normal

    Distribuia normal nu este doar o distribuie, ci o ntreag familie de distribuii

  • Distribuia normal standard (cunoscut,de asemenea, sub numele de distribuie Z) estedistribuia normal cu media zero i variana 1 i se noteaz N (0, 1) .

    Aceasta este adesea numit clopotul lui Gauss, deoarece graficul densitii de probabilitatearat ca un clopot.

  • Perechi de distribuii normale care difer prin:

    Doar prin medii Doar prin abaterile standard Prin ambele

  • Distribuia normal importan

    Numeroase variabile care apar n mod natural, biologic urmeaz distribuii care sunt foarte asemntoare cu distribuia normal ne permite utilizarea n analiza lor a metodelor statistice care cer distribuia normal

    n cazul n care o variabil nu urmeaz o distribuie normal, dac am extrage mai multe eantioane de observaii, mediile calculate n aceste eantioane urmeaz o distribuie normal (teorema limit central) miracolul lui Gauss

  • Distribuia normal are multe proprieti utile dar, din pcate, nu exist nici o formul simpl care s legevariabila de aria de sub curb. Prin urmare, nu putem gsi o formul pentru a calcula frecvena ntre dou valorialese ale variabilei i, pe de alt parte, nici valoarea respectiv n cazul n care s-ar depi un anumit procent deobservaii

    n decursul timpului s-au dezvoltat mai multe metode numerice de calcul pentru toate aceste situaii, cu oprecizie acceptabil

    S-au obinut tabele extinse de valori pentru distribuia normal, ale cror exemplificri pot fi gsite n multe cride statistic sau specializate n tabele

    Pachetele de programe statistice (i nu numai) au implementate majoritatea metodelor numerice de calcul afrecvenelor, att pentru distribuia normal ct i pentru alte distribuii cunoscute

    Estimarea punctual O valoare a parametrului teoretic estimat - m (media eantionului) este un estimator punctual al mediei

    populaiei ( ) Este influenat de fluctuaiile de eantionare Poate s fie foarte departe de valoarea real a parametrului estimat

    Distribuia normal

  • Intervalul de ncredere - De ce?

    Este recomandabil ca estimarea unui parametru teoretic sse realizeze prin intermediul unui interval, nu a unei singurevalori

    - Acest interval se numete interval de ncredere(confiden)

    - Parametrul estimat aparine cu mare probabilitateintervalului de ncredere

    Regula celor 3 (de eliminare a valorilor aberante):

    Estimm c 68% din observaii se afl n intervalul de o abatere standard de o parte i de alta a medieiEstimm c 95% din observaii se afl n intervalul de 1.96 abateri standard de o parte i de alta a

    medieiEstimm c 99.7% din observaii se afl n intervalul de 3 abateri standard de o parte i de alta a mediei

    Aceste afirmaii sunt adevrate pentru orice distribuie normal indiferent de medie, varian sau abaterestandard

  • Regula celor 3 (de eliminare a valorilor aberante):

    Estimm c 68% din observaii se afl n intervalul de o abatere standard de o parte i de alta a mediei Estimm c 95% din observaii se afl n intervalul de 1.96 abateri standard de o parte i de alta a mediei Estimm c 99.7% din observaii se afl n intervalul de 3 abateri standard de o parte i de alta a mediei

    Aceste afirmaii sunt adevrate pentru orice distribuie normal indiferent de medie, varian sau abatere standard

  • EANTIONAREA S presupunem c ne aflm n faa unei populaii cu un

    numr foarte mare de indivizi, ceea ce, din punct de vederestatistic = practic infinit

    Presupunem pentru simplitate c media populaiei respectiven ceea ce privete un anumit parametru este , iar deviaiastandard este , valori care sunt de obicei necunoscute, iardistribuia variabilei respective este normal.

    S mai presupunem c aproximm media a populaiei prinmedii obinute pe eantioane de volum n, adic eantioane cun indivizi.

    Putem considera foarte multe astfel de eantioane (poatechiar pe toate). Vom obine foarte multe medii aproximative(medii de eantionare de volum n ), aproximaii care sunt,unele mai departe de adevrata medie, altele mai apropiate.

    Rezult o serie statistic, a acestor medii extrem de important, cu anumite proprieti care ne vor ajuta n a estima ct

    de bune sunt aproximrile prin medii de eantionare

    Ex: nivelul de glucoz din snge (glicemia) mostr de snge - prin calculul concentraiei de glucoz n aceast mostr poate fi estimat valoarea glicemiei pentru tot sngele pacientului respectiv

  • Fie seria statistic Mn: m1, m2, m3.........., seria acestor

    medii de eantionare de volum n. Se poate demonstra c:

    media seriei statistice Mn este aceeai cu a populaiei,

    adic m.

    deviaia standard a seriei Mn este sn=s/n1/2, adic mai

    mic dect a populaiei, care este s.

    distribuia seriei Mn este Gauss.

  • DISTRIBUII DE EANTIONARE

    Estimrile care se pot obine de la toate eantioanele posibile (extrase n acelai mod

    ca i eantionul studiat) au o distribuie care se numete distribuie de eantionare

    1, 2, 3, 4, 5, sau 6Obinerea fiecarui numr este posibil n aceeaiproporie i anume de 1/6 sau 0.167Me=(1 +2 +3 +4 +5 +6) / 6 = 3.5 (valoarea medie pe care ne ateptm s o obinem n cazul mai multor aruncri)Se poate, de asemenea, calcula i o abatere standard a valorilor obinute. Aceasta este de 1.71 i reprezint deviaia standard a distribuiei

  • Source: http://www.mathsisfun.com/data/standard-deviation-calculator.html

  • Source: http://www.mathsisfun.com/data/standard-deviation-calculator.html

  • Vom calcula media celor dou valori obinute pentru estimarea mediei populaiei tuturor valorilor obinute prin aruncareade zaruri.

    Primul zar are ase fete diferite i pentru fiecare din acestea, al doilea zar poate arta ase fee diferite, astfel nct, ntotal exist 6x6 =36 de rezultate posibile

    Cea mai mic valoare posibil a punctajului mediu este de 1.0 dar acest lucru nu se poate ntmpla foarte frecvent. Ambelezaruri ar trebui s arate faa cu valoarea 1 i astfel am obine o medie egal cu 1.0 n cele 36 de aruncri, deci proporiade aruncri cu acest rezultat este de 1/36 = 0.028

    Urmtoarea medie posibil este de 1.5 i se obine atunci cnd pentru un zar se obine faa 1 iar pentru cellalt faa cu2. Acest lucru se poate ntmpla de dou ori n 36 de aruncri, adic primul zar arat faa 1 i cel de-al doilea 2 sauprimul arat faa 2 i al doilea 1. Proporia de aruncri, n cazul n care media are valoarea de 1.5 este de 2/36 = 0.056

    Pp. c suntem n situaia de a nucunoate media valorilor

    Vom considera un eantion derezultate provenite din aruncareasimultan de zaruri care ne va permiteestimarea mediei

  • Putem enumera toate posibilitile de aruncare pentru cele dou zaruri i calcula mediile valorilor obinute, i n consecin i

    proporiile de aruncri pentru fiecare valoare posibil a mediei

    Media=1 (1,1). Prop.=1/36=0.0277

    Media=1.5 (1,2), (2,1). Prop.=2/36=0.0555

    Media=2 (1,3), (3,1), (2,2). Prop.=3/36=0.0833

    Etc.

    De asemenea, se poate calcula media i abaterea standard a tuturor acestor medii de valori posibile obinute prin aruncarea a dou

    zaruri. Valoarea mediei va fi de 3.5, la fel n cazul aruncrii unui singur zar, dar abaterea standard nu va mai fi aceeai, ci doar

    1.21, deci mai mic dect 1.71 care este valoarea obinut n cazul aruncrii unui singur zar

  • Pentru a estima media populaiei tuturor valorilor posibile ale zarurilor, aruncarea unui singur zar nu este att de concludent, ntruct, aa cum am vzut, rezultatele pot fi extrem de variabile.

    Prin aruncarea a dou zaruri i calculul mediei valorilor obinute din cele dou aruncri se obine o estimaie ceva mai bun. Estimrile bune sunt considerate cele situate cel mai aproape de mijlocul distribuiei de valori posibile i nu de capetele

    acesteia, i, prin urmare, vor fi mai aproape de media real.

    Cu ct aruncm mai multe zaruri deodat, cu att estimarea mediei pentru populaie cu ajutorul mediei eantionuluistudiat va fi mai exact

    Distribuiile de eantionare pentru mediile valorilor obinute

    prin aruncarea simultan a patru, respectiv ase zaruri

  • Observaii:1. media distribuiei este ntotdeauna aceeai, i anume 3.52. variabilitatea distribuiilor este mult mai mic atunci cnd

    numrul de zaruri aruncate crete - n aceast situaie exist mult mai multe proporii mici de aruncri productoare de medii apropiate de 1.0 sau 6.0 iar abaterile standard corespunztoare devin mai mici

    3. forma distribuiei se modific cnd numrul de zaruri aruncate simultan este mai mare, aceasta tinznd s arate mult mai familiar i fiind similar curbei care corespunde distribuiei normale

    1. Dac se consider un eantion format din cteva observaii i se calculeaz media acestora, indiferent de distribuia populaiei din care a fost extras eantionul, media eantionului va avea o distribuie care are aceeai medie cu media ntregii populaii

    2. Deviaia standard calculat pentru mediile eantioanelor va fi mai mic dect cea a ntregii populaii, i, cu ct eantionul va fi mai mare ca dimensiune cu att vom avea o abatere standard mai mic pentru mediile eantioanelor

    3. Forma distribuiei mediilor eantioanelor se apropie de o distribuie normal cnd numrul de observaii din eantion crete4. Numim statistic orice numr care se poate calcula pe baza datelor care provin dintr-un eantion, de exemplu media,

    proporia, mediana sau abaterea standard. 5. Orice statistic, care se calculeaz pe baza datelor care provin dintr-un eantion va avea asociat o distribuie de eantionare

  • Eroarea standard

    - Utilizat la descrierea/raportarea unei estimri- Provine de la distribuia de eantionare- Abaterea standard a distribuiei de eantionare arat ct de potrivit este statistica calculat pe

    eantionul studiat ca o estimare a valorii reale din populaie- Este cunoscut sub numele de eroarea standard a estimrii

    Termenii de "eroare standard" i "abatere standard" sunt adesea confundai. Prin convenie: "abatere standard" - cnd se vorbete despre distribuia unui eantion sau a unei populaii "eroare standard" - cnd se vorbete despre o estimaie calculat pe baza datelor dintr-un eantion

    (abatere standard a unei statistici)

    Erorile standard sunt frecvent menionate n majoritatea lucrrilor publicate sau n rapoartele de cercetare Eroarea standard asosciat unei estimaii exprim de fapt, cum pot fi estimaiile variabilei respective n cazul

    n care am extrage alte eantioane din populaie ntr-un mod similar cu eantionul studiat (propriu) Cel mai adesea lucrrile de cercetare includ intervalele de ncredere (mai jos) i valorile p (cursurile

    urmtoare) care sunt derivate din utilizarea erorilor standard Pentru majoritatea statisticilor calculate pentru datele observate sunt menionate erorile standard estimate,

    care sunt folosite pentru a face estimri referitoare la populaia din care a fost extras eantionul

  • Intervale de ncredereUn estimator este cu att mai eficace cu ct variaia sa este mai mic (precizia sa depinde de

    mrimea variaiei sale).Estimarea punctual a unui parametru teoretic furnizeaz o valoare pentru parametrul

    teoretic estimat. Valoarea sa este tributar fluctuaiilor de eantionare i poate fi la o maredistan de valoarea real a parametrului estimat.

    Este recomandabil s se estimeze un parametru teoretic nu printr-o singur valoare ci printr-un interval, numit interval de ncredere, n care s se poat afirma c parametrul estimat segsete cu o probabilitate ridicat.

    Intervalele de ncredere reprezint o alt modalitate de a determina ct de apropiate sunt

    estimrile din eantioane fa de cantitatea total pe care dorim s o estimm

    Mai sunt denumite i estimri de tip interval, deoarece acestea estimeaz o limit inferioar i una superioar ntre care sperm s se afle valoarea real

    O estimare de tip interval este o estimare sub forma unei zone continue de valori posibile O estimare care este reprezentat printr-un un singur numr este denumit estimare

    punctual

  • Intervalul de ncredere este un interval mrginit de valori (limitele poart numele de limite dencredere); include media caracteristicii studiate.

    Cu ct intervalul este mai larg cu att suntem mai siguri c media caracteristicii studiate se varegsi n acel interval.

    Mrimea ncrederii, confidena, este dat de probabilitatea ca valoarea (valorile) studiate sse gseasc n acel interval.

    Intervale de ncredere

    Ex: Fie P o populaie n care variabila X are o medie teoretic necunoscut. Din populaia P se extrage la ntmplare eantionul E reprezentativ. In eantionul E pentru variabila X se observ o medie m i se calculeaz o variaie punctual estimat

    Se ncearc s se determine pentru valoarea necunoscut a mediei teoretice un interval de ncredere cu pragul , (cu ajutorul lui m i S2 observate), adic s se determine un interval [a,b] n care probabilitatea ca media teoretic s se afle, este 1-

  • Nu este posibil s se calculeze estimri utile de tip interval care s conin ntotdeaunavaloarea necunoscut din populaie (exist mereu o probabilitate foarte mic ca un eantions fie (foarte) extrem i s conin o mulime de observaii, fie foarte mici, fie foarte mari, saus existe dou grupuri care s difere foarte mult nainte i dup aplicarea tratamentului

    Intervalul calculat final va rezulta din cele mai multe intervale calculate care conin valoareareal din populaie, adic ceea ce dorim s estimm

    Dac, considerm un interval de ncredere de 95% calculat pe baza datelor din eantion,aceasta nseamn c 95% din intervalele calculate pe baza datelor din eantion vor coninevaloarea real din populaia global

    Intervalele de ncredere nu includ ns ntotdeauna valoarea real a populaiei. Dac 95% dinintervalele de 95% ncredere o includ rezult c exist 5% care nu o includ

    Intervale de ncredere

  • G merelor dintr-o livad le putem cntri individual - - imposibil

    SAU Eantion

  • Inferena(Extrapolare)

  • DS scade odat cu creterea eantionului

  • FOLOSIM NTOTDEAUNA INTERVALE DE 95% NCREDERE?

    Alegerea ncrederii de 95% a fost ntmpltoare i nu a existat un anumit motivpentru care am folosit-o (am fi putut, la fel de bine s folosim un alt procentpentru intervalele de ncredere, cum ar fi 99% sau 90%).

    Dup cum ne-am putea atepta, dac avem 99% ncredere c intervalul includevaloarea real a populaiei, atunci acesta trebuie s fie mai mare dectintervalul de 95% ncredere. Printr-un raionament similar, intervalele de 90%ncredere sunt mai restrnse.

    Alegerea unui interval de ncredere de 95% = un compromis ntre dorina de aavea un interval de ncredere care s includ i valoarea populaiei, i dorina caacesta s fie suficient de ngust pentru a oferi informaii utile

  • GREELI COMUNE N FOLOSIREA I INTERPRETAREA INTERVALELOR DE

    NCREDERE

    1. Nu se citeaz intervalele de ncredere (autorii persist n a furniza numai valorile p, dei majoritatea jurnalelelorprecizeaz, n instruciunile ctre autori c rezultatele ar trebui s fie furnizate sub form de intervale de ncredere)

    Ex: -n instruciunile revistei Lancets pentru autori se afirm:

    "Atunci cnd este posibil, gsii cuantificri i prezentai-le cu indicatori adecvai de msurare a erorii sau incertitudinii (cum ar fi intervale de ncredere). Evitai calculele bazate exclusiv pe testarea ipotezelor statistice, cum ar fi utilizarea valorii p, care nu reuete s transmit informaii cantitative importante."

    2. Autorii furnizeaz intervale de ncredere pentru mediile msurtorilor nainte i dup intervenie, n loc s furnizeze valoarea intervalului pentru media diferenei

    3. Calculul intervalului de ncredere pentru o estimaie obinut ntr-un eantion de dimensiuni reduse folosind o metod conceput pentru eantioane mari