st1 04 stat descr indic sint(1)

47
Statistica descriptivă Indicatori sintetici ai distribuţiilor statistice M. Popa

Upload: pascunicoleta12

Post on 14-Nov-2015

26 views

Category:

Documents


0 download

DESCRIPTION

St1 04 Stat Descr Indic Sint(1)

TRANSCRIPT

  • StatisticadescriptivIndicatori sintetici ai distribuiilorstatistice

    M. Popa

  • Statistica descriptiv - obiective Cum se prezint valorile unei distribuii?

    Ct de apropiate sunt unele de altele? Ct de diferite sunt unele de altele?

    Exist valori care reprezint ntreaga distribuie?

  • Categorii de indicatori Indicatori ai tendineicentrale

    valori tipice, reprezentative, care descriu distribuia n ntregul ei

    Indicatori ai mprtierii descriu caracteristica de mprtiere a

    valorilor distribuiei Indicatori ai formeidistribuiei

    se refer la forma curbei de reprezentare grafic a distribuiei

  • Indicatori ai tendinei centrale modul mediana media

  • Modul (Mo) Definiie:

    valoarea clasa de interval

    expresia ce mai direct a valorii tipice (reprezentative)

    se afl prin alctuirea tabelei de frecvene (simple sau grupate) i este valoarea (clasa) creia i corespunde frecvena absolut cea mai ridicat. distribuii unimodale (583254 Mo=5) distribuii bimodale (5832254 Mo=5; =2) distribuii multimodale (58832254 Mo=5; =2; =8)

    cufrecvenaceamaimare

  • MEDIANA (Me) valoarea din mijlocul unei distribuii

    are 50% dintre valori deasupra ei i 50% dintre valori dedesubtul ei

    corespunde valorii de 50% pe coloana frc%. percentila?... decila?.... quartila?

    distribuie cu numr impar de valori Me este chiar valoarea respectiv.

    distribuie par Me se calculeaz ca medie a valorilor din

    mijlocul distribuiei 5,8,3,2,5,4, 2,3,4,5,5,8 Me=4,5

    G. Fechner

  • MEDIAARITMETIC(m) Notaii uzuale:

    (miu) media populaiei m media eantionului

    Calcul pentru frecvene simple (583254)

    Calcul pentru frecvene grupate (55833332244)50,4

    626

    6452385

    NX

    m

    90,31143

    224122*42*24*31*82*5)*(

    ffX

    m

  • Modul, Mediana i Media vizeaz acelai lucru, tendina central

    i totuiN=151 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    60 45 22 20 16 16 16 15 14 14 14 12 12 12 12

    media=20 X/N=300/15

    X=300

    mediana=15 (N+1)/2=8

    modul=12(valoarea cea mai frecvent)

  • Proprietilemedieiaritmetice Adugarea\scderea unei constante la fiecare valoare a distribuiei, mrete\scade media cu

    acea valoare nmulirea\mprirea fiecrei valori a distribuiei cu o constant, multiplic\divide media cu acea constant Suma abaterii valorilor de la medie este ntotdeauna egal cu zero Suma ptratului abaterilor de la medie va fi ntotdeauna mai mic dect suma ptratelor abaterilor n raport cu oricare alt punct al distribuiei

  • Proprietile medieivariabila constant + * abateri

    medie5 2 7 10 0,508 2 10 16 3,503 2 5 6 -1,502 2 4 4 -2,505 2 7 10 0,504 2 6 8 -0,50

    m=4.5 m=6.5 m=9 suma=0media=?

  • Valorinedeterminateiclasedeschise

    Valorile nedeterminate valori a cror mrime nu decurge din procesul de

    msurare, n acelai mod n care rezult oricare valoare a seriei

    Exemplu: testul de asociere verbal (10 sec) Clase (categorii) deschise

    categorii care au una dintre limite liber Exemplu: Cte igri fumezi zilnic? (30 sau mai

    mult). n astfel de cazuri se utilizeaz mediana

  • MODUL

    - Uor de calculat (nesemnificativ n prezent);- Poate fi utilizat pentru orice tip de scal;- Este singurul indicator pentru scale nominale;-- Corespunde unui scor real al distribuiei;

    MEDIANA

    - Poate fi utilizat pe scale ordinale i de interval\raport;- Poate fi utilizat i pe distribuii de frecven cu clase deschise sau scoruri nedeterminate la marginile distribuiei;

    MEDIA- Reflect valorile ntregii distribuii;- Are multe proprieti statistice dezirabile;- Adecvat pentru utilizare n statistici avansate;

    Avantajeleindicatorilortendineicentrale

  • MODUL

    - n general, nesigur, mai ales n cazul eantioanelor mici, cnd se poate modifica dramatic la o modificare minor a unei valori;- Poate fi greit interpretat. Se identific total cu un scor anume, fr a spune nimic despre celelalte valori; - Nu poate fi utilizat n statistici infereniale;

    MEDIANA

    - Poate s nu corespund unei valori reale (N par);- Nu reflect valorile distribuiei (un scor extrem se poate modifica, fr a afecta Me);- Este mai puin sigur n extrapolarea de la eantion la populaie; - Greu de utilizat n statistici avansate

    MEDIA

    - De obicei nu corespunde unei valori reale;- Nu este tocmai adecvat pentru scale ordinale;- Conduce la interpretri greite pe distribuii asimetrice- Poate fi puternic afectat de scorurile extreme;

    Dezavantajeleindicatorilortendineicentrale

  • Valori extreme (excesive) ale distribuiei

    valori excesive, neobinuit de mari sau de mici fa de celelalte valori ale unei distribuii

    Identificare metoda grafic Box-and-Whisker-Plot (Box-

    Plot) autor Tukey

  • 114

    101

    H=114-101=13

    Percentila 75 (114)

    Percentila 25 (101)

    Mediana(Q2)

    142valoareextrem135valoareextrem

    114+1.5x13=133.5

    101-1.5x13=81.5

    Limita de sus poate urca pn la 133,5Cea mai apropiat valoare este 125

    Limita de jos este 81.5Trasm la 86

  • grupa10987654321

    Rasp

    core

    cte

    exam

    en iu

    nie

    30

    25

    20

    15

    10

    5

    0

  • Gendermf

    SUM

    (it_0

    1 to

    it_

    22)

    125

    100

    75

    50

    25

  • Tratarea valorilor extreme Stabilirea naturii valorilor extreme:

    erori de nregistrare (tastare); erori de msurare; rezultate influenate de anomalii ale condiiilor

    experimentale. eantionul a fost extras dintr-o populaie asimetric valorile respective fac parte din alt populaie de

    valori eantion prea mic

    Tratarealorpeunadincileposibile: eliminare (dac sunt erori necorectabile); corectare (dac este posibil); utilizarea mediei 5%trim, transformare (extragerea radicalului din toate valorile distribuiei, logaritmarea distribuiei, etc.)

  • Indicatorisinteticiaimprtierii msoar gradul de diversificare a valorilor

    m1=30 m2=40

    nainte

    dupa mprtierea scorului la un test de rezisten la stres, nainte i dup un program de psihoterapie

  • Tipuri de indicatori1. Amplitudinea absolut 2. Amplitudinea relativ3. Abaterea quartil (cvartil, intercvartil) 4. Abaterea semi-interquartil 5. Abaterea medie 6. Dispersia (variana)7. Abaterea standard8. Coeficientul de variaie

  • Amplitudinea absolut (R) diferena dintre valoarea maxim i

    valoarea minim a unei distribuii indic n mod absolut plaja de valori ntre

    care se ntinde distribuia. poate fi influenat de o singur valoare

    aflat la extremitatea distribuiei R=Xmax-Xmin=7-1=61,2,3,4,5,6,7

  • Amplitudinearelativ(R%) raportul procentual dintre amplitudine i

    medie util cnd cunoatem plaja teoretic de

    variaie a valorilor

    100*%m

    RR %150100*46% R

    1,2,3,4,5,6,7

  • Distribuia A are o amplitudine mai mare dar i o variabilitate mai mare dect distribuia B

    Amplitudinile distribuiilor A i B sunt identice, dar distribuia A are mai mult variabilitate.

    Imprecizia amplitudinii

  • Abatereaquartil(cvartil,intercvartil)(RQ)

    diferena dintre quartila 3 i quartila 1 este distana dintre limita superioar i cea

    inferioar a casetei Box-Plot (valoarea H)

    13 QQRQ

  • Abaterea semi-interquartil(RSQ)

    distana unui un scor tipic fa de amplitudinea ntregii distribuii

    este abaterea quartil mprit la 2 ntr-o distribuie perfect simetric RSQ=Q2=Me RSQ nu este afectat de valorile aberante

    indicator robust al mprtierii

    213 QQRSQ

  • Abaterea medie (d)X Xi m5 (5 4.5) = .58 (8 4.5) = 3.53 (3 4.5) = -1.52 (2 4.5) = -2.55 (5 4.5) = .54 (4 4.5) = -.5

    X = 27 (Xi-m) = 0N = 6m = 4.5

    abaterea valorii

    abaterea medie

    ntotdeauna d=0dar...

    5.1||

    NmX

    d i

  • Dispersia (variana,abatereamedieptratic)

    Notaii uzuale: s2 (eantion) 2 (populaie)

    Se calculeaz ca sum a abaterilor de la medie ridicate la ptrat

  • X (Xi m) (Xi m) 25 (5 4.5) = .5 .258 (8 4.5) = 3.5 12.253 (3 4.5) = -1.5 2.252 (2 4.5) = -2.5 6.255 (5 4.5) = .5 .254 (4 4.5) = -.5 .25

    X = 27

    (Xi-m) = 0 (X-m)2 = 21.5

    N = 6m = 4.5

    Dispersia(variana)s2 (eantion) 2 (populaie)

    NmX

    si 22 )(

    58.36

    5,212 s

  • Abaterea standards (eantion); (populaie), SD (APA); ab.std.

    se calculeaz prin extragerea radicalului din expresia dispersiei N

    mXs

    i 2)(

    89,16

    5,21 s

  • Corecia indicatorilor mprtierii calculai pentru eantioane

    NmX

    si 22 )(

    NmX

    si 2)(

    1)( 22

    NmX

    si

    dispersia abaterea standard

    1)( 2

    NmX

    si

    Abatereastandardnuestedefinitpentru(n-1),cipentrun Dar...sumaabaterilordelamedieestentotdeauna0 ...dactimn-1abateri,ocunoatempeultima ... doar primele n-1abateripotvarialiber. ...(n-1)suntdefinitecagradedelibertate

  • Proprietile abaterii standard1. Dac se adaug/scade o constant la

    fiecare valoare a unei distribuii, abaterea standard nu este afectat

  • Proprietile abaterii standard2. Dac se multiplic/divide fiecare valoare a unei

    distribuii cu o constant, abaterea standard se multiplic/divide cu acea constant

  • Proprietile abaterii standard3. Abaterea standard

    fa de medie este mai mic dect abaterea standard fa de orice alt valoare a unei distribuii

    X (Xi m) (Xi 5)25 (5 4.5) = .5 (5-5)2=08 (8 4.5) = 3.5 (8-5)2=93 (3 4.5) = -1.5 (3-5)2=42 (2 4.5) = -2.5 (2-5)2=95 (5 4.5) = .5 (5-5)2=04 (4 4.5) = -.5 (4-5)2=1

    X = 27 (Xi-m) = 0 (X-5)2 =23N = 6m = 4.5

  • Coeficientul de variaie (cv) abaterea medie i abaterea standard se exprim n

    unitile de msur ale variabilei de referin ca urmare, nu pot fi comparate n mod direct, pentru

    variabile diferite

    100*m

    scv

    cv poate fi calculat numai pe scale de raport (origine n 0)

    cv 30%, mprtierea este mare i media are o reprezentativitate redus

  • Alegerea indicatorului mprtierii Abaterea standard este cea mai utilizat pentru

    scale de msurare interval/raport. Realizeaz cea mai bun combinaie ntre calitatea estimrii i posibilitatea de a fundamenta inferene statistice.

    Amplitudinea este un indicator nesigur i care nici nu poate fi calculat n cazul scalelor nominale

    Pe distribuii cu valori nedeterminate sau cu intervale deschise, se alege abaterea interquartil (semi-interquartil).

  • Indicatoriaiformeidistribuiei simetrie (skewness)

    simetric asimetric negativ asimetric pozitivSkewness 0 negativ pozitiv

  • Efectul asimetriei asupra mediei 3, 4, 5, 5, 6, 7

    Modul: 5 Mediana: 5 Media: 5

    3, 4, 5, 5, 6, 7, 17 Modul: 5 Mediana: 5 Media: 6.7

  • MedieMediana

    Mod

    MedianMedie

    Mod Mod MedieMedian

    Distribuie:simetricasimetricnegativasimetricpozitiv

  • Indicatoriaiformeidistribuiei boltire (kurtosis)

    leptocurtica

    mezocurtica

    platicurtica

    Kurtosis pozitiv

    Kurtosis 0

    Kurtosis negativ

  • Pentrusntateadvs.,Cnd traversai, uitai-v spre

    partea de unde pot veni maini!