11.statistica descriptiva var cantitative

Upload: daniral

Post on 02-Mar-2016

61 views

Category:

Documents


0 download

TRANSCRIPT

  • Statistica descriptivaUnivariataVariabile cantitative (rang sau masuratoare)

  • Statistica univariataDe ce grupam?Grupam (fara sau cu pierdere de informatie) pentru castig de relevantaCum grupam?Sinteza graficaSinteza numerica

  • Tipuri de caracteristici variabileBinareMultipleNeordonate (calitative, nominale)Ordonate (cantitative si semicantitative)Non-metriceMetrice DiscontinuiContinui

  • Clasificarea variabilelorDupa scala de reprezentare:Scala nominalaScala ordinalaScala interval (intervale egale)Scala de raport (proportii)1.Xa=Xb sau XaXb2.Daca XaXb => XaXb3.Daca Xa>Xb => Xa>Xb, B este cu Xb-Xa unitati mai mare ca A4.Daca Xa>Xb => Xa>Xb, A este mai mare Xa/Xb ori decat B

  • Tabelul statistic simpluEvidentiaza frecventa relativa a valorilor variabilei

  • Diagrama circularaeste un cerc cu sectoare avand unghiuri proportionale cu frecventa relativa a variabilelor

  • Diagrama prin batoaneEste o axa verticala (orizontala) cu batoane orizontale (verticale), de aceea si grosime standard si nealipite, situate la distante egale si cu inaltimea direct proportionala cu frecventele relative ale valorilor variabilelor

  • Poligonul de frecventeEste o linie franta care uneste succesiv punctele avand drept abscise centrele claselor si drept ordonata frecventele relative ce apartin claselor respectiveClasele pot fi inegalePoligonul frecventelor echivaleaza cu inlocuirea datelor exacte din seria statistica cu valoarea centrului intervalului (clasei) de grupare

  • HistogramaEste o succesiune de dreptunghiuri alipite avand drept abscise clasele de grupare si drept arii frecventele relative reprezentate de punctele ce apartin claselorHistograma echivaleaza cu inlocuirea datelor exacte din seria statistica cu valoarea limitei stangi a intervalului (clasei) de grupareHistograma se prefera in cazul intervalelor de grupare inegale si atunci cand frecventele variaza foarte rapid

  • Reprezentari graficeReguli si recomandari pentru reprezentari grafice univariate

  • Gruparea masuratorilorGruparea se face atunci cand avem valori multe ale variabilei si volume mariGruparea pe clase depinde de: volumul seriei, amplitudine si precizia masuratorilorReguli empirice de grupare:Grupam doar pentru volume >50 unitati statisticeSe prefera circa 20 clase

  • AmplitudineaSe numeste amplitudinea unei serii statistice diferenta intre cea mai mare si cea mai mica valoare a serieiA=Xmax-Xmin

  • Intervalul de clasaGruparea manuala a masuratorilor Rotunjure superioara a raportului (Amplitudine / numar de clase)Modificarea interval de clasa la o valoare agreabilaGruparea automata a masuratorilor - formula lui Sturges: rotunjire (i.c. = A/(1+3.322*logN))

  • Gruparea pe clase inegale Gruparea in intervale de clasa inegale se recomanda in distributii asimetrice in care frecventele cele mai mari se aduna la extremitate si ca urmare este normal sa construim un numar mai mare de clase pentru a marii finetea analizei

  • DistributiiPentru diagnosticul unei distributii se executa un demers asemanator sistematicianului atunci cand realizeaza determinarea speciilorEx: Distributia de abundenta pentru caracterizarea unei biocenozeO distributie de abundente este o distributie de frecvente ale abundentei speciei obtinuta aranjand speciile in ordinea descrescatoare a frecventelorO distributie de abundenta este distributie unimodala, asimetrica, extrem asimetrica stanga, deorece in general numarul de specii dominante este mult mai mic decat numarul de specii rare

  • Tipuri de distributiiUn punct de maxim local intr-o distributie se numeste modaDistributii:UnimodaleSimetricaAsimetrice (stanga, dreapta)Puternic asimetriceExtrem asimetriceMultimodaleIn forma de u

  • Distributii - concluziiModul in care tratam fiecare forma tip de distributieVom trata eterogenitatea ca un amestec de doua sau mai multe omogenitati Deoarece ideea de tendinta centrala este cel mai bine exprimata de distributiile unimodale simetrice vom incerca sa simetrizam prin transformari adecvate orice distributie asimetrica

  • Decuparea unei distributiiIn biologie este necesar ca datele morfologice sa fie tratate separat (ex:pe sexe pentru a evita o heterogenitate provenita din dimorfism sexual) obtinem astfel un instrument numit limita de discriminare (sau de identificare)

  • Sinteza numerica a datelor univariate Indicatori Tendinta centralaModaMedianaVariabilitate (variatie, imprastiere, dispersie)Forma (in raport cu distributia Gauss)Asimetria Excesul

  • Conditiile indicatorilor de tendinta centrala (Yull)Sa fie definit in mod obiectiv, independent de aprecierea subiectiva a cercetatoruluiSa fie expresia tuturor termenilor repartitieiSa posede proprietati simple evidente, facand posibila intelegerea sensului lui generalSa poata fi calculat cu usurinta si rapiditateSa se preteze la calcule algebrice ulterioareIn cazul esantioanelor, sa fie afectat cat mai putin de fluctuatiile de selectie (in particular de valorile aberante)

  • ModaM0Este valoare ce reprezinta un maxim relativ intr-o distributieValorile modale reprezinta deci valorile cu cele mai mari frecvente fata de valorile vecine (maxime relative ale curbei de frecventa)

  • Moda - proprietatiEste indicator de tendinta centrala cel mai usor de sesizat sau calculat (+)Sunt valorile cele mai probabile deoarece se repeta de cele mai multe ori fata de valorile vecine (+)Tine doar cont de valorile vecine si nici pentru acestea nu e sensibila la schimbari ale frecventelor care nu depasesc frecventa modei (-)Nu este sensibila la valorile extreme, in particular la asa numitele valori aberante (-)Induce clasificarea in distributii unimodale respectiv plurimodale clasificare esentiala in gandirea statistica clasica deoarece distributia unimodala reprezinta omogenitatea statistica a populatiei.Distributia plurimodala inseamna heterogenitate - interpretata de statistician drept amestec al mai multor populatiiNu se preteaza la calcule algebrice Este instabila (ca orice moda) mai ales daca se lucreaza cu clase modaleEste intotdeauna element al sirului

  • MedianaMe=X50Valoarea care imparte seria statistica ordonata in doua serii cu volume egaleMod de calcul:In caz de numar impar de valori (2k+1) atunci mediana este valoarea (xk+1)La numar par de valori mediana este media aritmetica dintre xk si xk+1

  • Mediana - proprietatiEste relativ usor de observat si calculatExprima cel mai bine tendinta centrala la distributiile asimetriceNu ia in considerare valorile seriei decat din punct de vedere al ordinii acestora, este practic indicator specific de tendinta centrala a variabilelor tip rang. Pentru variabilele de tip masuratoare lucreaza in sensul statisticii descriptive, renunta la o parte din informatie si castiga in relevanta mediana trateaza valorile ca pe ranguriNu este sensibila la valorile extreme (val. aberante)Poate fi calculata si la serii unde nu se poate calcula exact mediaPoate fi determinata in unele cazuri prin simple comparatii si ordonare fara masuratoriMediana are semnificatie incerta la repartitii discrete cu salturi mari sau la repartitii continui cu volum redus.Pe o diagrama integrala mediana este punctul de inflexiune

  • MediaM = Reprezinta suma valorilor seriei impartita la volumul serieiMod de calcul:Pentru date negrupate :Pentru date grupate:

  • Media - proprietatiIa in considerare toate valorile seriei cu intreaga lor informatieRelativ dificil de calculat manualProprietatea algebrica de aditivitateEste sensibila la valorile extreme (si la cele aberante)

  • Indicatii de preferinta intre indicatori de tendinta centrala (Steinbach)Moda unica indica omogenitatea, deci sensul indicatorilor de tendinta centrala, in particular al mediei (media nu are sens decat la o distributie unimodala)O distributie simetrica si cu prelucrari statistice ulterioare cere o mediePentru orientare rapida la o serie mare folosim modaPentru considerarea tuturor valorilor folosim mediaDaca vrem sa facem abstractie de valorile extreme se ia in considerare mediana sau modaPentro serie de valori discrete folosim modaPentru o serie cu volum redus se prefera mediana, pentru ca la volum redus nu se moda. Mediana exprima cel mai bine tendinta centrala la distributii asimetriceDaca cunoastem doar clasamentul, adica doar rangul valorilor

  • Indicatori de tendinta centralaObservatii:La distributii unimodale si simetrice cei trei indicatori coincidLa distributiile unimodale usor asimetrice mediana se afla plasata intre moda si medie, distanta acesteia fata de moda fiind aproximativ dublu distantei fata de medie Sensul asimetriei unei distributii poate fi detectat in mod aproximativ prin echivalentele: Asimetrie de stanga MoMe(M)Concluzie: Prin compararea a doi indicatori de tendinta centrala se poate obtine o indicatie a formei distributiei, mai precis a simetriei sau a tipului de asimetrie

  • Alti indicatori de localizareIndicatori de localizare a tendintelor extreme sau intermediare (aplicabilitate pentru orice distributii, nu ca si cei de tendinta centrala aplicabili doar la distributii unimodale)Exemple:Valorile minima si maxima: Xmin; XmaxCuartile, decile si centile

  • CuartileNotatii: Q1,Q2, Q3Sunt cele trei puncte care impart aria de sub curba de frecventa in 4 arii egale (fiecare arie 25%), in cazul unei curbe de frecvente (distributie continua)Mod de calcul Ordonare ascendenta a serieiQi ~ N*(i/4)Daca N*(i/4) numar fractionar se rotunjeste prin adaosDaca N*(i/4) numar intreg se ia semisuma dintre termenul de rang N*(i/4) si urmatorul termen

  • Decile si centileDecile D1D9Centile (per-centile): C1C99In cazul unei curbe de frecvente: cuantilele de ordinul m = cele m-1 valori care impart aria de sub curba de frecvente in m arii egaleIn cazul seriilor statistice: cuantilele de ordinul m = cele m-a valori care impart seria statistica ordonata in m subserii de volume egale fiind masurate in numar de unitati statistice si eventual fractiuni ale acestora. Cuantila superioara de ordinul m lasa in dreapta 1/mCuantila inferioara de ordinul m lasa in stanga 1/m

  • - cuantileCuantila unilaterala superioara - lasa la dreapta proportia (*100%) - x Cuartila unilateral inferioara - lasa la stanga proportia - x1- Pentru distributiile teoretice cu care se lucreaza in teoria probabilitatilor si in statistica inductiva , -cuantilele importante in aplicatii sunt tabelate

  • Indicatorii de imprastiereSunt bazati pe:Indicatori de tendinta extrema amplitudineaIndicatori de tendinta intermediara intercuartilaIndicatori de tendinta centrala: DispersiaAbaterea standardCoeficientul de variatie

  • AmplitudineaNotatie: ADiferenta intre valoarea maxima si valoarea minima a serieiA=Xmax-XminProprietati:(+)Ne ofera o imagine generala asupra imprastierii(-)Amplitudinea considera doar valorile extremeEste sensibila la valorile aberanteNu se preteaza la calcule algebrice

  • IntercuartilaIQDiferenta intre cuartila superioara si cuartila inferioara, intercuartila exprima abaterea fata de mediana a aproximativ 50% dintre valori IQ = Q3-Q1Proprietati:Nu considera valorile extreme, in particular valorile aberante Daca IQ A/2 distributia este considerata intens concentrataDaca IQ > A/2 distributia este considerata intens dispersataNu se preteaza la calcule algebrice

  • DispersiaS2 pentru populatii; 2 pentru populatii teoretice; s2-pentru esantioaneMedia aritmetica a patratelor abaterilor (valorilor seriei) fata de media lor aritmeticaMod de calculPentru date negrupate formate din N valori distincte (x1..xN) S2=(SUM(xi-M)2)/NPentru date grupate in distributia de frecvente absolute (xj,Nj) : S2=SUM(Nj(xj-M)2)/NPentru date grupate in distributia de frecvente relative (xj,Fj) - S2=SUMFj(xj-M)2

  • Dispersia - proprietatiProprietatea de aditivitateNumaratorul de la expresia teoretica a dispersiei se numeste variatie (V)Variatia intregii serii se noteaza cu VtotVariatia intra grupari se noteaza Vintra=SUM(xj-Mk)2In aceste conditii variatia totala se descompune in variatia intra si variatia inter Vinter=SUM vk(Mk-M)2), unde vk este volumul seriei SUM(vk)=NEste o valoare pozitiva sau nula fiind o suma de patrateSe utilizeaza pentru Compararea variabilitatii unui acelasi caracter in doua sau mai multe populatii diferite pentru care datele au acelasi ordin de marimeCompararea a doua sau mai multe caractere ale aceleiasi populatii daca acestea sunt exprimate in acceeasi unitate de masura si valorile au acelasi ordin de marimeTine cont de toate valorile din cadrul serieiEste sensibila la valorile extreme Are alt ordin de marime fata de datele initiale si medie si se exprima in unitatea de masura a datelor ridicata la patrat

  • Abaterea standardDeviatia standardS pentru populatii statistice; pentru populatii statistice teoretice; s pentru esantioaneEste radacina patrata din dispersie

  • Abaterea standard proprietatiEste un numar pozitiv sau nulAre acelasi ordin de marime ca si datele si aceeasi unitate de masura

  • Coeficientul de variatieCV%, CV, CvCV=S*100/MProcentul reprezentat de abaterea standard din media MProprietatiCV% 0 deoarece S 0 si M > 0CV% = 0 daca si numai daca S = 0Se utilizeaza cand nu se poate utiliza dispersia si abaterea standard, adica:Compararea aceluiasi caracter in doua sau mai multe populatii daca valorile masurate au ordine de marime si deci medii diferitePentru compararea variabilitatii a doua sau mai multor caractere in acceasi populatie, daca acestea sunt exprimate in unitati de masura diferite ori sunt exprimate in acceasi unitate dar au ordine de marime si deci medii diferite Se poate folosi in orice situatie este indicatorul universal de comparare a variabilitatii pentru variabile pe scala de proportiiTine cont de toate valorile din cadrul serieiEste independent de unitatea de masura folosita pentru valorile serieifiind adimensional se exprima procentualEste sensibil la valori extreme

  • CV reguli empiriceFiecare domeniu experimental isi stabileste in practica anumite limite ale coeficientilor de variabilitate pentru variabilele cu care se lucreaza, limitele prin care se pot exprima conceptele generale de omogenitate versus eterogenitate. Astfel statistica aplicata in stiintele vietii a stabilit urmatoarele limite empirice:CV sub 10% indica o populatie omogenaCV mai mare de 30% indica o populatie eterogenaCV intre 10 si 20% indica o populatie relativ omogenaCV intre 20 si 30% indica o populatie relativ eterogena

  • Distributia normalaGauss, Gauss-LaplaceEste o distributie continua de forma unui clopot (unimodala si simetrica) cu doua cozi infinite care tind asimptotic la 0Este caracterizata de doi parametri ai distributiei media aritmetica (coincide cu moda si cu mediana) abaterea standardAre doua puncte de inflexiune - si + poate fi orice numar real, iar orice numar real strict pozitiv; exista de fapt o infinitate de distributii normale (N(,) multimea distributiilor normale)

  • Distributia normala standard=0, =1 N(0,1)-1,03 este 0,1515 cuantila inferioara a distributiei normale

  • Standardizare OperatiiTranslatie: x=x- - centrareScalare: x = x/ - comprimare Orice distributie normala poate fi standardizata: x = (x- )/

  • Determinarea ariilor sub distributia normala

  • cuantile remarcabileCuantileunilateraleCuantilebilaterale

  • cuantile remarcabile (2)Regula trei sigma de eliminare a valorilor aberante (distributii normale)Inegalitatea lui Cebasev (sase sigma) orice distributiiStabilirea limitelor de normalitate biomedicala (doi sigma)

  • Masurarea concordantei cu o distributie normala2 (S) = 9.372 (S) = 5.18