bscap3

24
Dragomirescu L., Drane J. W., 2009, Biostatisticã pentru începãtori. Vol I. Biostatisticã descriptivã. Editia a 6° revãzutã, Editura CREDIS, Bucureşti, 207p. ISBN 978-973-734-461-8. 1 Capitolul 3 STATISTICĂ DESCRIPTIVĂ UNIVARIATĂ În continuare vom trata sinteza grafică univariată şi sinteza numerică univariată. § 3.1. Sinteza grafică univariată Sinteza grafică se face pentru evidenţierea intuitivă şi aproximativă a aspectelor esenţiale de variabilitate dintr-o serie statistică. Sinteza grafică se execută în doi paşi şi anume construirea de: tabele statistice denumite simple sau cu simplă intrare şi reprezentări grafice adecvate tipului de variabilă şi anume: pentru variabile calitative şi ordinale: - diagrame circulare, - diagrame prin coloane şi diagrame prin benzi; pentru variabile ordinale şi cantitative: - poligoane de frecvenţe, - histograme. Recomandăm pentru variabile: calitative - diagramele circulare, ordinale - diagramele prin coloane sau, uneori, poligoanele de frecvenţe, cantitative – diagramele prin coloane sau prin benzi, poligoanele de frecvenţe şi, mai ales, histogramele. Sinteza grafică în tabele statistice se poate face prin: grupare, fără pierdere de informaţie în tabele statistice simple cu frecvenţele variantelor, rangurilor ori valorilor, altfel spus, construind distribuţiile frecvenţelor variantelor, rangurilor ori valorilor, denumite, pe scurt, distribuţii de frecvenţe (negrupate); grupare, cu pierdere de informaţie în tabele statistice simple cu frecvenţele claselor sau intervalelor de grupare, altfel spus, construind distribuţiile frecvenţelor claselor sau intervalelor de grupare, denumite, pe scurt, distribuţii de frecvenţe grupate. Pierderea de informaţie provine din comasarea unor variante sau ranguri în clase ori gruparea unor valori consecutive în clase care, în acest caz, se numesc şi intervale de grupare. O distribuţie de frecvenţe conţine aceeaşi informaţie ca şi seria din care provine, dar este mai intuitivă, fiind mai apropiată de reprezentarea grafică care urmează a se construi. O distribuţie de frecvenţe grupate conţine mai puţină informaţie decât seria din care provine dar poate oferi un câştig în relevanţă ca în cazul unei caricaturi, care este mai relevantă decât o fotografie, pentru esenţialul fizionomiei unei persoane.

Upload: mona-simona

Post on 25-Nov-2015

8 views

Category:

Documents


5 download

TRANSCRIPT

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    1

    Capitolul 3 STATISTIC DESCRIPTIV UNIVARIAT

    n continuare vom trata sinteza grafic univariat i sinteza numeric univariat.

    3.1. Sinteza grafic univariat Sinteza grafic se face pentru evidenierea intuitiv i aproximativ a aspectelor eseniale de variabilitate dintr-o serie statistic. Sinteza grafic se execut n doi pai i anume construirea de:

    tabele statistice denumite simple sau cu simpl intrare i reprezentri grafice adecvate tipului de variabil i anume:

    pentru variabile calitative i ordinale: - diagrame circulare, - diagrame prin coloane i diagrame prin benzi;

    pentru variabile ordinale i cantitative: - poligoane de frecvene, - histograme.

    Recomandm pentru variabile: calitative - diagramele circulare, ordinale - diagramele prin coloane sau, uneori, poligoanele de frecvene, cantitative diagramele prin coloane sau prin benzi, poligoanele de frecvene i,

    mai ales, histogramele.

    Sinteza grafic n tabele statistice se poate face prin: grupare, fr pierdere de informaie

    n tabele statistice simple cu frecvenele variantelor, rangurilor ori valorilor, altfel spus,

    construind distribuiile frecvenelor variantelor, rangurilor ori valorilor, denumite, pe scurt, distribuii de frecvene (negrupate);

    grupare, cu pierdere de informaie n tabele statistice simple cu frecvenele claselor sau intervalelor de grupare,

    altfel spus, construind distribuiile frecvenelor claselor sau intervalelor de grupare,

    denumite, pe scurt, distribuii de frecvene grupate. Pierderea de informaie provine din comasarea unor variante sau ranguri n clase ori

    gruparea unor valori consecutive n clase care, n acest caz, se numesc i intervale de grupare.

    O distribuie de frecvene conine aceeai informaie ca i seria din care provine, dar este mai intuitiv, fiind mai apropiat de reprezentarea grafic care urmeaz a se construi.

    O distribuie de frecvene grupate conine mai puin informaie dect seria din care provine dar poate oferi un ctig n relevan ca n cazul unei caricaturi, care este mai relevant dect o fotografie, pentru esenialul fizionomiei unei persoane.

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    2

    3.1.1. ir univariat, tabel statistic simplu, distribuii de frecvene i reprezentri grafice 1 Distribuii negrupate

    Culorile ochilor studenilor - variabil calitativ - dintr-o semigrup formeaz irul notat S1 = {a, v, a, a, n, n, n, c, c, n, a, c}.

    Am codificat culorile astfel: a = albatri, v = verzi, n = negri, c = cprui.

    Notele obinute la biostatistic de ctre aceiai studeni - variabil ordinal - formeaz irul notat

    S2 = {6, 7, 8, 8, 7, 6, 9, 10, 7, 7, 8, 7}.

    Un grup de 36 de studeni au msurat, cu precizia de 0,5 mm, lungimea unei cri - variabil cantitativ - obinnd urmtorul ir de valori n milimetri, ordonat ascendent i notat

    S3 = {188, 189,189,189,189,189,189,189,189, 190,190,190,190,190,190,190,190,190,190,190,190,190,190,190,190,190,190,

    191,191,191,191,191,191,191,191, 192}.

    Deoarece elementele acestui ir reprezint msurtori repetate ale aceleiai mrimi, acestea se numesc replicate.

    n general, un ir Sk se noteaz {xi} i = 1, 2, , N.

    Numrul unitilor statistice - diferite sau nu ca variante / ranguri / valori -, numr notat aici N, se numete volumul seriei.

    Distribuiile de frecvene corespunztoare se pot obine grupnd datele n primele dou coloane ale tabelelor statistice simple urmtoare. Pentru o imagine mai intuitiv asupra ponderii fiecrei variante / rang / valori se poate calcula i coloana a treia ori cea de-a patra. (Valorile marcate cu *, dei egale, sunt rotunjite diferit pentru ca suma total a procentelor s fie 100%.) Pentru calculul unor indicatori foarte importani n aplicaii vezi 3.4.2. este util ultima coloan. Sgeile indic modul de calcul al fiecrui element.

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    3

    Variante distincte

    xj

    Frecvene absolute

    Nj

    Frecvene relative

    Fj = Nj / N

    Frecvene (relative) procentuale

    Pj = 100 Fj%

    Frecvene procentuale cumulate

    PCj = P1+P2+...+Pj a v n

    c

    4 1 4 3

    4 / 12 1 / 12 4 / 12 3 / 12

    100 4 / 12% 34% 100 1 / 12% 8% 100 4 / 12% 33% 100 3 / 12% = 25%

    *

    *

    34% 42% 75%

    100% Totaluri: N = 12 1 100%

    pentru S1, Valori distincte xj Frecvene absolute Nj Valori distincte xj Frecvene absolute Nj

    6 7 8 9

    10

    2 5 3 1 1

    188 189 190 191 192

    1 8

    18 8 1

    Totaluri: N = 12 Totaluri: N = 36 Pentru S2, respectiv, pentru S3.

    Perechile (xj, Nj) j =1. 2, , p se numesc distribuii sau repartiii de frecvene absolute, perechile (xj, Fj) j =1. 2, , p se numesc distribuii sau repartiii de frecvene relative, i perechile (xj, Pj) j =1. 2, , p se numesc distribuii sau repartiii de frecvene (relative)

    procentuale perechile (xj, PCj) j =1. 2, , p se numesc distribuii sau repartiii de frecvene

    procentuale cumulate i putem aduga, ale variantelor / rangurilor / valorilor irului, pentru a le deosebi de clasele sau intervalele de la distribuiile grupate.

    Adeseori, distribuiile de frecvene se scriu sub forma

    j

    j

    Nx

    . Exemple n 8. Altfel spus,

    primele dou coloane ale unei astfel de tabele formeaz o distribuie sau repartiie de frecvene absolute, iar prima i a treia coloan o distribuie sau repartiie de frecvene relative. Pentru a se deosebi de distribuiile grupate prezentate mai jos la punctule 3 i 4, acestea sunt denumite distribuii negrupate, dei reprezint rezultatul gruprii i eventual al ordonrii unitilor irului, dar fr pierdere de informaie.

    Observm c am notat {xj} j = 1, 2, , p irul variantelor / rangurilor / valorilor distincte pentru a se deosebi de irul variantelor / rangurilor / valorilor distincte sau nu, {xi}i = 1, 2, ,N. Evident

    N Njj

    p

    =

    =

    1

    .

    2 Reprezentri grafice univariate pentru distribuii negrupate

    Diagram circular = cerc format din sectoare pentru fiecare variant / rang / valoare, xj

    astfel nct unghiul, respectiv aria fiecrui sector s fie proporional() cu frecvena respectiv.

    Exemplu pentru seria S1

    a34%

    v8%

    n33%

    c25%

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    4

    Diagram prin (n) benzi sau bare = reprezentare cartezian plan, n care pe axa vertical avem marcate variantele / rangurile / valorile, n fiecare fiind construit o band orizontal de lungime proporional cu frecvena corespunztoare. Benzile sunt dreptunghiuri nealipite i de aceeai lime, de regul mult mai mic dect lungimile lor.

    Exemplu pentru seria S2 2

    5

    3

    1

    1

    6

    7

    8

    9

    10

    Diagram prin (n) coloane sau batoane = reprezentare cartezian plan, n care pe axa orizontal avem marcate variantele / rangurile / valorile, n fiecare fiind construit pe vertical o coloan de nlime proporional cu frecvena corespunztoare. Coloanele sunt dreptunghiuri nealipite i de aceeai lime, de regul mult mai mic dect nlimile lor. Exemplu, pentru seria S3

    1

    8

    18

    8

    1

    188 189 190 191 192

    Poligon de frecvene = linia frnt format din segmentele care unesc mijloacele laturilor din vrfurile coloanelor consecutive figurate n diagrama prin coloane, fr a mai reprezenta i coloanele. Exemplu pentru seria S3

    18

    1 1

    88

    188 189 190 191 192

    Toate distribuiile provenite din serii statistice empirice, chiar dac provin din variabile continue, sunt distribuii discrete n sensul c mulimea valorilor este discret. Aceasta se ntmpl deoarece orice serie statistic empiric este, prin construcie, finit deci discret.

    3 Reprezentare grafic univariat pentru distribuii teoretice ale variabilelor cantitative

    Putem imagina i distribuii continue, pornind de la variabile continue (msurtori) i construindu-le teoretic, altfel spus, considernd populaii statistice infinite nenumrabile (ca ||||R, mulimea numerelor reale).

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    5

    Curb (teoretic) de frecvene pentru o variabil cantitativ continu (msurtoare). S presupunem acum c vom crete din ce n ce mai mult precizia i numrul de msurtori ale lungimii crii i vom reprezenta ca poligoane de frecvene fiecare distribuie cu numr din ce n ce mai mare de msurtori. De exemplu, ntr-o prim faz putem obine o distribuie cu 5 valori distincte ca mai sus, ntr-o a doua, 9 etc. Se observ intuitiv c poligoanele de frecvene (xj, Fj) tind, odat cu creterea preciziei i a numrului de msurtori, ctre o curb teoretic numit curb de frecvene i notat (x, F). n acest caz curba teoretic este clopotul lui Gauss.

    Exemplu: S notm cu vA

    valoarea adevrat a lungimii crii (pe care nu o cunoatem i nu o putem determina exact niciodat) i s presupunem c am efectuat un numr foarte mare de msurtori ct mai precise, fr s facem erori grosolane de msurare. Atunci msurtorile vor tinde s se grupeze ntr-o curb de frecvene, cu att mai evident cu ct precizia i numrul msurtorilor sunt mai mari. Dac notm cu vm o valoare msurat i cu em= vm vA

    eroarea de msurare ntmpltoare corespunztoare, curba de frecvene ale msurtorilor, vm i curba erorilor de msurare ntmpltoare, em vor avea forme identice dar prima curb se va centra n jurul lui vA, iar a doua n jurul lui 0:

    Curba erorilor de msurare ntmpltoare sau aleatoare, denumit pe scurt curba erorilor avnd forma unui clopot este cunoscut i sub denumirea de clopot al lui Gauss. Forma de clopot simetric a curbei msurtorilor, respectiv a curbei erorilor aleatoare inerente oricrui proces de msurare exprim urmtoarele fapte experimentale:

    n cazul curbei erorilor: n cazul curbei msurtorilor: (1) Marea majoritate a erorilor de msurare

    ( n figura anterioar) au valori apropiate de centrul distribuiei, de zero.

    1. Marea majoritate a msurtorilor () au valori apropiate de centrul distribuiei, de valoarea adevrat vA.

    2. Numrul msurtorilor () care se abat de

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    6

    (2) Numrul erorilor () care se abat de la centru scade o dat cu creterea abaterii de la centru i

    (3) numrul erorilor cu semn pozitiv este relativ egal cu numrul erorilor cu aceeai valoare absolut, dar cu semn negativ.

    la centru scade o dat cu creterea abaterii de la centru i

    3. numrul msurtorilor cu o anumit abatere pozitiv este relativ egal cu numrul msurtorilor cu aceeai abatere, dar cu semn negativ.

    Punctele 1 i 2 explic forma cu o singur "cocoa", iar punctul 3 explic simetria curbei erorilor. Intuitiv, valoarea central din curba msurtorilor trebuie s fie, cel mai probabil, valoarea adevrat. (De aici rezult importana sintezei numerice care va urma, mai precis sensul parametrilor de tendin central.)

    Graficul pentru distribuia corespunztoare irului S3 "ascunde", deci, n spatele su clopotul lui Gauss, ceea ce confirm corectitudinea msurtorilor executate n acest caz.

    Valori aberante Aceiai 36 de studeni care au msurat o carte, producnd seria S3, au msurat cu aceeai precizie (sau eroare) de 0,5 mm i lungimea palmei unui voluntar (distana ntre prima brar i vrful degetului mijlociu dimensiune chirometric). S-a obinut seria S4, scris n continuare ca distribuie de frecvene i reprezentat ca diagram n batoane. Valorile xj sunt exprimate n mm.

    xj Nj xj Nj xj Nj 179 180 185 186

    1 1 1 1

    187 188 189 190

    2 5 8 8

    191 192 193 194

    5 2 1 1

    S4:

    Total: 36

    1 1 1 12

    5

    8 8

    5

    21 1

    179 180 185 186 187 188 189 190 191 192 193 194

    Constatm c procesul de msurare a fost afectat nu numai de inerentele erori ntmpltoare, care sunt relativ mici i se produc n ambele sensuri i deci se compenseaz reciproc, ci i de unele erori grosolane. Acestea sunt denumite erori sistematice, deoarece sunt n mod sistematic n acelai sens i deci produc o deplasare sistematic a valorii cutate. Procesul de msurare nu s-a desfurat, deci, corect.

    Studiind aceast diagram, bunul sim ne ndeamn s considerm c primele dou msurtori - 179 i 180 - sunt afectate de erori sistematice. Astfel de msurtori se numesc, n

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    7

    statistic, valori aberante. Foarte probabil, cele dou msurtori au fost fcute asupra palmei insuficient ntinse.

    O valoare care contrasteaz puternic cu marea majoritate a celorlalte valori ale irului, altfel spus, iese din regula irului se numete valoare aberant.

    Asumndu-ne riscul de a considera aberante aceste dou msurtori, le putem elimina obinnd seria S4' (= S4 fr valorile aberante), tabelat i reprezentat ca diagram n batoane n continuare. (n paragraful dedicat distribuiei normale vom vedea c exist criterii statistice pentru detectarea valorilor aberante, dac acceptm anumite ipoteze asupra distribuiei datelor. De fapt detectarea acestor valori altfel dect intuitiv, aa cum am fcut aici, este o problem de statistic inductiv.)

    xj Nj xj Nj 185 186 187 188 189

    1 1 2 5 8

    190 191 192 193 194

    8 5 2 1 1

    S4:

    Total: 34

    1 12

    5

    8 8

    5

    21 1

    185 186 187 188 189 190 191 192 193 194

    4 Distribuii grupate pentru variabile cantitative i histograma Msurndu-se lungimea palmei drepte la 36 studente s-a obinut irul S5, care, grupat fr pierdere de informaie, ca distribuie de frecvene, este figurat n urmtorul tabel statistic simplu, reprezentat apoi ca diagram n batoane:

    xj Nj xj Nj xj Nj 3 1 3 3

    S5: 160 165 166 167 168

    3 1 2 7 3

    169 170 173 174 175

    1 3 3 2 1

    178 179 184 190

    Total: 36

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    8

    3

    12

    7

    3

    1

    3 32

    1

    3

    1

    3 3

    160 165 166 167 168 169 170 173 174 175 178 179 184 190

    Deoarece reprezentarea anterioar nu ne sugereaz nici o form "frumoas", relevant, vom grupa datele folosind intervale consecutive de grupare denumite intervale de grupare, intervale de clas sau, mai general, clase (de grupare). Le vom lua de lungimi egale, de exemplu, de lungime 5. Distribuia de frecvene ale intervalelor de grupare sau, ale claselor, denumit, mai scurt, distribuie grupat, i notat S5' (= S5 grupat) se poate tabela i reprezenta dup cum urmeaz.

    S5: intervalul de clas Nj intervalul de clas Nj

    [160, 165) [165, 170) [170, 175)

    3 14

    8

    [175, 180) [180, 185) [185, 190]1

    5 3 3

    Total: 36

    3

    14

    8

    53 3

    [160,165) [165,170) [170,175) [175,180) [180,185) [185,190]

    O astfel de reprezentare se numete histogram. Se observ c, spre deosebire de diagrama n batoane, histograma conine dreptunghiuri alipite, deoarece intervalele de grupare, n comparaie cu valorile seriei, sunt ntotdeauna alipite. Pentru c intervalele de grupare pot avea i lungimi diferite, se convine ca ariile dreptunghiurilor s fie proporionale cu frecvenele intervalelor de grupare. Aceasta este a doua deosebire fat de diagrama n batoane la care nlimile sunt proporionale cu frecvenele.

    Pentru o distribuie grupat, se poate da, prin urmare, urmtoarea definiie.

    Histogram = reprezentare cartezian plan a unei distribuii grupate, format din dreptunghiuri alipite, cu bazele plasate pe intervalele de grupare i cu ariile proporionale cu frecvenele intervalelor de grupare, claselor.

    Dac intervalele de grupare (de clas) sunt egale, atunci vor fi proporionale cu frecvenele i nlimile.

    1 Ultimul interval este nchis i la dreapta pentru a nu se pierde valoarea maxim din ir.

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    9

    Prin acest mod de grupare s-a pierdut o parte din informaie. De exemplu, aceast diagram nu ne poate spune cte uniti au valoarea 165, ci doar cte au valori cuprinse ntre 165 i 170.

    Renunnd, ns, la o parte din informaie am ctigat n relevan, deoarece "n spatele" acestei histograme putem "ntrezri" o form relevant, cea a unui clopot asimetric. Histograma distribuiei grupate S5' este, deci, mai relevant dect diagrama n batoane a distribuiei negrupate S5, ca urmare a pierderii de informaie.

    Modul de alctuire a unei histograme pentru o distribuie grupat este un bun model intuitiv al paradigmei centrale a statisticii, enunate mai sus.

    Deseori se reprezint ca histogram distribuii de frecvene (negrupate) de valori ntregi, considerndu-se, drept intervale de grupare, intervalele unitare centrate n valorile respective. De exemplu, seria S4 poate fi prezentat ca histogram n acest mod, n care 185 nseamn de fapt intervalul [184,5; 185,5), 186 nsemn intervalul [185,5; 186,5) etc.

    1 12

    5

    8 8

    5

    21 1

    185 186 187 188 189 190 191 192 193 194

    O imagine i mai sugestiv a ideii c prin gruparea cu pierdere de informaie obinem ctig n relevan, o putem obine dac rotunjim rotunjirea fiind o form de grupare - la cifra zecilor, valorile din seria S4'. Altfel spus, dac vom lucra doar cu numr ntreg de centimetri vom obine seria notat S4'' (= S4 cu valorile rotunjite la cifra zecilor) care, prezentat n tabel ca distribuie grupat, respectiv reprezentat sub form de histogram, va fi o distribuie concentrat ntr-un punct:

    S4: Valori distincte xj

    (n cm) Frecvene absolute Nj

    19 34

    34

    19

    Ctigul n relevan este evident aici i pentru un necunosctor al statisticii: aflarea lungimii palmei voluntarului, ce-i drept cu o eroare mai mare dect eroarea de msurare de 0,5 mm, i anume eroarea de 0,5 cm, provenit din rotunjire.

    Vom putea afirma cu certitudine c palma msurat prin mai multe replicate i grupat n S4'', are lungimea de 19 cm 0,5 cm. Deoarece am specificat mrimea erorii de grupare, ca form de aproximare, n acest caz exprimarea este tiinific. Exprimndu-ne mai tehnic spunem c aproximarea este exact. Este maximum posibil, deoarece n cazul msurtorilor propriu-zise este imposibil un rezultat exact. Prin statistic obinem "aproximri exacte, nu exactiti aproximative", [24]. Exprimarea

    (semidoct), aplicat exemplului de mai sus, "palma are (exact) 19 cm" este un exemplu

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    10

    de exactitate aproximativ. n general, specificarea unui singur numr n cazul unei msurtori a unei variabile continue este o form de aproximare netiinific.

    Observm c i numrtorile pot fi grupate, la fel ca msurtorile, cu pierdere de informaie. Altfel spus, reeta de mai sus se poate aplica oricrei variabile cantitative.

    5 Distribuii grupate pentru variabile calitative i variabile ordinale Distribuii grupate se pot construi i n cazul variabilelor calitative i n cel al variabilelor ordinale. Pentru acestea se vor utiliza reprezentrile grafice adecvate prezentate pentru distribuii negrupate. Definiiile acestora se vor modifica nlocuindu-se termenii variant, respectiv rang, cu cel de clas.

    Cazul variabilelor calitative De exemplu, n cazul irului S1 putem grupa culorile verde i albastru n clasa culoare

    deschis (cd) i culorile cprui i negru n clasa culoare nchis (c). Se va obine irul notat S1 (= S1 grupat) descris mai jos ca distribuii de frecvene absolute, relative i (relative) procentuale i reprezentat ca diagram circular.

    Variante xj

    Frecvene absolute Nj

    Frecvene rel. Fj = Nj / N

    Frecv. (rel.) procentuale Pj

    (cd)

    (c)

    5

    7

    5 / 12

    7 / 12

    5*100/12% 42%

    7*100/12% 58%

    Totaluri: N = 12 1 100%

    cd

    42%

    c[

    58%

    Cazul variabilelor ordinale n cazul irului S2 - ir de ranguri - putem grupa notele dup regula tradiional: notele 5 i 6 formeaz clasa Suficient, 7 i 8, clasa Bine, iar 9 i 10, clasa Foarte Bine. Se va obine astfel seria S2 (= S2 grupat) prezentat n continuare ca distribuii de frecvene absolute, relative i (relative) procentuale i reprezentat adecvat ca diagram n batoane.

    Clase xj

    Frecvene absolute Nj

    Frecvene rel. Fj = Nj / N

    Frecv. rel. procentuale Pj

    Suficient {5, 6} Bine {7, 8}

    Foarte Bine {9, 10}

    2 8 2

    2 / 12 8 / 12 2 /12

    2*100/12 % 17% 8*100/12 % 66% # 2*100/12 % 17%

    Totaluri: N = 12 1 100%

    8

    22

    S B FB

    Valoarea marcat cu # este rotunjit prin trunchiere pentru ca suma procentelor s fie 100 %. Dac notele sunt obinute printr-un sistem de evaluare

    asemntor celebrului IQ (Inteligence Quotient n englez), coeficient de inteligen, atunci se poate accepta licena c sunt mai mult dect ranguri. Astfel, putem forma cele trei clase din intervalele de grupare [5, 7), [7, 9), respectiv, [9, 10] i putem reprezenta seria S2 printr-o histogram.

    8

    22

    S B FB

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    11

    6 Probleme rezolvate 1. Care dintre seriile S3-S5' msoar entiti constante i care variabile ?

    R: S5 i S5' - entiti variabile. 2. Care dintre seriile S3-S5' este o serie constant i care este variabil ?

    R: S4'' - serie constant. 3. De cine depinde constana sau variabilitatea unei serii ?

    a. de constana sau variabilitatea entitii msurate ? b. de precizia msurrii ? c. de ambele ? R: b.

    4. Examinnd graficele corespunztoare, aranjai n ordinea cresctoare a variabilitii seriile S3, S4', S4'', S5 i explicai rezultatul.

    R: S4'', S3, S4', S5. S4'' este ir constant fiind format din replicate msurate cu precizia redus

    de 0,5 cm. S3 are variabilitate mic fiind format din replicate, msurate cu precizia de

    0,5 mm, ale unei entiti fizice. S4' are variabilitate mai mare dect S3, fiind format din replicate, msurate cu

    aceeai precizie de 0,5 mm, ale unei entiti biologice mai dificil de msurat i deci producnd erori de msurare mai mari.

    S5 are cea mai mare variabilitate, fiind format din msurtori de aceeai precizie, de 0,5 mm, dar care exprim variabilitatea biologic a lotului, care este mult mai mare dect precizia de msurare.

    7 Rezumat i rolul variabilitii biologice irurile, seriile statistice se grupeaz - pentru creterea relevanei - n tabele statistice

    simple fr (respectiv, cu) pierdere de informaie, obinndu-se distribuii negrupate (respectiv, grupate) de frecvene absolute sau relative.

    Distribuiile obinute sunt reprezentate grafic sub formele indicate pentru fiecare tip de variabil. Acestea pun n eviden gradul de variabilitate al seriilor i, eventual, un centru de grupare.

    n cazul msurtorilor replicate, se poate aprecia calitatea procesului de msurare prin compararea distribuiei cu clopotul lui Gauss. Uneori se pot evidenia i elimina valori aberante.

    n cazul seriilor de msurtori biologice nereplicate, variabilitatea este mult mai mare dect precizia de msurare. Ca atare, variabilitatea produs de erorile de msurare poate fi ignorat.

    Rolul variabil it i i biologice Dac variabilitatea care apare n mod inerent n orice proces de msurare este un

    "zgomot" care ne mpiedic s cunoatem exact valoarea msurat, variabilitatea biologic are, dimpotriv, un aspect pozitiv. Ea constituie o modalitate de asigurare a supravieuirii populaiilor biologice supuse fluctuaiilor factorilor de mediu. n consecin, variabilitatea biologic asigur conservarea speciilor. ntr-adevr, s presupunem c la un moment dat temperatura scade puternic. Conform regulii lui Bergmann [5] termoreglarea la animalele homeoterme de talie mare este mai eficace. Drept urmare se poate presupune intuitiv c exist

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    12

    o limit minim a taliei care permite unui organism homeoterm s reziste la o temperatur sczut dat.

    n desenul alturat, se observ modul diferit de rspuns la o astfel de situaie al unei clone (care are variabilitatea nul) respectiv al unei populaii naturale cu variabilitate semnificativ: clona dispare, n timp ce populaia natural se salveaz prin indivizii a cror talie depete limita respectiv. (Ariile haurate din figur reprezint indivizii care dispar.)

    + 8 Aplicaie a poligonului de frecvene n ecologie - distribuia de abundene n ecologie, pentru caracterizarea unei biocenoze, se mbogete artificial variabila calitativ specie (sau orice alt nivel taxonomic fixat), cu o relaie de ordine produs de abundenele nivelului taxonomic respectiv, n biocenoza dat. Dac se opereaz doar cu nivelul "specie" se vorbete de distribuie de abundene specifice.

    Fie urmtoarea distribuie de abundene specifice, ale speciilor Sa - Sf, dintr-o biocenoz care conine n total 420 de indivizi provenind din 6 specii.

    10 10 40 270 20 70

    SSSSSSf

    e

    d

    c

    b

    a

    Prin convenie trebuie ca irul statistic al speciilor prezente s fie ordonat n sensul descresctor al frecvenelor lor n biocenoz. n acest caz vom obine distribuia:

    10 10 20 40 70 270SSSSSS f e b d a c

    pe care o reprezentm sub form de poligon de frecvene.

    10102040

    70

    270

    Sc Sa Sd Sb Se Sf

    n general o distribuie de abundene de taxoni de un nivel fixat, n particular de specii, are o form de grafic de funcie descresctoare de tipul urmtor, n care exist, respectiv nu exist specii cu abundene mijlocii:

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    13

    Aceast form provine din convenia de reprezentare i din faptul c, de regul, ntr-o biocenoz numrul speciilor rare este mult mai mare dect cel al speciilor dominante prin abundene.

    Dac, in extremis, numrul total de exemplare - 420 n exemplul nostru - s-ar distribui "echitabil" ntre toate speciile din biocenoz - 6 aici - s-ar obine distribuia urmtoare care, n ecologie, se numete distribuie echitabil sau distribuie regulat. n statistic este denumit distribuie uniform:

    70 70 70 70 70 70

    SSSSSS f

    e

    d

    c

    b

    a

    707070707070

    Sa Sb Sc Sd Se Sf

    + 9 Aplicaie a histogramelor n biologia populaiilor piramida vrstelor n biologia populaiilor i demografie volumele celor dou sexe (m / f) pe vrste sau clase (grupe) de vrst, dintr-o populaie biologic animal, respectiv uman sunt reprezentate prin dou histograme cu bazele reprezentnd vrsta - alipite pe vertical. Pentru c odat cu naintarea n vrst, din cauza mortalitii, generaiile scad ca volum, reprezentarea are aspectul unei piramide, de unde i denumirea de piramid a vrstelor.

    1. Forma ideal de piramid indic o populaie n echilibru staionar ca volum total.

    2. Lrgirea bazei piramidei indic creterea volumului total prin mrirea proporiei indivizilor tineri. Este o populaie n cretere prin ntinerire.

    3. ngustarea bazei semnaleaz o populaie n declin, n sensul scderii volumului total fenomen denumit i cretere negativ prin reducerea proporiei tinerilor i deci mbtrnirea populaiei.

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    14

    Tipurile principale de piramide ale vrstelor (preluat cu modificri din [[[[5]]]])

    ntr-o piramid a vrstelor real se pot evidenia i alte fenomene. Pentru a se facilita vizualizarea acestora putem aduga la dreapta piramidei anii de natere ai indivizilor din grupele de vrst nscrise n stnga piramidei.

    Populaia din Romnia pe clase de vrst i sexe (m / f) la 1 iulie 2003 [[[[8]]]] Clasa de vrst

    0-4

    10-14

    20-24

    30-34

    40-44

    50-54

    60-64

    70-74

    80-84

    Anul naterii

    99-'03

    89-'93

    79-'83

    69-'73

    59-'63

    49-'53

    39-'43

    29-'33

    19-'23

    De exemplu, pentru populaia din Romnia se pot observa:

    f m

    Al doilea rzboi mondial

    Populaie adult (20 - 64 ani) [[[[28]]]]

    Scdere puternic a natalitii

    Populaie vrstnic (65 ani i peste) [[[[25]]]]

    Popula ie tnr (0 - 19 ani) [[[[28]]]]

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    15

    Excedentul de brbai sau de femei n cadrul fiecrei clase de vrst, excedent evideniat prin nuana deschis. Acesta este n favoarea sexului masculin la tineri i a celui feminin la vrstnici.

    Declinul numeric nceput aproximativ din anii 60 i accentuarea sa, n ultimul timp, prin scderea dramatic a ponderii populaiei tinere, principalele cauze fiind scderea natalitii i amplificarea migraiei externe, ndeosebi n 1990-1992, la care se adaug creterea mortalitii i reculul nupialitii din cadrul crizei pe

    care o traverseaz ara n aceast perioad de tranziie [15]. Efectul celui de-al doilea rzboi mondial asupra generaiilor nscute n jurul anilor

    43-47 (vezi sgeata simpl de mai sus), mai precis, generaiile 41-45, ceea ce se observ exact pe o piramid construit pe vrste [19]. Rezultatul de aici este uor deformat din cauza gruprii vrstelor n clase.

    Scderea puternic a natalitii n anii 58-66 [19] (vezi dubla sgeat de mai sus). Clasele de vrst indicate cu sgei se numesc intrnduri.

    3.1.2. Pentru ce grupm msurtori sau "limbajul repartiiilor"2 S urmrim formele urmtoarelor repartiii (distribuii) bazate pe date biologice reale n volum mare i s le asociem denumiri de caracterizare.

    0

    1

    2

    3

    4

    4 12 20 28 36 44 52 60 68

    0

    5

    10

    15

    11,5 13,5 15,5 17,5 19,5 21,5 23,5

    D1 Rata fecunditii specific vrstei, n sptmni, la Microtus agrestis [30]. Distribuie unimodal

    (slab asimetric de stnga).

    D2 - Talia indivizilor de Nectophrynoides occidentalis (clasa Amphibia) n luna septembrie [21]

    . Distribuie bimodal.

    O distribuie se numete unimodal atunci cnd are o singur mod, respectiv bimodal atunci cnd are dou mode, o mod fiind un punct de maxim local (detalii la 3.3.2.). O distribuie unimodal se numete asimetric de (sau la) stnga atunci cnd are capul la stnga (coada fiind la dreapta).

    2 Expresia aparine lui V. Shleanu [27].

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    16

    D2' Distribuia numrului de decese pe vrste [32]. Distribuie multimodal.

    O distribuie bimodal, respectiv o distribuie multimodal - adic o distribuie cu mai mult de dou mode - pot fi considerate suma a dou, respectiv mai multor distribuii unimodale. Spre exemplu, distribuia din stnga figurii de mai sus poate fi obinut prin suma a trei distribuii unimodale, ca n desenul din dreapta aceleiai figuri.

    Continum seria exemplelor de distribuii ntlnite n practic.

    05

    101520

    105 115 125 135 145 155 165 175 185

    0

    5

    10

    15

    10 30 50 70 90 110 130 150 170

    D3 - Frecvena indivizilor de Cepaea nemoralis cu diametre ale cochiliilor cuprinse ntre 104 si

    185 mm [21]. Distribuie unimodal, slab asimetric de

    dreapta.

    D4 Frecvena plantelor avnd ntre 10 i 170 flori per plant [4].

    Distribuie puternic asimetric de stnga.

    0

    50

    100

    150

    200

    I II III IV V VI VII

    D5 - Reprezentarea prin poligon al frecvenelor a distribuiei de abundene a grupelor sistematice ale fitoplanctonului romnesc al Mrii Negre (1972-1977) [5].

    Distribuie extrem asimetric de stnga (n form de "i ").

    De regul, distribuiile de abundene sunt distribuii n form de i.

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    17

    D6 - Distribuia gradului de nnourare a cerului la Greenwich n iulie [32]. Distribuie bimodal n form de "u".

    O distribuie unimodal i simetric se consider a fi o distribuie cvasinormal deoarece seamn cu repartiia normal (clopotul lui Gauss, curba erorilor etc.).

    0

    500

    1000

    1500

    57 59 61 63 65 67 69 71 73 75 77

    D7 - Distribuia de frecvene a nlimii a 8585 brbai aduli nscui n Insulele Britanice [32].

    Distribuie unimodal i simetric.

    Prin cumularea gloanelor "trase" la o int, pe abscisa la care au lovit inta, se obine o

    distribuie cvasinormal. (Simulare pe calculator.)

    Am lsat intenionat la urm forma de distribuie normal sau cvasinormal, pentru a atrage atenia asupra greelii foarte rspndite de a "vedea" sau presupune aceast form n spatele oricrui fenomen de mas. n paragraful 3.7. dedicat distribuiei normale vom prezenta motivul secund pentru care distribuia normal este considerat o adevrat "stea polar" a statisticii bazate pe teoria probabilitilor, iar n volumul de statistic inductiv vom pune n eviden motivul cel mai important.

    Pornind de la studiul formelor acestor distribuii empirice se poate construi pentru distribuii (repartiii) empirice sau teoretice tipologia prezentat, n continuare, la itemul 2. Tabelul prezint sistematic aceast tipologie, precum i patru observaii foarte importante, adugate n ultima coloan, la nceputul i sfritul tabelului.

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    18

    1 Concluzii generale Rspunsul la ntrebarea general "de ce grupm" este:

    grupm (fr sau cu pierdere de informaie) pentru ctig n relevan. Rspunsul la ntrebarea mai tehnic "pentru ce grupm" este:

    grupm ca s sesizm una din formele tip de mai sus.

    2 Forme tip de distribuii

    concentrat ntr-un punct (1)

    Exprim omogenitate absolut. simetric

    neconcentrat ntr-un punct (2)

    Exprim cel mai bine o tendin central.

    de stnga (3)

    slab asimetric

    de dreapta (4)

    de stnga (5)

    puternic asimetric

    de dreapta (6)

    de stnga (7) (n form de i )

    Unimodal (1 mod)

    Exprim omogenitate.

    [[[[asimetric]]]]

    extrem asimetric

    de dreapta (8) (n form de j )

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    19

    Forme tip de distribuii (continuare) simetric (9)

    (de exemplu n form de u )

    Bimodal (2 mode)

    asimetric (10)

    Exprim eterogenitate ca amestec de 2

    omogeniti diferite.

    multimodal propriu-zis (11)

    (n >2, mode)

    Exprim eterogenitate ca amestec de n

    omogeniti diferite (n > 2).

    Multimodal (plurimodal)

    uniform (12) (numai mode omnimodal)

    Exprim eterogenitate absolut.

    3 Concluzii tehnice Modul n care tratm fiecare form tip deriv din dou observaii fundamentale, deja puse

    n discuie, drept comentarii ale tabelului anterior: deoarece "nu putem alerga n acelai timp dup doi sau mai muli iepuri" vom trata

    eterogenitile care apar ca un amestec de dou sau mai multe omogeniti, adic distribuiile bimodale sau multimodale, vor fi descompuse eventual prin decupare n dou, respectiv n distribuii unimodale;

    deoarece ideea de tendin central este cel mai bine exprimat de distribuiile unimodale simetrice, vom ncerca s simetrizm - prin transformri (de simetrizare) adecvate - orice distribuie asimetric. Ne apropiem astfel de o distribuie normal. De aceea putem utiliza i sintagmele transformri de cvasinormalizare sau de cvasigaussianizare.

    Primul demers - descompunerea, n particular decuparea n distribuii unimodale - este absolut obligatoriu n cadrul statisticii descriptive, adic atunci cnd o serie este tratat drept populaie statistic. Neaplicarea sa este, probabil, cea mai grosolan eroare statistic.

    Al doilea demers - transformarea pentru simetrizare - nu este strict obligatoriu n statistica descriptiv, ns este deosebit de productiv n statistica inductiv, dup cum va rezulta la momentul potrivit.

    4 Decuparea unei distribuii bimodale O prim imagine a faptului c o distribuie bimodal sau multimodal trebuie privit ca

    un cumul de distribuii unimodale o avem din exemplul distribuiei D2' de mai sus. Detectarea distribuiilor unimodale componente este ns o problem statistic dificil cu multe soluii i rezultate posibile. n continuare vom prezenta numai o variant foarte simpl de decupare a unei distribuii bimodale. Prezentm aceast tehnic drept pregtire pentru nelegerea viitoare

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    20

    a trei probleme statistice majore: analiza de discriminare, construcia testelor (aplicabile n tiinele vieii) i filozofia testelor statistice (obligatorii pentru testarea ipotezelor tiinifice de specialitate).

    Lungime (n mm)

    Frecven Masculi (M)

    Frecven Femele (F)

    Frecven total ambele sexe (T)

    68 69 70 71 72 73 74 75 76 77 78 79 80 81 82

    0 0 0 0 0 1 0 2 3 7

    13 20 12 12

    6

    2 2 9

    16 13

    7 4 0 0 0 0 0 0 0 0

    2 2 9

    16 13

    8 4 2 3 7

    13 20 12 12

    6

    Exemplul 3.1.2. S figurm n acelai desen histogra-mele corespunztoare celor trei distribuii din tabelul alturat. Acestea reprezint frecvenele absolute ale lungimii craniilor de jderi masculi (M), femele (F) i total ambele sexe (T), animalele fiind cap-turate n 1955 n Montana [20]. Totaluri : 76 53 129

    "Se observ c distribuiile de frecvene ale celor dou sexe sunt puternic decalate, moda distri-buiei masculilor fiind 79 mm (cu frecvena 20), iar moda distribuiei femelelor fiind 71 mm (cu o frecvena de 16). Acest decalaj reflect dimorfismul sexual mar-cat printr-o talie mai mare (i deci o lungime a craniului mai mare) a masculilor dect cea a feme-lelor n familia Mustelidae din care face parte jderul. Observm c dac se ignor sexul i repre-zentm datele comasate se obine o distribuie bimodal, bimodalitatea (eterogenitatea) pro-venind tocmai din juxtapunerea celor dou distribuii omogene." [20].

    n biologie este necesar ca datele morfologice s fie prelucrate separat pe cele dou sexe, pentru a evita eterogenitatea provenit din dimorfism sexual.

    Bazat pe datele de mai sus putem decupa repartiia de frecvene comasate pe valoarea 75 mm, aceasta convenind cel mai bine descompunerii acesteia n repartiiile pe cele dou sexe. Obinem astfel un instrument, numit de unii autori limit de discriminare (sau de identificare, dup ali autori) a sexului unui animal pentru care nu dispunem dect de craniul su dup deces la maturitate.

    Acesta este un exemplu simplu de "analiz de discriminare (analiz discriminant)" care este un tip aparte de prelucrare statistic.

    Se observ c discriminarea nu este perfect, deoarece chiar pe datele care au folosit la construcia instrumentului de discriminare, masculul cu lungimea craniului de 73 mm este considerat, de ctre instrument, femel.

    Este de ateptat ca pe volume mai mari de date s apar i erori inverse, adic femele considerate, de ctre instrument, masculi.

    Numrul erorilor de identificare de ambele tipuri (mascul considerat femel i invers) va fi ns mult mai mic dect numrul cazurilor corect identificate, dac cele dou distribuii

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    21

    unimodale pentru fiecare sex n parte, care formeaz distribuia bimodal comasat, nu se suprapun prea mult.

    + 5 Logica de construire a unei transformri de simetrizare Pentru a nelege modul de determinare a transformrilor de simetrizare pentru fiecare form tip de distribuie unimodal, s considerm doar urmtorul exemplu.

    Exemplul 3.1.2. Se consider mai multe parcele de pmnt de form ptrat, frecvenele acestora distribuindu-se simetric n raport cu lungimea laturii xj

    conform primelor dou coloane ale tabelului urmtor:

    Tabele statistice simple pentru laturile, respectiv ariile unor parcele de pmnt.

    latura xj Nj aria xj2

    1 2 3

    2 4 2

    1 4 9

    n ultima coloan a tabelului am adugat ariile corespunztoare parcelelor date. S figurm cele dou distribuii (a laturilor, respectiv a ariilor) sub form de diagrame n batoane:

    0246

    1 2 3

    0246

    1 2 3 4 5 6 7 8 9

    Se observ c distribuia ariilor nu mai este simetric, ci are o asimetrie de stnga. Concluzia este imediat: dac aplicm distribuiei asimetrice de stnga a ariilor transformarea invers ridicrii la ptrat, adic extragerea de rdcin ptrat, vom obine distribuia laturilor care este simetric. Problem propus

    S se considere n locul parcelelor ptrate din exemplul anterior volume cubice cu laturile n progresie aritmetic i frecvenele acestora distribuite simetric i s se figureze diagrama n batoane pentru distribuia volumelor cuburilor date. S se observe gradul de asimetrie al distribuiei volumelor. O consecin practic a acestui exerciiu este urmtoarea observaie: pentru populaii omogene de oameni s-a constatat c talia are o distribuie aproape gaussian (ca atare unimodal i simetric). Deoarece greutatea depinde de talie ridicat la o putere cuprins ntre 2 i 33, conform celor de mai sus, greutatea la aceeai populaie se va distribui unimodal, dar cu asimetrie de stnga.

    3 Greutatea corpului omenesc depinde, evident, de volumul acestuia. Volumul se poate calcula aproximnd

    corpul printr-un cilindru, deci va fi proporional cu produsul dintre nlimea cilindrului (nlimea persoanei) i ptratul diametrului de baz (adic un fel de lime a persoanei, care este ns puternic dependent de nlime). Dac dependena ntre lime i nlime ar fi total, de exemplu fiind egale, volumul ar fi proporional cu cubul nlimii, ca n cazul unui cub sau cel al unei sfere. Dependena nefiind ns total, se obine proporionalitatea volumului, respectiv a greutii, cu o putere a nlimii cuprins ntre 2 i 3.

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    22

    +6 Principalele transformri de simetrizare Urmtorul tabel conine patru tipuri de distribuii, caracterizarea lor statistic, precum i transformrile indicate pentru simetrizare.

    Forma tip a distribuiei grupate

    Caracterizarea

    Transformarea indicat

    Puternic asimetric de stnga.

    xn

    Puternic asimetric de dreapta.

    x n

    Extrem asimetric de stnga care nu conine valoarea 0.

    log a x cu a > 1

    Extrem asimetric de stnga coninnd i valoarea 0.

    log a (x+b) cu a > 1 i b > 0.

    3.1.3. Cum grupm msurtori Nu exist i nu poate exista, n mod principial, o teorie matematic din care s rezulte modul de grupare. Modalitile de grupare nu pot fi alese dect de ctre biolog, ecolog, biochimist etc., care are o cunoatere cu sens a materialului i un obiectiv specific. De aici rezult obligativitatea cunoaterii de ctre acetia a celor ce urmeaz, plus necesitatea unei practici statistice ndelungate cu date de specialitate. Statistica pune la dispoziie doar unele reguli empirice de grupare: Grupm doar serii cu volume 50. Diveri autori indic diverse valori pentru numrul de intervale de grupare (denumite i

    intervale de clas, sau clase de grupare, sau, cel mai general, clase): 20-40, 10-15, 8-20, 15-25, 8-15 etc.

    Se pot utiliza intervale de grupare egale sau inegale, dup particularitile datelor i interesul urmrit.

    1 Grupare cu intervale de clas egale n cazul intervalelor de grupare egale exist unele formule empirice de calcul al

    numrului de clase (nc). Un exemplu este formula lui Sturges: nc 1 + 10 / 3 lg N, unde N = volumul seriei.

    Valoarea nc se rotunjete la un numr ntreg convenabil. Lungimea intervalului de clas ic = (xmax xmin) / nc n care xmax, respectiv xmin sunt cea mai mare, respectiv cea mai mic valoare din serie.

    Valoarea ic se rotunjete, de asemenea, convenabil.

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    23

    Exemplul 3.1.3. Fie urmtoarea distribuie negrupat de frecvene reprezentnd adncimi ale staiilor pentru prelevare de probe din lacul Babina - Delta Dunrii. (Date ale Colectivului de Ecologie din perioada 1987-93.). S se grupeze cu intervale de clas egale.

    Adncimea n cm, xj

    Frecvena

    absolut Nj

    Adncimea n cm, xj

    Frecvena

    absolut Nj

    Adncimea n cm, xj

    Frecvena

    absolut Nj

    190 198 200 208 210 211 220 240 257 290

    4 1 3 1 4

    1 2

    3 1 1

    Total N = 81

    95 100 105 110 120 125 130 134 135 140 147 148

    1 4 1 3 4 4 4 1 2 4 1 1

    150 153 155 157 160 163 167 170 175 180 185 188

    7 1 3 1 7 1 1 2 2 3 1 1

    Rezolvare: Volumul, N = 81 este mai mare ca 50, deci grupm. Calculm numrul de clase, nc, dup formula lui Sturges:

    nc = 1 + 10 / 3 lg

    N = 1 + 10 / 3 lg 81 1 + 10 / 3 1,91 1 + 6,36 = 7,36. Rotunjim convenabil valoarea 7,36 i obinem nc = 8.

    Lungimea intervalului de clas: ic = (xmax

    xmin) / nc = (290 - 95) / 8 = 195 / 8 = 24,375. Rotunjind convenabil obinem valoarea ic = 25. Pornim prima clas din valoarea minim xmin = 95. Se obin astfel clasele din urmtoarea distribuie de frecvene cu intervale de grupare egale (vezi prima coloan):

    Intervalele de clas [[[[xj, xj+1) Centrele intervalelor cj Frecvenele absolute Nj [ 95,120) [120,145) [145,170) [170,195) [195,220) [220,245) [245,270) [270,295]

    107,5 132,5 157,5 182,5 207,5 232,5 257,5 282,5

    9 19 23 13 10 5 1 1

    Total N = 81 Se observ c ultimul interval se consider nchis i la dreapta (pentru a nu pierde,

    niciodat, cea mai mare valoare din ir, dei aici nu este cazul).

    Pentru histogram utilizm prima i ultima coloan. Dac dorim ns poligonul frecvenelor pentru aceast distribuie grupat, se calculeaz coloana a II-a cu centrele intervalelor i se utilizeaz ultimele dou coloane. Centrele intervalelor s-au plasat la mijlocul fiecrui interval de lungime 25, deci la distant de 12,5 fa de ambele extreme ale intervalului respectiv i, evident, la distant de 25 fa de centrele alturate.

    Histograma, respectiv poligonul frecvenelor se prezint astfel:

  • Dragomirescu L., Drane J. W., 2009, Biostatistic pentru nceptori. Vol I. Biostatistic descriptiv. Editia a 6 revzut, Editura CREDIS, Bucureti, 207p. ISBN 978-973-734-461-8.

    24

    05

    10152025

    [95,12

    0)

    [120,1

    45)

    [145,1

    70)

    [170,1

    95)

    [195,2

    20)

    [220,2

    45)

    [245,2

    70)

    [270,2

    95]

    05

    10152025

    107,5 132,5 157,5 182,5 207,5 232,5 257,5 282,5

    Observm "n spatele" acestei distribuii empirice o distribuie unimodal, asimetric de stnga, ceea ce caracterizeaz corect distribuia tuturor adncimilor lacului Babina: predomin adncimi de circa 160 cm, urmeaz adncimile mai mici din apropierea malurilor i exist, mai rar, unele "gropi" de circa 2-3 m.

    2 Reguli de rotunjire a datelor n calcule Un mod de grupare cu intervale egale este i rotunjirea datelor. Prezentm n continuare

    cteva observaii asupra rotunjirii datelor n calculul manual 29. a. Reguli de rotunjire n calculul manual: Cifrele 0,1,2,3,4 se terg . De exemplu : 2,64 devine 2,6 . Cifrele 6,7,8,9 se rotunjesc prin adaos de o unitate la zecimala superioar. De exemplu

    2,68 devine 2,7. Cifra 5 se rotunjete prin adaos, respectiv lips, la valoarea par cea mai apropiat. De

    exemplu 2,65 devine 2,6 iar 2,55 va deveni de asemenea 2,6 . (Observm c, n calculator, cifra 5 este tratat ntotdeauna prin adaos. i noi vom proceda n continuare n acest mod.)

    b. Rotunjirea prin afectarea mai multor zecimale.

    Numrul 1,959964 rotunjit: la 5 zecimale = 1,95996 la 4 zecimale = 1,9600 la 3 zecimale = 1,960 la 2 zecimale = 1,96 la o zecimal = 2,0.

    c. Numrul de zecimale pstrate n calculul manual: Se recomand pstrarea a 2, 3, maximum 4 zecimale, n calculele intermediare putem pstra o zecimal n plus care dispare n rezultatul final. Precizia rezultatelor depinde doar de precizia msurtorilor i nu de mrirea numrului

    de zecimale n cadrul calculelor.

    Gruparea cu intervale de clas inegale este o problem care depete cadrul de fa.