cursul iii.doc

Upload: badea-elena-victoria

Post on 01-Mar-2016

29 views

Category:

Documents


0 download

TRANSCRIPT

Repartiii

Biostatistic - Cursul al III-lea

REPARTITII1. Graficul histogram

Ca i concept, histograma este de fapt echivalentul grafic al tabelului de frecvene. Mai nti s lucrm pe un exemplu concret i apoi s urmrim problemele specifice care pot face din histogram un instrument util de lucru sau un balast.

Avem mai jos un tabel care sintetizeaz situaia parametrului Greutate corporal la 1014 pacieni cu diferite afeciuni:

Tabelul 1 Greutatea corporal a 1014 pacieni cu diferite afeciuni,

pe clase din 5kg n 5kg

ClasaGreutate(Kg)Frecvena

(Nr indivizi)

135..4017

240..4546

345..5084

450..55108

555..60130

660..65136

765..70160

870..75113

975..80106

1080..8554

1185..9029

1290..9512

1395..1009

Acum s privim graficul din figura 1, care reprezint situaia din tabel:

Figura 1 Histograma greutilor corporale a 1014 pacieni cu diferite afeciuni

Mai nti, ce s-a reprezentat de fapt( Se oserv c pe orizontal sunt figurate clasele din tabel n ordine, fiecreia fiindu-i alocat un segment de aceeai lungime, iar pe vertical, dreptunghiurile au nlimi proporionale cu frecvenele absolute ale claselor. Mulimea barelor verticale este cea care ne d impresia vizual pe care trebuie s o interpretm n sensul sitetizrii informaiei. Observm:

Din stnga se ncepe cu bare scunde care cresc n nlime pe msur ce ne apropiem de clasa din centru, dup care are loc un proces invers. Este tendina natural la cele mai multe situaii. Datele au de cele mai multe ori tendina de a se situa n stnga i drepta mediei, din ce n ce mai puine pe msur ce ne deprtm de medie. Pe acest grafic nu este figurat media dar este de bun sim s ne gndim c este situat undeva n clasele de mijloc.

Indivizii care au sub 35 Kg i cei peste 100 Kg, probabil foarte puini, nu au fost luai n calcul. Se obinuiete totui ca ei s fie luai n considerare prin introducerea a dou clase speciale. n acest caz, clasele speciale de introdus ar fi fost: clasa (sub 35( i clasa (peste 100(. De obicei aa este bine s se procedeze.

Modul cum cresc barele este diferit de modul cum descresc. Aceasta este ceea ce se numea la indicatorii statistici asimetria. Aceast histogram arat o uoar asimetrie la dreapta. Dac indivizii de la care s-au cules datele ar fi fost normali, histograma ar fi avut un aspect mai simetric. Asimetria acestei hitograme ne arat c n clasele de la 40 la 65 kg sunt mai muli indivizi dect n clasele simetrice lor de la 75 la 90 kg. Avnd n vedere c majoritatea lor sunt brbai, acest asimetrie ne spune c un numr de indivizi au greutatea mai mic dect ar fi normal. Acest lucru este explicabil n acest caz, deoarece cei mai muli au afeciuni hepatice grave ca ciroz hepatic, cancer hepatic, i sunt ntr-o stare fizic mult slbit.

n acest caz, am explicat forma histogramei pe baza realitii. De obicei ns se ntmpl exact pe dos. Histograma este aceea care ne ajut s nelegem mai bine realitatea.

Pentru a realiza diferena dintre o distribuie simetric i una asimetric, s transpunem ntr-o histogram situaia din tabelul 2, care sistematizeaz situaia supravieuirilor n cazurile de cancer mamar pe un lot de 2456 de pacieni.

Tabelul 2 Situaia supravieuirilor n cazurile de cancer mamar pe un lot de 2456 de pacieni. Gruparea n clase de 12 luni

Nr.CrtPerioadaNr.cazuriProcent

%Procent

Cumulat %

10..12 luni67227.3627.36

212..24 luni44618.1645.52

324..36 luni36815.0060.52

436..48 luni24910.1470.66

548..60 luni1968.0078.66

660..72 luni1727.0085.66

772..84 luni1265.1390.79

884..96 luni984.0094.79

996..108 luni451.8396.62

10108..120 luni311.2697.88

11Peste 120 luni522.12100.00

n figura 2, este reprezentat histograma corespunztoare pentru tabelul 2. Se observ c barele histogramei au nlimi descresctoare ntocmai ca i frecvenele absolute ale claselor.

Figura 2 Histograma corespunztoare pentru tabelul 2. Se observ c barele histogramei au nlimi descresctoare ntocmai ca i frecvenele absolute ale claselor

Se observ la aceast histogram c are o asimetrie foarte puternic spre dreapta. Vom considera totdeauna (ca o convenie), s spunem c o histogram arat asimetria spre partea unde descreterea este mai lent. Tendina observat n aceast histogram este normal, avnd n vedere fenomenul surprins. Procesele de supravieuire sunt de obicei marcate de o distribuie a valorilor cu excentricitate spre dreapta, adic spre supravieuiri lungi.

Pentru o familiarizare cu acest tip de grafic foarte important, s urmrim cteva situaii culese din practica medical. n figura 3, avem reprezentat histograma tensiunii arteriale la 593 de pacieni cu diferite afeciuni. Se observ o excentricitate puternic, spre dreapta. n figura 4 avem histograma valorilor hemoglobinei la 738 de pacieni cu diferite afeciuni. Se observ o distribuie a valorilor mai simetric dect n figurile 2 i 3. n figura 5 se vede histograma taliei la 1042 pacieni pe clase din 5cm n 5cm. Este un exemplu de distribuie cu o uoar asimetrie spre stnga, mai rar ntlnit n practic. Figura 6 prezint histograma vrstelor la 308 pacieni cu afeciuni hepatice. Se observ c graficul are dou vrfuri. Se spune despre acest tip de distribuie a datelor c este bimodal. Este un lot neomogen, alctuit din dou subloturi, unul cu maximul n jurul vrstei de 45 50 de ani i cellalt n jurul vrstei de 65 70 de ani. n practic se ntlnesc rar astfel de situaii. n mod normal, ntr-un asemenea caz, se studiaz fiecare sublot n parte din punctul de vedere al vrstei

Figura 3 Histograma tensiunii arteriale la 593 de pacieni cu diferite afeciuni. Se observ o excentricitate puternic, spre dreapta

Figura 4 Histograma valorilor hemoglobinei la 738 de pacieni cu diferite afeciuni. Se observ o distribuie a valorilor ma simetric dect n figurile 5.2 i 5.3.

Figura 5 Histograma taliei la 1042 pacieni pe clase din 5cm n 5cm. Este un exemplu de distribuie cu o uoar asimetrie spre stnga, mai rar ntlnit n practic.

Figura 6 Histograma vrstelor la 308 pacieni cu afeciuni hepatice. Se observ c graficul are dou vrfuri. Se spune despre acest tip de distribuie a datelor c este bimodal. Este un lot neomogen, alctuit din dou subloturi, unul cu maximul n jurul vrstei de 45 50 de ani i cellalt n jurul vrstei de 65 70 de ani. n practic se ntlnesc rar astfel de situaii. n mod normal, ntr-un asemenea caz, se studiaz fiecare sublot n parte.Semnificaia statistic a histogramei

Histograma este influenat de factori aleatori n ce privete forma, deci ne poate da o informaie mai mult sau mai puin valoroas n funcie de aceti factori. Ca i n cazul celorlali indicatori statisitici, vom considera histograma ca avnd nmagazinat informaie cu att mai corect cu ct avem un numr mai mare de indivizi n lotul pe care ea l reprezint.

n figura 7, sunt reprezentate o serie de histograme construite pe un lot de 739 de pacieni, la care s-a msurat hemoglobina. n fiecare din ele, sunt luai un numr din ce n ce mai mare de valori, ncepnd de la 25 i terminnd cu toate cele 739 de valori. Se observ c primele histograme difer destul de mult ntre ele. Spre sfrit ns, histogramele se stabilizeaz i dau impresia c adugarea eventual de valori nu ar mai schimba prea mult aspectul.

Figura 7 Serie de histograme care arat c numrul de indivizi din lot are importan asupra aspectului, atunci cnd aceste numr este relativ mic

n figura 8, sunt reprezentate aceleai histograme, darse pstreaz aceeai scar de reprezentare. n felul acesta se observ mai bine cum crete o histogram odat cu creterea numrului de indivizi din lot. Aceeai constatare ca n figura 7, anume c variaiile sunt mari atta timp ct numrul de indivizi este mic.

Figura 8 Aceleai histograme din figura 7, cu diferena c se pstreaz aceeai scar de reprezentare

n figura 9, este exemplificat influena lungimii claselor asupra aspectului unei histograme. Datele luate n calcul sunt cele folosite la figurile 7 i 8. La fiecare histogram, s-au folosit 738 de valori. Ceea ce se modific de la histogram la histogram este lungimea claselor i, implicit numrul de clase. Se observ c lungimi prea mari (din 5 n 5, din 4 n 4, din 3 n 3, din 2 n 2 i din 1,5 n 1,5) dau histograme care ascund distribuia. Lungimi prea mici ( din 0,5 n 0,5, din 0,25 n 0,25) dau prea multe detalii inutile. Cele mai potrivite lungimi n acest caz sunt din 1 n 1 i din 0,75 n 0,75.

Figura 9 Influena lungimii claselor asupra aspectului unei histograme. Lungimea corect n acest caz este din 1 n 1

Alegerea numrului de clase. De obicei, programele de calculator realizeaz histograme dup ce utilizatorul a furnizat lungimea clasei. Pentru a nu ajunge n situaii cnd un astfel de tabel are un numr total neindicat de clase, de obicei se calculeaz lungimea aproximativ a unei clase n aa fel nct numrul de clase s fie cel dorit. Acest lucru se poate realiza dac se caut cea mai mic i cea mai mare valoare din seria de date (notate mai jos cu min i max), i se ia ca lungime a unei clase, aproximativ rezultatul urmtorului calcul:

De exemplu, dac n seria vrstelor unor pacieni, cel mai tnr pacient are 26 de ani, iar cel mai vrstnic are 78, pentru a obine 6 clase (numr de clase indicat pentru vrste de aduli), avem L= (78 - 26) / 6 = 8,6. Deci este indicat s se ia clase de 10 ani, prin rotunjire. Dac ns se doresc mai multe clase, s zicem 10, atunci obinem: L = (78 - 26) / 10 = 5,2 i este indicat s se ia clase din 5 n 5 ani. Prima clas va fi [25,30), iar urmtoarele: [30, 35), [35, 40),.[75, 80).

Numrul de clase nu este neaprat 10, el se alege de fapt de ctre cel care face histograma, astfel ca s se piard ct mai puin informaie, dar i numrul de clase s nu fie prea mare cci atunci lum n considerare aspecte prea nesemnificative.

Ca regul general, este bine s se rein c:

Se pierde cu att mai mult informaie cu ct numrul de clase este mai mic. Nu se recomand histograme cu 2-4 clase

Un numr prea mare de clase duce la o ascundere a esenialului de ctre aspectele nesemnificative

ntruct cei care nu au experien nu tiu cum s aleag numrul de clase, recomandm:

Pentru cteva zeci de valori, s se aleag maximum 6 8 clase

Pentru cteva sute de valori, s se aleag ntre 10 i 15 clase

Pentru cteva mii de valori, s se aleag peste 15 clase

Nu se recomand folosirea a mai mult de 20 30 de clase dect n cazuri speciale, n studii cu multe mii de cazuri. Nici mai puin de 4 6 clase nu este recomandat s se foloseasc. Nu se recomand folosirea histogramelor dac nu avem cel puin cteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se face o histogram.

Alte exemple: Dac avem de reprezentat printr-o histogram valorile pentru hemoglobin, iar minimul este 8,13 iar maximul este 16,23, atunci, pentru a obine 10 clase, vom face calculul:

n acest caz, vom rotunji la 1 i vom lua clasele din 1 n 1, ncepnd de la 8: [8, 9), [9,10), [16,17).

n cazul Imunoglobulinei G, din cei 235 de pacieni, valoarea minim a fost 112, n timp ce maximul a fost 900. Dac dorim tot 10 clase, atunci calculul este

Vom lua clasele din 100 n 100, ncepnd de la 100: [100,200), [200,300) . [800,900), [900-1000).2. Curba densitii de probabilitateS-a vzut c histograma este un grafic care d informaii despre repartizarea valorilor dintr-o serie de valori, care arat dac valorile din serie sunt repartizate simetric sau asimetric i dac repartiia are un singur vrf sau este multimodal.S ne imaginm c pe msur ce mrim indefinit numrul de valori din serie, lungimea claselor scade foarte mult, astfel nct obinem histograme din ce n ce mai fine. Ce se obine prin acest proces? O apropiere din ce n ce mai accentuat de repartiia real a datelor, repartiie pe care histogramele o aproximeaz din ce n ce mai bine. Histogramele ofer imaginea repartizrii valorilor dintr-o serie, deci o imagine incomplet a realitii. ntr-adevr, valorile dintr-o serie de date sunt culese pe un eantion sau lot, care este de obicei extras dintr-o populaie mult mai numeroas. Ceea ce ne intereseaz de obicei ns, este modul cum se repartizeaz valorile din ntreaga populaie.

n figura 10, este dat un exemplu de serie de valori foarte mare, alctuit din 10000 de valori. n acest caz, lotul pe care s-au fcut msurtorile poate fi numit populaie, numrul de indivizi fiind foarte mare.

Figura 10 Folosind o serie de 10000 de valori, se pot face histograme din ce n ce mai fine, care trec de la aspectul de treapt, la acela de curb

Pe msur ce histogramele devin din ce n ce mai fine, ele tind s se asemene cu o curb. Dac volumul seriei ar fi mult mai mare, asemnarea cu o curb ar fi att de clar nct ochiul nu ar mai putea observa aspectul de treapt. Acest proces este vizibil n special atunci cnd n locul histogramelor folosim poligoane ale frecvenelor. n figura 11, sunt reprezentate poligoanele frecvenelor efectuate pe valorile din seria folosit n figura 10. La fiecare grafic s-au folosit o parte din valorile seriei, anume: la primul grafic 1000 de valori, la al doilea grafic 2000 de valori, i aa mai departe pn la ultimul grafic, care este executat folosind toate cele 10000 de valori din serie.

Figura 11. Procesul de trecere de la poligonul frecvenelor la curba de distribuieAcest mod de a ajunge la o curb a densitii de probabilitate (sau o curb de repartiie) este instructiv prin faptul c ofer o imagine intuitiv a diferenei dintre o histogram sau un poligon al frecvenelor i o curb de repartiie. n plus, ofer o ideie despre cum arat curba de repartiie.Strict vorbind ns, noiunea de curb a densitii de probabilitate, trebuie introdus folosind un aparat teoretic mai complex. Deoarece o introducere fundamentat ar depi nivelul cursului de fa, vom considera, intuitiv, fr a pretinde c aceasta este o definiie riguroas, c:

O curb a densitii de repartiie este curba care are acelai aspect cu curba ctre care tinde poligonul frecvenelor relative, atunci cnd numrul de valori dintr-o serie tinde la infinit, iar lungimea fiecrei clase tinde la 0.

Pentru o exprimare mai clar, atunci cnd nu exist pericolul unor confuzii, n locul termenului de curb a densitii de probabilitate, vom folosi termenul de curb de repartiie, sau mai simplu, repartiie.

n medicin i biologie, ca i n celelalte domenii de activitate, exist o varietate larg de curbe ale densitii de probabilitate. n figura 12, sunt prezentate cteva forme de astfel de curbe, simetrice, asimetrice cu asimetri stng, cu asimetrie dreapt, etc.

Figura 12 Diverse forme ale curbei densitii de probabilitate

Pe msur ce statistica a evoluat ca tiin, s-a demonstrat c unele din curbele densitii de probabilitate joac un rol central n tiin n general i n medicin n special. Astfel, multe fenomene din tiin se petrec astfel nct deviaiile stnga-dreapta de la medie ale msurtorilor pe care le facem sunt repartizate simetric i nu oricum, ci tind s fie repartizate foarte asemntor cu o anumit curb, mult studiat, care se numete curba densitii normale sau curba Gauss. Astfel, aa cum se va vedea n cursul despre eantionare, media de eantionare, adic media calculat aa cum a fost descris n cursul 1, are n anumite condiii o repartiie normal. n subcapitolele care urmeaz vor fi descrise cteva din curbele de repartiie mai folosite i mai des ntlnite n practic.Curbele de repartiie se bucur de cteva proprieti care le fac extrem de utile n statistic, aa cum se va vedea n capitolele despre eantionare i despre testele statistice.

Aria cuprins ntre curb i axa orizontal este 1 sau 100% (vezi figura 13). Probabilitatea ca, extrgnd aleator un individ dintr-o populaie a crei repartiie are o curb cunoscut i fcnd msurarea pe acel individ, valoarea obinut x, s fie situat ntre dou numere a i b fixate (xa i x(b), este exact aria cuprins ntre curb, axa orizontal i cele dou verticale n a i b (Vezi figura 14).

Figura 13. Aria cuprins ntre o curb de repartiie i axa orizontal

este totdeauna 1 sau 100%

Figura 14. Dac extragem aleator un individ dintr-o populaie care are curba de repartiie cunoscut, valoarea msurat la acel individ este cuprins ntre dou numere reale a i b cu o probabilitate egal cu aria cuprins ntre curb, axa orizontal i cele dou verticale n a i b.3. Densitatea Normal (Gauss)Curba Gauss, sau clopotul lui Gauss a jucat n istoria tinei i joac i acum un rol foarte important, iar n medicin foarte muli parametri legai de organismul uman, de legile fundamentale ale viului, sunt repartizai dup aceast curb. Ce este de fapt aceast curb? Formula curbei lui Gauss, este:

(facultativ!!!)Se observ c aceast curb depinde de doi parametri, m i s, i ea este perfect determinat n momentul n care se cunosc aceti parametri. Deoarece curba descrie repartiia unei populaii, cei doi parametri reprezint media (m) i abaterea standard (s) ale populaiei respective.

Graficul din figura 15, care este graficul unei curbe Gauss, ne arat c, spre centru probabilitile sunt cu att mai mari cu ct suntem mai aproape de medie, iar spre margini probabilitile scad apropiindu-se de zero pe msur ce ne ndeprtm din ce n ce mai mult de medie. Curba este simetric, niciodat ns simetria nu este perfect pe o histograma particular sau pe un poligon al frecevenelor, dar curba ideal este perfect simetric. Subliniem c prin curb ideal nelegem curba ctre care se ndreapt poligonul frecvenelor cnd numrul de cazuri tinde la infinit iar lungimea claselor se apropie de zero. Uneori, graficul funciei este denumit clopotul lui Gauss datorit formei lui deosebite, asemntoare unui clopot.

Figura 15 Curba repartiiei normale, sau curba lui Gauss. Are un maxim n dreptul mediei, dou puncte de inflexiune (n dreptul valorilor m-s i m+s), tinde la zero pe msur ce ne ndeprtm de medie la stnga i la dreapta.***

(Facultativ). n analiza matematic se arat c graficul acestei funcii, cel din figura 15, are un maxim pentru x=m i dou puncte de inflexiune (n care devine din concav, convex), la m-s i la m+s. Curba normal mai este cunoscut sub denumirea de legea Gauss-Laplace sau legea normal i apare pentru prima dat ntr-o lucrare a matematicianului Moivre (1667 1754), apoi n lucrrile lui Pierre Simon de Laplace (1749 1827). Celebr este fcut de lucrrile matematicianului Gauss (1777 1855). Utilitatea acestei repartiii se datoreaz mai multor cauze, printre care:

Multe fenomene aleatoare din natur se supun exact sau aproximativ acestei legi. Astfel, deviaiile stnga-dreapta de la medie ale erorilor de msurare urmeaz aceast lege simetric i cu proprietatea c, erori din ce n ce mai mari sunt din ce n ce mai rare.

O teorem foarte important, teorema limit central, asigur acestei repartiii un rol privilegiat prin faptul c suma unui numr mare de variabile aleatoare independente una de alta, dar identic repartizate, este repartizat Gauss sau aproximativ Gauss. Aceast teorem ne asigur de exemplu, de faptul c, media calculat pe un lot are o repartiie Gauss sau apropiat.

S-a demonstrat c multe repartiii empirice ntlnite n practic pot fi aduse la o repartiie Gauss prin transformri simple i n felul acesta devin mai uor de studiat.

***Trebuie reinut c repartiia Gauss are urmtoarele proprieti importante:

Este simetric fa de media m Are dou puncte de inflexiune, la m-s i m+s Are maximul pentru x = m Are dou cozi spre + i infinit care se apropie din ce n ce mai mult de axa orizontal, fr s o ating Mediana i modul, coincid cu media

Deoarece mediana coincide cu media, jumtate din aria de sub curb se afl n stnga mediei i jumtate n dreapta. Deci, ntr-o populaie repartizat Gauss, 50% din indivizi sunt sub medie i 50% peste medie

Aria cuprins ntre curb i axa orizontal este 1 indiferent de medie i de deviaia standard. Aria cuprins ntre curb, axa orizontal i dou verticale n dreptul numerelor a i b, este probabilitatea ca, extrgnd aleator un individ din populaie i fcnd msurtoarea pe acel individ, valoarea obinut x, s fie ntre a i b (Vezi figura 16).

Figura 16 Aria cuprins ntre curb, axa orizontal i dou verticale n dreptul numerelor a i b, este probabilitatea ca, extrgnd aleator un individ din populaie i fcnd msurtoarea pe acel individ, valoarea obinut x, s fie ntre a i bRepartiia Gauss, este de fapt o famile de repartiii ce depinde cei doi parametri: media i deviaia standard. n figura 17, sunt desenate cteva curbe de repartiie Gauss, mai mult sau mai puin aplatizate, dup cum deviaia standard este mai mic sau mai mare.

Figura 17 Diferite curbe Gauss mai mult sau mai puin aplatizate, aplatizarea fiind dat de valoarea deviaiei standard, s. Cu ct valoarea lui s este mai mare, cu att curba este mai aplatizat. Cnd s ia valori mici, curba este mai nalt.Avem de asemenea, o infinitate de curbe Gauss care au aceeai deviaie standard dar au medii diferite. Ele sunt identice ca form, doar sunt localizate diferit n plan i pot fi suprapuse prin translaii stnga-dreapta. n figura 18, sunt desenate cteva curbe Gauss care difer numai prin medie. Avnd toate aceeai deviaie standard, au aceeai aplatizare.

Figura 18. Curbe Gauss cu aceeai deviaie standard. Ele sunt la fel de aplatizate i pot fi suprapuse prin translaii stnga-dreapta.

Dac fixm media dar permitem orice deviaie standard, exist o infinitate de curbe Gauss care au aceeai medie. Ele sunt localizate identic stnga-dreapta, dar difer prin aplatizare mai mult sau mai puin accentuat. n figura 19, sunt desenate 3 curbe Gauss cu aceeai medie i cu deviaiile standard 1, 1.2 i 1.5.

Figura 19. Trei curbe Gauss cu aceeai medie i deviaii standard diferite***(Facultativ). Aa cum am artat, repartiia normal sau Gaussian este des ntlnit n studiul fenomenelor biologice i are unele proprieti utile. n biologie, una din problemele importante care se pun n legtur cu datele pe care le msurm este aceea dac se ncadreaz sau nu n limitele de normalitate. Repartiia normal ne poate ajuta s dm un rspuns acestei ntrebri, cel puin pentru acele date care sunt distribuite normal. Dac o variabil are repartiie Gauss, atunci se poate stabili ct de plauzibil este media i deviaia standard gsite prin msurtori pe un lot i se pot face comparaii cu mediile care ar trebui s fie obinute i care sunt cunoscute din literatura de specialitate (vezi cursul despre eantionare i cel despre teste statistice pentru amnunte).

Cunoscnd despre o variabil c are repartiie Gauss, se pot deduce unele afirmaii despre valorile pe care le poate lua. Cum folosim aceast repartiie pentru a deduce anumite concluzii despre variabila care ne intereseaz? Dup cum am mai afirmat, pentru o variabil repartizat normal, procentul din populaie situat ntre dou limite date este aria cuprins ntre curba Gauss, axa orizontal i cele dou verticale la limitele fixate. De obicei se consider intervalele n jurul mediei, simetrice, cu limite situate la o distan de una sau mai multe abateri standard de medie.***

Sunt eseniale urmtoarele proprieti ale curbei Gauss, proprieti care nu sunt valabile la alte tipuri de distribuii:

n intervalul (m-s, m+s( se afl aproximativ 68% din indivizii unei populaii repartizate normal (vezi figura 20). Aceasta ns nu este o majoritate suficient de mare pentru a fi aproape de siguran dac ne ntrebm ntre ce limite sunt situate valorile msurate pentru indivizii din populaie.

Figura 20. ntre (m-s, m+s( se afl aproximativ 68% din indivizii unei

populaii repartizate normalDe aceea se ia cel mai adesea n considerare intervalul (m-2s, m+2s( n care se situeaz aproximativ 95% din indivizii unei populaiei repartizate normal. Acest interval este suficient de larg i cuprinde o majoritate zdrobitoare a populaiei aa c este cel mai indicat s fie folosit ca interval de normalitate.

Figura 21. ntre (m-2s, m+2s( se afl aproximativ 95% din indivizii unei

populaii repartizate normal

Uneori, se iau intervale mai cuprinztoare, ca (m-3s, m+3s(, interval n care se situeaz peste 99% din populaia considerat (vezi figura 22).

Figura 22. ntre (m-3s, m+3s( se afl peste 99% din indivizii unei

populaii repartizate normal

Chiar dac se consider de obicei c pentru variabilele folosite uzual n practica medical valorile medii sunt cunoscute i se cunosc i aa-numitele intervale de normalitate, n realitate se cunosc doar foarte bune aproximri ale lor obinute pe baza unor studii foarte atente, pe loturi largi. Valorile reale ale mediei i deviaiei standard pentru o populaie distribuit normal, notate cu m i s, sunt aproximate cu

i ( care sunt indicatorii medie i abatere standard pentru un lot extras din populaia respectiv.

Cum se stabilete ct de bune sunt aceste aproximri, care se mai numesc estimri, se va vedea n cursul despre estimaii. Oricum, se folosesc din plin proprietile distribuiei Gaussiene. Importana repartiiei normaleDup cum s-a vzut, cunoaterea unei repartiii n general este util deoarece se pot verifica i elimina valorile aberante, se pot verifica limitele de normalitate, etc. Dac tim c o variabil are o distribuie Gauss cu media m i deviaia standard s, atunci aproximativ 99,5% din valorile acelei variabile sunt n intervalul [m-3s, m+3s]. Deci, putem considera c ntr-un eantion de dimensiune destul de mare, de cteva sute de cazuri, apariia de valori n afara acestui interval este aberant, adic, n principiu ar trebuie eliminate. Pe de alt parte valorile pe care le considerm normale se ncadreaz n aa-numitul interval de normalitate care este aproximativ [m-2s, m+2s]. Mai mult, avnd o valoare dat, putem cere s se verifice ct de verosimil este ca ea s provin dintr-o populaie cu distribuia Gauss, cu media m i abaterea standard s.Regula celor 3 sigma. Deoarece n intervalul care se obine prin scderea i adunarea a trei sigma la medie este cuprins o arie de aproximativ 99,74% din toat aria de sub curba normal, n eantioane ce nu depesc anumite limite de volum, n mod normal nu exist nici o valoare care s fie n afara intervalului celor trei sigma. De aceea n general, aceste valori, atunci cnd totui apar, sunt considerate aberante i sunt eliminate. Eliminarea valorilor aberante nu se face automat i fr o judecat pentru fiecare astfel de valoare n parte. Totui, uneori se elimin ca aberante valori care nu numai c se afl n afara intervalului celor trei sigma, dar sunt foarte departe de marginile acestui interval. O teorem celebr, datorat lui Cebev spune c, indiferent de distribuie, valorile sunt practic situate ntre media plus-minus ase abateri standard. Deci ceea ce iese din acest interval trebuie oricum eliminat automat ca aberant.

Regula celor 2 sigma. n mod asemntor cu regula celor trei sigma, valorile situate n intervalul obinut prin adunarea i scderea a dou valori ale lui sigma la m, sunt considerate ca valori normale. n acest interval se gsesc aproximativ 95,44% din indivizii unei populaii, dac populaia are o distribuie Gauss. Aceasta este considerat o majoritate suficient pentru a lua acest interval ca interval de normalitate.Ar rezulta c se pot n acest fel construi intrevale de normalitate practic pentru orice tip de variabil distribuit Gauss. Din pcate, n practic lucrurile nu stau deloc aa. Intervalul de normalitate se construiete folosind media i deviaia standard ale repartiiei Gauss considerate. Dar aceti parametri sunt de obicei necunoscui. De aceea, intervalele de normalitate puse la dispoziie de manuale i tratatele tiinifice sunt calculate pe eantioane foarte mari, astfel ca media i abaterea standard de eantionare s aib valori foarte apropiate de cele reale i sunt folosite n locul mediei i deviaiei standard ale ntregii populaii. Intervalele de normalitate obinute astfel nu au valoarea tiinific pe care le-ar avea cele care folosesc valorile exacte i nu pe cele aproximative. Totui ele sunt singurele pe care le avem la dispoziie i nimic mai bun nu putem pretinde dect mbuntirea acestor intervale imprecise. De aceea se verific n permanen modul n care un eantion se nscrie sau nu n intervalele de normalitate citate n literatura de specialitate. Sunt uneori situaii n care surse diferite dau ca intervale de normalitate valori uor schimbate, dup autorul sau studiul care le-a obinut. Micile diferene apar tocmai din faptul c se folosesc valori aproximative n locul celor exacte.

4. Grade de libertate

Noiunea de grad de libertate este oarecum similar celei din problemele de mecanic. Anume, dac un punct se afl pe o ax, se spune despre el c are un grad de libertate, pentru c nu putem s modificm la un moment dat dect distana lui pn la origine. Dac ns punctul se afl ntr-un plan atunci el are dou grade de libertate, cci se pot modifica independent unul de altul, adic liber, dou mrimi, abscisa lui i ordonata. Dac se afl n spaiu, are trei grade de libertate conform celor trei dimensiuni care exprim poziia lui i care se pot modofica liber. Dac un punct se mic pe o ax, atunci i se asociaz uneori trei grade de libertate deoarece micarea este descris complet dac tim poziia lui, viteza i acceleraia. Deci el este caracterizat la un moment dat de trei numere. Un punct care se mic n spaiu, este uneori modelat ca avnd nou grade de libertate, trei pentru poziie, trei pentru vitez i trei pentru acceleraie.

Dac punctul este supus la anumite legturi care l oblig s se mite numai ntr-un anumit fel, are mai puine grade de libertate. De exemplu, dac obligm un punct s se mite n spaiu, dar pe o sfer, nu mai are nou grade de libertate ci numai ase.

ntr-un fenomen mai complex dect micarea unui punct putem avea mult mai multe grade de libertate. De exemplu, dac dou puncte se afl pe o ax, sistemul format din cele dou puncte are dou grade de libertate. Dac sunt 100 de puncte, avem 100 de grade de libertate, deoarece avem posibilitatea de a alege locul celor 100 de puncte independent unul de altul, oriunde pa ax.

n general, dac alegem n numere reale, sau le obinem printr-o operaie de msurare, avem n grade de libertate, deoarece este ca i cnd am fixa n puncte, n mod liber pe o dreapt.

n statistic, se consider c dac se iau n calcul n valori independente una de alta, avem n grade de libertate. Deoarece n general n studiile statistice, indivizii pe care se fac msurtorile sunt alei aleator i se msoar parametri cum ar fi hemoglobina sau calcemia sau glicemia, etc, nu avem nici un motiv s credem c valorile obinute nu sunt independente. E ca i cum am pretinde c valoarea obinut pentru glicemia pacientului x are o strns legtur cu valoarea pentru pacientul y, ceea ce este absurd.Mai pe scurt, n msurtorile dedicate studiului statistic, de obicei avem relaia:

La n pacieni pe care s-au fcut msurtori avem n msurtori independente i deci n grade de libertate.

De exemplu, atunci cnd calculm media de eantionare pentru un eantion de n indivizi, aven n grade de libertate.

Dac totul ar fi aa de simplu, nu ar mai avea rost toat discuia despre gradele de libertate. Dar nu totdeauna n indivizi ntr-un eantion nseamn n grade de libertate. De exemplu, dac dorim s calculm dispersia de eantionare pe un eantion de n indivizi, avem n-1 grade de libertate. Aceasta deoarece n calculul dispersiei intervine i media de eantionare care se comport ca o legtur i reduce cu 1 numrul de grade de libertate. Aceast reducere care se datoreaz faptului c ne este cunoscut media de eantionare, i are o asemnare cu un fapt banal, care, n parte o i explic.

Dac un elev are notele 8, 8, 9, 10, 10, va avea media 9. Dar dac are notele 8, 8, 9, 10 i se ntrab ce not trebuie s ia, astfel ca media s fie exact 9, va ajunge la concluzia c ultima not trebuie s fie 10. Aadar, aceast ultim not nu este oarecare, ea depinde de celelalte i de medie. Aa se petrec lucrurile i cnd calculm dispersia. Una din valori nu este independent, depinde de celelalte i de medie. Doar n-1 din valori sunt independente, deci avem n-1 grade de libertate.

5. Densitatea Student

Este o repartiie care intervine mult n aplicaiile referitoare la testele statistice. Are o form simetric i seamn ca aspect cu distribuia Gauss standard.

Este n realitate o familie infinit de repartiii, pentru fiecare n, numr de grade de libertate (df), avnd o form diferit. Aceast densitate are proprietatea c are un maxim n 0 i este simetric stnga-dreapta lui 0, ca form. Are un aspect cu att mai aplatizat cu ct numrul de grade de libertate este mai mic. Dei pare s se asemene cu curba lui Gauss, a densitii normale, n realitate, ntre ele este o diferen. Cnd numrul de grade de libertate tinde la infinit, aspectul ei se apropie tot mai mult de forma repartiiei Gauss.

Figura 24. Curbe de repartiie Student corespunztor la 3, 6 i n>120 grade de libertate. Pentru n>120, forma curbei este practic aceeai cu cea a curbei normale standard i nu se mai schimb odat cu n.6. Chestiuni de examen:

1. Histograma este un grafic ce reprezint:

A. Frecvenele absolute ale unui tabel de frecven

B. Fiecare valoare n parte dintr-o serie de valori

C. Frecvena cu care valorile seriei sunt cuprinse n clasele stabilite la construcia ei

D. Indicatorii tendinei centrale a seriei

2. O histogram reprezint informaia dintr-o serie de valori:

A. Fr pierdere de informaie

B. Cu pierdere de informaie

C. Se pierde cu att mai mult informaie cu ct sunt mai puine clase

D. Se pierde cu att mai mult informaie cu ct clasele au lungimi mai mari

3. Valorile hemoglobinei la 250 de pacieni sunt cuprinse ntre un minim de 7,9 i un maxim de 15,95. Dac dorim s avem n jur de 9 clase i deci, 9 bare, vom lua lungimea claselor:

A. Din 2 n 2

B. Din 3 n 3

C. Din 1 n 1

D. Din 0,5 n 0,5

4. Seria de valori ce conine talia a 1132 de indivizi, are ca minim talia de 1,44m iar ca maxim, talia de 2,06m. Dorind s efectum o histogram cu cel puin 12 bare (deoarece numrul de indivizi este mare), vom lua lungimea claselor:

A. Din 2 cm n 2 cm

B. Din 5 cm n 5 cm

C. Din 10 cm n 10 cm

D. Din 1 cm n 1 cm

5. Dac la efectuarea unei histograme, am ales din greal un numr de clase (i deci de bare) prea mare, efectul este:

A. Se pierde mai puin informaie

B. Se vd inclusiv aspecte nesemnificative

C. Se pierde prea mult informaie

D. Se vor vedea doar aspectele eseniale, eliminndu-se aspectele nesemnificative

6. Poligonul frecvenelor este:

A. Un indicator statistic care arat dispersia valorilor dintr-o serie de valori

B. Un grafic care reprezint printr-o linie frnt frecvenele claselor dintr-un tabel de frecven

C. Un grafic care conine exact aceeai informaie ca i histogram corespunztoare

D. Un grafic care conine mai puin informaie ca i histograma corespunztoare

7. Curba lui Gauss este o curb care este:

A. Simetric fa de medie

B. Simetric fa de axa vertical

C. Are un maxim n dreptul mediei

D. Tinde asimptotic la 0 spre plus infinit i spre minus infinit

8. n ce privete curba Gauss este adevrat c:

A. n intervalul se afl aproximativ 68% din indivizii populaiei

B. n intervalul se afl aproximativ 95% din indivizii populaiei

C. n intervalul se afl aproximativ 99% din indivizii populaiei

D. n intervalul se afl aproximativ 90% din indivizii populaiei

9. Dac comparm o histogram i poligonul frecvenelor corespunztor, atunci:A. Conine mai mult informaie histograma

B. Conine mai mult informaie poligonul frecvenelor

C. Conin amndou aceeai cantitate de informaie

PAGE 16

_1137604841.unknown

_1145642567.unknown

_1145642701.unknown

_1145642735.unknown

_1145642683.unknown

_1137605368.unknown

_918241996.unknown

_1044901633.unknown

_918241958.unknown