curs notiuni fund amen tale statistic a

Upload: eggoryo

Post on 07-Jul-2015

308 views

Category:

Documents


1 download

TRANSCRIPT

Marius Mruteri

Noiuni fundamentale de biostatistic

- Note de curs -

2006

Marius tefan Mruteri NOIUNI FUNDAMENTALE DE BIOSTATISTIC - NOTE DE CURS -

- 2006 -

MRUTERI, TEFAN MARIUS Noiuni fundamentale de biostatistic : note de curs Refereni: Prof. Dr. chiopu Alexandru Prof. Dr. Nicolaescu Ioan

Descrierea CIP a Bibliotecii Naionale a RomnieiCIP nr. 5537/ 12.04.2006 MRUTERI, TEFAN MARIUS Noiuni fundamentale de biostatistic : note de curs / Marius Mruteri - Trgu-Mure : University Press, 2006 Bibliogr. ISBN (10) 973-7665-11-2 ; ISBN (13) 978-973-7665-11-9 519.22:57(075.8)

Editor: University Press, Trgu Mure, 2006 Str. Gh. Marinescu, 38, Trgu Mure, MS, 540139 Director de editur: Prof. Dr. chiopu Alexandru Tel: +40-265-215551/126 Fax: +40-265-210407

Cuprins

CUPRINSI. INTRODUCERE ............................................................................................................. 6 POPULAIA STATISTIC I PROBELE STATISTICE ...................................................... 7 VARIABILITATE BIOLOGIC ..................................................................................... 9 FACTORI DE EROARE .............................................................................................. 10 II. DISTRIBUII DE FRECVEN .............................................................................. 16 CURBA DE DISTRIBUIE NORMAL ......................................................................... 21 DISTRIBUII ANORMALE (NON-GAUSSIENE) .......................................................... 25 III. STATISTIC DESCRIPTIV. CONSIDERAII GENERALE. INDICATORI STATISTICI...................................................................................................................... 28 A. INDICATORI AI TENDINEI CENTRALE ................................................................ 28 B. INDICATORI AI DISPERSIEI (MPRTIERII) DATELOR N JURUL VALORII MEDII ... 29 III.1. MEDII ............................................................................................................ 31 III. 2. DISPERSIA (VARIANA). ABATEREA STANDARD ........................................... 34 III.3. EROAREA STANDARD .................................................................................... 35 III.4. EROAREA PROCENT ....................................................................................... 36 III.5. COEFICIENTUL DE VARIAIE.......................................................................... 37 III.6. GRADE DE LIBERTATE ................................................................................... 37 III. 7. LIMITE FIDUCIALE (INTERVAL DE NCREDERE) ............................................. 39 IV. STATISTIC INFERENIAL. INTERPRETAREA STATISTIC A REZULTATELOR UNUI EXPERIMENT..................................................................... 41 IV.1. TESTE DE VALABILITATE .............................................................................. 42 Noiuni introductive ................................................................................................... 42 IV.1. 1. Testul Grubbs................................................................................................ 43 IV.1. 2. Criteriul de eliminare a lui Chauvenet ......................................................... 47 IV.2. TESTE DE CONCORDAN (GOODNESS-OF-FIT)............................................ 50 Noiuni introductive ................................................................................................... 50 IV.2.1. Testul de concordan Kolmogorov-Smirnov................................................. 52 IV. 3. TESTE DE SEMNIFICAIE ............................................................................... 55 Valoarea lui P............................................................................................................ 56 Ipoteza nul (H0)........................................................................................................ 56 Dependena/independena eantioanelor studiate ..................................................... 58 Statistic parametric/neparametric ....................................................................... 59 IV.3.1. Teste de semnificaie parametrice.................................................................. 60 IV.3.2. Teste de semnificaie neparametrice. Statistica ordinei................................. 72 Testul Wilcoxon ......................................................................................................... 72 Testul Mann-Whitney U ............................................................................................. 76 V. ANALIZA DISPERSIONAL (ANALIZA DE VARIAN) - ANOVA ............... 79

3

Noiuni fundamentale de biostatistic A. BAZE TEORETICE ............................................................................................... 79 B.CONSIDERAII PRACTICE .................................................................................... 81 V.1. ANALIZA DISPERSIONAL MONOFACTORIAL ................................................ 83 V.2. ANALIZA DISPERSIONAL BIFACTORIAL ...................................................... 90 VI. CORELAIE I REGRESIE .................................................................................... 98 COEFICIENTUL DE CORELAIE................................................................................ 99 COEFICIENTUL DE DETERMINARE......................................................................... 106 ECUAIA DE REGRESIE ......................................................................................... 107 VII. ALEGEREA UNUI ANUMIT TEST STATISTIC .............................................. 112 VIII. STUDII EPIDEMIOLOGICE I CLINICE ....................................................... 115 VIII.1. INDICATORI STATISTICI UTILIZAI N STUDIILE EPIDEMIOLOGICE ............. 115 Rate i proporii....................................................................................................... 116 Indicatori ai frecvenei bolii .................................................................................... 117 Indicatori ai asocierii factori de risc (expunere)-boal .......................................... 119 VIII. 2. TIPURI DE STUDII EPIDEMIOLOGICE ......................................................... 134 STUDII DESCRIPTIVE ........................................................................................... 134 C. Studiu descriptiv de tip ecologic ........................................................................ 137 STUDII ANALITICE................................................................................................ 138 A. Studii de tip Case-Control (Case-Control studies)............................................. 139 B. Studii de tip cohort (Cohort studies) ................................................................ 142 Selecia unui anumit tip de studiu (study design)..................................................... 146 Asociere versus cauzalitate...................................................................................... 147 Criterii pentru stabilirea unei relaii de tip cauz-efect .......................................... 148 ANEXE - EXERCIII RECAPITULATIVE ............................................................... 150 ANEXA 1 - STATISTIC DESCRIPTIV, EXERCIII RECAPITULATIVE...... 151 SCURT RECAPITULARE ....................................................................................... 151 INDICATORI STATISTICI ........................................................................................ 152 INDICATORI STATISTICI PENTRU SERII DE DATE CU APARIII FRECVENTE ALE ACELEIAI VALORI ......................................................................................................... 154 FOLOSIREA CALCULATORULUI N STATISTICA DESCRIPTIV. APLICAII I EXEMPLE. 155 STATISTIC DESCRIPTIV EXERCIII RECAPITULATIVE ..................................... 160 ANEXA 2 - TESTE STATISTICE DE SEMNIFICAIE, EXERCIII RECAPITULATIVE....................................................................................................... 163 TESTUL STUDENT ............................................................................................. 163 ETAPELE APLICRII TESTULUI STUDENT........................................................... 163 UTILIZAREA FUNCIEI TTEST A UTILITARULUI EXCEL ....................................... 165 TESTUL STUDENT EXEMPLE I EXERCIII RECAPITULATIVE ........................... 167 TESTUL CHI2 ....................................................................................................... 174 ETAPELE APLICRII TESTULUI CHI................................................................................ 174

4

Cuprins UTILIZAREA FUNCIEI CHITEST A PROGRAMULUI EXCEL ........................................... 176 TESTUL CHI2 EXERCIII RECAPITULATIVE........................................................ 177 ANEXA 3 CORELAII I REGRESII, EXERCIII RECAPITULATIVE.......... 185 ANEXA 4 EXEMPLE DE STUDII EPIDEMIOLOGICE. STUDIU DE TIP CASECONTROL....................................................................................................................... 198 STUDIUL INFLUENEI UNOR FACTORI DE RISC BIOLOGICI - INFECIA CU HELICOBACTER PYLORI N APARIIA UNOR LIMFOAME MALIGNE (LIMFOAME NONHODGKIN LNH) N CAZUL POPULAIEI JUDEULUI MURE [22]........................... 198 ANEXA 5 - VALORI CRITICE PENTRU TESTUL F CORESPUNZTOARE PRAGULUI DE SEMNIFICAIE =0,05................................................................... 208 ANEXA 6 - VALORILE CRITICE PENTRU TESTUL T STUDENT CORESPUNZTOARE DIFERITELOR PRAGURI DE SEMNIFICAIE I NUMRULUI "N " AL GRADELOR DE LIBERTATE ........................................... 210 ANEXA 7 - VALORILE CRITICE PENTRU TESTUL CHI 2 CORESPUNZTOARE DIFERITELOR PRAGURI DE SEMNIFICAIE I NUMRULUI "N " AL GRADELOR DE LIBERTATE ........................................... 212 ANEXA 8 SOLUIILE EXERCIIILOR PROPUSE N ANEXE ......................... 214 BIBLIOGRAFIE SELECTIV ..................................................................................... 216

5

Noiuni fundamentale de biostatistic

Capitolul I I. Introducere[ 12, 13] Statistica matematic este tiina care urmrete explicarea fenomenelor de mas printr-un numr relativ redus de observaii. Ea folosete metode inductive de cercetare, plecnd de la particular la general. Desigur, concluziile rezultate n urma prelucrrii statistice a datelor experimentale nu sunt legiti absolut sigure, ns gradul de incertitudine poate fi calculat. Cunoscnd gradul de incertitudine al concluziilor trase, metoda statistic de cercetare poate fi considerat o metod matematic exact. Biostatistica este o ramur a statisticii, specializat n studiul fenomenelor biologice, inclusiv al celor medicale. Se ocup de culegerea, centralizarea i gruparea datelor, precum i de prelucrarea i determinarea unor parametri sau indicatori statistici pentru descrierea fenomenelor biomedicale studiate, pe baza evidenierii unor regulariti sau variabiliti statistice. Totodat aplic i dezvolt tehnici statistico-probabilistice pentru analiza datelor biomedicale. nceputurile biostatisticii au fost determinate de nevoia obinerii unor informaii cantitative dintre cele mai simple, formulate de regul sub forma ci bolnavi ? , ci decedai ? , etc. Cu timpul s-a constatat ns c asemenea metode sunt insuficiente pentru caracterizarea fenomenelor, datorit existenei unor variaii n rspunsurile care se obin ntre diverse msurtori sau, cu alte cuvinte, datorit faptului c fenomenele biologice sunt caracterizate prin variabilitate. Chiar i n aceste condiii, prin

6

Introducere

observarea unor serii lungi de msurtori, s-a descoperit c se pot calcula indicatori simpli cu mare putere de sintez, cum ar fi media (aritmetic, geometric, etc), dispersia, etc. ntr-o etap ulterioar, statistica a ctigat n puterea de analiz a fenomenelor. Pe aceast cale s-au descoperit legile care guverneaz ceea ce nainte prea ntmpltor. Aceast etap, n care statistica trece de la descrierea fenomenelor la analiza lor, se caracterizeaz prin aplicarea n general a unui aparat matematic din ce n ce mai complex i a calculului probabilitilor n special. Pentru a putea studia procesul biologic dorit, datele experimentale trebuie sistematizate prin grafice i tabele, ntocmite prin luare n considerare fie a numrului total de date, fie a unui eantion extras din acestea. Din acest punct de vedere, statistica matematic opereaz cu dou noiuni de baz: 1. Populaia sau colectivitatea statistic; 2. Proba (eantionul) extras din populaia aflat n studiu.

Populaia statistic i probele statisticeO populaie statistic poate fi definit prin totalitatea fenomenelor sau a obiectelor calitativ omogene avnd una sau mai multe caracteristici comune. De exemplu 100 de cobai crora le-a fost injectat intraperitoneal o anumit substan activ pentru a studia un anumit efect farmacologic al acesteia reprezint un exemplu de populaie statistic. 7

Noiuni fundamentale de biostatistic

Trebuie fcut o deosebire ntre o populaie statistic finit, infinit i ipotetic. Exemplul de mai sus reprezint o populaie statistic finit, n timp ce urmrirea frecvenei de apariie a unui anumit efect secundar pentru un medicament dat la nivelul unei clinici pe o durat nedefinit de timp (ce poate continua luni sau ani) reprezint un exemplu de populaie statistic infinit. Drept exemplu de populaie statistic ipotetic se pot meniona parametrii farmacocinetici ai unui model farmacocinetic simulat pe calculator care va urma s fie verificat i experimental. Pentru cunoaterea proprietilor unei populaii statistice este necesar s se cunoasc proprietile elementelor din care aceasta este compus. Practic este ns imposibil s se determine compoziia iniial a populaiei statistice studiate, deoarece ea fie ar fi distrus, fie ar fi necesare un numr foarte mare de determinri, imposibil de efectuat. Din aceste motive se apreciaz proprietile caracteristice ale populaiei statistice numai pe baza unei pri finite din populaie numit eantion (prob), care trebuie s ndeplineasc o condiie sine qua non: trebuie ca ea s fie luat din populaia statistic n aa fel nct fiecare element din populaie s aib aceeai probabilitate de a face parte din eantion. Eantioanele care satisfac acest deziderat se numesc eantioane reprezentative. nainte de a trece n revist diferii indicatori i teste statistice trebuie menionat ns variabilitatea ce exist n cadrul populaiilor statistice studiate i importana evalurii acesteia pentru obinerea unor rezultate corecte n urma experimentelor efectuate.

8

Introducere

Variabilitate biologicAa cum am menionat, analiza statistic d cercettorului posibilitatea de a preciza variabilitatea existent n snul unei colectiviti. Msura acestei variabiliti d indicaii cu consecine practice, n special n domeniul biologiei unde se spune c variabilitatea este singura realitate, media fiind o ficiune. n faa proceselor biologice, att de complexe, cum s-ar putea cunoate valorile normalului i limitele lui de variaie? Fiind dat un anumit experiment, cu o mprtiere mare a rezultatelor, cum se poate trage o concluzie just n aprecierea fenomenului cercetat? Cum putem tii dac am efectuat un numr suficient de experiene pentru a atrage o concluzie valabil ? Cnd putem spune, suficient de exact, c o diferen ntre dou msurtori este semnificativ ? Fr sprijinul statisticii matematice aceste ntrebri nu i-ar gsi niciodat rspunsul. Mai mult, interpetarea simplist a rezultatelor este neconcludent, empiric, putnd duce la erori grave de interpretare, ceea ce, n cazul domeniului medical poate pune viei umane n pericol. Cercetarea biologic se bazeaz pe rezultate obinute pe un numr limitat de observaii din multiplele posibile, este deci o cercetare de eantion. Se pune problema dac putem generaliza observaiile obinute pe un numr limitat de cazuri, la ntreaga colectivitate studiat, obinnd astfel legi cu aplicare general. Generalizarea este posibil doar dac inem cont de variabilitatea cifrelor obinute, iar statistica matematic d posibilitatea aprecierii acestei variabiliti.

9

Noiuni fundamentale de biostatistic

Astfel, dac eantionul este redus ca numr, rezultatele obinute n cercetrile biologice pot fi diferite, uneori chiar contrarii adevrului, ceea ce poart numele de fluctuaie de eantionaj. Dac eantionul este numeros, rezultatul va fi evident mai apropiat de adevr, media rezultatelor putnd fi generalizat la ntreaga populaie. Un alt aspect deosebit de important este cel al mprtierii rezultatelor: cu ct mprtierea va fi mai mare, cu att rezultatele se vor ndeprta mai mult de cele obinute cnd se examineaz ntreaga populaie (deci de valoarea real). n concluzie, generalizarea - n scopul ajungerii la concluzii valabile - depinde, din punct de vedere statistic, de dou caracteristici ale datelor analitice: 1. Numrul observaiilor efectuate (n); 2. mprtierea (dispersia) acestora (). Statistica matematic d posibilitatea aprecierii acestor caracteristici i de aici putem deduce c ea este cea care acord valoarea unei anumite cercetri ce dorete desprinderea unor concluzii cu caracter generalizator.

Factori de eroareEste cunoscut faptul c aceeai substan activ, experimentat prin aceeai metod, poate da rezultate diferite, nu numai n laboratoare diferite, ci chiar i n acelai laborator. De aceea cunoaterea de ctre cercettor a factorilor care determin aceast variabilitate, precum i a tipurilor de erori ce pot s apar este o necesitate.

10

Introducere

n general variabilitatea rezultatelor unui experiment biomedical sau farmacologic este determinat de urmtorii factori: I. Factori care in de animalul de experien: A. Factori interni: greutate, sex, vrst, ras, origine, sntate. B. Factori externi: condiii de ntreinere (alimentaie, temperatur ambiant), condiii sezoniere. C. Factori care in de individualitatea animalului,, proprii fiecrui individ i care caracterizeaz reactivitatea acestuia (amintim aici, de exemplu, mare variabilitate ntlnit la metabolizarea alcoolului etilic n cazul indivizilor speciei umane, n funcie de cantitatea de ADH disponibil n cazul fiecrui individ). II. Factori care in de mediul geografic i climateric. Se pot obine rezultate diferite n diverse pri ale globului investignd acelai medicament i urmnd chiar aceeai tehnic de lucru, organismul uman sau animal fiind o entitate biologic a crui reactivitate individual depinde de mediul nconjurtor, de factorii micro- i macroclimatici nconjurtori. III. Factori care in de tehnicile ntrebuinate. Fiecare tehnic de lucru poate da un rezultat care poate fi chiar n discordan cu cel obinut printr-o alt tehnic, de aceea cele dou rezultate nu pot fi obiectul unei comparaii realizate tiinific. Dat fiind multitudinea factorilor de eroare, cercetarea biologic ar fi insuficient sau neconcludent dac nu s-ar ine seama de anumite norme tiinifice n experimentare. Aceste norme se refer, n primul rnd la

11

Noiuni fundamentale de biostatistic

nlturarea factorilor care determin variabilitatea rspunsurilor biologice. Cteva msuri importante vor fi menionate mai jos: selecia riguroas a animalelor; ntocmirea loturilor dintr-un numr suficient de indivizi, siguri din punct de vedere biologic i/sau statistic (sntoi, de vrst apropiat, etc.); asigurarea omogenitii unui lot precum i ntre loturile luate ntr-o anumit experien; prin msurile mai sus menionate se nltur factorii de eroare ce depind de animalul de experien; determinrile comparative, prin folosirea standardelor sau a unor substane de referin, contribuie hotrtor la nlturarea factorilor de eroare care in de tehnicile ntrebuinate. Existena variabilitii biologice ne determin s admitem c ntre valoarea rspunsului biologic obinut de noi n urma unui experiment i valoarea real poate exista o anumit diferen. Cnd datele obinute de ctre noi se abat de la valoarea real putem spune c au fost comise erori, ce se datoreaz factorilor mai sus menionai sau altor factori necunoscui. Prin termenul de eroare se nelege diferena numeric dintre valoarea gsit de ctre experimentator i valoarea real (adevrat) a unui parametru msurat. E = M A (I.1) Unde E eroarea absolut M valoarea msurat

12

Introducere

A valoare adevrat Aceast valoare A a unui sistem nu poate fi cunoscut exact. n cursul experimentului se obin valori mai mult sau mai puin apropiate de valoarea A; problema care se pune este ns care sunt valorile ce pot fi acceptate. Pentru c valoarea A nu poate fi cu certitudine cunoscut se urmrete ca o valoare acceptat s se gseasc ntr-un anumit domeniu de valori, n sarcina statisticii matematice cznd stabilirea ntinderii acestui domeniu i, deci, a validrii rezultatelor unui experiment. Factorii de eroare care pot fi nlturai alctuiesc aa-numitele erori sistematice i ele afecteaz exactitatea rezultatului. Factorii care in de reactivitatea individual, de exemplu, nu pot fi nlturai, ei determinnd ceea ce numim erori aleatoare (ntmpltoare), care afecteaz exactitatea ct i precizia rezultatelor experimentale. Cu toate c aceti factori de eroare nu pot fi nlturai n totalitate, variaiile pe care ei le provoac n cadrul unui experiment dat pot fi apreciate i acestor variaii li se adreseaz calculele de eroare. Deoarece aceste variaii aleatoare se supun legilor de distribuie normal a frecvenei (despre care vom vorbi n detaliu ceva mai trziu), valoarea lor poate fi calculat. Odat acest lucru fiind realizat, precizia cercetrilor biologice poate fi confirmat tiinific. Exactitatea reprezint apropierea valorii numerice determinate experimental de valoarea adevrat. Aceasta reprezint de fapt eroarea absolut. Raportul att

Er % =

MA 100 (I.2.) M

13

Noiuni fundamentale de biostatistic

reprezint eroarea relativ, exprimat uzual n procente. Evident, cu ct rezultatul obinut se apropie mai mult de rezultatul real, cu att determinarea este mai exact.Precizia unei determinri este dat de concordana valorilor obinute

n urma determinrilor efectuate. Se spune despre o metod c este precis cnd rezultatele determinrilor sunt reproductibile, adic sunt apropiate ca valoare n contextul unor experimente repetate. Concordana ntre rezultate nu trebuie judecat numai prin prisma diferenei reale dintre ele, ci innd cont i de mrimea, n valoare absolut, a acestora. De exemplu, s presupunem c, n cazul urmririi perioadei de laten a inducerii somnului, pentru dou hipnotice S1 i S2, la oareci, s-au obinut urmtoarele:oarecele I Substana S1 Substana S2 oarecele II

32 secunde 6 secunde

33 secunde 5 secunde

Se observ c, n ambele cazuri, diferena ntre rezultate este de o secund, ns concordana ntre rezultate este mult mai bun n primul caz. Deoarece valoarea real nu poate fi cunoscut cu precizie se folosete n locul acesteia, n special n cazul distribuie normale de frecven, media aritmetic a tuturor rezultatelor individuale:x=i =1 n

Xi

n

( I.3.), unde

x media aritmetic a rezultatelor individuale n = numrul determinrilor efectuate

14

Introducere

Pentru a putea aprecia mprtierea rezulatelor unui experiment a fost definit abaterea (s):

s = x x (I.4.) unde x rezultatul individual x= media aritmetic a rezultatelor individuale s este valoarea abaterii rezultatelor individuale de la valoarea medie, i arat precizia determinrilor. n concluzie, cnd mprtierea rezultatelor individuale fa de medie este mic, iar media rezultatelor este apropiat de valoarea real, eroarea determinrii va fi mic, deci vom avea att exactitate ct i precizie bun. Erori mari survin atunci cnd rezultatele sunt mult dispersate fa de valoarea medie (precizie slab), iar media rezultatelor se ndeprteaz mult fa de valoarea real (exactitate sczut a metodei). Pot surveni i situaii paradoxale, cnd, de exemplu, rezultatele individuale s fie mult dispersate fa de medie (precizie redus), dar media lor s fie totui apropiat de valoarea real (exactitatea metodei este bun).

15

Noiuni fundamentale de biostatistic

Capitolul II II. Distribuii de frecven[11-13]

Repartizarea datelor calitative i a celor cantitative (numerice) dintro populaie statistic sau un eantion se poate efectua dup frecvena de apariie a caracteristicilor lor, obinndu-se structura colectivitii. De exemplu, o mulime de date experimentale poate fi repartizat dup calitatea efectelor observate: cu efect, fr efect sau cu efect gradat n funcie de doz. Datele (msurate pe ntreaga populaie statistic sau pe un eantion) sunt de obicei organizate n aa-numitele distribuii de frecven, pentru c o atare prezentare, reprezint formatul cel mai convenabil de sintez i prezentare a acestora. n cazul distribuiilor de frecven se afectueaz o descriere calitativ sau cantitativ a observaiilor (msurtorilor) mpreun cu numrul de apariii ale unui anumit rezultat al msurtorii respective - frecvena absolut. Se mai poate utiliza i frecvena relativ obinut prin mprirea frecvenei absolute la numrul total al observaiilor. De asemenea, pentru variabilele cantitative (numerice) continue este util s se construiasc aa-numitele intervale de variaie. Regulile generale de construire a acestor intervale sunt: numrul de intervale este bine s fie mai mic de 15 limitele fiecrei clase s se potriveasca cu gradul de acuratee (precizie, exactitate) al msurtorilor16

Distribuii de frecven

-

sunt de preferat intervalele de lungime egal, deoarece sunt mai convenabile, facilitnd prelucrrile ulterioare intervalele trebuie sa fie mutual exclusive (capetele lor trebuie s se suprapun) nu

Se obine astfel o distribuie de frecven a colectivitii respective. Se pot obine distribuii de frecven homograde (cum este cazul diagramelor), cu o singur scar de comparaie n sistemul cartezian, sau distribuii heterograde. Pentru a fi mai explicii, s lum un exemplu: Fie o serie de 33 de date numerice obinute experimental (de exemplu valori ale tensiunii arteriale sistolice): 180, 120, 110, 200, 140, 210, 200, 190, 150, 170, 140, 130, 150, 170, 160, 120, 160, 140, 160, 170, 180, 160, 150, 130, 160, 180, 190, 160, 170, 170, 150, 150, 130. Cu aceast serie se poate alctui o diagram, aeznd datele, n ordinea frecvenei, pe o singur scar a graficului cartezian (fig. 2.1.):

17

Noiuni fundamentale de biostatistic

6 frecvena de apariie 5 4 3 2 1 0 160 170 140 150 130 180 120 190 200 110 210 Valorile ale TA sistolice (mmHg)

Fig. 2.1. Reprezentarea grafic a datelor sub form de diagram n felul acesta se obine structura acestei colectiviti i se poate constata frecvena de apariie a unor rezultate (de exemplu cte valori ale tensiunii arteriale 110 se gsesc n respectiva colectivitate statistic). Cutnd i ale modaliti de caracterizare a colectivitii, se poate stabili o distribuie de frecven heterograd, pe dou scri ale sistemului cartezian, niruind pe abscis numerele, n ordine cresctoare sau descresctoare i notnd, n acelai timp, intervalele de clas, iar pe ordonat punnd frecvenele de apariie (relative sau absolute). Se obine astfel o histogram. Prin unirea ordonatelor care trec prin mijlocul intervalelor de clas se obine poligonul de frecven. Practic, pentru a reprezenta grafic corect datele colectate n cadrul unei histograme, trebuie parcuri urmtorii pai:

18

Distribuii de frecven

i. Pentru irul valorilor msurate se va determina numrul de intervale de grupare (de clas) M (eventual lungimea intervalului de grupare - d), conform formulei lui Sturges: M = 1+3,22*logn unde n = numrul msurtorilor efectuate Valoarea numrului de intervalule se va rotunji pentru a obine un numr ntreg. Pentru cazul nostru, numrul vom obine M=1+3,22*log33=5,889 adic vom avea 6 intervale. Eventual, lungimea intervalului de grupare va fi calculat cu formula:d= X max X min (II.2), 1 + 3,22 log n

(II.1),

unde Xmax, Xmin reprezint valoarea maxim i minim msurat. Pentru cazul nostru d = 210 110 = 16,97 . Dat fiind precizia 1 + 3,22 log 33

msurtorilor efectuate cu tensiometrele clasice, putem lua n considerare un o lungime a intervalului de grupare de circa 20 mmHg. ii. n baza numrului calculat de intervale (M), respectiv a valorii lungimii intervalului de grupare (d), ntre valorile limit masurate (Xmin Xmax), se vor stabili intervalele de grupare. Datele obinute vor fi centralizate ntr-un tabel. iii. Se determin frecvena absolut (ni), care reprezint numrul de apariii a datelor corespunztoare fiecrui interval de grupare n parte. i aceste date se vor trece n tabelul sus-menionat.

19

Noiuni fundamentale de biostatistic

iv. Se poate determina i frecvena relativ (fi), care reprezint raportul frecventei absolute (ni) la numarul total de msurtori (n) v. Se construiete histograma, care reprezinta o diagrama n form de dreptunghiuri avnd baza egala cu intervalul de grupare, iar nlimea cu frecvena (absolut sau relativ) vi. Se construiete poligonul de frecven, care se obine prin unirea mijloacelor superioare ale histogramei prin segmente de dreapt. Tabelul cu intervale i frecvena absolut, precum i histograma rezultat n cazul celor 33 de valori ale tensiunii arteriale sistolice sunt prezentate mai jos:Interval de grupare 190 Frecvena absolut 1 5 8 11 5 3

Fig. 2.2. Histograma20

Distribuii de frecven

Distribuia de frecven permite determinarea i a celorlalte caracteristici: tendina central (cu alte cuvinte, media), mediana, forma distribuiei, variabilitatea din interiorul ei. n figura de mai sus se poate constata c forma distribuiei se apropie destul de mult de distribuia normal Laplace-Gauss (distribuia n form de clopot). n acest caz, valoarea medie reprezint n cele mai bune condiii tendina central (pentru cazul studiat, media = 158,7).

Curba de distribuie normalVan Vijngaarden (1926) a artat pentru prima dat c variaia rezultatelor biologice se datoreaz sensibilitii individuale a animalelor (care genereaz, astfel, erorile ntmpltoare) i c ele se supun legii de distribuie normal a frecvenei stabilit, n 1820, de Laplace i Gauss. Curba de distribuie normal a frecvenei reprezint frecvena cu care revine acelai rezultat n mai multe determinri succesive. Ea se poate obine aeznd pe abscisa unui grafic diferenele, obinute n mai multe determinri, ntre media rezultatelor i rezultatele individuale, iar pe ordonat frecvenele de apariie a rspunsului pentru fiecare diferen. Graficul are forma unui clopot (fig. 2.3.):

21

Noiuni fundamentale de biostatistic

Fig. 2.3. Graficul de distribuie normal a frecvenei Media rezultatelor individuale, care se repet cel mai des (are cea mai mare frecven de apariie), este punctul cel mai nalt al curbei. Valoarea medie este notat pe abscis cu 0, deoarece diferena sa fa de medie este, evident, zero. De o parte i de alta a punctului culminant, se desfoar simetric frecvenele corespunztoare diferenelor dintre media rezultatelor i rezultatele individuale, care se gsesc pe abscis; cele negative (mai mici dect media) n partea stng, cele pozitive (deci mai mari dect media) n partea dreapt a valorii medii. Distana BD sau BC (0-1 sau 0+1) reprezint convenional o unitate denumit abatere standard i notat cu (sigma). Perpendiculara pe valoarea medie este axul de simetrie al suprafeei acoperit de curb. Perpendicularele n punctele de pe abscis care corespund valorii medii plus abaterea standard i valorii medii minus abaterea standard, nchid dou treimi din suprafaa acoperit de curb (66%). Perpendicularele care corespund valorii medii plus sau minus 2 nchid circa 95% din suprafaa acoperit de curb. Suprafeele terminale ocup numai 5 % din suprafaa total.22

Distribuii de frecven

Pentru a demonstra c sensibilitatea animalelor de laborator fa de o substan activ se supune legilor de distribuie normal a frecvenei, Van Vijngaarden a determinat doza minim letal prin perfuzie lent, cu aceeai soluie digital, lucrnd pe 573 de pisici. Efectund calculele necesare, a obinut un grafic asemntor curbei n form de clopot a lui Gauss (distribuia normal a frecvenei) i care se supune acelorai legi. S-a demonstrat astfel c variaia sensibilitii animalelor de experien fa de diferite substane medicamentoase studiate, se ncadreaz n teoria distribuiei normale a frecvenei, stabilit de Gauss. Cunoscnd aceast lege, putem efectua experiene i dozri biologice suficient de precise, din care s fie eliminate erorile determinate de reactivitatea individual a animalelor de experien. Tot din aceast lege de distribuie normal a frecvenei reiese, ns, c valoarea tiinific a unui singur rezultat obinut pe un animal sau a unor experimentri ce folosesc puine animale este mic, rezultate precise fiind cele obinute pe un numr mare de animale, prin stabilirea valorii medii a determinrilor i efectuarea unor prelucrri statistice ulterioare. Numrul mare de rezultate duce la obinerea unei curbe de frecvene mai nalt, micornd, totodat, distana dintre capetele curbei. Caracteristicile distribuiilor de frecven Orice serie de date cantitative se poate descrie prin dou elemente caracteristice: 1. indicatorii tendinei centrale 2. indicatori ai mprtierii sau dispersiei datelor

23

Noiuni fundamentale de biostatistic

Dac toate aceste elemente menionate sunt obinute n urma unui studiu populaional, ele poart numele de parametri statistici, iar dac sunt obinute n urma analizei unui eantion se numesc indicatori statistici. Din punctul de vedere al tendinei centrale, distribuiile de frecven se caracterizeaz prin medie, mod (dominant) i median. Media reprezint tendina central a unei distribuii (vom studia mai trziu modul ei de calcul). Dominanta reprezint valoarea cea mai frecvent a unei distribuii, care se confund, de fapt, cu vrful poligonului de frecven. Mediana corespunde valorii care se gsete la punctul care mparte seria statisticii n dou grupuri egale. O alt caracteristic a distribuiilor, care uneori este foarte folositoare, este forma curbei de frecven. Ea poate fi:1. simetric 2. asimetric:

- pozitiv, caz n care coada lung a distribuiei este - negativ, caz n care coada lung a distribuiei este de partea valorilor negative.

de partea valorilor pozitive.

Dou curbe cu aceeai medie, dominant i aceeai median se pot deosebi dup baz i nlime: mai ngust i mai nalt sau mai larg i mai joas. ntinderea bazei poate da o msur a variabilitii. Deschiderea este cu att mai mare cu ct participarea factorilor ntmpltori este mai mare (n figura 2.3) se pot observa diferenele ntre dou curbe cu aceeai medie). Calculul precis la mprtierea rezultatelor se face cu ajutorul abaterii standard.

24

Distribuii de frecven

Fig. 2.3. Dou curbe cu aceeai medie i dominant, dar cu mprtieri diferite ale rezultatelor n cazul distribuiilor simetrice i unimodale exist egalitate ntre media aritmetic, mod i median (este vorba despre curba normal de distribuie a frecvenei Laplace-Gauss).

Distribuii anormale (non-Gaussiene)Se cunosc, n afara distribuiei normale unimodale, i distribuii purimodale sau asimetrice (fig. 2.4):

Fig. 2.4. Distribuii anormale

25

Noiuni fundamentale de biostatistic

Pentru a ntelege mai bine importana tipului de distribuie n cazul datelor provenite din cercetarea biomedicale trebuie spus c, de exemplu, existena unor distribuii anormale pot arta o lips de omogenitate a afectelor farmacodinamice ale unui medicament. Unele distribuii pot lua forma literei U, unde important este valoarea minim (de exemplu, n cazul aciunii hipoglicemiante a unor substane active). Exist cazuri, ns, cnd fenomenele studiate se supun unei distribuii de tip special. Cele mai des ntlnite distribuii de acest tip au fost descrise de Bernouli (distribuia binomial) i de Poisson (distribuia evenimentelor rare). Distribuia binomial prezint interes mai ales n studiul fenomenelor ereditii, iar distribuia Poisson n studiul unor efecte ale compuilor radioactivi i n radiochimie. O tratare complet a tuturor tipurilor de distribuie se gsete n tratatele de statistic teoretic indicate n bibliografie. Odat constatat existena unor distribuii non-Gaussiene n cazul datelor provenite din cercetarea biomedical, testele statistice de semnificaie trebuiesc adaptate acestei situaii, eventual recurgndu-se la teste de semnificaie neparametrice (testul Wilcoxon, testul nu este legat de parametrul unei anumite repartiii. Anumite fenomene biologice rar ntlnite s-a constatat c se supun unor distribuii de tip special, cum ar fi distribuia Pearson, Neuman, U - Man Whitney etc), n cazul crora verificarea unei ipoteze, aa cum vom vedea,

26

Distribuii de frecven

Maxwell. Studiul acestor tipuri de distribuie depete cadrul acestei cri, fcnd obiectul unor manuale de specialitate. n funcie de particularitile distribuiilor gsite, se pot alege procedeele matematice cele mai indicate pentru calculul statistic i interpretarea rezultatelor. n cazul experimentrii n domeniul farmacodinamic, rezultatele unei cercetri, odat reprezentate grafic dau distribuii empirice sau experimentale. Compararea acestor distribuii cu distribuiile teoretice poate fi de un real folos pentru o interpretare just a fenomenelor observate. Trebuie menionat c majoritatea distribuiilor obinute n urma analizei datelor rezultate din cercetarea biomedical se supun legilor normale de repartiie a frecvenei, de aceea calculele i tehnicile de lucru prezentate n aceast carte se refer, n mod special, la aceast ipotez .

27

Noiuni fundamentale de biostatistic

Capitolul III III. Statistic descriptiv. Consideraii generale. Indicatori statistici[11-13, 15,16, 21, 24]

Principalii indicatori care caracterizeaz o serie de date (un set de valori ale unui eantion statistic) sunt fie indicatori ai tendinei centrale, fie indicatori ce caracterizeaz mprtierea datelor n jurul unei valori medii (indicatori ai dispersiei). Deoarece aceti indicatori descriu din punct de vedere statistic distribuia datelor studiate, permind chiar unele comparaii ale acesteia cu distibuia normal, modalitile de utilizare ale acestor indicatori statistici fac obiectul unei ramuri a statisticii denumit statistic descriptiv. O serie de date este alctuit dintr-un ir de valori pe care le notm : x1, x2, , xn . Indicatorii matematici mai importani ce caracterizeaz o serie de date sunt:

A. Indicatori ai tendinei centralex + x 2 + ... + x n (III.1), Media aritmetic - notat de regul cu x = 1 n Mediana - este acea valoare din irul de date care mparte n dou pri egale irul ordonat de valori (atenie, irul este ordonat cresctor), situndu-se la mijlocul seriei statistice. Dac numrul de valori n este un numr impar, atunci mediana este valoarea n Me= xk (III.2), , unde k = + 1 . 2

28

Statistic descriptiv

Dac n este par, deci avem un numr par de valori, mediana este x +x k +1 (III.3), unde k = n/2. definit ca fiind M = k e 2Modul - constituie valoarea care apare cel mai des, deci valoarea cu numrul cel mai mare de apariii.

B. Indicatori ai dispersiei (mprtierii) datelor n jurul valorii mediiVariana notat s2x este un indicator de mprtiere a datelor. Formula 2 2 xi ( x ) 2 de calcul este: S x = (III.4),. n 1 Abaterea standard sau deviaia standard reprezint rdcina ptrat

din varian (dispersie) :

sx = sx2 (III.5),

Coeficientul de variaie se calculeaz ca un raport procentual ntre abaterea standard i valoarea medie a irului de valori.s CV % = x 100 (III.6), x Asimetria (skewness) caracterizeaz gradul de asimetrie a unei distribuii n jurul valorii medii, comparativ cu distribuia normal. Valori pozitive ale asimetriei indic o distribuie de frecven ce prezint o coad (n englez tail) asimetric n zona valorilor pozitive ale distribuiei (valori mai mari dect media). Similar, valori negative ale asimetriei indic o distribuie de frecven ce prezint o coad (n englez tail) asimetric n zona valorilor negative ale distribuiei (valori mai mici dect media).

29

Noiuni fundamentale de biostatistic

_ 3 x x n (III.7), , unde S = abaterea Skewness = i (n 1) (n 2) S standard. Aplatizarea (kurtosis) caracterizeaz gradul de aplatizare a unei distribuii, comparativ cu distribuia normal. Valorile pozitive ale acestui indicator indic o distribuie cu un vrf mai nalt dect distribuia normal. Similar, valori negative ale kurtosisului indic o curb relativ aplatizat, comparativ cu distribuia normal. _ 4 x x 2 n(n + 1) i 3(n 1) Kurtosis = (n 1)(n 2)(n + 3) S (n 2)(n 3) (III.8),, unde S = abaterea standard.Amplitudinea - este diferena dintre valoarea maxim i cea minim A = Amax Amin (III.9). Amplitudinea relativ - notat A% este raportul dintre amplitudinea absolut i media aritmetic a seriei de date.

Atunci cnd avem foarte multe date se recomand includerea lor n clase egale ca mrime, ceea ce uureaz mult prelucrrile statistice ulterioare. Spre exemplu sortm pacienii pe grupe de vrst: 21-24 de ani, 25-30 ani, etc n acest caz apare noiunea de frecven a clasei.

Indicatori statistici pentru serii de date cu apariii frecvente ale aceleiai valori

Dac datele pe care le studiem conin valori care se repet des, se obinuiete s se grupeze datele care au aceeai valoare . Numrul de30

Statistic descriptiv

apariii ale unei valori anume se numete frecvena de apariie i se noteaz cu fi. Presupunem c n urma msurtorilor am obinut irul de valori: x1 cu frecvena f1, x2 cu frecvena f2, xn cu frecvena fn Indicatorii statistici se calculeaz conform noilor formule:Media aritmetic

x=

i =1, n

xi f ii =1, n

fi

=

x1 f1 + x2 f 2 + ... + xn f n f1 + f 2 + ... + f n

(III.10)

Mediana este xk (III.11, )unde

k = i =1, n 2

fi + 1

Dispersia (variana) :

2 sx =

i =1, n

( xi x ) 2 f ii =1, n

fi 1

(III.12)

Dat fiind importana lor, n cele ce urmeaz vor fi descrii pe larg unii dintre indicatorii statistici enumerai mai sus.

III.1. Medii

31

Noiuni fundamentale de biostatistic

Valoarea medie definete cel mai bine tendina central a unei distribuii de frecven. Totui trebuie menionat c valoarea medie niveleaz varianiile valorilor prin obinerea unei valori mijlocii, care d impresia unei stabiliti a fenomenelor, care nu este real n biologie, de aceea pentru un studiu complet al unei compatibiliti statistice, sunt necesare metode statistice care stabilesc variaiile rezultatelor obinute i care, pentru o bun interpretare, trebuie s nsoeasc valoarea medie. Cea mai uzual n statistic este media aritmetic care corespunde formulei de mai jos: Ma = xa = 1 n x i (III.13) n i=1

Media aritmetic poate fi calculat n mai multe feluri:

Media aritmetic simpl

Calculat dup formula de mai sus. Pentru exemplul din capitolul II, unde suma celor 33 de rezultate individuale era 5240, media aritmetic simpl este:

xa =

5250 = 159,09 mmHg 33

Media aritmetic ponderat

Dac, pentru exemplul din capitolul II, se iau n considerare frecvenele cu care vin numerele, se observ c ele au nsemntate inegal,32

Statistic descriptiv

numerele 110 i 210 revin numai o singur dat, n timp ce 140 sau 150 revin de patru ori n irul de date exeprimenatele studiat. n acest caz, se spune c valorile nu au pondere egal, iar numrul (frecvena) care arat de cte ori se repet fiecare valoare va fi ponderea valorii respective. Se poate calcula media, innd seama de aceste ponderi, dup formula:xa =i =1 n n

pi x ii =1

(III.14)

pi

Se face, deci, suma produselor dintre fiecare valoare i ponderea sa i se mparte la suma ponderilor. Exist un procedeu matematic pentru a determina media care uureaz calculul atunci cnd avem de-a face cu serii statistice alctuite din numere mari. De exemplu, dac variabilele studiate sunt reprezentate de masa corporal a oarecilor unei biobaze, iar frecvena lor fiind reprezentat de familii de oareci, s calculm greutatea medie a oarecilor pe familie: Procedeul se realizeaz prin alegerea unei medii arbitrare, notat cu a (frecvena cea mai mare), n timp ce cu x notm abaterile fiecrei valori de la originea arbitrar (-1, +1 etc). Frecvena o notm cu f. Formula de calcul a mediei n acest caz este:xa = a f x f

(III.15)

Se face astfel produsul dintre fiecare valoare x i fiecare frecven f i, deoarece se obin numere pozitive i negative, se face suma lor algebric, care se mparte la suma frecvenelor. n final, valoarea obinut se va scdea din a.

33

Noiuni fundamentale de biostatistic

III. 2. Dispersia (variana). Abaterea standardAa cum am mai mentionat, dispersia (variana) notat s2x este un indicator de mprtiere a datelor. Formula ei de calcul este:

(III.16) n 1 Unitatea de abatere individual fa de medie a fost denumit abaterea standard i a fost notat cu S ( se utilizeaz numai n cazul curbeiideale). Ea reprezint o msur a preciziei determinrilor sau, cu alte cuvinte, o msur a mprtierii rezultatelor individuale fa de medie. Abaterea standard poate fi calculat dup urmtoarea formul:

2 Sx

=

2 2 xi ( x )

S=

(x

i

x)

n

(3.17) unde x i x = abaterea valorilor individuale

Fa de valoare medie (indiferent de semn) se noteaz cu d (diferena). Deoarece cerecetarea biologic se bazeaz pe eantionaj, abaterea standard se calculeaz n acest caz dup formula:

S=

(x

1

x)

n 1

(III.18)

Practic abaterea standard se calculeaz ca rdcina ptrat din dispersie (varian) :

Sx = S =2 x

(x

1

x)

2

n 1

(III.19)

34

Statistic descriptiv

Fcnd ptratul diferenei, se evit posibilitatea ca aceste diferene n plus sau n minus s se anuleze, obinnd numere n valoare absolut. Aceasta oblig, ns s se extrag rdcina ptrat pentru a obine rezultatul. Se calculeaz, prin urmare, ptratul fiecrei diferene fa de medie i se face suma acestor ptrate, care se mparte la numrul determinrilor minus 1. Rdcina ptrat a acestei valori este abaterea standard S. Cunoscnd abaterea standard, adic rspndirea rspunsurilor individuale fa de medie, se cunoate precizia determinrilor. Totodat, deoarece pentru curba lui Gauss, dublul abaterii standard este reprezentat de suprafaa nchis de perpendicularele care trec prin punctele BF i BE i care acoper 95% din suprafaa total, va trebui s inem cont de aceasta, lund 2S ca i interval de ncredere (vezi figura 2.3.). Aceasta ne va certifica faptul c 95% din rezultatele noastre experimentale se vor ncadra n limitele calculate i numai 5% din ele se vor gsi n afara acestor limite.

III.3. Eroarea standardEste cunoscut faptul c determinrile biologice sunt supuse influenei a dou tipuri de erori: cele care influeneaz precizia determinrii i cele care influeneaz exactitatea determinrii. Pentru a afla exactitatea cu care s-au fcut o serie de determinri, trebuie s se calculeze abaterea

medie a valorilor medii obinute sau, altfel spus, media erorilor ce se potcomite ntr-o determinare. Aceast abatere a fost denumit eroare standard, notat cu E. Calcularea ei se face cu ajutorul formulei:35

Noiuni fundamentale de biostatistic (x 1 x )2

E =

2

n (n 1)

(III.20)

tiind c, n cazul distribuiei normale gaussiene, mprtierea n jurul mediei colectivitii a unei medii de antion este formula: E= S n

n ori mai mic

dect mprtierea rezultatelor individuale, eroarea standard este dat i de

(III.21)

Ea reprezint formula clasic a erorii standard. Rezultatele experimentrilor biologice trebuie s fie nsoite ntotdeauna de eroarea standard sau de abaterea standard, utilizndu-se formulri de tipul M S sau M E, pentru a permite o just interpretare a lor.

III.4. Eroarea procentDup cum tim, majoritatea efectelor farmacodinamice se pot ncadra n dou categorii: efecte gradate i, respectiv, efecte cuantale. De multe ori acestea din urm sunt reprezentate sub form de procente. Atunci cnd eantionul este mare, putem spune c procentele (pe) sunt distribuite normal n jurul mediei cu o abatere standard egal cuS= pq (III.22) n

unde p = procentajul de rspuns pozitiv q = procentajul de aciune negativ n = numrul cazurilor36

Statistic descriptiv

evident, q = 100 p Putem spune deci c abaterea standard a unui procent de aciune calculat cu aceast formul reprezint limitele probabile, n plus sau n minus, ale procentajului de aciune pentru o doz dat de substan activ.

III.5. Coeficientul de variaieCoeficientul de variaie se calculeaz ca un raport procentual ntre abaterea standard i valoarea medie a irului de valori.s CV % = x 100 (III.23) x

De remarcat c valoarea coeficientului de variaie nu are unitate de msur, se exprim procentual. Acest fapt permite folosirea indicatorului la compararea a dou sau mai multe serii de date, indiferent de ordinul de mrime al variabilelor (variantelor) i de unitile de msur folosite. Se poate considera c un coeficient de variaie sub 10% indic o dispersie mic (o mprtiere) a datelor, adic seria este omogen. Un coeficient ntre 10% i 30% indic dispersie mijlocie, iar peste 30% indic dispersie mare. Dac

dispersia este mare, media nu este un indicator reprezentativ.

III.6. Grade de libertateDin cele discutate pn acum am vzut cum, plecnd de la un eantion al unei colectiviti, am nlocuit abaterea standard teoretic () prin37

Noiuni fundamentale de biostatistic

abaterea standard de eantionaj (S). De asemenea, ca factor de corecie s-a folosit ptratul diferenelor individuale (d2) i s-a calculat S2. n aceeai ordine de idei, pentru a putea apropia pe S de s (abaterea teoretic) am diminuat numrul cazurilor din experiment cu o unitate, n locul efectivului total n punnd n-1. Practic formula de calcul a abaterii standard a devenitS=

d2n1

(III.24)

Spunem c n-1 este numrul gradelor de libertate.Gradele de libertate reprezint, n cazul determinrilor biologice

numrul

mrimilor

(animale,

determinri,

observaii)

folosite

n

experimentarea respectiv, din care se scade o unitate. Pornind de la aceast premiz, gradele de libertate reprezint practicnumrul mrimilor independente folosite n experimentarea respectiv.

innd seama de cele afirmate mai sus, n calculele de determinare a erorii va interveni un factor de corecie t, care depinde de numrul gradelor de libertate (tn-1). Cantitatea t se gsete n tabele (vezi Anexa 1), calculat pentru diferite probabiliti, n funcie de numrul de grade de libertate folosit (n general vom lucra cu p= 0,05). Valoarea lui t scade cu ct crete numrul observaiilor, deci cu ct este mai mare numrul gradelor de libertate. n cazul determinrilor comparative martor/prob sau a mai multor doze (loturi) se scade din efectivul total cte o unitate pentru fiecare lot. (de

38

Statistic descriptiv

exemplu numrul gradelor de libertate pentru dou loturi, n cazul mai sus menionat va fi (n1+n2-2).

III. 7. Limite fiduciale (interval de ncredere)Am vzut pn acum c principalii parametrii care descriu o populaie statistic sunt media i abaterea standard. n practic parametrii unei populaii se estimeaz pe baza determinrilor efectuate pe eantioane luate din respectiva populaie statistic. Evident parametrii probelor extrase nu sunt perfect identici cu cei ai populaiei studiate; exist ns posibilitatea de a calcula intervalul n care se pot ncadra aceti parametrii, acordnd acestui interval o anumit ncredere (probabilitate), aleas n funcie de exactitatea dorit (de obicei se alege un nivel de probabilitate de 95% sau 99%). Aceasta nseamn c, dac vom lua un numr mare de probe din aceeai populaie, 95% respectiv 99% din probe vor avea parametrii care se ncadreaz n intervalul calculat i va exista riscul ca 5% respectiv 1% din proces s se gseasc n afara intervalului calculat.Limitele fiduciale, denumite i limite de eroare sau de securitate,

reprezint intervalul n care se poate prevedea c se gsete valoarea unei medii (att n cazul efectelor gradate ct i a celor cuantale). Intervalul respectiv se mai numete i interval de ncredere. Limitele de eroare sunt, n general, proporionale cu valoarea mediei i pot fi convenional exprimate ca procente ale acestei medii. De regul, n determinri biologice calculm limitele de eroare la o probabilitate p = 0,05. n calculul limitelor de eroare se folosete factorul de corecie t, despre care tim c depinde de numrul gradelor de libertate.39

Noiuni fundamentale de biostatistic

Pentru o interpretare corect, rezultatele experimentrilor biologice trebuie exprimate dup relaia de mai jos: M tS (III.25) unde M media determinrilor t factorul de corecie pentru probabilitatea dorit S abaterea standard Dac abaterea standard (S) este exprimat n procente limitele de eroare sunt 100tS la sut. Dac folosim calculul logaritmic pentru calcularea abaterii standard n anumite experimente farmacologice, limitele de eroare sunt date deantilogaritmul lui 2 tS.

S presupunem c la testarea unui anumit analgezic, n urma experimentrii prin testul plcii nclzite, timpul de laten al reaciei nociceptive a fost de 10020 secunde, la o probabilitate p =0,05. Limitele fiduciale sunt deci cuprinse ntre 80-120 secunde. Aceasta nseamn c n 95 de determinri din 100 rezultatul gsit va fi superior timpului de 80 secunde i inferior timpului de 120 secunde, oscilnd n jurul valorii celei mai probabile (media M=100 secunde). Cu alte cuvinte, dac se repet determinarea n aceleai condiii, rezultatul se va gsi n 95% din cazuri ntre aceste limite i numai n 5% din cazuri valoarea experimental va fi n afara acestor limite.

40

Statistic inferenial

Capitolul IV IV. Statistic inferenial. Interpretarea statistic a rezultatelor unui experiment[ 1, 3, 5, 6, 10, 11-13, 15, 20, 23,24]

Odat obinute rezultatele experimentale, ele trebuie prelucrate, prezentate, i, mai ales sintetizate i interpretate, pentru a putea desprinde legalitatea urmrit. Trebuie acordat o importan deosebit interpretrii rezultatelor experimentale obinute, deoarece o interpretare prea simplist sau, dimpotriv, prea pretenioas poate duce la o scdere a valorii cercetrii efectuate. Sprijinul hotrtor n interpretarea corect a rezultatelor i n afirmarea concluziilor l aduce statistica matematic. Concluziile unui anumit experiment trebuie verificate, datele experimentale trebuie s fie reproductibile, concluziile trase trebuie s fie tiinific ntemeiate, acest lucru nefiind posibil fr o prelucrare statistic adecvat a datelor. Totalitatea testelor statistice folosite cu scopul de a demonstra existena sau inexistena unor legturi sau diferene statistic semnificative, respectiv tiinific corecte ntre variabileleinferenial.

unui anumit studiu sau

experiment, fac obiectul unei ramuri a statisticii numite statistic Se evideniaz n principal patru categorii de teste/analize statistice folosite cu succes n descrierea/interpretarea rezultatelor unui experiment tiinific:1. Teste de valabilitate 2. Teste de concordan (goodness of fit)41

Noiuni fundamentale de biostatistic

3. Teste de semnificaie 4. Corelaii i regresii

IV.1. Teste de valabilitateNoiuni introductiveDefiniie: Prin teste de valabilitate se neleg testele care permit

aflarea valorii unei experimentri n funcie de probabilitile apariiei variaiei n natur. Cu alte cuvinte, prin aceste teste putem preciza dac un anumit rezultat experimental poate fi considerat ca fiind datorat variabilitii biologice normale i care nu va ndeprta semnificativ rezultatul final al experimentului de valoarea adevrat sau este un rezultat aberant care se datorete unor factori accidental aprui n timpul experimentului (animale bolnave, tarate etc).Rezultate aberante (outliers)

De foarte multe ori ntr-un lot de rezultate experimentale apar cazuri foarte ndeprtate fa de celelalte. Problema care se pune este dac aceste rezultate pot sau nu pot fi luate n considerare, avnd n vedere faptul c influeneaz semnificativ valoarea final a mediei. Exist tendina de a elimina din start aceste rezultate, care par ntmpltoare, deoarece se consider c ele deviaz media ntr-un sens care poate fi foarte departe de valoarea real. Acest mod simplist de a raiona este total greit.

42

Statistic inferenial

Biostatistica pune la dispoziie o serie de criterii de apreciere a acestei situaii i de eliminare a valorilor care se abat foarte mult de la medie (aa numitele rezultate aberante - outliers n englez). Metodele cele mai utilizate n practic sunt testul Grubbs, respectivcriteriul de eliminare a lui Chauvenet, ce folosesc modaliti de calcul

oarecum similare.

IV.1. 1. Testul GrubbsDe-a lungul timpului statisticienii au gsit mai multe ci de a detecta i elimina rezultatele aberante. Testul Grubbs este doar una dintre aceste metode, avnd ns avantajul c este uor de aplicat. Primul pas n aplicarea acestui test const n cuantificarea ndeprtrii rezultatlui considerat aberant de celelalte rezultate. Practic, vom calcula raportul Z, constnd n mprirea diferenei dintre valoarea mediei i valoarea rezultatului aberant la valoarea abaterii standard (notat cu S sau SD standard deviation). Trebuie subliniat aici faptul c abaterea standard este calculat incluznd i valoarea rezultatului considerat aberant !X Xi SD_ _

Z=

(IV.1), unde X - media valorilor

Xi valoare rezultatului considerat aberant SD - abaterea standard

43

Noiuni fundamentale de biostatistic

Dac valoarea astfel calculat lui Z este mare, rezultatul respectiv este destul de ndeprtat de celelalte rezultate. Este tiut faptul c atunci cnd analizm date experimentale, nu cunoatem aprioric abaterea standard a populaiei statistice studiate. Dimpotriv, abaterea standard este calculat chiar din datele obinute n urma experimentului. Din aceast cauz, prezena unui rezultat aberant va crete valoarea abaterii standard calculate. Deoarece prezena unei valori aberante va crete att numrtorul (valoare absolut a diferenei dintre medie i valoarea aberant), ct i numitorul (abaterea standard a tuturor valorilor) n cazul formulei de mai sus, valoarea lui Z nu poate fi mai mare dect (n 1)n

, unde n numrul

de valori experimentale. De exemplu, dac n=5, Z nu poate fi mai mare dect 1,789, pentru orice set de date experimentale. Ca i n cazul altor teste statistice i pentru testul Grubbs au fost calculate un set de valori critice pentru Z. Evident, valoarea critic va crete cu mrimea eantionului (n), aa cum se poate vedea din tabelul urmtor:Tabel IV.1. Valoarile critice ale lui Zn Valoarea critic a lui Z n Valoarea critic a lui Z

3 4 5 6 7 8

1.15 1.48 1.71 1.89 2.02 2.13

27 28 29 30 31 32

2.86 2.88 2.89 2.91 2.92 2.94

44

Statistic inferenial 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2.21 2.29 2.34 2.41 2.46 2.51 2.55 2.59 2.62 2.65 2.68 2.71 2.73 2.76 2.78 2.8 2.82 2.84 33 34 35 36 37 38 39 40 50 60 70 80 90 100 110 120 130 140 2.95 2.97 2.98 2.99 3 3.01 3.03 3.04 3.13 3.2 3.26 3.31 3.35 3.38 3.42 3.44 3.47 3.49

Dac valoarea particular calculat pentru Z n cazul rezultatului considerat aberant este mai mare dect valoarea critic din tabelul de mai sus, atunci P este mai mic dect 0,05. Aceasta nseamn c exist mai puin de 5% anse ca, datorit ntmplrii, s ntlnii o valoare aberant mai ndeprtat de celelalte valori (n orice direcie), ct vreme datele provin dintr-un eantion extras dintr-o populaie gaussian. n acest caz, dac P 15 cifrele testului t se apropie de 2, ceea ce arat o coinciden cu distribuia normal. Formulele de calcul a diferenei semnificative, n cazul testului t sunt urmtoarele:

63

Noiuni fundamentale de biostatistic

t=

x1 x 2 n1 n2 Sd n1 + n2

(IV.8), unde

x1 , x 2

= media rezultatelor

eantionului 1, respectiv 2 n1, n2 = numrul de animale din eantionul 1, respectiv 2. sd = eroarea standard a diferenei, care se calculeaz conform formulei:sd =

d 12 + d 22n1 + n2 2

(IV.9)

unde:

d 12 , d 22 = (x1 x )21 i 2.

n eantioanele 1, respectiv 2. xi - valorile individuale n eantioanele

Dac nlocuim n formula (IV.8) valoarea erorii standard conform formulei (IV.9), obinem:t= x1 x 2 n1 n2 (IV.10) n1 + n2

d 12 + d 22n1 + n2 2

Se consider o diferen semnificativ, cu o probabilitate de eroare de 5% (p=0,05) dac t calculat este superior celui din tabelul A, pentru gradele de libertate corespunztoare. n cazul n care cele dou eantioane sunt egale numeric (n1=n2), putem reprezenta acest numr egal de cazuri prin n (n=n1=n2) i formula (IV.10) devine:

64

Statistic inferenial

t=

x1 x 2

2 d1

n(n 1)

+

2 d2

(IV.11)

Acelai test se poate folosi i n cazul n care condiiile experimentale permit administrarea concomitent a ambelor tratamente la acelai animal. n aceast situaie putem admite c rspunsurile obinute la acelai animal sunt rezultatul exclusiv al diferenelor ntre aciunea substanelor testate, restul condiiilor fiind identice. Aceasta ne permite s scdem unul din altul cele dou rezultate, obinute la acelai animal i s testm semnificaia diferenelor (di) astfel calculate (metoda poart numele de metoda cuplurilor); aplic formula:

t=

d

(d 1 d 2 )n(n 1)

(IV.12)

unde: di = valorile individuale ale diferenelor fiecrui cuplu

d =

dii

n

n

(IV.13)

Pentru o mai bun nelegere vom lua un exemplu. S presupunem c n tabelul de mai jos se gsesc rezultatele obinute la acelai animal dup administrarea standardului (s) i a probei (p), precum i diferena dintre aceste rezultate (di = p-s):

65

Noiuni fundamentale de biostatistic

Tabelul IV.6. Rezultate experimentale

Nr.crt. 1. 2. 3. 4. 5. 6. 7. 8.

s 24 20 18 45 60 72 65 54

p 35 10 36 50 74 65 70 90

di 11 -10 18 5 14 -7 5 362

d1 d2 -19 9 -4 5 -16 -4 27

(d 1 d )24 361 81 16 25 256 16 729

d 1 = 72

(d 1 d )t=

= 1488

d1 = 9

9 1488 7 8

= 1.74

Aplicnd formula (4.2.5.) se obine un t = 1,74, mai mic dect valoarea t =2,37 care este dat n tabele pentru 7 grade de libertate i o probabilitate de eroare de 5% (p = 0,05). Aceasta arat c efectul probei aflate n studiu nu difer semnificativ fa de standard.

66

Statistic inferenial

B.Teste de semnificaie pentru efecte cuantale2 2 B.1.1. Testul (Chi )

n cazul determinrilor cuantale comparative, pentru a calcula diferena semnificativ ntre dou activiti (probe) exprimate n procente, sau pentru a stabili dac exist o anumit concordan sau discordan ntre frecvenele ateptate (teoretice) i cele observate (experimentale, empirice) sau, alte cuvinte legtura existent sau inexitent nttre o repartiie teoretic i o repartiie experimental se folosete indicele 2 , propus pentru prima dat de Helmert i Pearson. Testul 2 , spre deosebire de alte teste aplicate n cazul rspunsurilor biologice cuantale, ia n considerare i ali factori dect abaterea standard a procentelor, i anume numrul cazurilor, gradele de libertate, frecvenele teoretice i frecvenele experimentale. Legtura funcional este definit de concordana sau neconcordana dintre ipoteza de lucru (efecte teoretice) i rezultatele experimentale (empirice), gradul de legtur putndu-se msura prin stabilirea frecvenei asociaiei n comparaie cu numrul cazurilor examinate, lucru care se poate exprima matematic prin raportul asociaiei Muster:Rm= Nr. cazurilor de asociere Nr. indivizilor examinai

(IV.14)

Legtura funcional dintre rezultatele teoretice (ateptate) i rezultatele experimentale ar putea fi aflat din nsumarea diferenelor ntre

67

Noiuni fundamentale de biostatistic

frecvenele teoretice i cele experimentale. Relaia care exprim matematic acest lucru este urmtoarea: di

= f teor. f exp . (IV.15)

(

)

Frecvena teoretic total poate fi egal cu frecvena empiric total, iar diferenele pozitive se pot compensa cu cele negative, de aceea n calcul vom folosi ptratele acestor diferene, ceea ce duce la relaia:

=2

(f

teor .

f exp . ) f teor .

2

(IV.16)

n cazul concordanei perfecte ntre teorie i observaie 2 = 0. Practic formula de calcul a lui 2 este cea de mai jos:2 =ee e t (IV.17) unde et

ee = efectul observat experimental et = efectul teoretic (ateptat)

Testul 2 se aplic:-

frecvenelor absolute (numere, efecte de diverse categorii) frecvenelor relative (procentaje)

Trebuie menionat ns faptul c nu putem folosi acest test dect dac efectele studiate au frecvene de apariie mai mari de 10. n determinrile biologice testul 2 poate fi folosit ca test de semnificaie n cazul rspunsurilor unice, cu ajutorul lui putndu-se aprecia dac exist o diferen semnificativ ntre dou distribuii (una teoretic i alta experimental).

68

Statistic inferenial

Pentru a compara o repartiie observat fa de o repartiie teoretic a unui caracter calitativ cu N clase, aplicm formula de mai sus i cutm probabilitatea corespunztoare la N-1. Testul este cu att mai semnificativ cu ct valoarea P gsit este mai mic i 2 calculat mai mare. S lum un exemplu: Administrnd o doz egal cu DL50 la 40 de oareci, se obine un efect de 30 de animale moarte i 10 animale supravieuitoare. Am obinut deci un procent de mortalitate de 75% fa de 50% ct era de ateptat. Dorim s aflm dac acest rezultat experimental difer semnificativ de cel teoretic (50% mortalitate) sau se datorete doar unei fluctuaii de eantionaj. Vom aplica formula de mai sus. n cazul nostru et = 20. n urma experimentului au murit 30 de aoreci, deci ee = 30. Rezultatele experimentului se trec, de obicei ntr-un tabel de forma:Tabel IV.6. Rezultatele experimentului Mori Teoretic (et) Experimental (ee) ee-et Supravieuitori Total %

20 30 10

20 10 -10

40 40 -

50 75 -

Introducnd datele n formula de calcul obinem: 2

(30 20)2 + (10 20)2 =20 20

10 2 ( 10 )2 = + = 5 + 5 = 10,0 20 20

69

Noiuni fundamentale de biostatistic

n cadrul experimentului exist dou posibiliti de evoluie, animale moarte sau supravieuitoare, deci N=2, iar N-1=1. deci numrul de grade de libertate pentru care vom cuta n tabelul din Anexa 7 va fi egal cu 1. Vom constata c valoarea lui 2 obinut de noi corespunde, pentru N=1, unei valori p=0,001, deci rezultatul obinut n urma experimentului difer semnificativ de cel estimat teoretic. n cazul nostru putem interpreta rezultatul obinut ca fiind datorat unei toxiciti crescute a produsului fa de cea ateptat teoretic (am putea presupune, de exemplu, o descompunere a substanei active cu formarea unor produi cu toxicitate crescut: urmeaz s stabilim prin cercetri ulterioare care este adevrata cauz a creterii toxicitii compusului, cretere stabilit tiinific cu ajutorul testului 2 ). n cazul comparaiei a dou procentaje, formula de calcul se bazeaz pe coeficientul de asociaie Q a lui Yule. S o aplicm n cazul a dou produse A i B, cu cte dou variabile a, respectiv b. Cifrele romane arat frecvenele absolute ale acestor variabile: Q= I III II IV (IV.18) I III + II IV

Datele pot fi grupate ntr-un tabel sinoptic ca cel de mai jos:Tabel IV.7. Tabel sinoptic a A B b

I IV

II III

70

Statistic inferenial

Dac lum un numr M de cazuri (de exemplu un experiment ce folosete M animale), formula de mai sus poate fi scris: 2 =

[(I III II IV) M / 2]2 M (I + II)(III + IV)(I + IV)(II + III)

(IV.19)

S ncercm determinarea cu ajutorul testului 2 , a activitii unui produs n comparaie cu un produs martor, urmrindu-se supravieuirea animalelor. S presupunem c, n urma experimentrii, am obinut rezultatele de mai jos:Tabel IV.8. Tabel sintetic cu rezultatele experimentului Supravieuitori Compus de cercetat Compus martor Total Mori Total % supravieuitori

I=25 IV = 21 I + IV = 46

II = 14 III = 22 II + III = 36

I + II = 39 IV + III = 43 M = 82

64% 49% -

Practic va trebui s determinm dac procentul de supravieuitori de 64%, gsit n cazul compusului cercetat, difer semnificativ statistic de procentul de supravieuitori gsit n cazul compusului martor (49%), practic dac compusul studiat este mai puin toxic dect martorul. Introducem datele din tabel n formula lui Yule. 2

[(25 22 14 21) 82 / 2]2 82 =39 43 46 36

71

Noiuni fundamentale de biostatistic

Deoarece avem din nou numai dou posibiliti, animale moarte sau supravieuitoare, vom avea N=2, respectiv N-1=1 grad de libertate. Din tabelul Anexei 7 putem constata c statisticul lui CHI2 corespunde unei valori p=0,20, statistic nesemnificativ. Putem afirma deci c produsul studiat nu este mai puin toxic dect martorul, diferena dintre procentajele obinute datorndu-se fluctuaiilor de eantionaj.

IV.3.2. Teste de semnificaie neparametrice. Statistica ordinei.Dac rezultatele experimentelor nu se ncadreaz ntr-o distribuie normal sau volumul eantioanelor extrase din populaia statistic este mic, este indicat recurgerea la un test de semnificaie neparametric. Astfel de teste fac obiectul unei ramuri a statisticii numit i statistica ordinei, la care studiaz sistemele de valori observate ale variabilelor aleatoare, din punctul de vedere al relaiilor de ordine. Un mare avantaj al acestor metode l constituie, cum am mai spus, faptul c rezultatele ce se obin nu depind de natura repartiiei variabilei aleatoare studiate. Ele se numesc neparametrice, deoarece verificarea unei ipoteze nu este legat de parametrul unei anumite repartiii.

Testul WilcoxonEste unul dintre cele mai utilizat teste de semnificaie neparametrice, extrem de util mai ales n cazul eantioanelor dependente (date pereche paired data).

72

Statistic inferenial

Aplicarea lui la studiul a dou eantioane, pentru a verifica dac acestea difer semnificativ sau nu (i, n ultim instan dac provin sau nu din aceeai populaie statistic), presupune parcurgerea urmtorilor pai: 1. Se aeaz valorile n (n = n1 + n2) n ordine cresctoare, fcndabstracie de eantioanele din care provin. Se atribuie apoi fiecrei

valori un rang de ordine cresctoare ncepnd cu 1. Dac exist valori egale, acestora li se atribuie ranguri egale cu media aritmetic a rangurilor pe care le-ar fi avut dac aceste valori ar fi fost distincte. 2. Se formeaz un tabel n care se specific, n ordine cresctoare, valorile obinute la fiecare eantion i se reine, notnd cu S, una din cele dou sume. 3. Folosind tabelul (testul Wilcoxon, p =0,95) de mai jos, se procedeaz astfel: Dac S este situat n afara intervalului din tabel, care se gsete la intersecia coloanei (n1) i a liniei (n2) se poate afirma c, la pragul de semnificaie =0,05 (sau altfel spus p = 0,05), cele dou eantioane difer. n caz contrar este justificat s se afirme c cele dou eantioane nu difer semnificativ statistic.Tabel IV.9. Valori critice, testul l Wilcoxon ( = 0,05) n1

4 4 5 11-26 12-28

5 17-33 19-36

6 24-42 26-46

7 32-52 34-57

8 41-63 44-68

9 51-75 54-81

10 62-88 66-94

73

Noiuni fundamentale de biostatistic

6 7 8n2

13-31 14-34 15-37 16-40 17-43 18-46 19-49 20-52 21-55

20-40 21-44 23-47 24-51 26-54 27-58 28-62 30-65 31-69

28-50 29-55 31-59 33-63 35-67 37-71 38-76 40-80 42-84

36-62 39-66 41-71 43-76 45-81 47-86 49-91 52-95 54100

46-74 49-79 51-85 54-90 56-96 59101 62106 64112 67117

57-87 60-93 63-99 66105 69111 72117 75123 78129 81135

69101 72108 75115 79121 82128 86134 89141 92148 96154

9 10 11 12 13 14

Exemplu. Se ia un lot martor format din n1=10 oareci i un lot

tratat, format din n2=9 oareci. Ca analgezic se folosete metamizol sodic (5mg/kg.corp), iar ca stimul chimic se folosete acid acetic 0,6% (1 ml / 10 g mas corporal). Se nregistreaz numrul de contorsiuni, rezultatele fiind trecute n tabelul de mai jos:

74

Statistic inferenial

Tabelul IV.10. Rezultatele experimentale. Testul Wilcoxon Lot martor 22 27 -* 31 34 36 36 37 51 54 55 Lot tratat 20 21 27 29 29 31 34 35 47 Ranguri tratat 1 2 4,5 6,5 6,5 8,5 10,5 12 16 S1 = 67,5 lot Ranguri martor 3 4,5 8,5 10,5 13,5 13,5 15 17 18 19 S2 = 122,5 lot

n tabelul de mai sus, pentru n1=10 i n2=9, corespunde intervalul 79121. Deoarece S2=122,5 este situat n afara acestui interval, se poate afirma c p F0,05 (2,93 > 2,44), unde F0,05 se gsete

din tabel, la pragul de semnificaie =0,05, = 5 i =42 grade de libertate (n tabel se caut pe orizontal numrul de grade de

libertate al dispersiei de la numrul, iar pe vertical numrul de grade de libertate al dispersiei de la numitor), ipoteza nul serespinge i putem trage concluzia c cele ase substane difer

89

Noiuni fundamentale de biostatistic

semnificativ din punct de vedere al efectului analgezic. Firete cercetarea nu se oprete aici, urmnd s aib loc noi determinri experimentale, menite s stabileasc acele substane care pot fi utilizate n terapia, datorit efectului suficient de puternic.

V.2. Analiza dispersional bifactorialn cazul n care se urmrete influena simulat a doi parametrii asupra unui rezultat, diferenele observate ntre rnduri (vezi tabelul V.1) se vor considera ca fiind cauzate de variaia unuia dintre parametri, iar diferena dintre coloane de variaia celui de-al doilea parametru luat n considerare. Fiecare cifr din tabel reprezint o observaie care corespunde uneia dintre combinaiile posibile ale variabilelor independente. Avnd doi parametrii variabili trebuie testate dou ipoteze de zero, dintre care una se refer la diferena valorilor medii ntre rnduri, iar a doua la diferena valorilor medii ntre coloane. Pentru testarea pimei ipoteze trebuie calculat diferena sumei ptratelor ntre rnduri, iar pentru testarea celei de-a doua ipoteze trebuie calculat diferena sumei ptratelor ntre coloane. Valorile obinute experimental vor trebui grupate, i n acest caz, sub forma unui tabel, de felul celui de mai jos. S presupunem c, n cazul exemplului folosit la analiza dispersional monofactorial, dorim, de data aceasta, s observm efectul analgezic al diferitelor substane studiate, n prezena unor substane active ce le poteneaz efectul. Primal parametru variabil va fi, n acest caz, natura substanei active, cel de-al doilea parametru variabil fiind natura substanei90

Analiza ANOVA

cu efect de potenare a analgeziei (P1, P2, Pn). Deci, n acest caz dispersia total se compune din dispersia datorat diferenelor ntre coloane, plus dispersia datorat diferenelor ntre rnduri, rmnnd i o dispersie residual, datorat erorilor experimentale. Scopul nostru este s cunoatem separat fiecare dintre aceste abateri medii ptratice.Tabelul V.5. Gruparea observaiilor pe criteriul factorilor de influen

pentru analiza dispresional bifactorialRndul Coloana M1 M2 M3 Mm Total

x1 x2 x3...

x11 x12 x13.

x21 x22 x23

x31 x32 x33...

xm1 xm2 xm3

xi1 xi2 xi3...

xnTotal

x1n x11

x2n x12

x3n x13

xmn xim

xin xij

Pentru simplificarea calculelor vom introduce notaii similare celor folosite la analiza dispersional monofactorial: Suma ptratelor tuturor observaiilor individuale:2 S1 = x ij (V.9) ij

Suma ptratelor coloanelor, mprit la numrul observaiilor nscrise n coloan:

91

Noiuni fundamentale de biostatistic

S2 =

i =1

xi

m

2

n

(V.10)

Suma ptratelor sumei rndurilor mprit la numrul observaiilor nscrise pe rnduri:n

S3 =

j=1

xi

2

m

(V.11)

Ptratul sumei tutror obsrevaiilor mprit la numrul total de observaii: xy y S3 = mn Suma ptratelor reziduale: Sr = S1 + S4 S2 S3 (V.13) Pentru calcularea dispersiilor cauzate de parametrii considerai mai trebuie s cunoatem numrul de grade de libertate pentru fiecare abatere medie ptratic parial. Deoarece S2 s-a obinut din suma coloanelor, va avea m-1 grade de libertate, iar S3, obinut din suma rndurilor, va avea n-1 grade de libertate. n sfrit Sr, n a crei formul de calcul au intervenit att diferenele ntre rnduri, dispersia cauzat de factorii aleatori (ntmpltori) va avea (m-1) (n-1) grade de libertate. Procedeul de calcul al dispersiilor, precum i testarea diferenelor ntre valorile medii ale coloanelor i, respectiv, rndurilor, sunt prezentate n tabelul V.2.2 :2

(V.12)

92

Analiza ANOVA

Tabelul V.6. Analiza dispersional bifactorial Numrul gradelor de libertate

Tipul variaiei

Suma ptratelor

Estimaia dispersiei2 S1 =

(sursa dispersiei)ntre coloane

F

S2-S4

m-1

(primul parametru variabil)ntre rnduri

S2 S4 m 1

2 S1 2 Sr

S3-S4

m(n-1)

(al doilea parametru variabil)Rezidual Sr

2 S2 =

S3 S4 m( n 1 )

2 S2 2 Sr

S1 + S4 S2 S3 (S2-

(m-1) (n-1) mn-1

2 Sr =

Sr ( m 1 )( n 1

-

-

Total

S4)+(S3-S4) = S1-S4 Cu ajutorul dispersiilor calculate conform schemei de mai sus, se

face testul F, care va arta dac diferenele observate ntre coloane, respectiv ntre rnduri, sunt reale sau sunt cauzate de factori ntmpltori. Pentru aceasta vom calcula rapoartele F =2 S1

S2 r

, respectiv F =

S2 2 S2 r

.

Dac valorile rezultate din calcul sunt mai mici dect cele gsite n tabelul93

Noiuni fundamentale de biostatistic

distribuiei F, la aceleai grade de libertate pentru care s-au calculat2 dispersiile S1 , S2 2

i respectiv S2 , vom accepta ipoteza de zero i vo r

concluziona c parametrul considerat nu influeneaz semnificativ valorile medii, diferenele fiind cauzate de factori ntmpltori. n caz contrar, ns, vom respinge ipoteza de zero i vom trage concluzia c variaia parametrilor studiai are o influen semnificativ asupra variabilei dependente.Exemplu. S lum experimentul de la analiza dispersional

monofactorial, considernd c am lucrat cu patru substane cu efect analgezic (M1, ....., M4), n prezena unei substane P, ce poteneaz efectul analgezic al acestora, substan administrat n trei doze diferite (D1, D2, D3). Rezultatele experimentului (n secunde) se regsesc n tabelul de mai jos:Tabelul V.7. Analiza dispersional bifactorial. Rezultate experimentale Doza administrat pentru efect de potenare Substana de cercetat Totalxj

Medi a

xj

M1 25 27 30 xi

M2 28 29 32 89 29,7

M3 22 23 26 71 23,7

M4 24 23 29 76 25,3 99 102 117 xij

D1 D2 D3Total

24,7 25,5 29,2= 318

= 82

xi = 27 ,3

94

Analiza ANOVA

Din tabel se observ c valorile medii ale coloanelor sunt influenate de natura substanei analgezice, n timp ce variaia valorilor rndurilor este cauzat de variaia dozei substanei cu efect de potenare a analgeziei. Pentru calcularea dispersiilor valorilor individuale n jurul acestor medii, vom calcula, mai nti, sumele auxiliare: S1 = 252 + 272 + ... + 232 + 292 =8538 S2 = S3 = S4 = 82 2 + 89 2 + 712 + 76 2 = 8487,3 3 99 2 + 102 2 + 117 2 = 8473,5 4 318 2 = 8427,0 12

Sr = 8583 +8427 8487,3 8473,5 = 4,2 Folosind schema de calcul din tabelul V.6, vom gsi dispersia cauzat de fiecare parametru variabil n parte, inclusiv dispersia rezidual, cauzat de factori ntmpltori. Toi aceti parametri statistici vor servi pentru testarea egalitii valorilor medii, pentru care vom calcula n prealabil diferenele:

S2 S4 = 60,3 cu m-1 = 3 grade de libertate S3 S4 = 46,53 cu m-1 = 2 grade de libertate Sr = 4,2 cu (m-1)(n-1) = 6 grade de libertateDe aici se obin dispersiile:2 S1 =

4,6 46,5 60,3 = 20,1; S 2 = = 23,3; S 2 = = 0,7 2 r 6 2 3

i testul F:

95

Noiuni fundamentale de biostatistic

2 S1 20,1 S 2 23,3 Fcol 2 = ; Frnd = 2 = = 33,3 0,7 0,7 Sr S2 r

n Anexa 5 gsim pentru coloane F0,05 = 4,76, iar pentru rnduri

F0,05 =5,14.Odat calculate toate aceste elemente, putem completa tabelul pentru analiza dispersional bifactorial:Tabel V.8. Rezultatele analizei Anova, bifactorial Numrul Felul variaiei Suma ptratelor gradelor de libertate Estimaia dispersiei

(sursa dispersiei) ntre analgezice ntre dozele de s.a. cu efect de potenare RezidualTotal

F

F0,05

60,3 46,5 4,2 111,0

3 2 6 11

20,1 23,3 0,7 -

28,7 33,3 -

4,76 5,14 -

Concluzii. Deoarece Fcol > F0,05 gsit n Anexa 5 pentru gradele de

libertate ale dispersiilor respective, vom respinge ipoteza conform creia valorile medii ale coloanelor sunt egale i vom trage concluzia c substanele active studiate difer semnificativ din punct de vedere al efectului analgezic, la pragul de semnificaie ales ( = 0,05).

96

Analiza ANOVA

Similar, deoarece Fln > F0,05 vom respinge ipoteza conform creia mediile liniilor sunt egale i vom trage concluzia c doze diferite de substan P, influeneaz semnificativ efectul analgezic al compuilor studiai. Odat fcute aceste constatri, vor trebui continuate experienele, pentru a vedea care dintre substane are cel mai puternic efect analgezic i, respectiv, care este doza optim de substan P, pentru potenarea efectului analgezic. Mai trebuie studiai faptul c dispersia mic datorat factorilor ntmpltori indic faptul c experienele s-au desfurat n condiii satisfctoare, reproductibile. Pn acum, la analiza dispersiilor cu doi parametri valabili am presupus c efectul acestora este aditiv. Dac aceast condiie nu este satisfcut, analiza dispersional se complic, deoarece eventuala interaciune ntre parametrii variabili se manifest prin creterea dispersiei reziduale, deoarece aceasta va cuprinde n ea i dispersia cauzat de efectul de interaciune a parametrilor luai n calcul.

97

Noiuni fundamentale de biostatistic

Capitolul VI VI. Corelaie i regresie [11-13, 15, 17]Termenul corelaie este folosit pentru a sublinia existena unei anumite forme de asociere ntre dou variabile studiate. De exemplu, n domeniul medical putem spune c am observat o corelaie ntre zilele cu cea i declanarea crizelor de astm. Pe de alt parte n domeniul biostatisticii, termenul de corelaie este folosit pentru a reliefa existena unei asocieri ntre dou variabile cantitative. n mod obinuit, suntem tentai s presupunem c aceast asociere este linear, n sensul c una dintre variabile (s o notm cu y) crete sau descrete ntr-o anumit msur, proporional cu creterea sau descreterea celeilalte variabile studiate (notat cu x). Variabila y va fi considerat variabila dependent, ce prezint un anumit grad de asociere fa de variabila x,variabila independent.

n astfel de circumstane este adesea folosit termenul de regresie (liniar), termen ce implic estimarea celei mai potrivite linii drepte care s reliefeze asocierea, aa cum vei vedea n urmtoarele pagini.

98

Corelaie i regresie

Coeficientul de corelaieGradul de asociere al variabilelor menionate anterior este msurat cu ajutorul coeficientului de corelaie, propus de Pearson i Bravais i care este o msur a asocierii liniare a celor dou variabile. Dac ns de asocierea dintre variabile nu este liniar ci poate fi exprimat doar cu ajutorul unor curbe, aceasta nseamn c sunt necesare alte msurtori ale corelaiei, folosind metode mai complexe, ce depesc scopul acestei cri. Coeficientul de corelaie este o msur a asocierii ntre dou variabile (variabila independent i cea dependent) ce poate lua valori cuprinse ntre -1.0.+1.Coeficientul de corelaie r este un numr calculat direct din

datele observate i poate varia ntre 1 i +1. Formulele de calcul ale coeficientului de corelaie r difer uor, n funcie de notaiile folosite de diveri autori. Dac xi sunt valorile msurate ale variabilei X (variabila independent) i yi sunt valorile msurate ale variabilei Y (variabila dependent), atunci coeficientul de corelaie se calculeaz astfel:

(VI.1) Ce se mai poate scrie i (VI.2)

99

Noiuni fundamentale de biostatistic

unde n= numrul perechilor de date, iar SD(x), SD(y) abaterile standard n cazul celor dou variabile. Putem ntlni urmtoarele situaii: Dac coeficientul de corelaie este r = 0 , atunci nseamn c nu avem nici o corelaie ntre cele dou variabile. De exemplu, nu exist nici o legtur ntre presiunea sanguin i numrul de fire de pr din cap. Dac coeficientul de corelaie este r = +1 nseamn c avem o corelaie pozitiv perfect, adic exist o dependen direct ntre cele dou variabile. O persoan care are o valoare mare la prima variabil va avea o valoare mare i la cea de a doua. De asemenea, valoarea unei variabile poate fi prevzut exact pe baza valorii celei de a doua variabile. Un exemplu de acest tip este corelaia dintre vrsta unui copac i numrul su de inele. Dac coeficientul de corelaie este r = -1 atunci avem o dependen invers perfect. O valoare mare a unei variabile nseamn o valoare mic a celeilalte variabile. Dac coeficientul de corelaie este ntre 0 i +1 sau ntre 1 i 0 , atunci valoarea lui r ne d tria dependenei celor dou variabile. Aceste situaii sunt prezentate n figura de mai jos:

100

Corelaie i regresie

Figura VI.1. Valoarea coeficientului de corelaie i semnificaia lui

Dac dorim s realizm neaprat o clasificare a intensitii asocierii (corelaiei) ntre variabila independent i cea dependent, putem considera, n valori absolute, urmtoarele intervale |0 < r < 0,19| - asociere foarte slab |0,20 < r < 0,39| - asociere slab |0,40 < r < 0,59| - asociere moderat |0,60 < r < 0,79| - asociere puternic |0,80 < r < 1| - asociere foarte puternic Trebuie inut ns seama de faptul c aceste limite de mai sus sunt oarecum arbitrare, astfel c trebuie s inem seama i de contextul n care am desfurat experimentele, respectiv n care am fcut msurtorile.Reprezentarea grafic a datelor n cazul analizei corelaiei i regresiei

101

Noiuni fundamentale de biostatistic

n momentul n are un cercettor a colectat dou serii de observaii (msurtori) i dorete s vad dac exist o asociere ntre ele, primul lucru care trebuie fcut este reprezentarea lor grafic, sub forma unei aa-numite diagrame de mprtiere (scatter diagram - diagram de mprtiere a rezultatelor, ntr-o traducere aproximativ a termenului). Majoritatea programelor de calcul tabelar (cum este MS Excel) ofer posibilitatea realizrii unei astfel de diagrame, similar celei din figura de mai jos:60 50 40 30 20 10 0 0 5 10 15 20 x 25 y

Diagrama de "mptiere a datelor" - Scatter Plot

Figura VI.2. Reprezentarea datelor sub form de diagram (scatter plot)

Acest tip de diagram folosete cele dou axe de coordonate pentru a reprezentata cele dou seturi de msurtori: pe axa X se afl msurtorilelegate de variabila independent, iar pe axa Y msurtorile efectuate n

cazul variabilei dependente.

102

Corelaie i regresie

De exemplu, dac un set de observaii sunt rezultatul unor msurtori experimentale, iar cealalt variabil ar fi timpul la care s-a fcut msurarea, n acest contt timpul ar fi variabila independent (reprezentat pe axa X), iar rezultatele msurtorilo ar fi variabila dependent (reprezentat pe axa Y).Not: alegerea variabilelor dependente i independente trebuie fcut cu

precauie, deoarece putem s greim uor datorit unor factori de confuzie (de exemplu o a treia variabil care le poate influena pe amndou). Astfel, este potrivit s presupunem c nlimea unui lot de copii (variabila dependent) este corelat pozitiv (r>0) negative (r 0,05, intervalul de ncredere este mult lrgit: el include aa numita ipotez nul (null hypothesis OR sau RR = 1,0) i se ntinde pe o gam de valori care ar putea sugera de la existena uneiasocieri negative expunere-boal (valoarea minim a CI 95 % este RR 1,0) Pentru a putea intepreta rezultatele analizei statistice ntr-un context tiinific pertinent, trebuie s privim la ambele capete ale intervalului de ncredere, situaiile ce pot fi ntlnite fiind prezentate schematic n tabelul IX:Tabel VIII.3. Interpretarea rezultatelor analizei statistice Valoarea minim a CI 95 % Comun Valoarea maxim CI 95 % Comun Interpretare Nu exist o asociere semnificativ 128

Studii epidemiologice i clinice

statistic ntre expunere-boal. Cu de alte cuvinte nu exist o nici asociere ntre liniile i coloanele tabelului de contingen sau dac exist ea este cu certitudine foarte mic i lipsit de interes. Un rezultat ce poate fi considerat semnficativ i din punct de vedere tiinific. Comun Diferit de 1 Nu se poate trage o concluzie foarte (relativ (mai mare clar. Dei analiza statistic demonstreaz apropiat de dect 1) 1) inexistena unei asocieri statistic semnificative, expunerea la factorul de risc duce la apariia unui interval de ncredere ce se ntinde de la o valoare minim specific unei slabe asocieri negative expunere-boal, pn la o valoare maxim specific unei asocieri pozitive puternice expunere-boal; Ct de apropiat de 0,05 este valoarea lui P ? Pentru a putea trage concluzii clare este necesar repetarea experimentului folosind mai muli subieci. Diferit de Comun Nu se poate trage o concluzie foarte (relativ 1 (mai mic clar. apropiat de 1) Dei analiza statistic demonstreaz dect 1) inexistena unei asocieri statistic semnificative, expunerea la factorul de risc duce la apariia unui interval de ncredere ce se ntinde de la o valoare minim specific unei puternice asocieri negative expunereboal, pn la o valoare maxim specific unei slabe asocieri pozitive

(relativ apropiat 1)

(relativ de apropiat 1)

129

Noiuni fundamentale de biostatistic

expunere-boal; Ct de apropiat de 0,05 este valoarea lui P? Dac P are o valoare relativ apropiat de 0,05 atenie la designul studiului ! Pentru a putea trage concluzii clare este necesar repetarea experimentului folosind mai muli subieci. Modul n care trebuie interpretate rezultatele analizei statistice n cazul studiilor ce utilizeaz tabele de contingen de tip 2x2 este cel de mai sus, clar prezentat ntr-un numr ma