p si intervale de incredere

25
"P" şi intervale de încredere P şi intervalul de încredere sunt rezultatele invariabile ale testelor statistice, şi drept urmare le găsim în toate articolele ce descriu o cercetare originală (încă din abstract). Aşadar, în finalul unei cercetări, analiza datelor se încheie prin aplicarea unuia sau mai multor teste statistice (a căror alegere se face în funcţie de tipul datelor = variabilelor), iar rezultatele acestor teste sunt p şi intervalul de încredere (CI), care ne arată binecunoscuta "semnificaţie statistică". De ce avem nevoie de statistică? Pentru că vrem să tragem concluzii cât mai valide din cantităţi limitate de date şi diferenţe importante sunt deseori mascate de variabilitatea biologică şi/sau imprecizia experimentală. Pe de altă parte, mintea umană excelează în găsirea de tipare şi relaţii şi tinde să generalizeze în exces. Se presupune că populaţia este infinită, iar noi ne facem întotdeauna cercetările pe un eşantion finit, fie că este vorba de căteva zeci de subiecţi, fie că sunt cîteva zeci de mii (ca în marile studii cardiologice, de ex. ALLHAT). Statistica (în particular p şi CI) ne foloseşte tocmai pentru a vedea, la sfârşit, dacă rezultatele obţinute pe eşantionul nostru sunt valabile în general, pe întreaga populaţie şi pot fi extrapolate la aceasta, sau sunt rezultatul întîmplării. Să presupunem că vrem să vedem dacă fumatul este factor de risc pentru infarctul de miocard. Pentru aceasta, alegem un eşantion de n pacienţi (numărul se calculează în funcţie de 1) semnificaţia clinică a fumatului = riscul relativ şi/sau riscul atribuibil care consider că merită osteneala a fi evidenţiate, şi de 2) semnificaţia statistică pe care vreau să o obţin). Îi urmăresc şi număr câţi fac infarct dintre fumători şi câţi dintre nefumători, şi calculez riscul relativ (RR)=2; în urma aplicării unui test statistic (în acest caz tip X2), obţin un p=0,01, iar calculînd intervalul de încredere al RR, obţin CI aparţine ş1.3 , 4ţ.

Upload: vasiok-balaur

Post on 28-Nov-2015

37 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: p Si Intervale de Incredere

"P" şi intervale de încredere

P şi intervalul de încredere sunt rezultatele invariabile ale testelor statistice, şi drept urmare le găsim în toate articolele ce descriu o cercetare originală (încă din abstract). Aşadar, în finalul unei cercetări, analiza datelor se încheie prin aplicarea unuia sau mai multor teste statistice (a căror alegere se face în funcţie de tipul datelor = variabilelor), iar rezultatele acestor teste sunt p şi intervalul de încredere (CI), care ne arată binecunoscuta "semnificaţie statistică".

De ce avem nevoie de statistică?

Pentru că vrem să tragem concluzii cât mai valide din cantităţi limitate de date şi diferenţe importante sunt deseori mascate de variabilitatea biologică şi/sau imprecizia experimentală. Pe de altă parte, mintea umană excelează în găsirea de tipare şi relaţii şi tinde să generalizeze în exces.Se presupune că populaţia este infinită, iar noi ne facem întotdeauna cercetările pe uneşantion finit, fie că este vorba de căteva zeci de subiecţi, fie că sunt cîteva zeci de mii (ca în marile studii cardiologice, de ex. ALLHAT). Statistica (în particular p şi CI) ne foloseşte tocmai pentru a vedea, la sfârşit, dacă rezultatele obţinute pe eşantionul nostru sunt valabile în general, pe întreaga populaţie şi pot fi extrapolate la aceasta, sau sunt rezultatul întîmplării.Să presupunem că vrem să vedem dacă fumatul este factor de risc pentru infarctul de miocard. Pentru aceasta, alegem un eşantion de n pacienţi (numărul se calculează în funcţie de 1) semnificaţia clinică a fumatului = riscul relativ şi/sau riscul atribuibil care consider că merită osteneala a fi evidenţiate, şi de 2) semnificaţia statistică pecare vreau să o obţin). Îi urmăresc şi număr câţi fac infarct dintre fumători şi câţi dintre nefumători, şi calculez riscul relativ (RR)=2; în urma aplicării unui test statistic (în acest caz tip X2), obţin un p=0,01, iar calculînd intervalul de încredere al RR, obţin CI aparţine ş1.3 , 4ţ.În privinţa p-ului, acest lucru nu înseamnă altceva decât că, dacă în realitate (la nivelul populaţiei) riscul de a face infarct al fumătorilor ar fi egal cu riscul de a face infarct al nefumătorilor, probabilitatea ca noi să fi obţinut un RR >= 2 pe un eşantion de "n subiecţi" este de 1%. Cu cât p este mai mic, această probabilitate (ca rezultatul obţinut de noi în eşantionul nostru să nu fie cel real) este mai mică.Intervalul de încredere (de obicei se calculează cel 95%) ne dă mai multe informaţii: în exemplul nostru, ne spune că în realitate (adică la nivelul populaţiei), suntem 95% siguri că riscul relativ este între 1,3 şi 4, adică

în realitate, dacă fumezi ai un risc de a face infarct miocardic de la de 1,3 până la de 4 ori mai mare

Page 2: p Si Intervale de Incredere

decât dacă nu ai fuma.A nu se confunda semnificaţia statistică cu cea clinică! Nu înseamnă că dacă p ar fi fost 0,0001 în exemplul de mai sus, fumatul ar fi fost un factode risc mai mare! Ar fi însemnat doar că sunt mult mai sigur că RR=2 obţinut în studiul meu e real, iar intervalul de încredere corespondent ar fi fost mult mai îngust! Dacă, de exemplu, vrem să demonstră m că "medicamentul m" prelungeş te viaţa în insuficienţa cardiacă, iar rezultatul este că cei trataţi cu placebo au trăit în medie 10 ani, iar cei trataţi cu m au trăit în medie 10 ani şi o zi, p=0,000001 arată doar că sunt foarte, foarte sigur că acea zi în plus se datorează medicamentului m, şi nu este rezultatul întâmplării. Cu cât p este mai mic, intervalul de încredere este mai îngust, iar gradul de certitudine mai mare.Un anumit nivel al lui p care indică faptul că o asociere (cum au fost asocierile dintre fumat şi infarctul miocardic, sau între medicamentul m şi supravieţuirea mai lungă, în exemplele noastre) este semnificativă statistic este determinată arbitrar; în cercetarea medicală, acest nivel este stabilit, prin convenţie, la 0,05. Aplicând intervalele de încredere, asocierea (sau diferenţa) nu este semnificativă statistic atunci când intervalul de încredere îl cuprinde pe 1, în cazul rapoartelor (de ex. risc relativ, odds ratio), sau pe 0, în cazul diferenţelor (de ex. risc atribuibil, reducerea riscului relativ, reducerea riscului absolut etc.) (sau în cazul NNT).Drept dovadă că p şi intervalele de încredere ne indică acelaşi lucru (sunt în acelaşi timp semnificative sau nu statistic), atunci când p=0,05, una dintre extremele intervalului de încredere 95% este 1, în cazul rapoartelor şi 0, în cazul diferenţelor.

Tipurile de variabile şi testele statistice

Alegerea metodei de analiză statistică pentru o anumită problemă depinde de comparaţia pe care vrem să o facem şi de tipurile de variabile utilizate. Aşadar, pentru a alege testul potrivit trebuie să ne punem două întrebări: Ce fel de date am colectat? Care este scopul nostru? Aceeaşi analiză o facem şi citind un articol, pentru a vedea dacă testele utilizate de autorii acestuia sunt cele corecte.

Variabilele nominale sunt variabile sub formă de nume sau alte simboluri reprezentînd categorii ce nu pot fi ordonate una în raport cu cealaltă, de exemplu numele, grupa sanguină, sexul, rasa, culoarea ochilor, diagnosticul etc. Atunci când o variabilă nominală nu poate lua decât două valori, ea este o variabilă dihotomică (binară, bimodală), cum ar fi sex masculin/feminin, mort/viu, fumător/nefumător, prezent/absent, normal/anormal, care a suferit efectul (end-point)/care nu l-a suferit etc. - variabile de tip DA/NU.

Variabilele ordinale sunt variabilele ce sunt clasificate în mai mult de două categorii şi la care există o ordine naturală între categorii (de la valoarea cea mai mică la cea mai mare) - de exemplu evoluţia bolii (agravat, staţionar, ameliorat), stadializări (insuficienţa cardiacă, TNM în cancer), scoruri etc.Chiar dacă unele variabile iau valori numerice, ele sunt considerate ordinale pentru că nu îndeplinesc condiţiile celor cantitative măsurabile (luînd exemplul unui scor de calitate a vieţii, sau al unei scale analogice vizuale pentru durere, putem spune că un individ cu scorul 10 are o durere mai mare sau o

Page 3: p Si Intervale de Incredere

calitate a vieţii mai bună decât un individ cu scorul 8, dar nu înseamnă că diferenţa dintre ei este aceeaşi cu aceea dintre un individ cu scorul 4 şi unul cu scorul 2; la fel, nu putem spune că un individ cu scorul 8 are odurere de două ori mai puternică sau o calitate a vieţii de două ori mai bună decât un individ cu avînd scorul 4; din acelaşi motiv, calcularea mediei nu are nici un sens).

Variabilele cantitative(măsurabile) pot fi continue (variabile cu un număr potenţial infinit de valori de-a lungul unui continuum: înălţimea, greutatea, TA, vârsta etc.) sau discontinue (discrete) (variabile descrise numai prin unităţi întregi ce nu pot fi măsurate în intervale mai mici decât unitatea: frecvenţa cardiacă, numărul de copii etc.). În privinţa variabilelor cantitative, este important de văzut dacă acestea au o distribuţie normală (simetrică, sub forma clopotului lui Gauss); în cazul acestei distribuţii, media este egală cu mediana şi cu modul, iar 95% dintre valorile pe care le poate lua variabila se află în intervalul media ą două deviaţii standard. Pentru a vedea dacă o variabilă are distribuţie normală, putem folosi orice program statistic şi verifică m cifric dacă media, mediana şi modul sunt foarte apropiate (ideal identice, dar în viaţa reală nu există ideal), iar media minus dublul deviaţiei standard nu trebuie să ia valori negative; sau reprezentăm variabila sub forma unei histograme şi vizual verificăm forma simetrică, de clopot.Este important să ştim dacă distribuţia variabilei noastre este normală pentru că numai variabilelor cantitative, cu distribuţie normală li se pot aplica testele statistice parametrice! De asemenea, pentru a putea aplica teste statistice parametrice trebuie ca nici dispersia (deviaţia standard) celor două grupuri să nu difere foarte mult.

Testele parametrice sunt testele care compară mediile şi deviaţiile standard ale grupurilor despre care vrem să dovedim că sunt identice sau dimpotrivă, diferite, ori media şi deviaţia standard nu au nici un sens dacă nu avem o distribuţie normală. Să presupunem că vrem să vedem dacă TA este diferită la bărbaţii faţă de femeile din Bucureşti; pentru aceasta, ideal ar fi să extragem la întâmplare două eşantioane, unul de femei, altul de bărbaţi din Bucureşti şi să le măsurăm TA. Cum valorile TA vor avea, probabil, o distribuţie normală în cele două grupuri, atunci pentru a le compara putem folosi un test parametric, care este testul t (Student). Dacă vrem să comparăm mai multe grupuri deodată (de exemplu vrem să vedem dacă TA a moldovenilor, ardelenilor sau regăţenilor diferă între ele), folosim analiza varianţei în sens unic (one way ANOVA), aplicând testul F, care ne va arăta dacă TA este diferită sau nu în cele trei regiuni istorice, fără a ne spune însă care este grupul care diferă de celelalte.

Testele nonparametrice se aplică pentru variabilele cantitative fără distribuţ ie normală şi pentru variabilele ordinale. Să luăm un exemplu din revista Medicina Internă 2004, 1:57-59 (Dumitraşcu DL et. al), în care se compară stresul la pacienţii cu dispepsie funcţională şi la martori, pe baza unui chestionar. Pentru comparaţia scorurilor de stres s-a folosit testul t. În primul rând, în cazul scorurilor nu trebuie folosite teste parametrice, scorurile nefiind variabile cantitative (vezi explicaţia de la prezentarea variabilelor ordinale). Să ne imaginăm, totuşi, că scorurile de stres sunt variabile cantitative - ca să putem aplica testul t ar trebui ca distribuţia lor să fie normală, ori în tabelul 2 putem vedea, de exemplu, scoruri (media şi deviaţia standard) de genul 0,89 şi 0,93; 7,5 şi 5,28; 1,25 şi 0,93; 0,54 şi 0,60; 0,94 şi 1,39 (şi încă altele), din care se observă clar că distribuţ ia nu este normală (dacă scădem din medie 2 deviaţii standard avem scoruri negative, care nu există în realitate), aşadar pentru comparaţie ar fi trebuit folosit un test nonparametric (testul Mann-Whitney U).

Page 4: p Si Intervale de Incredere

Pentru variabilele cantitative care nu au o distribuţie normală şi pentru cele ordinale se folosesc testele nonparametrice. De exemplu, dacă vrem să demonstrăm că pacienţii cu insuficienţă cardiacă internaţi în spitalul X sunt mai gravi decât cei internaţi în spitalul Z, comparând clasa NYHA de insuficienţă cardiacă între cele două grupuri.Atunci când pacienţii sunt împerecheaţi, folosim testele statistice împerecheate (paired), parametrice sau nonparametrice. Singura împerechere perfectă se realizează atunci când împerechem pacientul cu el însuşi, în comparaţiile înainte-după. De exemplu, comparăm TA, sau colesterolul unor participanţi la un studiu înainte de a începe tratamentul şi după o lună de tratament. Variabila (TA, colesterolul) fiind continuă şi cu o distribuţie probabil normală, vom folosi un test parametric, şi anume testul t împerecheat.Dacă variabila de comparat nu are o distribuţie normală (de exemplu valoarea creatininei la pacienţii cu insuficienţă renală) sau este o variabilă ordinală (stadializarea tumorii, sau clasa NYHA a insuficienţei cardiace, sau scorul durerii pe o scală analogică vizuală, înainte şi după un tratament), vom folosi un test nonparametric împerecheat, care este testul Wilcoxon. Echivalentul nonparametric al ANOVA (testul F) este testul Kruskal-Wallis. Testele nonparametrice nu ţin cont de valoarea efectivă a variabilei, ci de ordinea lor (rank tests) - care este valoarea cea mai mică, care este următoarea şi aşa mai departe... În cazul variabilelor dihotomice (pentru compararea proporţiilor) se foloseşte testul X2 sau variantele sale Yates şi mai ales testul exact al lui Fisher (atunci când în tabelul de contingenţă 2x2 avem într-una din căsuţe o valoare aşteptată mai mică de 5). De exemplu, atunci când vrem să comparăm proporţ ia de pacienţi care a făcut infarct în grupul tratat cu statină cu proporţia de pacienţi care a făcut infarct în grupul tratat cu placebo. De remarcat că în studiile terapeutice, atunci când avem de-a face cu efecte surogat studiem variabile cantitative (TA, transaminaze, clasa NYHA, fracţia de ejecţie, densitatea osoasa etc.), pe când în cazul efectelor serioase avem de-a face cu variabile dihotomice (pacientul a suferit sau nu infarctul de miocard, fracura, decesul etc.).Când vrem să vedem cum (şi dacă) variază o variabilă cantitativă în funcţie de o altă variabilă cantitativă, aşadar vrem să vedem în ce măsură două variabile cantitative se corelează, calculă m coeficientul de corelaţie al lui Pearson ( r). De exemplu, putem vedea dacă vârsta se corelează cu VSH (adică VSH creşte odată cu vârsta).Dacă variabilele cantitative nu au o distribuţ ie normală, sau sunt ordinale (de exemplu, corelaţia dintre fracţia de ejecţie şi clasa NYHA a insuficienţei cardiace stângi, sau dintre valoarea transaminazelor şi cea a scorului necroinflamator găsit la biopsia hepatică) utilizăm echivalentul nonparametric al coeficientului Pearson, care este coeficientul de corelaţie Spearman. Dacă, în cazul a două variabile care se corelează, putem spune care variabilă o determină pe cealaltă şi/sau vrem să calculăm valoarea unei variabile ştiindo pe cealaltă, utilizăm regresia lineară (de exemplu, ştiind valoarea ALAT, putem prezice scorul necro-inflamator de la biopsie, sau ştiind înălţimea prezicem valoarea VEMS, sau ştiind doza de captopril pe care o administrăm prezicem cu cât va scădea TA). Variabilele cantitative pot fi transformate oricând în variabile ordinale sau dihotomice (de exemplu valorile colesterolului în quartile, sau în colesterol normal/crescut). În baza noastră de date este indicat să trecem (şi pentru aceasta să culegem) variabilele noastre ca atare, pentru că apoi putem să le transformăm oricând în ordinale sau dihotomice, pe când invers nu vom putea niciodată (de exemplu introducem în baza de date anemie DA/NU şi apoi descoperim că ar fi fost mai bine să avem chiar valorile hemoglobinei!). Partea cea mai dificilă este alegerea între testele parametrice şi cele neparametrice. Alegem clar un test nonparametric în trei situaţii:1. efectul este o variabilă ordinală şi populaţia este clar non-gaussiană (de exemplu notele studenţilor, scorul Apgar, scala vizuală analogică pentru durere etc.);2. efectul este o variabilă cantitativă şi suntem siguri că nu are o distribuţie gaussiană în populaţie (în acest caz o putem aduce la o distribuţie normală prin transformare: logaritmul,

Page 5: p Si Intervale de Incredere

reciproca, rădăcina pătrată - din punct de vedere matematic este corect, mai puţin din punct de vedere biologic);3. efectul este o variabilă cantitativă cu distribuţie gaussiană, dar dispersia (deviaţia standard) este mult diferită între grupurile de comparat.Când avem cazuri puţine, este greu de spus dacă distribuţia este gaussiană, iar testele speciale pentru verificarea normalităţii (Komogorov-Smirnov) au putere mică. De fapt, ceea ce contează este distribuţia la nivelul populaţiei, şi nu la nivelul eşantionului nostru, iar informaţii despre distribuţia valorilor unei variabile în populaţie trebuie căutate în literatură! (este bine de reţinut că în natură, distribuţiile non-gaussiene sunt frecvente, iar acest fapt este valabil îndeosebi în cazul valorilor biologice). Când nu ştim dacă distribuţia este normală, alegerea tipului de test depinde de mărimea eşantionului: dacă eşantionul este mare (cel puţin 24/30 de date în fiecare grup), este mai uşor de spus dacă eşantionul provine dintr-o populaţie gaussiană, dar nu are mare importanţă, putem folosi orice tip de test, rezultatul va fi acelaşi. Problema apare dacă eşantionul este mic, când este greu de spus dacă populaţia este gaussiană. În concluzie, putem afirma că testele nonparametrice nu sunt puternice, iar cele parametrice nu sunt robuste.

Introducere în statistic

De ce avemnevoie de analiza statistică? Fiindcă vrem să tragem concluzii cât mai valide din cantităţi limitate de date (concluzii despre populaţie, pornind de la un eşantion) şi pentru a face acest lucru trebuie să depăşim două obstacole: Primul este reprezentat de faptul că diferenţe importante sunt deseori mascate de variabilitatea biologică şi/sau imprecizia experimentală. Dacă toţi indivizii fumători ar face cancer pulmonar şi niciun individ nefumător nu ar face sau dacă toţi indivizii cu infarct miocardic acut ar muri dacă nu ar fi trataţi cu clopidogrel, pe când toţi cei trataţi cu clopidogrel ar trăi, atunci nici n-am mai avea nevoie de statistică (de altfel, acest ultim caz, care este din păcate foarte rar întâlnit, nici nu necesită studiu clinic randomizat pentru dovedirea eficienţei unui tratament, constituind în sine un nivel superior al dovezii, 1c, din care decurge gradul de recomandare A).În realitate, însă, există indivizi care fumează şi nu fac infarct miocardic, după cum există indivizi care nu fumează şi fac infarct - este fumatul un factor de risc pentru accidentul coronarian acut? Dacă avem două loturi de pacienţi, unul sub tratament cu captopril şi celălalt fără tratament, este posibil să găsim indivizi cu TA de la 110 mmHg la 180 mmHg în ambele loturi şi atunci ne întrebăm - scade captoprilul TA? Se ştie că orice test diagnostic are fals pozitivi şi fals negativi - dacă testul este negativ, este adevărat că pacientul nu are boala, sau dimpotrivă, dacă este pozitiv, o are înr-adevăr? Aceste lucruri trebuie să ne facă să judecăm totul în probabilităţ i (dintre care probabilitatea de a face o complicaţie sau de a deceda se numeşte risc): dacă fumează, un individ are o probabilitate mai mare să facă infarct miocardic decât dacă nu fumează (deşi este posibil să nu facă nici un infarct şi să-şi vadă vecinul, nefumător, făcând unul); dacă este tratat cu anticoagulante, individul cu tromboză venoasă profundă are o probabilitate mai mică să facă trombembolism pulmonar decât dacă nu se tratează - asta nu înseamnă că cei trataţi cu anticoagulante nu mor niciodată de trombembolism pulmonar, iar cei netrataţi nu pot scăpa fără să-l facă; în sfârşit, un test pozitiv doar creşte probabilitatea unui anumit diagnostic, după cum unul

Page 6: p Si Intervale de Incredere

negativ doar o scade, iar în practică nu punem un diagnostic doar atunci când suntem 100% siguri de el, pentru că de fapt nu putem fi niciodată 100% siguri.Al doilea obstacol este reprezentat de faptul că mintea umană excelează în găsirea de tipare şi relaţii, şi tinde să generalizeze în exces. Un exemplu luat dintr-o carte de statistică - o fetiţă i-a spus colegului ei de joacă: "tu nu poţi să te faci doctor, numai fetele pot", pentru că singurii trei medici pe care îi cunoştea ea, erau femei. Această tendinţă de generalizare nu pare să dispară cu vârsta, iar oamenii de ştiinţă au aceeaşi problemă, care poate fi prevenită prin rigoarea statistică.Calculele statistice extrapolează de la eşantion la populaţie.Calculele statistice ne permit să tragem concluzii generale pornind de la o cantitate limitată de date, extrapolând datele de la eşantion la populaţie. Distincţia dintre eşantion şi populaţie este cheia înţelegerii unei bune părţi din statistică, iar aceşti termeni sunt folosiţi în diferite contexte, de exemplu:

1. Controlul de calitate:din populaţia de cămăşi sau automobile fabricate lunar sunt extrase câteva (un eşantion) care sunt controlate, iar rezultatele sunt generalizate asupra întregii populaţ ii de cămăşi, sau automobile.

2. Sondajele politice: se extrage la întâmplare un eşantion de votanţi care sunt chestionaţi, iar rezultatele sunt folosite pentru a trage concluzii la nivelul întregii populaţii de votanţi, putând astfel să estimăm care va fi rezultatul alegerilor. Este probabil singurul loc în care calculele statistice efectuate pe eşantion sunt verificate la nivelul populaţiei, în momentul alegerilor.

3. Studiile clinice:eşantionul de pacienţi studiaţi este rareori extras la întâmplare din populaţ ia generală (populaţia de pacienţi cu insuficienţă cardiacă cls. III-IV, de exemplu, dacă studiem efectul unui tratament la aceşti pacienţi). Totuşi, pacienţii incluşi în studiu sunt reprezentativi pentru toţi pacienţii, şi astfel se poate face extrapolarea de la eşantion la populaţie. Care este populaţia? Toţi pacienţii cu insuficienţă cardiacă cls. III-IV care se prezintă la internare la Clinica de Cardiologie X? Sau toţi pacienţii din Bucureşti, din România, ori din lume? Este clar că, în timp ce populaţia este definită vag, dorim să folosim datele eşantionului pe care s-a făcut studiul pentru a trage concluzii asupra unui grup mai mare.În cercetarea biomedicală, de obi- cei presupunem că populaţia este infinită, sau în orice caz foarte mare comparativ cu eşantionul nostru. Toate calculele statistice se bizuie pe această presupunere.

Ce face analiza statistică?

Raţionamentul statistic foloseşte trei tipuri de abordări generale:1. Estimarea statistică.

Cel mai simplu este calculul mediei unui eşantion. Deşi un calcul exact, această medie este numai o estimare a mediei populaţiei, şi se numeşte estimare punctuală. Cât de bună este această estimare depinde de mărimea eşantionului şi de dispersia valorilor, iar calculele statistice combină aceste

Page 7: p Si Intervale de Incredere

două lucruri pentru a genera un interval, cunoscut ca intervalul de încredere* al mediei populaţiei. Presupunând că eşantionul este extras la întâmplare din (sau măcar reprezentativ pentru) întreaga populaţie, atunci putem fi 95% siguri că media populaţiei se află în intervalul de încredere 95%, sau 99% siguri că media populaţiei se află în intervalul de încredere 99% (de obicei se utilizeză cel 95%).Similar, se pot calcula intervale de încredere pentru proporţii, riscuri, riscuri relative, odds ratio, reduceri de riscuri relative sau absolute, sensibilităţi şi specificităţi etc.Dacă luăm exemplul studiului EUROPA, efectuat pe 12.218 pacienţi, în abstract (Rezultate) vedem că perindoprilul a redus riscul relativ al unui efect compozit cu 20%, intervalul de încredere 95% fiind 9-29. Asta înseamnă că în studiul EUROPA, pe eşantionul de 12.218 pacienţi, perindoprilul a redus riscul relativ cu 20%, aceasta fiind estimarea punctuală. Pe noi, însă, ne interesează cât reduce perindoprilul riscul relativ în realitate, la pacienţii cu coronaropatie şi fără hipertensiune sau insuficienţă cardiacă, aşadar care ar fi această reducere de risc relativ la nivelul populaţiei; intervalul de încredere 95% ne spune că putem fi 95% siguri că, în realitate (adică la nivelul populaţiei de indivizi cu coronaropatie), perindoprilul reduce riscul relativ cu între 9% şi 29%.

2. Testarea ipotezei statistice ne ajută să vedem dacă o diferenţă observată într-un studiu (şi deci pe un eşantion, pentru că întotdeauna studiile sunt realizate pe eşantioane) este adevărată (adică valabilă la nivelul populaţiei), sau a fost rezultatul întâmplării. Dacă între populaţii nu există în realitate nicio diferenţă, care este probabilitatea ca extrăgînd la întâmplare un eşantion să găsesc între populaţiile din acest eşantion o diferenţă la fel de mare sau mai mare decat cea găsită? Răspunsul este o probabilitate numită p.Folosind acelaşi exemplu şi acelaşi rezultat din studiul EUROPA, pentru reducerea riscului relativ (care a fost 20%) se dă şi valoarea p=0,0003. P este răspunsul la intrebarea: dacă in realitate perindoprilul nu scade riscul de mortalitate cardiovasculară şi/sau accident coronarian acut, care este probabilitatea ca, intr-un studiu efectuat pe 12.218 pacienţi, în grupul tratat să apară o reducere a riscului relativ cu .20% din pură întamplare? Sau, altfel spus, dacă intre cele două populaţii (populaţia tratată cu perindopril şi cea tratată cu placebo) nu există in realitate nicio diferenţă în privinţa efectului compozit, care este probabilitatea ca intr-un studiu precum EUROPA să apară o reducere a riscului relativ cu .20% în grupul perindopril, numai din întamplare? Răspunsul este p=0,0003, adică 0,03%, deci foarte mică.

3. Modelarea statistică, prin care se testează cat de bine se potriveşte un model experimental (clinic) cu un model matematic construit pe baza unor principii biologice, fiziologice etc. Cea mai uzuală formă de model statistic este regresia lineară.

Analiza univariată(statistica descriptivă)

Page 8: p Si Intervale de Incredere

Analiza oricărui studiu, fie că este un studiu randomizat multicentric de multe miloane de dolari pe 100.000 de pacienţi, fie un studiu descriptiv pe 40 de pacienţi, începe cu descrierea distribuţiei variabilelor1. Aceasta se face utilizând analiza univariată şi diferite tehnici grafice.

Uneori se utilizează termenul "univariată" cu privire la statisticile care evaluează relaţiile dintre două variabile (variaţia unei variabile în funcţie de o alta); alţii însă2 preferă termenul pentru analiza descriptivă a unei variabile, preferându-l pe cel de analiză bivariată în cazul studierii a două variabile.

Variabilele nominale (calitative)

Variabilele calitative (nominale) apar atunci când indivizii cad în clase separate, care nu au vreo relaţie numerică una cu cealaltăşi deci nu pot fi puse într-o ordine (de ex. sex, culoarea ochilor, grupa sanguină, rasa, diagnosticul etc. Chiar dacă putem pune valorile pe care le ia variabila calitativă într-o ordine (cel mai simplu: ordinea alfabetică), această ordine nu are nici o semnificaţie din punct de vedere biologic. Cel mai simplu mod de descriere a variabilelor calitative

este prin intermediul unui tabel de frecvenţe, în care apare numărulde cazuri pentru fiecare categorie.În Tabelul 1, în prima coloană avem valorile variabilei calitative "diagnosticul etiologic", în a doua numă- rul de cazuri din fiecare categorie, iar în a treia numărul de cazuri exprimat procentual (frecvenţa relativă, sau frecvenţa proporţională a fiecărei categorii). Atunci când prezentă m rezultatele cercetării noastre unei audienţe, având la dispoziţie un timp limitat, convertim informaţia din forma de mai sus

Page 9: p Si Intervale de Incredere

ntr-una grafică, cu impact mai mare şi din care punctele cheie sunt percepute mai rapid. Pentru variabilele nominale, prezentarea grafică se face sub formă de plăcintă ("pie" în engleză) sau bare.Plăcinta arată frecvenţa relativă a fiecărei categorii împărţind un cerc în sectoare ale căror unghiuri sunt proporţionale cu această frecvenţă relativă. Figura seamănă cu o plăcintă rotundă (sau tort) tăiată în felii gata să fie servite.Reprezentarea grafică sub formă de bare, acestea pot fi orizontale sau verticale şi au o lungime proporţională, din nou, cu frecvenţa relativă.

Statistica descriptivă a variabilelor calitative ---nişte greşeli

Aveam de gând să trec mai departe, ocupându-mă de analiza descriptivă a celorlalte tipuri de variabile, când am dat din întâmplare peste un articol şi mi-am amintit că trebuie să vorbesc despre un tip de eroare care este des întâlnit, mai ales la congresele din ţară.

Articolul era o statistică descrip tivă a unei serii de 37 de cazuri de scleroză sistemică progresivă, iar dintre aceştia, 21 (57%) au avut forma difuza, iar 16 (43%) forma limitată. Atât în abstract, cât şi în textul articolului sunt o mulţime de date cu privire la aceşti 37 de pacienţi, exprimate în valoare absolută şi sub formă de procente. Prima regulă este că, atunci când avem de-a face cu eşantioane de sub 100, trebuie să furnizăm datele numai în valoare absolută, niciodată sub formă de procente. De ce? Imaginaţi-vă că cineva ar face un sondaj pe 37 de indivizi (chiar luaţi la întâmplare, de pe listele cu toţi indivizii cu drept de vot din ţară), întrebându-i cu cine votează la alegerile viitoare, iar dintre aceştia 21 ar spune că votează cu Băsescu. Dacă ar publica un articol în RevistaRomână de Politică, ar trebui să spună că a efectuat un studiu pe 37 de indivizi, iar dintre aceştia 21 au declarat că votează cu Băsescu. Ar putea prezenta datele şi altfel, spunând că 57% dintre indivizi declară că vor vota cu Băsescu la alegerile viitoare, iar cei care citesc articolul şi-ar închipui, văzând datele exprimate în acest fel, că Băsescu are cele mai mari şanse de a câştiga alegerile din primul tur.De fapt, exprimarea unei propor ţii sub formă de procente implică o generalizare a rezultatelor obţinute pe eşantionul nostru, la întreaga populaţie la care se referă studiul - adică, dacă citeşti că 21 din 57 de pacienţi au avut forma difuză de sclerodermie, înţelegi exact ce ţi se spune, dar dacă citeşti că 21 de pacienţi (57%) au avut forma difuză, ai tendinţa să înţelegi că, în general, circa 57% dintre pacienţii cu sclerodermie au forma difuză, iar restul forma limitată, ceea ce nu este adevărat: în realitate, conform studiului sus-citat, între 39 şi 72% dintre pacienţii cu sclerodermie au forma difuză (intervalul reprezintă intervalul de încredere 95% al proporţiei 21/57, calculat cu Epi Info 6). Cu acest rezultat (între 39 şi 72% din voturi), Băsescu nu ar fi fost nicidecum mulţumit, dar înacest caz ai destui votanţi pe listă ca să lărgeşti eşantionul; din păcate (pentru ştiinţă), sclerodermiile sunt mai rare - dar atunci trebuie date valorile ca atare, pentru a nu crea o falsă impresie de precizie.Nici pentru eşantioane de peste 100 de indivizi lucrurile nu sunt perfecte, dar oricum se îmbunătăţesc vizibil: intervalul de încredere al proporţiei 57/100 este ş46, 66%ţ, mult mai îngust (bineînţeles, nu destul de îngust pentru un sondaj politic, fiindcă Băsescu pierde alegerile cu 46%, dar le câştigă cu 66%!).A doua regulă este aceea că, dacă avem eşantioane de sub 200 de valori, nu trebuie să dăm zecimale la procente, din acelaşi motiv ca mai sus, şi anume deoarece se creează o falsă impresie de precizie, care nu există: nu contează că scriem 57%, sau 56,6%, sau 57,4%, când în realitate intervalul este între 39 şi 72%, în cazul eşantionului de 37 de pacienţi, sau între 46 şi 66%, în cazul eşantionului de 100 de pacienţi . (În exemplele de reprezentări grafice din numărul trecut erau procente cu zecimale; figurile au făcut parte din

Page 10: p Si Intervale de Incredere

prezentarea doctoratului meu, din 2002, un studiu pe 164 de pacienţi, iar pe vremea aceea nu ştiam multe dintre lucrurile pe care vi le prezint acum - omul cât trăieşte învaţă!).

Statistica descriptivă (II).Variabilele ordinale

Variabilele ordinale sunt variabile care sunt clasificate în mai mult de două categorii şi la care există o ordine naturală între categorii, cum ar fi evoluţia bolii, stadia - lizări, clasificări, scoruri, scale Lickert etc.

Atunci când vrem să facem o statistică descriptivă a acestui tip de variabile, putem folosi tabelul de frecvenţe, modul (valoarea cea mai frecventă a variabilei) şi mediana (valoarea care împarte grupul în două jumătăţi egale). Utilitatea mediei este cel puţin discutabilă!

După cum se vede din tabelul de frecvenţe, Stadiul II de insuficienţă cardiacă reprezintă mediana, deoarece această valoare împarte lotul nostru în două (mediana este reprezentată de valoarea variabilei care conţine valoarea de 50% din a patra coloană = frecvenţa cumulată) (mai multe detalii la variabilele cantitative numerice). Din grafice (îndeosebi din cel tip bare) vedem că modul (valoarea cea mai frecventă) este reprezentat tot de valoarea Stadiul II de insuficienţă cardiacă.Uneori, variabilele sunt exprimate sub formă de text (vindecat, ameliorat, staţionar, agravat, decedat), însă alteori sunt exprimate sub formă numerică şi cercetătorii sunt ispitiţi să se poarte cu ele ca şi cum ar fi variabile nu-merice, deşi nu sunt. Greşeala cea mai frecventă este aceea de a calcula şi furniza mediile (uneori şi cu deviaţia standard)!Dacă insuficienţa cardiacă ar fi fost clasificată ca uşoară, moderată, semnificativă şi severă, cred că nimănui nu i-ar fi dat prin minte să calculeze media (ar fi trebuit să spună, poate, că în medie, pacienţii au avut insuficienţă cardiacă semnificativă spre severă!?...). Nici cum este ea în realitate, scrisă cu cifre romane (care se folosesc tocmai pentru a arăta ordinea), nu prea îndeamnă la calcularea mediei, ceea ce nu înseamnă că imaginaţia (sau ignoranţa) cercetătorilor are vreo limită, iar a recenzorilor asemenea, din moment ce vedem apărând astfel de gafe în reviste mari. Aşa un articol mi-a fost semnalat de o persoană care nu avea nici un fel de cunoştinţe de statistică, dar al cărei bun simţ a fost iritat de o astfel de construcţie. Am folosit imediat articolul ca exemplu negativ în cursurile mele, dar cum computerul portabil mi s-a stricat acum 3 luni, neputând recupera nimic de pe hard, a trebuit să caut din nou articolul despre care nu mai ştiam decât că este în revista Heart şi se referă, normal, la pacienţi cu insuficienţă cardiacă, aşa că pe site-ul revistei am căutat "NYHA" şi am găsit repede două articole cu această greşeală [1,2]; probabil că sunt mult mai multe, şi în alte reviste, dar m-am oprit din căutări, mulţumindu-mă cu cele două exemple (Tabelele 2 şi 3).

Vedem foarte bine că variabila "clasa NYHA a insuficienţei cardiace" a fost tratată în ambele articole ca o variabilă numerică continuă, calculându-se media şi chiar şi deviaţia ori eroarea standard, ceea ce, vom

Page 11: p Si Intervale de Incredere

vedea mai târziu, nu are sens nici măcar în cazul tuturor variabilelor numerice (doar la cele cu distribuţie normală), d-apoi la cele ordinale!

De ce nu are sens să calculăm, în cazul variabilelor ordinale media? Pentru că, deşi sunt exprimate de multe ori numeric, ele nu sunt măsurători pe o scală în care distanţa dintre valori să fie egală (diferenţa dintre insuficienţă cardiacă clasa a IV-a şi cea de clasa a III-a nu este aceeaşi cu diferenţa dintre clasa a III-a şi a II-a, sau dintre a II-a şi a I-a, iar un pacient cu insuficienţă cardiacă clasa a IV-a nu are o insuficienţă de două ori mai mare decât unul cu clasa a II-a şi de patru ori mai mare decât unul cu clasa a I-a; pe când diferenţa dintre vârsta de 21 de ani şi cea de 22 de ani este aceeaşi cu diferenţa dintre 45 şi 46 de ani, iar vârsta de 66 de ani este de trei ori mai mare decât cea de 22 de ani, la fel şi la creatinină, TA etc.).În cazul insuficienţei cardiace (clasificarea NYHA), lucrurile sunt evidente - deşi nu chiar atât de evidente, după cum amvăzut (apropo, în cazul celui de al doilea articol, al lui Braun, este interesant de ştiut ce fel de test statistic s-a folosit pentru comparaţia clasei NYHA cu grupul martor, pentru că după cum vom vedea, anumite teste statistice se folosesc pentru variabilele ordinale şi altele pentru cele numerice; vedem că p este la limita semnificaţiei statistice, dar nu ştim ce test a folosit pentru că nu scrie nicăieri în articol, credeţi-mă că am căutat!).Aşadar, dacă la clasa NYHA unde variabila ia doar 4 valori lucrurile ar trebui să fie evidente, mai puţin clare sunt atunci când lucrăm cu scale/scoruri de zeci sau chiar sute de puncte, cum sunt cele de calitatea vieţii în diferite boli (WOMAC, StGeorge Respiratory etc.). Scorurile ob - ţinute aici sunt compuse din subscoruri care se dau pentru diferite aspecte, aşadar nu îndeplinesc criteriul unei variabilenumerice scalare, şi anume diferenţele dintre valorile scalei să fie aceleaşi pe toată lungimea ei; acest criteriu putem spune că este îndeplinit cât de cât când este vorba despre scale analogice vizuale, unde pacientul sau medicul dă o notă pe o scală de la 1 la 10, sau de la 1 la 100, dar şi aici, ca şi în cazul notelor la şcoală, pentru aceeaşi prestaţie se pot da note diferite, pentru că nu avem un instrument de măsură ca pentru variabilele numerice clasice (TA, vârsta, creatinina, colesterolul etc.). Cu toate acestea, de multe ori aceste scale (chiar şi cele compuse din subscoruri), sunt tratate ca şi variabile numerice, calculându- se medii şi aplicându-se teste parametrice, şi când atât de multă lume face şi publică aşa, te întrebi dacă mai are vreo importanţă dacă este sau nu corect!

III.Variabilele cantitative

Page 12: p Si Intervale de Incredere

Valoarea acestor variabile este rezultatul unormăsurători şi este exprimată sub formă de numere.Măsurătorile se efectuează pe scale ale căror categorii sunt egal distribuite (spaţiile dintre valori sunt egale).Exemple de astfel de variabile sunt vârsta, greutatea, înălţimea, TA, frecvenţa cardiacă, colesterolul, densitatea osoasă etc.La aceste variabile, diferenţele dintre valorile scalei sunt egale (diferenţa dintre 0,5 şi 1 este aceeaşi cu diferenţa dintre 1,5 şi 2, şi aceeaşi cu diferenţa dintre 5 şi 5,5 mg creatinină sau acid uric, sau albumină etc., iar valoarea de 16 g hemoglobină este dublul valorii de 8 g hemoglobină, în timp ce creşterea transaminazelor de la 40 la 80 u.i. înseamnă dublarea lor, iar la 160 înseamnă qvadruplarea lor.Descrierea unei populaţii de valori ale unei variabile numerice poate fi mai dificilă decât a celorlalte tipuri de variabile, deoarece în acest caz putem avea mult mai multe valori. Astfel, dacă vremsă descriemvârsta, sau valoareaALAT a 100 de pacienţi, este posibil să avem 100 de valori diferite, adică fiecare pacient să aibă o va-loare unică, şi asta pentru că pe scalele respective există un număr potenţial infinit de valori, de-a lungul unui continuum.Iată, de exemplu, descrierea valorilor VEMS la 57 de studenţi la medicină de sex masculin, prezentată pe larg în Tabelul 1.

Un astfel de tabel nu veţi găsi niciodată într-un articol sau la o prezentare, cu atâtmaimult atunci când este vorba de eşantioanemaimari, şi atunci trebuie găsită o metodă de a rezuma aceste date. Una dintre metode este divizarea scalei VEMS în intervale de clasă (oricine a auzit despre împărţirea vârstei pe... grupe de vârstă!), de exemplu între 3 şi 3,5, între 3,5 şi 4 şi aşa mai departe, şi contabilizarea numărului de indivizi din fiecare astfel de interval. De obicei se pune limita inferioară a acelui interval în intervalul respectiv, iar limita superioară în intervalul următor, astfel încât, de fapt, limitele intervalelor vor fi 3,5-3,99, 4-4,49, 4,5-4,99 etc., pentru ca nu cumva valorile de graniţă să fie numărate de două ori (de exemplu, cei doi studenţi cu VEMS de 4,5 l să fie contabilizaţi şi în intervalul 4-4,5, şi în cel 4,5-5.Utilizând intervalele, putem compune un tabel de frecvenţe care să aibă un număr mai mic de valori (8, faţă de 43, câte valori diferite ar fi avut dacă le-am fi folosit direct) - Tabelul 2.

Reprezentarea grafică a datelor de mai sus se poate face sub formă de plăcintă, însă în cazul variabilelor numerice se face aproape întotdeauna aceasta se face sub formă de histogramă (Figura 1).Diferenţa între histogramă şi graficul sub formă de bare (figurile din numerele precedente) este aceea că în cazul histogramei, barele graficului sunt lipite una de cealaltă, deoarece valorile variabilei de pe abscisă se continuă dintr-o categorie în alta.

Page 13: p Si Intervale de Incredere

Descrierea variabilelor cantitative (numerice) (II)

În general, când subiectul studiului nostru nu este descrierea valorilor variabilei, această descriere se face mai sumar şi cuprinde măsurile tendinţei centrale şi măsurile dispersiei.Măsurile tendinţei centrale sunt media, mediana şi modul.Modul, pe care am văzut că îl putem folosi la toate tipurile de variabile, este valoarea care apare cel mai frecvent.Să ne închipuim că avem 10 pacienţi, cu următoarele durate de spitalizare: 3, 3, 4, 5, 6, 7, 7, 8, 8 şi 8 zile. În acest caz, modul este valoarea 8, pentru că apare cel mai des (de 3 ori). Dacă ar fi fost numai 2 pacienţi spitalizaţi 8 zile, atunci am fi avut trei moduri, 3, 7 şi 8, care apăreau de câte două ori.Mediana este valoarea care împarte eşantionul nostru în două părţi egale, astfel încât 50% dintre subiecţi au valori mai mici, iar 50% dintre subicţi au valori mai mari decât aceasta. Pentru a o calcula, trebuie să aranjăm valorile în ordine crescătoare, iar mediana va fi valoarea din mijloc (atunci când este vorba despre un număr impar de observaţii), sau media dintre cele două valori din mijloc (atunci când este vorba despre un număr par de observaţii).În exemplul nostru, cu 10 subiecţi, mediana este media dintre valorile numărul 5 şi 6, adică dintre 6 şi 7 zile de spitalizare, deci 6,5.Media este un lucru cunoscut, pentru că o calculăm şi folosim încă de când eram în clasa a I-a. Este media aritmetică a unui şir de valori şi se calculează după formula (x1+x2+ x3+...+xn)/n, adică suma valorilor împărţită la numărul lor, în exemplul nostru (3+3+4+ 5+6+7+7+8+8+8)/10 = 5,9.Măsura dispersiei ne arată cât de întinsă este plaja de valori pe care o poate lua variabila noastră, şi este reprezentată de întindere (range) şi deviaţia (abaterea) standard.Întinderea este diferenţa dintre valoarea cea mai mare şi cea mai mică (extremele) din eşantionul nostru, iar în exemplul de mai sus este de 8-3=5 zile. Dacă perioada internării ar fi variat între una şi 45 de zile, este evident că dis-persia ar fi fost mai mare, iar întinderea ar fi fost de 44 de zile. Varianţa şi deviaţia standard sunt mai reprezentative decât întinderea, pentru că în calculul lor se folosesc nu numai două dintre valori, şi anume cele extreme, ci totalitatea valorilor pe care le ia variabila din eşantion. Varianţa măsoară distanţa medie dintre fiecare observaţie şi medie, deoarece, logic, cu cât dispersia este mai mare, distanţa dintre medie şi observaţii este mai mare. Cum însă suma distanţelor dintre fiecare observaţie şi medie este zero (deoarece diferenţele pozitive şi cele negative se anulează reciproc), se foloseşte suma pătratelor acestor diferenţe.

Page 14: p Si Intervale de Incredere

În exemplul nostru, varianţa este 4,1 zile2 (cum varianţa foloseşte pătratul deviaţiilor de la medie, unităţile de măsură sunt şi ele la pătrat). Pentru a evita acest lucru, se extrage rădăcina pătrată din varianţă şi obţinem astfel deviaţia (abaterea) standard, care este de fapt măsura cea mai folosită a dispersiei. În cazul nostru, deviaţia standard este de 2,025 zile.

Distribuţia normală (Gaussiană)

În Figura 1 este prezentată histograma distribuţiei ratei de filtrare glomerulară a 14.527 de pacienţi (Anavekar et al. Relation between renal dysfunction andcardiovascular outcomes after myocardial infarction. NEJM 2004; 351:1285-95). Se vede cum aceasta are o formă de clopot, cu cei mai mulţi pacienţi în jurul mediei, frecvenţa valorilor scă - zând pe măsură ce ne îndepăr - tăm de această medie, iar pe de altă parte dispersia este simetrică (egală) de-o parte şi de alta (dedesubtul şi deasupra) mediei. Variabilele care au o astfel de distribuţie în formă de clopot se spune că au o distribuţie normală (Gaussiană).

Variabilele cu o distribuţie normală au 68% dintre valori cuprinse în intervalul mediaą o deviaţie standard (1SD) şi 95% dintre valori cuprinse în intervalul mediaą2SD (mai exact, 1,98SD).În exemplul din Figura 1, deviaţia standard este 21, iar media este 70 (ml/min/1,73m2). Astfel, ne aşteptam ca 68% dintre pacienţi să aibă rata filtrării glomerulare în intervalul dintre 49 şi 91, iar 98% dintre pacienţi să se afle în intervalul dintre 28 şi 112 (ml/min/1,73m2).Aşadar, se vede că pentru a descrie o variabilă continuă cu distribuţie normală (Gaussiană, simetrică), este suficient să ştim media şi deviaţia standard şi drept urmare aşa se şi descrie o astfel de variabilă: pentru a descrie populaţia din Figura 1 în ceea ce priveşte rata filtrării glomerulare, este suficient să spunem că aceasta a fost de 70 (21), prima cifră fiind media, iar cea din paranteză deviaţia standard.

Page 15: p Si Intervale de Incredere

Unii autori descriu valorile sub forma MediaąDS, în exemplul nostru 70ą21, formă mai puţin recomandată pentru că simbolul ą este mai ambiguu, putându- se referi la deviaţia stan - dard sau la eroarea standard. Apropo de eroarea standard pe care o veţi întâlni în unele articole, aceasta este echivalentul intervalului de încredere 95% a mediei unei populaţii. Aşadar, dacă deviaţia standard ne arată care este dispersia valorilor unei variabile în sânul eşantionului, şi ştim că în intervalul mediaą2 deviaţii standard sunt cuprinse 95% dintre valorile eşantionului, eroarea standard a mediei, ca orice interval de încredere, ne foloseşte la extrapolarea datelor noastre de la eşantion la populaţie (adică, sunt 95% şanse ca media adevărată, la nivelul populaţiei, să se afle în intervalul mediaąESM). Eroarea standard a mediei se calculează după formula

. Se vede că ESM este direct proporţională cu deviaţia standard şi invers proporţională cu mărimea eşantionului (n); normal, ca orice interval de încredere este cu atât mai îngust cu cât eşantionul este mai mare.

Observăm din Tabelul 1 că, în timp ce gradul de dispersie este relativ apropiat (comparând mărimea DS cu mărimea mediei), eroarea standard (gradul de incertitudine) este mult mai mică acolo unde eşantionul este mai mare.

Descrierea variabilelor cantitative (numerice) (III)

Page 16: p Si Intervale de Incredere

Atunci când lucrăm cu variabile numerice, este foarte important să ştim dacă distribuţia lor este normală (Gaussiană) sau nu, pentru că în funcţie de aceasta hotărâm cum o descriem şi, în statistica analitică, cum comparăm mai multe populaţii (ce teste statistice folosim).

Aşadar, cum ne dăm seama dacă o variabilă numerică are distribuţie normală?1. Vizual, examinăm un grafic histogramă al variabilei respective. Dacă graficul are un aspect simetric şi formă de clopot (cum era cel din numărul trecut, cu distribuţia ratei estimate a filtrării glomerulare), atunci distribuţia este normală. Dacă histograma nu are această formă, atunci distribuţia nu este normală. În Figura 1, este evident că distribuţia notelor stu-denţilor nu este normală, fiind total diferită de o distribuţie normală ideală, reprezentată de curba suprapusă peste grafic.

2. Calculăm media, mediana şi modul. Dacă distribuţia este normală, atunci acestea trebuie să coincidă (ideal; în realitate nu vom

obţine niciodată aşa ceva, dar trebuie, măcar, să fie apropiate).

3. Calculăm media şi deviaţia standard. Dacă media este mai mică decât două deviaţii standard, distribuţia probabil nu este normală, iar dacă media este mai mică decât deviaţia standard, cu siguranţă nu este normală. Să luăm numai un exemplu, din multiplele întâlnite în literatură: articolul lui Alric şi colab. privind efectul tratamentului cu interferon şi ribavirină în crioglobulinemia secundară infecţiei cu HCV asupra proteinuriei [1]: la 12 pacienţi la care s-a obţinut răspuns viral susţinut, proteinuriile au scăzut semnificativ de la început (media 2.85 +/- 2.2 [SD]g/zi), faţă de sfârşitul tratamentului (1 +/- 1.4g/zi) şi sfârşitul perioadei de urmărire (0.4 +/- 0.8 g/zi, p< 0.05). Se vede cum media este mai mică decât dublul deviaţiei standard (2SD), ori noi ştim (vezi numărul trecut) că 95% dintr-o populaţie este cuprinsă în intervalul media+/-2SD, dar dacă am scădea 2SD din medie am obţine valori negative, însă nu există proteinurie negativă! Aşadar, proteinuria populaţiei din articol nu a avut distribuţie normală, deci nu trebuia să fie sumarizată sub forma medie+/- 2SD, iar mai departe avem tot dreptul să ne întrebăm dacă nu cumva autorii au folosit teste statistice parametrice, pentru variabile cu distribuţie normală, şi nu nonparametrice, cum ar fi

Page 17: p Si Intervale de Incredere

trebuit! (răspunsul se găseşte, de obicei, în conţinutul articolului, la capitolul material şi metodă, însă nu l-am putut accesa gratuit).4. Există teste statistice (Kolmogorov-Smirnov), care ne arată dacă devierea de la normalitate este semnificativă statistic (aşadar, distribuţia nu este normală când p<0,05). Problema este aceeaşi cu a oricărui test statistic, dacă eşantionul este mic, testul nu va ieşi semnificativ statistic din lipsa puterii statistice, şi nu pentru că distribuţia nu ar fi diferită de cea Gaussiană. În exemplul de mai sus cu proteinuria, este posibil ca testul Kolmogorov-Smirnov să nu dea o valoare semnificativă deoarece eşantionul este de doar 12 pacienţi, şi nu pentru că distribuţia nu ar fi diferită de cea normală.5. În sfârşit, unele programe statistice (de exemplu SPSS) ne calculează aşa-numitelekurtosis (cât este de ieşit în afară, protuberant) şi skewness (asimetrie). Primul termen ne arată în ce măsură dispersia (măsurată de deviaţia standard) este dată de multe valori uniform distribuite de-o parte şi de alta a mediei (cum se întâmplă în distribuţia normală), sau de câteva valori extreme.

De ce este important să ştim dacă distribuţia este normală (Gaussiană) sau nu?

Pentru că, în funcţie de aceasta utilizăm anumite tipuri de statistică descriptivă sau analitică (teste statistice).Astfel, pentru descrierea distribuţiei, în cazul variabilelor cu distribuţie normală se utilizează media şi deviaţia standard, pentru că avându-le pe acestea, putem practic să reconstituim populaţia (figura 2, graficul din stânga); acestea, însă, nu au nicineGaussiană (Figura 2, imaginea din dreapta), pentru că aceloraşi medie şi deviaţie standard, dacă distribuţia nu este normală, le pot corespunde o infinitate de distribuţii nonnormale. Pentru descrierea populaţiilor cu distribuţie nonnormală se utilizează mediana (valoarea care împarte populaţia în două jumătăţi, 50% dintre valori sunt mai mici, şi 50% dintre valori sunt mai mari decât mediana), iar pentru măsura dispersiei se dau fie valorile extreme (cea mai mare şi cea mai mică), fie cvartilele 25 şi 75% [2]. Pentru a înţelege cvartilele, să presupunem că avem un eşantion de 20 de pacienţi, cu

Page 18: p Si Intervale de Incredere

vârstele de 23, 24, 27, 27, 31, 34, 37, 39, 39, 39, 40, 42, 44, 47, 48, 49, 49, 50, 53 şi 55 de ani. Fiind 20, cvartilele sunt reprezentate de câte 5 pacienţi (25% din 20), aşadar primii 25% au până în 31 de ani, primii 50% au până în 39 de ani (care este şi mediana), iar 75% au până în 49 de ani. Această populaţie o putem sumariza fie mediana şi valorile extreme [39 (23, 55)], fie mediana şi cvartilele 25 şi 75% [39 (31, 49)].Pentru reprezentarea sumarizată se pot alege fie bare (a căror înălţime să fie dată de mediană, nu de medie), fie de boxplot sau box-andwhisker (cutie-şi-mustăţi), în care avem toate valorile numite până acum (valoarea minimă,