statistica aplicata in farmacie si studii clinice ed 2

253
Constantin Mircioiu Roxana Colette Sandulovici STATISTICA APLICATA IN FARMACIE SI STUDII CLINICE Editia a – II – a EDITURA UNIVERSITARA “CAROL DAVILA” BUCURESTI, 2009

Upload: christine-marie

Post on 07-Dec-2014

171 views

Category:

Documents


5 download

DESCRIPTION

/

TRANSCRIPT

Page 1: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

Constantin Mircioiu Roxana Colette Sandulovici

STATISTICA APLICATA IN

FARMACIE SI STUDII CLINICE

Editia a – II – a

EDITURA UNIVERSITARA “CAROL DAVILA” BUCURESTI, 2009

Page 2: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

Prof. dr. farm., mat. CONSTANTIN MIRCIOIU Dr. farm., mat. ROXANA COLETTE SANDULOVICI

STATISTICA APLICATA IN

FARMACIE SI STUDII CLINICE

Editia a II - a

pentru

cursul de biostatistica Facultatea de Farmacie, Universitatea de Medicina si Farmacie

“Carol Davila”, Bucuresti

cursul de biostatistica doctoranzi Universitatea de Medicina si Farmacie “Carol Davila”, Bucuresti

cursul de biostatistica si farmacocinetica Masterul de Biostatistica

Facultatea de Matematica, Universitatea Bucuresti

EDITURA UNIVERSITARA “CAROL DAVILA” BUCURESTI, 2009

Page 3: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

PREFATA

La numai un an dupa prima aparitie a cartii de fata, conceput initial ca un curs pentru studentii din anul IV ai facultatii de farmacie, contextul stiintific si didactic s-a schimbat “semnificativ statistic”. In urma experientei cursurilor si seminariilor din cadrul facultatilor de farmacie si facultatilor de matematica a aparut necesitatea de a revizui o parte din material in scopul cresterii ponderii exemplelor din cadrul cercetarilor experimentale si studiilor clinice, mai dificile de urmarit decat exemplele “ideale”, dar mai ilustrative in ceea ce priveste modul de rezolvare a unor probleme reale, complexe.

S-au adaugat in primul rand cateva capitole noi de biostatistica “reala”: • estimarea bioechivalentei prin metode non-parametrice, problema amplu dezbatuta in acesti ani in contextul propunerii de a schimba regulile americane si europene de evaluare a bioechivalentei, • estimarea retrospectiva a factorilor de risc in cazul bolilor rare, • relatia intre evaluarea bioechivalentei si a echivalentei terapeutice, • aplicarea ANOVA in estimarea modelelor liniare.

Necesitatea acestor din urma capitole au aparut, in primul rand, in cadrul masteratului de Biostatistica organizat de Facultatea de Matematica in colaborare cu Facultatea de Farmacie si au facut obiectul unor dezbateri multidisciplinare la care au participat matematicieni, medici, farmacisti, chimisti si biologi in cadrul seminariilor de biostatistica aplicata la studiile clinice.

O alta directie a dezvoltarii a privit evaluarea statistica a datelor clinice in cadrul unor studii clinice concrete analizate la cursurile si seminariile de biostatistica la scoala doctorala de pe langa Universitatea de Medicina si Farmacie “Carol Davila”.

In final, dincolo de insusirea unor reguli de baza privind evaluarile statistice in capitolele mentionate s-a incercat sa se acrediteze conceptul fundamental privind validarea in spirala: validarea rezultatelor prin analiza statistica, validarea rezultatelor statistice prin evaluarea fenomenologica, remodelarea fenomenelor, extrapolarea experimentului, evaluarea statistica, s.a.m.d.

Rezumand intr-o singura fraza bunele intentii ale autorilor - acestia au vrut sa transmita ideea ca aplicarea in analiza datelor clinice numai a bunului simt sau numai a regulilor formale de calcul te pot rataci si uneori chiar sminti. Autorii Bucuresti, 2009

Page 4: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Campuri de probabilitate

1

1.1. CÂMPURI DE PROBABILITATE Teoria matematică a probabilităţilor porneşte de la faptul că fiecărui

rezultat posibil al unui experiment aleator, rezultat pe care îl vom denumi eveniment, i se asociază o valoare numerică, numită “probabilitatea” evenimentului respectiv. Această valoare este o caracteristică obiectivă a evenimentului în condiţiile experimentului dat.

Să efectuăm, de exemplu, un experiment de m ori. Dacă în cele m experienţe un eveniment A s-a produs de k ori, atunci 0 ≤ k ≤ m, de unde rezultă pentru frecvenţa relativă:

0 1km

≤ ≤

adică frecvenţa relativă a unui eveniment este întotdeauna un număr cuprins între 0 şi 1.

Ţinând cont că frecvenţa relativă oscilează în jurul probabilităţii evenimentului considerat şi că probabilitate este acea caracteristică a evenimentului care ne indică în ce proporţii se produce evenimentul în cazul repetării experimentului de un număr foarte mare de ori, rezultă că şi probalitatea este tot un număr între 0 şi 1.

Din definiţia probabilităţii ca generalizare a conceptului de frecvenţă relativă, rezultă că probabilitatea unui eveniment imposibil este 0, iar probabilitatea unui eveniment sigur este 1.

Evenimentele pot fi simple, în sensul că nu se pot descompune mai departe, sau compuse din alte evenimente ce se petrec simultan. În acest context putem considera două operaţii între evenimente.

Scriem A ∩ B şi înţelegem prin aceasta un eveniment care constă în producerea evenimentelor A şi B, simultan. Scriem A B pentru cazul când se produce cel puţin unul din cele două evenimente.

Fiind date două rezultate A şi B ale unui experiment efectuat de n ori, să presupunem că A s-a obţinut de ori şi B de ori. Evenimentul A B, deci obţinerea unui eveniment din cele două rezultate, s-a obţinut ca

atare, de

1k 2k∪

1 2 1 2k k k kn n+

n= + ori, ceea ce sugerează o regulă de tipul

Probabilitate (A ∪ B) = Probabilitate (A) + Probabilitate (B) În cele ce urmează vom introduce o prezentare axiomatică a

conceptului de probabilitate, după Kolmogorov1.

1Andrei Nicolaevici Kolmogorov (1903-1987), fost profesor la Universitatea din

Moscova, a avut contribuţii deosebite în analiza matematică, analiza funcţională şi teoria

Page 5: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Campuri de probabilitate

2

1.1.1. Corp borelian 1.1.1.1. Definiţie: Fie E o mulţime şi K o familie nevidă de părţi ale lui E, K ⊂ ℘(E)

cu proprietăţile: 1. A∈ K CA⇒ ∈ K 2. K⇒ ∪ K ( ) ⊂∈NiiA ∞

∈1

iA3. E∈ K

Deci, este închisă la operaţiile de complementare şi reuniune. Se spune, în acest caz, că familia K, împreună cu operaţiile

menţionate, formează un corp bolerian. Denumirea de borelian vine de la matematicianul Emil Borel, unul dintre fondatorii teoriei probabilităţilor.

1.1.1.2. Consecinţă: Un corp borelian este o familie închisă faţă de operaţiunea de

intersecţie, indiferent de numărul elementelor sale pe care le intersectăm: K⇒( ) ⊂∈NiiA ∈iA∩ K

Demonstraţia se face imediat folosind faptul că şi

proprietăţile 1 şi 2.

i ii i

A C A⎛ ⎞= ⎜ ⎟

⎝ ⎠∩ ∪

1.1.1.3. Propoziţie: Fiind dată o familie de corpuri boreliene ( ) IiiK ∈ , intersecţia lor este

tot un corp borelian. Demonstratia se face imediat, folosind proprietăţile corpului borelian

şi ale operaţiilor de intersecţie, reuniune şi complementare. 1.1.1.4. Definiţie:

probabilităţilor. Cartea sa “Grundbegriffe der Wahrscheinlichketetsrechnung”, Berlin, 1933, a însemnat o revoluţie în teoria probabilităţilor, arătând că, formal, această teorie se poate trata ca un caz particular de teorie a integralei (sau “teoria măsurii”).

Page 6: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Campuri de probabilitate

3

Fie H o familie oarecare de părţi ale unei mulţimi E . H poate fi completată la un corp borelian, numit corpul generat de Η , dacă i se adaugă E şi toate mulţimile ce se formează prin reuniune, intersecţie şi complementare pornind de la elementele H∈ Η.

Dacă luăm pe dreaptă, mulţimea intervalelor deschise de forma , , corpul borelian generat se numeşte simplu “borelianul pe

dreapta” şi constituie baza teoriei probabilităţilor, aşa cum va fi ea abordată în prezenta lucrare.

( ),a−∞ a R∈

Deoarece orice interval închis se poate obţine prin operaţiile meţionate din intervale deschise şi invers, orice interval deschis poate fi generat pornind de la intervale închise, borelianul pe dreapta este în acelaşi timp generat de mulţimea intervalelor închise.

Într-adevăr, se poate scrie:

[ ]ba, =∩∞

=⎟⎠⎞

⎜⎝⎛ +−

1

1,1n n

bn

a şi ( ) ∪∞

= ⎥⎦⎤

⎢⎣⎡ −+=

1

1,1,n n

bn

aba

1.1.1.5. Definiţie: O familie ( ) IiiA ∈ se numeşte desfacere a lui E dacă:

1. I este cel mult numărabilă; 2. φ=∩⇒∀∀ ji AAji, 3. EAi =∪

1.1.2. Spaţii măsurabile

1.1.2.1.1. Definiţie O mulţime E împreună cu un corp borelian K formează un spaţiu

măsurabil (E,K). Elementele lui K se numesc mulţimi măsurabile. 1.1.2.2. Definiţie Fiind date (E,K) si (F,L) spaţii măsurabile, o funcţie f: (E,K) (F,L)

se numeşte funcţie măsurabilă dacă îndeplineşte condiţia: →

∀ A, A∈L⇒ f-1(A)∈K sau, altfel spus: f-1(L) K ⊂ 1.1.2.3. Proprietăţi

a) Dacă f şi g sunt măsurabile, atunci f g, f +g şi f*g sunt măsurabile.

Page 7: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Campuri de probabilitate

4

b) Dacă f este continuă, atunci f este borelian măsurabilă.

1.1.2.4. Observaţie Se poate face un paralelism între spaţiile topologice şi spaţiile

măsurabile, între funcţiile continue şi funcţiile măsurabile. Astfel, o funcţie este continuă dacă preimaginea oricărei mulţimi deschise este o mulţime deschisă iar măsurabilă este atunci când preimaginea oricărei mulţimi măsurabile este măsurabilă. Deasemenea, dacă f şi g sunt două funcţii continue, atunci f + g şi f*g sunt continue.

1.1.2.5. Definiţie

Se numeşte măsură orice funcţie pozitivă definită pe corpul mulţimilor măsurabile, μ : K R+ , “aditivă” pe orice familie ( ) numărabilă de mulţimi măsurabile disjuncte:

→ IiiA ∈

( ) ( )∑∞∞=⇒Φ=∩∀∀

11,, nnmn AAAAmn μμ∪

1.1.2.6. Consecinţe

a) ( ) 0=Φμ Într-adevăr, dacă luăm AA =1 , Φ=2A ⇒

( ) ( ) ( ) ( )2 0μ μ μ μΦ = Φ ∪Φ = Φ ⇒ Φ = b) Fie un şir de mulţimi şi fie...21 ⊆⊆ AA nAA ∪= , atunci ( ) (AAn )μμ → Demonstraţie: Fie \ . Mulţimile sunt disjuncte şi 1+= nn AB nA nB nn BBBA ∪∪∪ ...21= .

Din aditivitatea lui μ rezultă ( ) ( ) n

n

ii

n

i

in sBBA ==⎟⎟⎠

⎞⎜⎜⎝

⎛= ∑

== 11

μμμ ∪( ) ( ) ( )AABss

nn

iin μμμ ===→

=

= ∪∪ 11

nAA ∪= şi ( )iAμ < ∞ ( )nAμ⇒ < ( )Aμ Altfel, { },...1, += nnAn , dar ∩ Φ=nA ( ) ∞=nAμ

1.1.2.7. Exemple a) Fie μ definită după cum urmează:

• ( ) ∞=Aμ dacă A este infinită şi • ( ) =Aμ numărul elementelor din A , dacă A este finită. Această măsură se numeşte în mod natural “măsura de numărare”.

b) Fie un punct exterior Ex ∈0 fixat. Definim:

Page 8: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Campuri de probabilitate

5

• ( ) 10

=Axμ dacă Ax ∈0 şi • ( )Ax0

μ = 0 dacă 0x A∉ Măsura este utilizată în mecanica cuantică şi se numeşte “măsura lui Dirac”.

1.1.3. Probabilitate Vom defini probabilitatea ca o măsură particulară.

1.1.3.1. Definiţie: Fiind dat un spaţiu măsurăbil ( )KE, . O funcţie P: cu

proprietăţile: [ 1,0→K ]

a) P – măsură şi b) P ( )E =1

se numeşte probabilitate. Deci, probabilitatea ar fi o măsură “normată”. 1.1.3.2. Proprietăţi: Pe baza proprietăţilor măsurii şi a faptului că P ( )E =1, se pot

demonstra cu uşurinţă următoarele proprietăţi: 1. ( ) ( ) ( )BPAPBAPBA −=⇒⊃ / 2. , ( )n∀ ( ) =⇒⊂ + nnn APAA ∪1 ( )nn AP∞→lim 3. , ( )n∀ ( ) ( )nnnnn APAPAA ∞→+ =⇒⊃ lim1 ∩ 4. ( ) ( ) ( ) ( )BAPBPAPBAP ∩∪ −+= 5. ( ) ( )∑≤ nn APAP∪ , numită subaditivitate numărabilă 6. ( ) 0=ΦP 7. ( ) ( )APCAP −= 1

În contextul teoriei probabilităţilor, mulţimile măsurabile devin evenimente, “spaţiul măsurabil” devine câmp de evenimente, iar E devine evenimentul total.

1.1.3.3. Definiţie: Un câmp de evenimente ( )KE, înzestrat cu probabilitatea P, se

numeşte câmp de probabilitate. 1.1.3.4. Definiţie: Un eveniment care nu mai poate fi inclus în alt eveniment

Page 9: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Campuri de probabilitate

6

BAKBKA ⊂∈∀∈ ,, sau Φ=BA∩ se numeşte eveniment elementar sau atom.

1.1.3.5. Observaţii Prezentarea axiomelor teoriei probabilităţilor în contexul mai larg al

teoriei măsurii, dincolo de formalismul simplu şi rigoare, oferă şi avantajul unor interpretări “fenomenologice” şi “picturale” pentru unele formule. Astfel, dacă probabilitatea este o măsură, la fel ca aria pentru figurile plane (Fig. 1), formula:

( ) ( ) ( ) ( )BAPBPAPBAP ∩∪ −+= se poate citi ca:

( ) ( ) ( ) ( )aria A B aria A aria B aria A B= + −∪ ∩ ceea ce pare ca evident.

Fig. 1. Definiţia clasică elementară a probabilităţii derivă în mod natural din noţiunea de frecvenţă, despre care am vorbit mai sus.

Dacă un eveniment A se poate realiza în m feluri diferite dintr-un număr total n de evoluţii posibile ( )

njje,1=

, egal probabile, atunci :

a) ( ) 1jP e

n= şi b) ( ) mP A

n=

1.1.3.6. Exemplu Exemplul clasic de câmp de probabilitate finit îl constituie

evenimentele ce pot apărea atunci când, dintr-o urnă în care se află bile albe şi negre se extrag n bile. Dacă proporţia bilelor albe în urnă este p, şi deci a celor negre este 1q p= − , probabilitatea evenimentului A, ca din n bile extrase, k să fie albe, conform definiţiei clasice definite mai sus, se calculează imediat şi este:

( ) k k n knP A C p q −=

De exemplu, evenimentul ca din trei bile extrase, două să fie albe - - şi una să fie neagră - - se poate descompune în felul următor : a n

( ) ( ) ( )A a a n a n a n a a= ∪ ∪ şi

Page 10: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Campuri de probabilitate

7

( ) ( ) ( ) ( ) 2 2 2 2 2 2 333P A P a a n P a n a P n a a p q p q p q p q C p q −= + + = + + = = 2

1.1.4. Probabilitate condiţionată

Fie B un eveniment a cărei probabilitate este diferită de 0. Probabilitatea unui eveniment A, reprezintă proporţia în care ne aşteptăm să se realizeze A în cadrul tuturor evenimentelor câmpului de probabilitate la care aparţine A

Probabilitatea lui A se mai poate analiza însă şi în contextul în care ştim că s-a produs anterior evenimentul B. Probabilitatea evenimentului A condiţionată de B se notează, în acest caz, cu: P(A/B) sau PB(A).

Dacă s-a constatat experimental o frecvenţă de apariţie kA şi, respectiv kB, pentru A şi B, frecvenţa relativă de apariţie a lui A, când deja a apărut B, va fi:

( )( )BP

BAP

nknk

kk

B

AB

B

AB∩

≅=

În acest context apare naturală definiţia probabilităţii evenimentului A, condiţionată de B, prin formula:

( ) ( )( )BP

BAPAPB

∩=

Un caz special îl constituie acela în care probabilitatea de apariţie a evenimentului A este aceiaşi, indiferent dacă s-a produs sau nu evenimentul B:

P(A) = PB(A) Spunem, în acest caz, că evenimentele A şi B sunt evenimente

independente. Observăm că, rescriind formula anterioară

( ) ( )( )BP

BAPAPB∩

= ( ) ( ) ( ) ( ) (BPAPBPAPBAP B ** )==⇒ ∩

se poate lua ca definiţie că două evenimente sunt independente atunci când: ( ) ( ) ( )BPAPBAP *=∩

1.1.5. Formula probabilităţii cauzelor (Bayes)

Fie A1, A2,…, An o desfacere a lui E pe care, în contextul teoriei probabilităţilor, o numim sistem complet de evenimente. Ea reprezintă în acelaşi timp o desfacere pentru E cât şi pentru orice eveniment EX ⊂ . ∪ jAE =

( )∪ ∩ XAX i=

Page 11: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Campuri de probabilitate

8

Dat fiind că evenimentele sunt disjuncte, avem XAi ∩( ) ( )∑= XAPXP i ∩ .

Să presupunem că ( ) 0, ≠∀ iAPi . În aceste condiţii avem următoarea teoremă: 1.1.5.1. Teorema probabilităţii cauzelor

Probabilitatea producerii oricărui eveniment X, este egală cu suma probabilităţilor de producere a lui X, condiţionate de evenimentele complete ale sistemului ( ) niiA ,1= şi

( ) ( ) ( )( ) ( )∑

= XPAPXPAPAPi

j

Ai

AjjX

Demonstraţie:

Din definiţie avem PX(Aj) = ( )( )XP

AXP j∩

deci, PX(Aj) = ( )( )∑i

i

j

XAPAXP∩∩

= ( ) ( )

( )( ) ( )

( )∑i i

ii

j

jj

APAPXAP

APAPAXP

∩= ( ) ( )

( ) ( )∑ XPAPXPAPI

j

Ai

Aj

PX(Aj) poate fi interpretat ca fiind probabilitatea ca X să aibă cauza

Aj. În acest caz, formula calculează probabilitatea lui X în funcţie de probabilităţile cauzelor care ar fi putut determina evenimentul X.

Probabilităţile P(Ak) se numesc apriorice, pentru că ele se cunosc înainte de eveniment. Probabilităţile PX(Aj) sunt probabilităţile aceloraşi cauze, dar după ce s-a întâmplat evenimentul X, şi se numesc din acest motiv, probabilităţi aposteriorice.

Exemplu, când un pacient intoxicat este adus la urgenţă el prezintă anumite simptome şi medicul, folosind experienţa sa, rezultatele determinărilor în sânge şi un sistem computerizat elaborează o listă cu probabilităţile ca intoxicaţia să se fi făcut cu o anumită substanţă.

În fizica statistică parametrii termodinamici sau cuantici ai unui sistem rezultă din însumarea unui număr foarte mare de evenimente. Probabilitatea de trecere de la o stare iniţială la o stare finală este dată de suma probabilităţilor de trecere pe anumite căi Ai ponderate fiecare cu

Page 12: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Campuri de probabilitate

9

probabilitatea, sau altfel spus ponderea lor, p(Ai). Deoarece numărul căilor poate fi de puterea continuului, în locul sumelor apar integrale.

Sau, dacă s-ar produce o crimă, aposteriori, ne punem problema ierarhizării suspiciunilor privind potenţialii criminali.

Problema nu este de loc “teoretică” dacă suntem de exemplu o societate de asigurări sau dacă testul este un test de malignitate.

Bayer a fost un episcop care s-a preocupat de cauzele evenimentelor din lumea aceasta şi legătura lor cu cauza finală – Dumnezeu.

Formula probabilităţii cauzelor ne arată cum se transformă probabilităţile apriorice în probabilităţi aposteriorice, după apariţia evenimentului X.

De exemplu, ştiind că un medicament se absoarbe în, şi se elimină din sânge pe mai mult căi, cu diferite probabilităţi date de considerente fizico-chimice şi fiziologice, în funcţie de rezultatul unor determinări a concentraţiei ale acestora în sângele unui pacient, ne putem pune problema stabilirii ponderilor efective ale acestor căi, în scopul “individualizării” tratamentului.

1.1.5.2. Observaţie:

Putem deasemenea să considerăm cazul particular al desfacerii evenimentului total în două evenimente A şi complementul său CA.

Formula lui Bayes devine în acest caz:

PX(A) = ( ) ( )( ) ( ) ( ) ( )CAPXPAPXP

APXPCAA

A

+

1.1.5.3. Aplicaţie:

Dacă, de exemplu, P(B) este proporţia (probabilitatea) unei boli în populaţie şi cunoscând proporţia în care un test diagnostic este pozitiv la bolnavi PB(+) şi la sănătoşi PNB(+) putem calcula probabilitatea ca un pacient la care rezultatul testului este pozitiv să fie bolnav:

( ) ( ) ( )( ) ( ) ( ) ( )

B

B NB

P P BP B

P P B P P NB+

+=

+ + +

unde: ( )BP + este probabilitatea ca un bolnav să fie catalogat pozitiv de

către test şi se numeşte “sensibilitatea” testului. ( )NBP − este probabilitatea ca un sănătos să fie catalogat negativ de

către test şi se numeşte “specificitatea” testului.

Page 13: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Campuri de probabilitate

10

Problema devine teribil de importantă dacă, de exemplu, este vorba de un test de depistare a cancerului

Page 14: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Variabile aleatoare

11

1.2.VARIABILE ALEATOARE 1.2.1. Definiţii:

a) Se numeşte variabilă aleatoare (întâmplătoare sau statistică) o funcţie reală f definită pe mulţimea K a evenimentelor, cu proprietatea că, oricare ar fi numărul real a, mulţimea x K∈ pentru care ( )f x ≤ a este un eveniment din K .

În termeni de teoria măsurii, o variabilă aleatoare este o funcţie ( ) ( ): , , ,f E K P R B→ , măsurabilă.

Practic vorbind avem definită probabilitatea ca variabila să aibă valori mai mici decât orice număr dat a.

b) O variabilă aleatoare se numeşte variabilă aleatoare simplă dacă ia

un număr finit de valori: :f E R→ , ( )f E finită şi ( )( ) ( )( )1

i iP f x x P f x p−i= = =

c) Vom lucra, în cele ce urmează, ca regulă, cu variabile aleatoare

independente, adică variabile ce iau valori independente una de cealaltă: ( )( ) ( )( )( ) ( )( ) ( )( )jiji yygPxxfPyygxxfP ====∩= * , ji yx ,∀

1.2.2. Operatii cu variabile aleatoare:

Se poate verifica uşor că variabilele aleatoare formează o algebră, adică suma, şi produsul a două variabile aleatoare este tot o variabilă aleatoare; mai mult compunerea a două variabile aleatoare este tot o variabilă aleatoare.

Trebuie în acest context să fim atenţi la independenţa sau nonindependenţa variabilelor aleatoare implicate în operaţie.

De exemplu putem citi X+X unde X este o variabilă aleatoare în două feluri. Putem, de exemplu, să considerăm un experiment repetat de două ori rezultatele fiind independente

⎟⎟

⎜⎜

⎛=

⎟⎟

⎜⎜

⎛+

⎟⎟

⎜⎜

41

21

43

412

21

21

21

21

21

21,

în timp ce, dacă considerăm că X şi X nu iau valori independent, atunci 2 4

2 1 12 2

X X X⎛ ⎞⎜ ⎟+ = =⎜ ⎟⎝ ⎠

Page 15: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Variabile aleatoare

12

Putem reprezenta grafic aceste probabilităţi.

De exemplu,1 2 31 1 14 2 4

X⎛ ⎞⎜=⎜⎝ ⎠

⎟⎟

apare sub forma

Fig. 2 Reprezentarea grafica a probabilitatilor

Fig. 3 Curba cumulativă a distribuţiei

1.2.3. Functia de repartitie Funcţia de repartiţie asociată lui f este funcţia ( )F x , [ ]: 0,F → 1

definită de formula: ( ) ( ) ( )( )1 ,F x P f x P f x−= ⟨ = −∞

Importanţa acestei funcţii constă în faptul că, dacă ( )F x este dată se poate determina probabilitatea ca f să ia valori într-un interval I ⊂ , oricare ar fi acel interval.

În cazul în care f ia un număr finit de valori, de exemplu { }3,2,1 , când cunoaştem ( ) 3,2,1=∀⟨ kkfP , cunoaştem practic şi ( ) 3,2,1=∀= kkfP .

Într-adevăr, ( ) ( )21 ⟨== fPfP ( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )21*32*3232 ⟨−⟨=⟩⟨=⟩∩⟨== fPfPfPfPffPfP ( ) ( ) ( )2113 =−=−== fPfPfP

Ca regulă generală: ( ) ( ) ( )1 1P f k P f k P f k= = − ⟨ + − ⟨ Deci am determinat o distribuţie de probabilitate care poate fi

reprezentată sub forma unei matrici:

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛==

321

321ppp

kfP

Page 16: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Variabile aleatoare

13

1.2.3.1.Proprietăţi Funcţia de repartiţie are următoarele proprietăţi:

a) ( ) ( )a b F a F b≤ ⇒ ≤ b) ( )lim 0a

F a→−∞

=

c) ( )lim 1a

F a→+∞

= d) este continuă la stânga. F

1.2.3.2. Dacă este continuă spunem că F f este variabilă aleatoare continuă.

În acest caz, probabilitatea ca f să ia orice valoare particulară este 0 ⇒ ( )( ), 0P f xξ ξ∀ = =

1.2.3.3. Exemplu : Dacă ne punem problema probabilităţii ca temperatura în cameră să fie t

=20,347562 aceasta este evident zero şi de fapt problema nici nu are sens – în măsura în care temperatura este o valoare medie în jurul căreia avem fluctuaţii continue. Dacă ne punem problema ca temperatura să fie într-un anumit interval noţiunea de funcţie de repartiţie capătă un conţinut concret.

1.2.4. Densitatea de repartitie Fie funcţia de repartiţie a unei variabile aleatoare ξ. Dacă există o

funcţie ( )F x

( )xρ , integrabilă pe intervalul ( )+∞∞− , , cu proprietatea că pentru orice este verificată egalitatea: x∈

( ) Fxx

ρ ∂=∂

atunci, ( )xρ se numeşte densitatea de repartiţie sau densitatea de probabilitate a variabilei aleatoare ξ, În acest caz, probabilitatea ca variabila aleatoare să ia valori într-un interval ( este dată de formula: )

t

ρ

,a−∞

( )( ) ( ) ( )a

P x a F a t dξ ρ−∞

⟨ = = ∫ şi respectiv:

( )( ) ( ) ( ) ( ) ( ) ( )a b a

bP b x a F a F b t dt t dt t dtξ ρ ρ

−∞ −∞≤ ⟨ = − = − =∫ ∫ ∫

Page 17: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Variabile aleatoare

14

1.2.5. Valoarea medie Se numeşte valoare medie (sau speranţă matematică) a unei valori

aleatoare f, numărul ( ) i iM f x=∑ p , atunci când ξ este o variabilă aleatoare simplă şi,

respectiv

( ) ( )M f x xρ+∞

−∞= ∫ dx , atunci când ξ este o variabilă aleatoare continuă,

cu densitatea de probabilitate ρ. În literatură, operatorul de medie se mai notează şi cu E, de la

“expectation” – speranţă în engleză. În cazul variabilelor simple se observă că valoarea medie a variabilei f

este media ponderată a valorilor sale xi, cu ponderile pi, care reprezintă “frecvenţele” de apariţie ale valorilor respective.

1.2.5.1.Proprietăţi ale mediei:

Dacă f şi g sunt independente, atunci avem: a) ( ) ( )M af aM f=

b) ( ) ( ) ( )M f g M f M g+ = +

c) ( ) ( ) ( )* *M f g M f M g= Vom schiţa o demonstraţie a proprietăţii b):

( ) ( )( )

( )( ) ( )( ),

k l k lk l

k l k k lk l l k

M f g P F G x x

P F G x P F G x

+ = + =

= + l

∑∑ ∑ ∑ ∑

∩ ∩

Dar, pe de altă parte, folosind proprietăţile intersecţiilor şi reuniunilor de mulţimi, respectiv distributivitatea intersecţiei faţă de reuniune şi a intersecţiei faţă de reuniune, şi faptul că l

lG E=∪ avem

( ) ( )( ) ( )k l lk kl lP F G P F G P F= =∑ ∩ ∩ ∪

şi similar, ( ) ( )k l l

kP F G P G=∑ ∩

Deci, ( ) ( ) ( ) ( ) ( )k lk lk l

M f g P F x P G x M f M g+ = + = +∑ ∑

Page 18: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Variabile aleatoare

15

1.2.5.2. Definitie: a) Noţiunea de medie se generalizează, definindu-se momentul de ordin k al unei variabile aleatoare: • i i( ) k

kM f = x p∑ , atunci când ξ este o variabilă aleatoare simplă şi respectiv,

• ( ) ( )kkM f x x dxρ , atunci când ξ este o variabilă aleatoare

continuă.

+∞

−∞= ∫

b) Se numeşte moment centrat de ordin k al variabilei aleatoare f momentul de ordinul k al abaterii sale faţă de medie. ( ) ( ) i

kfi

ck pxfM ∑ −= μ

şi respectiv, ,în cazul unei variabile aleatoare

continue.

( )[ ] ( )dxxfMxk

ck ρμ ∫

+∞

∞−−=

Dispersia de selecţie, sau varianta unui şir de rezultate numerice ale unui experiment este media aritmetică a pătratelor abaterilor acestor valori faţă de media lor aritmetică X .

Dacă 1 2, ,..., nx x x sunt cele valori ale seriei, dispersia de selecţie a acestora, , este:

n2Xs

( )2

2 iX

x Xs

n

−=∑

După cum vom vedea mai departe la statistică, o formulă mai utilă

pentru dispersia de selecţie este: ( )2

2

1i

X

x Xs

n

−=

−∑

Dispersia de selectie este indicatorul principal al împrăştierii datelor unui experiment.

Dispersia unei variabile aleatoare este conceptul ce generalizează dispersia de selecţie.

Page 19: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Variabile aleatoare

16

1.2.6. Dispersia Dispersia variabilei aleatoare X se notează cu ( )D X sau 2σ şi este, în

particular, momentul centrat de ordinul doi:

• , atunci

când variabila aleatoare este continua, şi respectiv

( ) ( )( ) ( )( ) ( )222D X M X M X x M X x dxσ ρ

+∞

−∞⎡ ⎤= = − = −⎣ ⎦ ∫

• i( )( ) ( )2 22i XM X M X xσ ⎡ ⎤= − = −⎣ ⎦ ∑ pμ , atunci când variabila

aleatoare este discretă. Rădăcina pătrată a dispersiei, σ, se numeşte abaterea medie pătratică a

variabilei X, iar sx abaterea standard.

1.2.6.1.Proprietăţi a) Pentru orice variabilă aleatoare X şi orice constante a şi b

( ) ( )2D aX b a D X+ = b) Dacă X, Y sunt două variabile aleatoare independente

( ) ( ) ( )D X Y D X D Y+ = + Demonstraţie:

Pentru orice două variabile aleatoare X şi , cu mediile Y Xμ şi respectiv Yμ , avem

( ) ( ) ( ) ( )( )( ) ( ) ( ) ( )( )

2 2

2 2X Y X Y

X Y X

D X Y M X Y M X M Y

M X Y D X D Y M X Y

μ μ μ μ

μ μ μ μ

+ = + − − = − + − +

+ − − = + + − −⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦

2

Y

Dar, atunci când X şi Y sunt independente ( ) X YM XY μ μ⇒ = ,

( )( ) ( )0

X Y Y X X Y

X Y X Y X Y X Y

M X Y M XY X Yμ μ μ μ μ μ

μ μ μ μ μ μ μ μ

− − = − − +⎡ ⎤⎣ ⎦= − − + =

=

( )( ) 0X YM X Yμ μ⇒ − −⎡ ⎤⎣ ⎦ = şi deci ( ) ( ) ( )D X Y D X D Y+ = + c) Între dispersie, valoarea medie şi momentul de ordinul doi există relaţia:

( ) ( ) ( )( )22D f M f M f= − Demonstraţie:

Page 20: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Variabile aleatoare

17

μ =( ) ( )

( ) ( ) ( )( )

2 2 2

22 2 2 2

2

2

i X i i i i X i X i

X X

D X x p x p x p p

M f M f M f

μ μ

μ μ

= − = − +

= − + = −

∑ ∑ ∑ ∑

1.2.6.2.Observaţie Dacă numim ( )2M f – media pătratului si ( )( )2

M f – pătratul mediei formula capătă o formulare uşor de reţinut:”Dispersia este egală cu media pătratului, minus pătratul mediei”.

Relaţia se mai poate scrie sub forma ( )2 2XM X 2

Xμ σ= + şi am putea s-o numim „teorema lui Pitagora în probabilitate”.

1.2.6.3.Exemplu

În modelul clasic al urnei cu bile pe care l-am prezentat mai sus, probabilitatea evenimentului “din n bile extrase, k sunt albe” era

knkknk qpCp −= .

Media variabilei aleatore X care da numărul de bile albe din bile extrase va fi, prin definiţie,

n

( ) k k n knM X kC p q −=∑

Pentru a calcula această sumă considerăm următoarea identitate ( )n k k k n k

npt q C p t q −+ = ∑ , pe care o derivăm în raport cu t

( )( ) ( )n k k k n knpt q C p t q −′ ′+ = ∑

( ) 1 1n k k k n knnp pt q C p kt q− − −+ = ∑ şi apoi facem

⇒ 1t = k k n knnp C p kq −=∑

Am obţinut, deci, ( )M X np= Folosind aceiaşi identitate, dar derivând de două ori se arată că:

( )D X np= q . Cunoaşterea mediei şi dispersiei unei variabile aleatoare dă o

indicaţie asupra intervalului în care se află valorile variabilei, cu cea mai mare probabilitate. Mai exact, după cum arată teorema următoare, cu cât ne îndepărtăm mai mult de valoarea medie, cu atât valorile respective sunt mai puţin probabile ca valori ale variabilei date.

Page 21: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Variabile aleatoare

18

1.2.7. Inegalitatea lui Cebâşev Dacă σ2 este dispersia variabilei aleatoare X , probabilitatea ca

modulul abaterii sale de la valoarea medie să ia valori mai mari decât un

număr 0ε ⟩ este mai mică decât 2

2

εσ .

( )2

2P x m σεε

− ≥ ≤

Demonstraţie:

Pornim de la definiţia dispersiei ( )[ ] ( ) iii pmxmxM 222 ∑ −=−=σ şi împărţim suma în doi termeni: unul corespunzător valorilor pentru care ix

ε≥−mxi şi unul corespunzător valorilor lui pentru care ix ix m ε− ⟨ .

( ) ( ) ( )2 22

i i

i i i i i ix m x m

2x m p x m p x m pε ε

σ− ⟨ − ≥

= − = − + −∑ ∑ ∑

Dacă neglijăm primul termen al sumei şi minorăm mxi − înlocuindu-l cu ε în al doilea termen, se obţine ( )

n

i

kkkmx

i pppp +++=≥ ∑≥−

...21

222 εεσε

,

cunkkk ppp +++ ...

21suma probabilităţilor valorilor pentru care

ikx

ε≥− mxik .

Dar ( )1 2

...nk k kp p p P x m ε+ + + = − ≥ şi deci am obţinut

( )2 2P x mσ ε≥ − ≥ ε ceea ce implică următoarea relaţie:

( )2

2P x m σεε

− ≥ ≤ .

Deoarece suma între probabilitatea unui eveniment A şi probabilitatea evenimentului contrar CA este 1, avem ( ) (1P CA P A= − ) şi inegalitatea se mai poate scrie sub forma

( )2

21iP x m σεε

− ⟨ ⟩ −

Page 22: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Variabile aleatoare

19

1.2.7.1.Exemplu: Fie σε 3= , atunci inegalitatea Cebâşev dă:

( ) 88.098

9113 ==−=⟨− εmxP i

Exprimat în cuvinte, această inegalitate aparent banală, spune din punct de vedere fenomenologic, enorm de mult:

Probabilitatea ca orice variabilă aleatoare să ia valori mai

îndepărtate de valoarea sa medie decât de trei valori standard, este mai mică decât 0,12.

Vom vedea mai departe că, în cazul în care variabila aleatoare are suplimentar unele proprietăţi de regularitate, această probabilitate este chiar mult mai mică. Aceiaşi inegalitate ne permite înţelegerea legăturii între frecvenţa şi probabilitate, legătura care exprimă însăşi fundamentarea statisticii pe teoria probabilităţilor. Să considerăm variabila aleatoare care dă numărul de bile albe într-o extracţie de n bile din urnă. Pentru această variabilă avem următoarea teoremă, care se generalizează în teoria probabilităţilor în forme care depăşesc însă cadrul acestei lucrări.

1.2.8. Teorema lui Bernoulli (legea numerelor mari): Dacă se notează cu p probabilitatea ca un eveniment A (de exemplu

apariţia bilei albe) să se realizeze într-un experiment şi nkfn = este

frecvenţa cu care se realizează evenimentul A în n experimente identice consecutive, şirul ( )nf converge către în probabilitate. p

Altfel spus:

Frecvenţa experimentala tinde în probabilitate la probabilitatea teoretică.

Page 23: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Variabile aleatoare

20

Demonstraţie:

( ) ( )( )εεε nkMkPnnpkPpnkP nnn ≥−=≥−=⎟⎟

⎞⎜⎜⎝

⎛≥− ∞→∞→∞→ limlimlim

Dar, aplicând inegalitatea lui Cebâşev: ( )( ) 22

2

εσε

nnkMkP ≤≥− şi deci

0limlim 22

2

=≤⎟⎟⎠

⎞⎜⎜⎝

⎛≥− ∞→∞→ ε

σεn

pnkP nn

Teorema lui Bernoulli afirmă numai că inegalitatea ε≥− pfn nu

are şansa să fie realizată sau că inegalitatea nf p ε− ⟨ are şanse mari să fie îndeplinită dacă n este suficient de mare

Page 24: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Distributii de probabilitate

21

1.3. DISTRIBUŢII DE PROBABILITATE

1.3.1. Distribuţia normală Spunem că o variabilă aleatoare este normal repartizată ( )2,σmN ,

atunci când densitatea sa de probabilitate este data de formula:

( )( )

2

2

2

21,, σ

πσσρ

mx

emx−

−=

O primă condiţie ca ( )xρ să fie distribuţie de probabilitate este aceea că

( ) ( )( ) 1=+∞⟨⟨∞−=∫+∞

∞−tfPdxxρ

Pentru a verifica această condiţie, vom demonstra mai intai, folosind integrala dublă, ca:

π22

2

=∫∞+

∞−

−dxe

x

Fie 2 2

2 20 0

x y

I e dx e dy+∞ +∞− −

= =∫ ∫ , 2 2 2 2

2 2 2 20 0

*x y x y

D

I e dx e dy e dxdy+

+∞ +∞− − −⇒ = =∫ ∫ ∫∫

Facem schimabarea de variabila: cosx ρ θ= si siny ρ θ= unde

( )0 ,ρ ∈ ∞ si 0 ,2πθ ⎡ ⎤∈ ⎢ ⎥⎣ ⎦

.

Vom obtine: 2 2 2

2 2 2 2 20 0 0 02 2

I e d d e d eπ ρ ρ ρ

2π π πρ ρ θ ρ ρ

+∞ +∞− − − +∞= = = −∫ ∫ ∫ =

Am obtinut ca 2

2I π

=2

2 2I π π

⇒ = =

Dar, 2 2

2 20

22* 2* 2* 22

x x

e dx e dx I π π+∞ +∞− −

−∞= = = =∫ ∫

În cazul nostru, dacă facem schimbarea de variabilă σ

mxu −= avem

( )( )

12

12

1 22

2

2

2

=== ∫∫∫∞+

∞−

−∞+

∞−

−−∞+

∞−duedxedxx

umx

σπσπσ

ρ σ

Page 25: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Distributii de probabilitate

22

Vom arăta în continuare că o variabilă aleatoare normal repartizată are media m şi dispersia . 2σ

Să calculăm mai întâi media:

[ ]( )

( )( )

( ) mmmduuemdxemx

dxemmxdxxeXM

umx

mxmx

=+=+=+−

=

=+−==

∫∫

∫∫∞+

∞−

−∞+

∞−

⎟⎠⎞

⎜⎝⎛ −

∞+

∞−

−−∞+

∞−

−−

02

12

1

21

21

2221

22

22

2

2

2

2

σπσσ

σπσ

πσπσ

σ

σσ

Integrala este nulă deoarece funcţia de integrat este impară. Pentru calculul dispersiei ne folosim de identitatea: ( ) ( ) ( ) ( )2 22D X M X M X M X M X= − = −⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦

( )( )

( ) =+==−∞+

∞−

−−∞+

∞− ∫∫ dueumdxexXMumx

σσπσπσ

σ 22222

2

2

2

21

21

=⎟⎟

⎜⎜

⎛++= ∫

∞+

∞−

−−−dueueumem

uuu222222

222

221 σσπ

2

2 2 2 21 22

u

m u eπ σπ

+∞ −

−∞

⎛ ⎞= +⎜ ⎟⎜ ⎟

⎝ ⎠∫ du

Calculăm separat integrala rămasă şi obţinem:

2 2 2 2

2 2 2 2 21* 2u u u u

u e du u ue du ue e du π+∞

−∞

+∞ +∞ +∞− − − −

−∞ −∞ −∞

⎛ ⎞ ⎛ ⎞= − − = − − =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠∫ ∫ ∫

unde am integrat prin părţi, luând ϕ=u şi ψ ′=−−

2

2u

ue

Deci am obţinut ( ) ( )πσππ

2221 222 += mXM şi înlocuind în

expresia lui ( )XD obţinem:

( ) ( ) 2222 2221 σπσππ

=−+= mmXD

Pornind de la proprietăţile operatorilor de medie şi dispersie ( ) ( ) mXMmXM −=− ( ) ( )XDmXD =− şi

Page 26: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Distributii de probabilitate

23

( )XDaa

XD 2

1=⎟

⎠⎞

⎜⎝⎛

se obţine că, dacă o variabilă aleatoare este normal repartizată ( )σ,mN ,

variabila aleatoare redusă σ

mX − este repartizată ( )1,0N , deci cu distribuţia

de probabilitate

( ) 2

2x

ex−

Funcţia de repartiţie asociată este funcţia ( ) dxett x

∫ ∞−

−=Φ 2

2

numită

funcţia lui Laplace şi ale cărei valori se găsesc în tabelele din practic toate cărţile de statistică şi probabilităţi.

1.3.2. Distribuţie binomială Distribuţia binomială apare, aşa cum s-a arătat mai sus, la descrierea

evenimentelor asociate extracţiilor dintr-o urnă cu bile albe şi bile negre. Distribuţia variabilei aleatoare “numărul de bile albe din n bile

extrase” se poate reprezenta şi sub formă matricială:

⎟⎟⎠

⎞⎜⎜⎝

⎛= −− 011100 ......

10qpC

nqpC

kqpCqpC

X nkn

knkkn

nn

nn

După cum am arătat media şi dispersia unei variabile aleatoare repartizate binomial sunt npM = si npqD =

Repartiţia binomială apare întotdeauna atunci când un experiment cu

numai două răspunsuri posibile se repetă de n ori. Un caz particular îl prezintă experimentele care se repetă de un număr foarte mare de ori, iar evenimentul în a cărui apariţie suntem interesaţi are o probabilitate foarte mică, categorisit uzual ca “eveniment rar”.

La limită, când ∞→n , , dar rămâne constant, 0→p np λ=np ,

se obţine distribuţia Poisson.

Page 27: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Distributii de probabilitate

24

1.3.3. Distribuţia POISSON Considerăm deci că λ=np şi trecem la limită după n

( ) ( )=⎟

⎠⎞

⎜⎝⎛ −

+−−=

∞→−

∞→

kn

k

k

nknkk

nn nnkknnnqpC λλ 1

!1...1limlim

( ) ( )1 ... 11 *lim lim 1!

n kk

n nk

n n n kk n

λλn

→∞ →∞

− − + ⎛ ⎞= −⎜ ⎟⎝ ⎠

dar ( ) ( ) 11...1lim =+−−

∞→ kn nknnn şi

( )

λ

λ

λλλ −

−−

∞→

∞→ =⎥⎥

⎢⎢

⎡⎟⎠⎞

⎜⎝⎛ −=⎟

⎠⎞

⎜⎝⎛ − e

nn

nkn

n

n

kn

n 1lim1lim şi deci,

λλ −−∞→ = e

kqpC

kknkk

nn !lim

Deci, distribuţia Poisson este dată de matricea

⎟⎟

⎜⎜

⎛= −−−− λλλλ λλλ

en

n

ek

keeX nk

!...

!...

!1

10

Calculând, după definiţie, media şi dispersia unei variabile aleatoare distribuite Poisson şi ţinând cont că

λλ ekk

k

=∑ ≥0 ! , λλλ e

kk

k

k

=∑ ≥0 ! , ( ) λλλ e

kkk

k

k2

2 !1 =−∑ ≥

,

λλλ ek

kk

k

=∑ ≥1 ! se obţine

( ) ( ) ( ) λλλλλλ λλλλλ

==−

=−

== ∑∑∑ ≥−

−−

≥−

1

1

10 !1!1! k

k

k

k

k

k

eek

ek

ekekXM

( ) ( )

( )[ ] ( )

( ) λλλλ

λλλλλ

λλλλλλλ

λλλ

λλλ

λλ

=−+=

=−⎥⎦

⎤⎢⎣

⎡+−=⎟⎟

⎞⎜⎜⎝

⎛−+−=

=⎟⎟⎠

⎞⎜⎜⎝

⎛+−=

−=

≥ ≥−

≥−

≥ ≥ ≥−

≥−

∑ ∑∑

∑ ∑ ∑∑

22

22 11

2

0 0 02

2

0

2

!!1

!1

!!2

!!

eee

kk

kkkee

kkkke

kkk

kke

kkeXD

k k

kk

k

k

k k k

kkk

k

k

Page 28: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Distributii de probabilitate

25

1.3.3.1. Exemplu: Numărul evenimentelor adverse la un medicament dat este repartizat

Poisson. Cel mai mult este utilizată distribuţia Poisson în fizica statistică.

1.3.4. Aproximarea normală a distribuţiei binomiale Ca o regulă generală, dacă np şi nq sunt mai mari sau egale cu 5,

poate fi folosită aproximarea normală. Pentru distribuţiile binomiale în care p<0,5 aproximarea este bună pentru valori ale lui np şi nq mai mici decât 5.

În aceste condiţii,

npq

pnk

npqnpk −

=− este aproximativ normal distribuit cu

media 0 şi deviaţia standard 1. Această transformare înlesneşte de obicei calculul probabilităţilor

binomiale.

1.3.5. Repartitia χ2 Helmert - Pearson Se consideră n observaţii independente x1, x2, …, xn (variabile aleatoare independente) normal distribuite ( )2,N m σ .

Variabilele standard ii

x muσ−

= , ni ,1= sunt de asemenea

independente, iar suma pătratelor lor va avea o distributie ce poate fi determinată. Se defineşte ∑= n

iuX1

2 . Distribuţia variabilei X rezultate se notează χ2(n) şi este diferită

pentru fiecare valoare a lui n, iar parametru n se defineşte ca numărul de gradelor de libertate.

Vom determina în continuare parametrii (media şi dispersia) unei variabile distribuite χ2.

Pentru a afla media distributiei χ2 este necesară aflarea lui [ ]2iuM .

Deoarece [ ] 0=iuM , ( ) ( ) ( ) [ ]22 2 1i i i iM u M u M u D u= − =⎡ ⎤⎣ ⎦ =

Ca urmare ( )2 2 21 1

*1n ni iM n M u M u nχ ⎡ ⎤⎡ ⎤ ⎡ ⎤ n= = =⎣ ⎦ ⎣ ⎦⎣ ⎦∑ ∑ =

Dispersia va fi:

Page 29: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Distributii de probabilitate

26

( )

( ) ( )( ) ( )

2 2 21 1

22 4 2 4 1

n ni i

i i i i

D n D u D u

nD u n M u M u n M u

χ ⎡ ⎤⎡ ⎤ ⎡ ⎤= = =⎣ ⎦ ⎣ ⎦⎣ ⎦⎡ ⎤ ⎡ ⎤⎡ ⎤= = − = −⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

∑ ∑

Pentru a obţine [ ]4iuM se foloseşte regula integrării prin părţi:

( ) ( ) ( ) ( ) ( ) ( )dxxgxfxgxfdxxgxf ∫∫ ′−=′

În acest caz se va identifică: ( ) ( )

( ) ( ) 22

23

22

3uu

uexgexg

uxfuxf

−−=′⇒=

=′⇒=, deci se va obţine:

( )2 2

2 2 2

4 4 4 32 2

3 2 22 2 2

1 12 2

1 1 13 3 32 2 2

u u

i

u u u

M u u u du u e du u ue du

u e u e du u e du M u

ρπ π

π π π

+∞ +∞ +∞− −

−∞ −∞ −∞

+∞ +∞ +∞− − −

−∞ −∞−∞

⎡ ⎤ = = = =⎣ ⎦

⎛ ⎞ ⎛ ⎞⎡ ⎤2 3− − = =⎜ ⎟ ⎜ ⎟ ⎣ ⎦⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠

∫ ∫ ∫

∫ ∫ =

Atunci,

[ ] [ ] [ ]( ) ( ) 213 2242 =−=−= iii uMuMuD şi substituind în relaţia de mai sus se va obţine

( )2 2 2iD n nD uχ⎡ ⎤ ⎡ ⎤= =⎣ ⎦ ⎣ ⎦ n

Deci variabila este repartizată χ2(n), cu n grade de libertate, având:

222

21

2 ... nxxxx +++=

• media ( )2E nχ = , respectiv

• dispersia ( )2 2D nχ = . Se poate arăta că densitatea de probabilitate este dată de funcţia

( ) ( )2

12 22 2

2

1

22

n

nf en

χ

χ χ− −

=⎛ ⎞Γ⎜ ⎟⎝ ⎠

,

unde este funcţia Euler de speţa I-a studiată la cursul de matematică şi

anume : .

Γ

( ) 1

0

te t dtαα+∞ − −Γ = ∫

Repartitia se foloseşte foarte mult în statistica matematică în verificarea ipotezelor asupra egalităţii dispersiilor.

Page 30: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Distributii de probabilitate

27

1.3.6. Repatiţia STUDENT Analog cu distribuţia , repartiţia t a fost propusă de Student

(pseudonimul lui W.S.Gosset, chimist statistician englez), pentru statistica selecţiilor mici şi exprimă deviaţiile mediilor de selecţie

x , faţă de media

întregii populaţii μ, măsurate în ns (abaterea standard a mediilor de

selecţie). Dacă sunt date două variabile aleatoare ( )1,0NZ ∈ si

independente, se spune că variabila ( )nV 2χ∈

( )nZT TVn

= ∈ n

este repartizată Student cu n grade de libertate. Mărimea t nu depinde decât de numărul gradelor de libertate. Distribuţia de probabilitate a unei variabile aleatoare repartizate

Student tinde pentru ∞→n , la distribuţia normală ( ) 2

2

21 t

et−

→π

ρ

Densitatea de probabilitate este dată de funcţia:

( )1

2 2

11 2* * 1

2

nnxf x

n nnπ

+−

+⎛ ⎞Γ⎜ ⎟ ⎛ ⎞⎝ ⎠= ⎜ ⎟⎛ ⎞ ⎝ ⎠Γ⎜ ⎟⎝ ⎠

+ unde x R∈ şi n N∈ .

Page 31: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

I. Elemente de teoria probabilitatilor Distributii de probabilitate

28

1.3.7. Repartiţia F (Behrens - Fisher – Snedecor) a raportului a două dispersii

Se consideră frecvent în statistică raportul a două dispersii care

estimează aceeaşi dispersie generală a unei colectivităţi. Dintr-o colectivitate generală se extrag două selecţii ( )1

2 nU χ∈ , . ( )22 nV χ∈

Raportul lor este o variabilă aleatoare repartizată F

( )21

2

1 ,nnF

nVnU

F ∈=

Examinând acest raport se observă că el nu conţine dispersia

colectivităţii generale σ2 , de unde rezultă că distribuţia acestui raport nu depinde decât de numărul gradelor de libertate si ale celor două dispersii.

1n 2n

Densitatea de probabilitate este dată de funcţia:

( )1 1

1

2

1 22 21

1 1

1 2 2 2

2 * * * 1 **

2 2

n nnn

n nn nf x x x

n n n n

+−

+⎛ ⎞Γ⎜ ⎟ ⎛ ⎞ ⎛ ⎞⎝ ⎠= +⎜ ⎟ ⎜ ⎟⎛ ⎞ ⎛ ⎞ ⎝ ⎠ ⎝ ⎠Γ Γ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

2n

,

când 0x ⟩ .

Page 32: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

29

II. STATISTICĂ MATEMATICĂ ŞI BIOSTATISTICĂ

Statistica matematică este principala aplicaţie a teoriei

probabilităţilor. Procedeele statistice constau, în esenţă, în elaborarea unor concluzii plauzibile privitoare la colectivităţi mari de fenomene, pe baza cunoaşterii unui număr restrâns dintre acestea şi extrapolării rezultatelor.

Legile care stau la baza statisticii şi care permit aceste generalizări sunt teorema limită centrală şi legea numerelor mari.

Într-o exprimare intuitivă, avem rezultatul că, dacă o variabilă aleatoare ξ este suma unui număr mare de variabile aleatoare independente, fiecare variabilă aleatoare având o pondere mică în sumă, atunci funcţia de repartiţie a variabilei aleatoare ξ este foarte apropiată de o funcţie de repartiţie normală.

Exprimat mai riguros şi mai general, avem următoarea teoremă:

2.1. Teorema limită centrală (A.M.Leapunov) Fie nξξξ ,...,, 21 variabile aleatoare independente.

Fie ( ) ( ) 2,k k kM a D kξ ξ σ= = şi ( )33kkk aM −= ξρ când nk ,1=

Notăm ( ) ∑= nin 122 σσ , ( ) ∑= n

in 133 ρρ

Dacă ( )

( )0lim =∞→

n

nn σ

ρ , atunci funcţia de repartiţie a variabilei

( )( )n

nn aaaσ

ξξξ +++−+++ ...... 2121

tinde, când ∞→n , către funcţia ( )xΦ a lui Laplace.

( ) dtexx t

∫∞−

−=Φ 2

2

21π

Teorema limită centrală este teorema fundamentală a teoriei erorilor. Laplace, Gauss şi alţi matematicieni, studiind repartiţia erorilor, au ajuns la concluzia că funcţia de repartiţie normală poate fi luată drept model teoretic pentru cercetarea probabilistică a aproape tuturor fenomenelor naturii.

Page 33: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

30

2.2. Teorema lui Cebâşev Dacă nζζζ ,...,, 21 sunt variabile aleatoare (discrete sau continue) independente ale căror dispersii sunt mai mici decât o constantă C, atunci oricare ar fi numărul pozitiv ε, probabilitatea inegalităţii

( ) ( ) ( )1 21 2 ...... nn M M Mn n

ζ ζ ζζ ζ ζ ε+ + ++ + +

− ⟨

tinde către 1, atunci când numărul variabilelor aleatoare tinde către infinit. Demonstraţie:

Să considerăm variabila aleatoare n

nζζζζ

+++=

...21 . Având în

vedere liniaritatea operatorului de calcul a mediei avem

( ) ( ) ( ) ( )1 2 ... nM M MM

nζ ζ ζ

ζ+ + +

= .

Aplicând inegalitatea lui Cebâşev variabilei aleatoare ζ se obţine:

( ) ( ) ( )1 2

1 21 22

......... 1

n

nn

DM M M nP

ζ ζ ζ

n nζ ζ ζζ ζ ζ ε

ε

+ + +⎛ ⎞⎜ ⎟⎛ ⎞+ + ++ + + ⎝ ⎠− ⟨ ≥ −⎜ ⎟⎜ ⎟

⎝ ⎠ Mai departe, din proprietăţile operatorului D

( ) ( ) ( )nC

nnC

nCCC

nDDD

nD nn ==

+++≤

+++=⎟

⎠⎞

⎜⎝⎛ +++

2222121 ......... ζζζζζζ

Deci

( ) ( ) ( )1 21 22

...... 1nn M M M CPn n

ζ ζ ζζ ζ ζ εnε

⎛ ⎞+ + ++ + +− ⟨⎜ ⎟⎜ ⎟

⎝ ⎠≥ −

Trecând la limita pentru ∞→n obţinem ( ) ( ) ( )1 21 2 ......lim 1nn

n

M M MP

n nζ ζ ζζ ζ ζ ε→∞

⎛ ⎞+ + ++ + +− ⟨ ≥⎜ ⎟⎜ ⎟

⎝ ⎠

şi cum probabilitatea nu poate depăşi 1, ( ) ( ) ( )1 21 2 ......lim 1nn

n

M M MP

n nζ ζ ζζ ζ ζ ε→∞

⎛ ⎞+ + ++ + +− ⟨ =⎜ ⎟⎜ ⎟

⎝ ⎠

Page 34: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

31

Cel mai frecvent, în practică, variabilele aleatoare iζ au aceiaşi medie μ şi concluzia teoremei devine

1...

lim 21 =⎟⎟⎠

⎞⎜⎜⎝

⎛⟨−

+++∞→ εμ

ζζζn

P nn

În esenţă, teorema lui Cebâşev stabileşte că, deşi variabilele aleatoare independente pot lua valori îndepărtate faţă de mediile lor, media aritmetică a unui număr suficient de mare de astfel de variabile aleatoare ia cel mai probabil valori apropiate de un număr constant

( ) ( ) ( )1 2 ... nM M Mn

ζ ζ ζ+ + + (sau μ atunci când mediile variabilelor sunt

egale între ele). Ca urmare, între comportarea fiecărei variabile aleatoare şi

comportarea mediilor lor există diferenţă esenţială. Putem spune foarte precis ce valoare va lua media aritmetică a acestor variabile aleatoare. Explicaţia acestui fapt constă în aceea că abaterile diverselor variabile aleatoare sunt de semne diferite şi, ca urmare, se compensează între ele. 2.3. Metoda verosimilitatii maxime

Metoda verosimilitatii maxime da ca estimatie a parametrului θ aceea valoare θ care face maxima functia de verosimilitate.

Valoarea lui θ care maximizeaza functia de verosimilitate maximizeaza si logaritmul functiei de verosimilitate.

Astfel estimatia de verosimilitate maxima (EVM) este o valoare a lui θ care maximizeaza functia de verosimilitate si logaritmul functiei de verosimilitate. In cele mai multe probleme cu un singur parametru necunoscut, multimea valorilor parametrului θ : ( )H este un interval al dreptei reale. Derivatele

( )ln ,P x θθ

∂∂

si ( )2

2

ln ,P x θθ

∂∂

vor exista in toate punctele interioare ale multimii ( )H EVM se gaseste ca radacina a ecuatiei de verosimilitate

( )ln ,0

P x θθ

∂=

O radacina a ecuatiei de verosimilitate in care ( )2

2

ln ,0

P x θθ

∂⟨

∂ este

un punct de maxim relativ.

Page 35: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

32

Printre radacinile ecuatiei de verosimilitate pot aparea si puncte de minim relativ. Asrfel este necesar sa determinam semnul derivatei de ordinul doi sau sa se verifice daca radacina obtinuta este un maxim relativ. Apar situatii in care θ nu poate fi obtinut rezolvand ecuatia de verosimilitate. De exemplu, maximul global al functiei de verosimilitate poate sa se realizeze pe frontiera spatiului parametrilor ( )H Aplicatie:

Fie 1 2, ,..., nX X X variabile aleatoare independente (si identic repartizate) binare cu

( ) ( )1 1 0P X p= = ∈Θ = ,1 .

Cand ( ) ( )1 2 1 2, ,..., , ,...,nX X X x x x= n este observata, functia de verosimilitate este:

( ) ( ) ( ) ( )1 1

1

1 1ii

nx n xx n x

i

l p p p p p− −

=

= − = −∏ , unde 1

n

ii

x x=

= ∑ .

Pentru a gasi EVM pentru parametrul , trebuie sa determinam maximul functiei

p( )l p sau echivalent al functiei de log – verosimilitate care

este ( ) ( )lnL p l p= . Se observa ca

( )10

1

n xL nxp p p

−∂= − =

∂ −

are ca unica solutie ( )0 ,1p x= ∈ (pentru { }0 ,1x∈ se poate verifica separat

ca unicul punct critic al lui L este tot p x= ). Cum

( )

( )

2

22 2

10

1

n xL nxp p p

−∂= − − ⟨

∂ −

putem concluziona ca p x= este unicul punct de maxim al lui L , si prin urmare x este unicul EVM pentru p.

Page 36: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

33

Aplicatie: Fie 1 2, ,..., nX X X variabile aleatoare independente, identic

repartizate cu repartitia normala ( )2,N μ σ , unde

( ) ( )2, 0θ μ σ= ∈Θ = × , ∞ sunt parametri necunoscuti, iar . 2n ≥

Pentru o observatie ( ) ( )1 2 1 2, ,..., , ,...,nX X X x x x= n , functia de log-verosimilitate este:

( ) ( ) ( ) ( )2 22

1

1ln ln ln 22 2 2

n

ii

n nL l xθ θ μ σσ =

= = − − − −∑ π

dat fiind ca, in acest caz,

( )( )2

2212

x

f x eμσ

θ σ π

−−

=

Rezolvand din nou o problema standard de extrem (pentru functia de 2 variabile L ), gasim ca unicul punct de maxim al lui L , si deci unicul EVM pentru ( )2,θ μ σ= este dat de:

1

1 n

ii

x xn

μ=

= = ∑ ; ( )22

1

1 n

ii

x xn

σ=

= −∑

Astfel gasim o proprietate specifica repartitiei normale: media si abaterea medie patratica ale unui esantion sunt estimatori de verosimilitate maxima (EVM-uri) pentru media si dispersia populatiei.

Aplicatie: In multe teste de laborator se iau probe din apa unui rau pentru a se

vedea daca apa este buna pentru inot. In particular prezinta interes concentratia in bacterii coliform a apei. Numarul de bacterii coliform este determinat pentru fiecare din cele n probe din apa raului. S-a obtinut rezultatele 1 2, ,..., nx x x . Problema care se pune este de estima pe μ , media numarului de bacterii coliform in unitatea de volum a apei raului.

Presupunem ca bacteriile sunt dispersate la intamplare in apa raului si ca localizarile bacteriilor sunt puncte aleatoare in spatiu. Atunci probabilitatea de a gasi ix bacterii intr-o proba de volum unitate este data de repartitia Poisson:

Page 37: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

34

( )!

ix

ief x

x

μμ −

= , unde 0,1,2,...ix = si 0 μ≤ ⟨ ∞ .

Deoarece volumele disjuncte sunt independente, probabilitatea celor n masuratori 1 2, ,..., nx x x este

( ) ( )1

1

,!

ix nn

i ni

jj

eP x f xx

μμμ−

=

=

∑= =∏

Avem: ln lniP x nμ μ= −∑

( )ln , 1i

P xx n

μμ μ

∂= −

∂ ∑ si ( )2

2 2

ln , 1i

P xx

μμ μ

∂= −

∂ ∑

Daca , 0ix ⟩∑ ( )ln ,0

P x μμ

∂=

∂ are solutia unica 1

ix xn

μ = =∑ .

In acest punct a doua derivata este negativa, ceea ce indica ca avem

un maxim relativ. Deoarece ( ),0 0P x = si ( ),P x μ → 0 cand μ → ∞ , x este un

maxim absolut.

Daca 0ix =∑ , ecuatia ( )ln ,

0P x μμ

∂=

∂ nu are solutie si maximul

se realizeaza pe frontiera spatiului parametrilor: 0μ = . Astfel, in fiecare

caz, avem xμ = . Probabilitatea variabilelor de selectie este maxima daca media

populatiei μ este estimata prin media de selectie x . Observam ca

( ) ( ) ( )1 1iM M X M X n

n nμ μ μ= = =∑ =

ceea ce arata ca xμ = este un estimator nedeplasat pentru μ .

Page 38: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

35

Observatie:

Cu ajutorul functiei de verosimilitate se construieste unul dintre cele

mai utilizate teste statistice pentru modele parametrice: testul raportului de verosimilitate. Definitie:

Fie X un esantion dintr-o populatie { }kP Pθ θ∈℘= ∈Θ⊂ ,

pentru care se considera urmatorul set de ipoteze : 0 0:H θ ∈Θ vs. 1:AH θ ∈Θ

unde si 0 1Θ ∪Θ =Θ 0 1Θ ∩Θ =Φ .

Se numeste test al raportului de verosimilitate LR 1,2 (Likelihood ratio test) orice test care respinge ipoteza daca si numai daca 0H

( ) [ ]0 ,1X cλ ⟨ ∈ , unde:

( ) ( )( )

0supsup

lX

θ

θλ

θ∈Θ

∈Θ

=

1 Choi L., Caffo B., Rohde C., A survey of the likelihood approach to bioequivalence trials, Statistics in Medicine, 27 (2008), 4874 - 4894 2 Zhang Z., A law of Likelihood for composite hypotheses, ar Xiv:0901.0463 (math. ST)

Page 39: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

36

2.4. TEORIA SELECŢIEI 2.4.1. Populaţii şi selecţii. Inferenţa statistică

În practică avem adesea nevoie să facem judecăţi asupra unor mari colecţii de rezultate posibile experimental ori a altor cantităţi, dar nu putem sau este extrem de scump, să examinăm toate aceste date. În astfel de cazuri, în loc să examinăm întregul set de date pe care îl numim în cele ce urmează populaţie, tragem concluziile după examinarea a o parte din ele, alese la întâmplare, parte pe care o numim selecţie.

Procedeul de obţinere a probelor este numit tot selecţie, iar procedeul de extrapolare a concluziilor la întreaga populaţie este cunoscut ca inferenţa statistică.

Vom considera că o caracteristică dată a populaţiei este o variabilă aleatoare pe un câmp de probabilitate ( )PK ,,Ω în care elementele lui Ω sunt chiar elementele populaţiei, iar P este o probabilitate cunoscută sau nu.

Enumerarea valorilor observate ale caracteristicii urmărite şi a frecvenţelor lor relative defineşte repartiţia statistică a selecţiei.

Teorema lui Leapunov, numită şi teorema fundamentală a statisticii matematice, care justifică utilizarea metodei selecţiei stabileşte că funcţia de repartiţie statistică a caracteristicilor selecţiilor tinde la funcţia teoretică de repartiţie a caracteristicii studiate când volmul selecţiei tinde la ∞.

2.4.1.1. Exemplu

Putem dori să tragem concluzii despre evoluţia rezistentei unei tulpini de germeni patologeni la un medicament dat şi, în acest scop, examinăm rezultatele antibiogramelor făcute într-un eşantion de spitale într-o perioadă recentă (luniile de iarnă), comparată cu aceeaşi perioadă a anului precedent. Deşi rezultatele obţinute se referă la spitale şi mai precis numai la o parte din ele, concluziile le extindem la scara întregii populaţii.

2.4.1.2. Exemplu

Rezultatele privind absorbţia unui medicament după administrarea orală prin determinarea nivelurilor din plasma ale medicamentului la un lot de voluntari sănătoşi le considerăm ca rezultate probabile pentru întreaga populaţie ce include şi potenţiali pacienţi.

Populaţia poate fi infinită sau finită, în ultimul caz, numărul indivizilor populaţiei – N- se mai numeşte şi volumul populaţiei. În mod

Page 40: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

37

similar, numărul de indivizi sau valori din cadrul unei probe este denumit volumul probei sau volumul eşantionului.

Valabilitatea concluziilor despre populaţie depinde de “reprezentativitatea” probei. Pentru populaţii finite aceasta înseamnă că fiecare membru al populaţiei are aceeaşi şansă să fie selectat, când spunem că selecţia este o selecţie la întâmplare sau “selecţie aleatoare”. Desigur că selecţia unor voluntari sănătoşi pentru determinarea parametrilor farmacocinetici ai unui medicament nu este din acest punct de vedere o selecţie reprezentativă. În cazurile în care avem motive să credem că patologia căreia se adresează medicamentul nu afectează funcţiile metabolice şi de excreţie, această aproximare este acceptată pentru motivul că o selecţie corectă ar implica loturi mult mai mari cu cheltuieli şi timp de lucru mult crescute.

În practică, în studiile de bioechivalenţă, pentru reducerea volumului loturilor pe care se fac testările, se administrează amândouă medicamentele la toţi membri lotului, în două perioade diferite. Fiecare component al lotului primeşte unul din medicamente în prima perioadă şi celălalt în a doua perioadă.

Deoarece perioada de administrare poate influenţa şi ea rezultatul experimentului, alegerea indivizilor care vor primi în prima perioadă primul medicament se face în mod aleator. În cazul când sunt mai multe perioade, de exemplu I-IV, şi mai multe medicamente A, B, C, D se alcătuieşte un tabel de felul urmator

Tabelul nr. 1: I II III IV A B D C B C A D C D B A D A C B

aşa zisul pătrat “latin”, unde observăm că fiecare literă apare o singură dată în fiecare linie şi în fiecare coloană. Se numeşte pătrat latin deoarece, cum se va arata mai departe, în cazul în care mai intervine şi o altă variabilă, de exemplu doza din fiecare medicament, se folosesc şi litere grecesti, alcătuindu-se pătrate “greco-latine”.

Deasemenea, studiile de bioechivalenţă se fac tot pe voluntari sănătoşi, pornind de la ipoteza că modificările de biodisponibilitate asociate stărilor patologice sunt aceleaşi pentru cele două medicamente testate, ceea ce, evident, este numai în parte adevărat.

În toate experimentele biologice, planificarea experimentului trebuie făcută în aşa fel încât diferenţele în tratament să nu coincidă cu diferenţe în

Page 41: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

38

vârstă, sex, sau alţi parametri. Dacă, de exemplu, femeile din lot primesc primul medicament şi bărbaţii al doilea, se spune ca diferenţele de sex sunt “confundate” cu diferenţele de tratament. În acest caz nu se poate spune dacă diferenţele obţinute se datorează tratamentului sau diferenţei de sex.

2.4.1.3. Parametrii de selecţie ai unei variabile aleatoare :

Dacă printr-un procedeu oarecare cuantificăm răspunsul culturilor microbiene la antibioticele din exemplul 1, sau dacă luăm în consideraţie concentraţiile de medicament în sânge, din al doilea exemplu, şi probabilităţile ca valorile să aparţină unor intervale diferite, obţinem o variabilă aleatoare X asociată cu rezultatul experimentului corespunzător.

Parametrii acestei variabile aletoare sunt denumiţi, prin abuz de limbaj, “parametri ai populaţiei”.

Dacă în exemplul al doilea Xi este concentraţia de medicament în sângele bolnavului i, la o oră de la administrare, la primul voluntar putem obţine o valoare x1, pentru al doilea voluntar o valoare x2, etc. În acest fel găsim valorile ale varibilelor aleatoare independente

. nxxx ,...,, 21

nXXX ,...,, 21

2.4.2. Media de selecţie este o variabilă aleatoare:

nXXX

X n+++=

...21

Dacă distribuţia lui X este normală - ( )σμ,N , aceiaşi pentru fiecare i, datorită linearităţii operatorului M care defineşte media, obţinem

( ) XM X μ μ= = adică valoarea pentru media mediei de selecţie este media

populaţiei. Dacă la datele experimentale se adaugă o constantă, i iX X a′ = + ,

media de selecţie creşte cu aceeaşi constantă: ( )

aXn

aXW

ni +=+

= ∑1

Similar, dacă fiecare valoare se înmulţeşte cu o constanta ,

media de selecţie

ii kXZ =

Z se înmulţeşte cu aceeaşi contantă: XknkX

Zn

i == ∑1

Page 42: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

39

2.4.3. Dispersia de selecţie Ca o măsură a abaterii datelor faţă de media de selecţie, se introduce

noţiunea de dispersie de selecţie ( )21

2

11 ∑ −−

=n

iX Xxn

S .

În aplicaţiile practice, pentru reducerea numărului de calcule, formula se aduce la o altă formă şi anume:

( )

( )( )

⎟⎟⎟

⎜⎜⎜

⎛−

−=⎟

⎠⎞⎜

⎝⎛ −

=+−−

=

=⎟⎠⎞⎜

⎝⎛ +−

−=−

−=

∑ ∑∑

∑ ∑∑

nn

ii

ni

ni

n nii

niX

nx

xn

Xnxn

XnXnxn

XnxXxn

Xxn

s

1

2

122

12

1

222

1

2

12

1

22

11

11

21

1

21

11

1

Dacă . 2 2i i Zz kx a s k s= + ⇒ = 2

X

Într-adevăr

( ) ( )222 2 21 1

1 11 1

n nZ i is z Z kx a k X a

n n= − = + − − =

− −∑ ∑ Xk s

Xs se numeşte abaterea standard de selecţie sau deviaţie standard, când nu este pericol de confuzie privind variabila aleatoare la care se referă folosindu-se şi notaţia . dsSe mai utilizează în practică şi noţiunile:

• Dispersia”populaţiei” = ( )211

1 ∑ −−

ni Xx

nşi respectiv

• Deviaţia standard a “populaţiei”, precum şi “abaterea standard a mediei” (prescurtarea SEM – standard error of mean) definită prin

raportul XsMn

= SE

• precum şi coeficientul de variatie *100xsvX

= .

2.4.4. Covarianta de selecţie Covarianta de selecţie se defineşte prin formula

( )( )YyXxn

s in

iXY −−−

= ∑111

Page 43: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

40

Se observă că aceasta se mai poate scrie şi sub altă formă, mai utilă în sensul simplificărilor de calcul în anumite aplicaţii.

( )( )

( ) ⎟⎟

⎜⎜

⎛−

−=−

=+−−−

=

=+−−−

=

∑ ∑ ∑∑

∑ ∑ ∑

nn n

iiii

nii

nii

n n niiiiXY

nyx

yxn

YXnyxn

YXnYXnYXnyxn

YXnxYyXyxn

s

11 1

1

1

1 1 1

11

11

11

11

2.4.5. Coeficientul de corelaţie de selecţie Coeficientul de corelaţie de selecţie se defineşte prin formula

( )( )( )

( ) ( )( )( )

( ) ( )

1

2 2

1 1

1

2 2

1 1

11,

1 11 1

ni i

XY

n nX Yi i

ni i

n ni i

x X y Ys nx ys s

x X y Yn n

x X y Y

x X y Y

ρ− −

−= = =− −

− −

− −=

− −

∑ ∑

∑∑ ∑

2.4.6. Proprietăţi ale caracteristicilor de selecţie Considerăm în continuare o selecţie de volum n dintr-o populaţie cu media μ si dispersia 2σ 2.4.6.1. Propoziţie

Media mediei de selecţie este egală cu media populaţiei. ( )M X μ=

Demonstraţie:

( ) ( ) ( )i iM x M x nM Xn n n

μ μ= = =∑ =∑

2.4.6.2. Propoziţie Media dispersiei de selecţie este egală cu dispersia populaţiei

( )2 2XM s σ=

Demonstraţie:

Page 44: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

41

( ) ( ) ( )( ) ( )

( )

222 21 1 1

22 22 21 1

2

121

1 1 21 1

1 121 1

11

n n nX i i i

n ni i

nin

i

M s M x X M x X x xn n

M x nX nX M x nXn n

xM x

n n

⎛ ⎞= − = − +⎜ ⎟− −⎝ ⎠

− + = − − =− −

⎛ ⎞⎜ ⎟

= −⎜ ⎟− ⎜ ⎟⎝ ⎠

∑ ∑ ∑

∑ ∑

∑∑

1

n=∑

Dar, mai departe

( ) ( )2 21

niM x n 2σ μ= +∑

( )( ) ( ) ( ) ( )

( ) ( )

22

11 1

21

2 2 2 2 2 2

2

12

21

n n ni i i

i j

ni i

M x M x x x

n nM x M x M x

n n n n n

j

j

σ μ μ σ

⎛ ⎞

μ

= + =⎜ ⎟⎝ ⎠

−= +

= + + − = +

∑ ∑ ∑

∑ =

şi înlocuind în expresia lui ( )2XM s obţinem

( ) ( )2 2 2 22 2

1X

n nM s

nσ μ σ μ

σ+ − −

= =−

2.4.6.3. Propoziţie

Variabila aleatoare

n

xZσμ−

= tinde , când ∞→n către o variabilă

( )1,0NAceasta este o consecinţă a teoremei limită centrală şi este aplicabilă

atât variabilelor continue cât şi celor discrete. Într-adevăr aplicând teorema lui Leapunov pentru variabilele

aleatoare obţinem că: nxxx ,...,, 2,

( )

n

Xn

nXnxxx nn

σμ

σμ

σσσμμμ −

=−

=+++

+++−+++2222

2121

.........

tinde către o variabilă aleatoare ( )1,0N .

Page 45: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

42

2.4.6.4. Propoziţie Dacă variabila aleatoare X este normal distribuită, atunci variabila

aleatoare ( )2

2

XsnV −= este repartizată ( )12 −nχ

Demonstraţie:

( )( ) ( ) ( )[ ]

( ) ( )( ) ( )

( ) ( )( ) ( )

( ) ( )2

2

121

21

22

21 1 1

22

21

2

21

2

2

2

2

1

⎟⎟⎟⎟

⎜⎜⎜⎜

⎛−

−⎟⎠⎞

⎜⎝⎛ −

=−−−

=

=−+−−−−

=

=−+−−−−

=

=−−−

=−

=−=

∑∑

∑ ∑ ∑

∑∑

n

XxXnx

XnXnXnx

XXxx

XxXxsnV

n i

ni

ni

n n nii

ni

niX

σμ

σμ

σ

μμ

σ

μμμμ

σ

μμμμ

σ

μμ

σσ

Dar variabila aleatoare σμ−ix

este repartizată ( )1,0N deoarece

( )ii M xxMμμ

σ σ−−⎛ ⎞ =⎜ ⎟

⎝ ⎠ şi

( )12 ==⎟

⎠⎞

⎜⎝⎛ −

σσμ ii xDx

D , iar ( )

n

Xσμ− este

repatizată tot ( )1,0N în conformitate cu teorema limită centrală. Deci, V este o sumă de n-1 pătrate de variabile de tip ( )1,0N .

2.4.6.5. Propoziţie Dacă este o selecţie dintr-o populaţie normal distribuită, atunci variabila aleatoare

nxxx ,...,, 21

ns

XT μ−= este repartizată Student cu n grade de libertate.

Demonstraţie:

Page 46: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

43

( )( ) 11 2

1

2

=

=

=−

∑nVZ

nXx

n

X

sn

X

ns

Xn

i

σ

σμ

σ

σμ

μ

unde

n

XZ σμ−

= este repartizată ( )1,0N , iar ( )

21

2

σ∑ −

=n

i XxV este

repartizată ( )12 −nχ . Deci, T este repartizată Student cu n-1 grade de libertate. 2.4.6.6. Propoziţie Date fiind două selecţii aleatoare independente si

din populaţii normal distribuite 111211 ,...,, nxxx

2,...,, 2221 nxxx ( )11,σμN şi ( )22 ,σμN ,

variabila aleatoare

22

22

21

21

σ

σS

S

F = este repartizată Fisher – Snedecor

( )1,1 21 −− nnFDemonstraţie: Avem într-adevar

( )( )( )

( ) 222

1

2

22

211

1

2

11

22

22

21

21

1

12

1

σ

σ

σ

σ

==∑

nXx

nXx

S

S

Fn

i

ni

iar număratorul şi numitorul sunt repartizate, conform propozitiei 2.3.5.4.,

respectiv ( )

11

1

12

−−

nnχ şi

( )1

1

2

22

−−

nnχ .

Page 47: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

44

2.5. Estimaţii Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în

general cunoscute. Valorile numerice obţinute se numesc estimaţii sau estimatori. Se obţin estimaţii punctuale în cazul în care se folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de încredere în cazul în care se determină un interval în care se află, cu o anumită probabilitate valoarea estimată.

Un estimator al parametrului θ se va nota cu . O estimaţie este θnedeplasată dacă ( )ˆM θ θ= , adică media estimaţiei este egală chiar cu

valoarea teoretică a parametrului estimat. Conform proprietăţii 2.3.5.1, ( )M X μ= adică media de selecţie

este un estimator nedeplasat al mediei, iar conform proprietăţii 2.3.5.2., ( )2M s 2σ= adică dispersia de selecţie este un estimator nedeplasat al

dispersiei. Problema estimării intervalelor se reduce la găsirea unui interval de

încredere ( UL )θθ , cu un coeficient de încredere α−1 astfel încât ( ) αθθθ −=⟨⟨ 1ULP .

Este de dorit ca α−1 să fie cât mai mare (de obicei este cuprins între 0,9 şi 0,99) iar intervalul ( )UL θθ , să fie cât mai mic. În stabilirea intervalelor se utilizează caracteristicile numerice cuantile. Se numesc cuantile de ordin β valoarea a variabilei aleatoare βx x pentru care ( ) ( ) βββ =⟨= xxPxF adică valoarea variabilei aleatoare care are la stânga

ei aria β sub curba densităţii de probabilitate. Evident:

22

αα =⎟⎟⎠

⎞⎜⎜⎝

⎛⟨ xxP

21

21

αα −=⎟⎠⎞⎜

⎝⎛ ⟨ −xxP

ααααα −=−−=⎟⎟⎠

⎞⎜⎜⎝

⎛⟨⟨ − 1

221

21

2

xxxP

Pentru a estima un interval se alege α−1 , se citesc din tabelele cuantilele, de exemplu

21 α−

x şi 2αx şi se precizează intervalul. În prealabil, în

funcţie de mărimea pentru care se caută intervalul se precizează cu care din repartiţiile cunoscute trebuie lucrat.

Page 48: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

45

2.5.1. Estimarea intervalelor de încredere pentru medii 2.5.1.1.Cazul când se cunoaste dispersia. Se consideră o populaţie repartizată normal ( )2,σμN . Dacă se cunoaşte

dispersia se poate folosi faptul că XZ

n

μσ−

= este repartizată . Se

notează cu cuantila de ordinul

( 1,0N )

αz α pentru repartiţia ( )1,0N . Evident

1 12 2 2 2

1 12 2

P z Z z F z F zα α α αα α α

− −

⎛ ⎞ ⎛ ⎞ ⎛ ⎞⟨ ⟨ = − = − − = −⎜ ⎟ ⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠ ⎝ ⎠

Aşadar intervalul ⎟⎟⎠

⎞⎜⎜⎝

⎛−

21

2

, αα zz este un interval de estimare cu coeficientul

de încredere α−1 . Din anumite puncte de vedere este recomandabil să se utilizeze acele intervale care lasă atât la dreapta cât şi la stânga lor aceeaşi

arie, egală cu 2α .

Deoarece repartiţia ( )1,0N este simetrică faţă de axa Oy avem relaţia

21

2αα

−−= zz

Din relaţiile

1 1 1 12 2 2 2

1 12 2

1 12 2

* *

* *

Xz Z z z z

n

z X zn n

X z X zn n

α α α α

α α

α α

μσ

σ σμ

σ σμ

− − − −

− −

− −

−− ⟨ ⟨ ⇒ − ⟨ ⟨

⇒ − ⟨ − ⟨ ⇒

− − ⟨ − ⟨ − +

rezultă

1 12 2

X z X zn nα ασ σμ

− −− ⟨ ⟨ +

Aşadar intervalul căutat este

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛+−=

−− nzX

nzXUL

σσθθ αα2

12

1,,

Page 49: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

46

Mărimea n

zE σα2

1−= poartă numele de eroare şi serveşte la calculul

numărului de experienţe

2

21

⎟⎟⎟

⎜⎜⎜

⎛=

E

zn

α

atunci când este impusă eroarea şi se

alege un coeficient α−1 Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este

repartizată normal deoarece z este repartizată ( )1,0N indiferent de repartiţia variabilelor 1 2, ,..., nX X X (teorema limită centrală).

2.5.1.2.Cazul când dispersia este necunoscută Dacă nu se cunoaste dispersia în estimarea intervalelor se utilizează

dispersia de selecţie care este un estimator nedeplasat al dispersiei deoarece ( )2 2

XE s σ=

Se consideră o selecţie dintr-o populaţie de tipul nxxx ,...,, 21 ( )2, XN μ σ .

Conform celor arătate anterior mărimea X

XT sn

μ−= este repartizată

şi, ca urmare ( 1−nT )

ααααααα −=−−=⎟⎟⎠

⎞⎜⎜⎝

⎛−⎟⎟

⎞⎜⎜⎝

⎛=⎟⎟

⎞⎜⎜⎝

⎛⟨⟨

−−−−−−1

221

2,1

21,1

21,1

2,1 nnnn

tFtFtTtP

Deoarece repartitia Student este simetrică faţă de origine

21,1

21,1 αα

−−−−−=

nntt şi înlocuindu-l pe T în relaţia anterioară, se obţine

1, 1,1 1, 1,12 2 2 2

1n n n nX

XP t T t P t tsn

α α α αμ α

− − − − − −

⎛ ⎞⎜ ⎟⎛ ⎞ −

⟨ ⟨ = ⟨ ⟨ = −⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ ⎜ ⎟⎝ ⎠

şi 1,1 1,1

2 2

X

n n

s sX t X tn nα αμ

− − − −− ⟨ ⟨ +

Ca urmare intervalul căutat este

Page 50: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

47

( )1,1 1,1

2 2

, ,X XL U n n

s sX t X tn nα αθ θ

− − − −

⎛ ⎞= − +⎜ ⎟⎝ ⎠

În acest caz eroarea este 1,1

2

X

n

sE tnα

− −=

Dacă numărul de experienţe este , se poate folosi aproximaţia 30⟩n

21

21,1 αα

−−−= zt

n

2.5.2.Estimarea intervalului de încredere α−1 pentru diferenţa a două medii Se consideră două selecţii din populaţii normal repartizate ( )2

11 ,σμN şi ( )2

22 ,σμN .

2.5.2.1. Cazul dispersiilor 22

21 ,σσ cunoscute.

Considerăm o selecţie aleatoare din populaţia 111211 ,...,, nxxx ( )2

11 ,σμN şi o

selecţie dintr-o populaţie222221 ,...,, nxxx ( )2

22 ,σμN .

Estimatorii nedeplasaţi ai mediilor 1μ şi 2μ sunt: 1

1 11

1

nx

Xn

i∑= si

2

1 22

2

nx

Xn

i∑=

Considerând variabila aleatoare 21 XX − , ea este normal repartizată iar estimaţia şi dispersia ei vor fi ( ) ( ) ( )1 2 1 2 1M X X M X M X 2μ μ− = − = − şi

( ) ( ) ( )2

22

1

21

2121 nnXDXDXXD σσ

+=+=− unde am ţinut cont că şi

sunt independente.

ix1 ix2

Mai departe, variabila aleatoare ( ) ( )

( )( ) ( )1 2 1 2 1 2 1 2

2 21 21 2

1 2

X X X XZ

D X Xn n

μ μ μ

σ σ

− − − − − −= =

− +

μ este repartizată N(0,1).

Page 51: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

48

Deoarece, 1

2 2

1P z Z zα α α−

⎛ ⎞⟨ ⟨ = −⎜ ⎟

⎝ ⎠ şi

21

2αα

−−= zz rezulta

( ) ( )2 2 21 2 1

1 2 1 2 1 21 11 2 1 22 2

X X z X X zn n n nα α

22σ σ σμ μ

− −− − + ⟨ − ⟨ − + +

σ

Aşadar, intervalul de estimaţie pentru diferenţa mediilor este

( ) ( ) ( )⎟⎟⎠

⎞⎜⎜⎝

⎛++−+−−=ΘΘ

−−2

22

1

21

21

212

22

1

21

21

2121 ,,nn

zXXnn

zXX σσσσαα

În acest caz, eroarea este 2

22

1

21

21 nn

zEσσ

α +=−

.

2.5.2.2. Dispersii necunoscute dar presupuse egale În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale

utilizăm dispersia ponderată de selecţie 222

21 σσσ ==

( ) ( ) ( ) ( )( ) ( )

( ) ( )1 2

2 21 1 2 22 2 21 2

1 21 2 1 2 1 2

2 2

1 1 2 21 1

1 2

1 11 11 1 1 1 2

2

p

n ni i

n s n sn ns s sn n n n n n

x X x X

n n

− + −− −= + =

− + − − + − + −

− + −=

+ −∑ ∑

=

ca un estimator nedeplasat pentru . 2σAvem într-adevăr,

( ) ( ) ( ) ( ) ( ) ( ) ( )2 2 2 21 1 2 2 1 1 2 22 2

1 2 1 2

1 1 1 12 2p

n M s n M s n nM s

n n n nσ σ

σ− + − − + −

= =+ − + −

=

În continuare vom arăta că mărimea ( ) ( )

21

2121

11nn

s

XXT

p +

−−−=

μμ este

repartizată ( )221 −+ nnT

Page 52: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

49

Se observă că

( ) ( )

21

2121

11

21

21

nns

XX

T

XX

p

XX

+

−−−

=

σ

σμμ

este raportul între o variabila

aleatoare repartizată N(0,1) şi deoarece

( ) ( )( ) 22

1111

11

21

1 1

2

22

2

11

221

1 1

2

22

2

11

2

2

21

21

21

1 2

1 2

21

−+

⎟⎟⎠

⎞⎜⎜⎝

⎛ −+⎟

⎟⎠

⎞⎜⎜⎝

⎛ −

=−+

−+−

===++

=+

∑ ∑∑ ∑

nn

XxXx

nnXxXx

ssnn

nn

snn

s

n n iin n

ii

ppp

XX

p

σσσ

σσσ

σ

variabila 21

11

21nn

s

XX

p +−σ

este de tipul ( )2

2

21

212

−+−+

nnnnχ

Dar 2

1111∑ ⎟⎟⎠

⎞⎜⎜⎝

⎛ −n i Xxσ

este repartizat ( )112 −nχ iar ∑ ⎟

⎟⎠

⎞⎜⎜⎝

⎛ −2

1

2

22n i Xxσ

este

repartizat , deci T este repartizat ( 122 −nχ ) ( )221 −+ nnT şi

ααααα −=−−=⎟⎟⎠

⎞⎜⎜⎝

⎛⟨⟨

−−+−+1

221

21,2

2,2 2121 nnnn

tTtP

Deoarece repartiţia Student este simetrică 2

1,22

,2 2121αα

−−+−+−=

nnnntt rezultă că

2121,2

2121212

1,221

11112121 nn

stXXnn

stXX pnn

pnn

+−−⟨−⟨+−−−−+−−+αα μμ

Deci,

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛++−+−−=ΘΘ

−−+−−+212

1,221

2121,2

212111,11,

1221 nn

stXXnn

stXX pnn

pnn

αα

cu eroarea 212

1,2

1121 nn

stE pnn+=

−−+α .

Page 53: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

50

2.5.3. Estimarea intervalelor de încredere pentru dispersie Considerăm o selecţie de volum n dintr-o populaţie normală ( )2,σμN .

Conform celor arătate anterior variabila aleatoare ( ) 2

2

1n sV

σ−

= este

repartizată ( )12 −nχ şi ca urmare

2 2

1, 1,12 2

1 12 2n n

P Vα αα αχ χ α

− − −

⎛ ⎞⟨ ⟨ = − − = −⎜ ⎟

⎝ ⎠

Deci, ( ) 2

21,12

22

2,1

1 αα χσ

χ−−−

⟨−⟨nn

sn si ( ) ( )2

2,1

22

2

21,1

2 11

αα χσ

χ−−−

−⟨⟨

nn

snsn .

2.5.4. Estimarea intervalului de încredere pentru raportul a două dispersii Se consideră selecţia aleatoare dintr-o populaţie

111211 ,...,, nxxx ( )21, ,σμN şi

o selecţie dintr-o populaţie222221 ,...,, nxxx ( )2

22 ,σμN .

Conform cu cele arătate anterior, raportul

22

22

21

21

σ

σs

s

F = este repartizat

şi deci ( )1,1 21 −− nnF ααααα −=−−=⎟⎟⎠

⎞⎜⎜⎝

⎛⟨⟨

−−−−−1

221

21,1,1

2,1,1 2121 nnnn

fFfP

Rezultă că 2

1,1,121

22

21

22

2,1,12

1

22

2121αα σ

σ−−−−−

⟨⟨nnnn

fssf

ss , iar intervalul de

estimaţie pentru raportul dispersiilor este:

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛=ΘΘ

−−−−−2

1,1,121

22

2,1,12

1

22

2121

,, ααnnnn

UL fssf

ss

Page 54: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teorema limita centrala

51

2.5.5. Aplicaţie: Utilizarea intervalelor de încredere în studiile de comparare a biodisponibilităţii medicamentelor3

La introducerea în terapie de către un producător a unui medicament

ce reprezintă o reproducere a altui medicament deja în uz, se pune problema comparării biodisponibilităţii acestora. În practică se cere ca raportul ariilor de sub curbele concentraţiilor plasmatice ale celor două medicamente să se afle in intervalul 0,8 - 1,25.

0,8 1,25TAUCRAUC

μμ

⟨ ⟨

unde indicele T se referă la medicamentul testat şi R desemnează medicamentul referinţă. Atunci însă când ariile de sub curbă prezintă variabilităţi intra şi interindividuale considerabile (determinările de biodisponiblitate se fac pe loturi de circa 10 – 20 de voluntari sănătoşi) este de preferat a se determina un interval de încredere pentru media ariei realizată de medicamentul nou.

Pornind de la faptul ca ( ) ( )

1 1R T R T

pR T

X XT

sn n

μ μ− − −=

+ este repartizată

se deduce un interval de încredere cu probabilitatea ( 2R TT n n+ − ) α−1 pentru T Rμ μ−

1 12 2

T R T RT RX X t X X tα αμ μ− −

− − ⟨ − ⟨ − +

unde am notat 1 1p

R T

s sn n

= + .

După cum se va arăta mai departe, această estimare este puţin utilă în caz că reprezintă practic intervariabilitatea, iar interschimbabilitatea care necesită bioechivalenţă trebuie să se bazeze pe intravariabilitate.

ps

3 W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 – 1, 1972

Page 55: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

53

2.6. Verificarea ipotezelor statistice Ipoteze statistice

Ipotezele statistice sunt ipoteze asupra repartiţiei unor variabile aleatoare. Ele se referă fie la parametrii repartiţiei, fie la legea propriu zisa de repartiţie. Teste statistice

Metodele de verificare a ipotezelor se bazează pe teste statistice care constau în examinarea selecţiilor obţinute pentru o variabilă aleatoare şi a unor funcţii de elementele selecţiilor. Notaţii conventionale

Ipoteza testată, presupusă adevarată, se numeşte ipoteza nulă şi se notează H0. Testarea necesită şi formularea unei ipoteze complementare, numită ipoteză alternativă şi notată HA. Dacă se acceptă H0, în mod normal se respinge HA şi invers.

Din acest motiv, ipotezele H0 si HA se aleg să fie complementare. Dacă testul priveşte valoarea unui parametru θ , de exemplu

00 : θθ =H şi 1: θθ =AH se poate întâmpla ca toţi ceilalţi parametri ce caracterizează distribuţiile să fie cunoscuţi şi, după acceptarea uneia din cele două ipoteze, distribuţiile ( )0,θρ x şi ( )1,θρ x devin complet definite. În acest caz, ipotezele sunt numite “simple”. Dacă însă ceilalţi parametric nu sunt cunoscuţi complet, ipotezele se numesc “ipoteze compuse”. De exemplu, dacă distribuţia este normală şi parametrul cautat este μ , iar dispersia este necunoscută, suntem în cazul unei ipoteze compuse. Probabilitatea unei decizii gresite

La verificarea ipotezelor se pot comite două feluri de erori: 1. Erorile de tipul 1 constau în respingerea ipotezei H0 atunci când

aceasta este adevărată. 2. Erorile de tipul 2 constau în acceptarea ipotezei H0 atunci când

aceasta este falsă. Probabilitatile celor două tipuri de erori se notează de obicei cu α respectiv β: α = P (respinge H0 / H0 adevărată) β = P (acceptă H0 / H0 falsă) = P (respinge HA / HA adevărată)

Page 56: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

54

Deci, α este riscul de a respinge în mod greşit H0 şi β este riscul de a respinge în mod greşit HA. Probabilitatea de a respinge ipoteza H0 atunci când aceasta este falsă

βπ −= 1 se numeşte puterea testului. Coeficientul α este numit şi nivel de semnificaţie. Desigur că este de dorit ca valorile α şi β să fie cât mai mici. Valoarea lui α se alege şi în funcţie de importanţa implicaţiilor acceptării sau respingerii ipotezelor testate. De exemplu, un coeficient de 0,05 este considerat ca bun pentru majoritatea problemelor din practică. Dacă însă este vorba de un medicament foarte activ cum ar fi digoxina, este de preferat a alege α între 0,01 si 0,05. Pentru a verifica o ipoteză se folosesc datele de selecţie pentru calcularea unui test statistic. Domeniul de valori ale testului care corespunde respingerii ipotezei H0 cu probabilitatea α se numeşte regiune critică. Metodologia de verificare cuprinde în principiu următoarele etape:

1. se presupune, pe baza unor teste anterioare sau pe baza structurii fenomenului studiat, o repartiţie pentru populaţia statistică din care se face selectia;

2. se formulează ipoteza; 3. se calculează valoarea testului ales şi se compară cu limitele de

acceptare, respectiv respingere; 4. se acceptă sau se respinge, în funcţie de rezultat, ipoteza H0.

2.6.1. Ipoteze asupra mediei 2.6.1.1.Dispersia cunoscută

Se consideră o selecţia dintr-o populaţie normală ( )2,σμN . Considerăm variabila aleatoare X . Datorită linearităţii operatorului de mediere avem:

( ) ( )μμ

==⎟⎟

⎜⎜

⎛=⎟

⎜⎜

⎛= ∑∑

nn

nxM

nx

MXMn

in

i 11

Pentru dispersia lui X ţinem cont că ( ) xDabaxD 222 =+ ( ) şi că rezultatele xi reprezintă variabile aleatoare independente

( ) ( ) ( )jiji xDxDxxD 222 +=+ .

În aceste condiţii se obţine ( )

nnn

nxD

nx

Dn

in

i2

2

2

21

212 σσ

===⎟⎟

⎜⎜

⎛ ∑∑

Page 57: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

55

Ca urmare a teoremei limită centrală, variabila aleatoare ( )

( )n

X

XD

XEXσμ−

=− este repartizata ( )1,0N .

Avem în acest caz, dacă vom alege un risc α , ipotezele şi criteriile de acceptare sau respingere conform cu tabelul de mai jos:

Tabelul nr. 2: H0 HA Regiunea critică

12

Z z α−

⟩ 0μμ = 0μμ ≠

12

Z z α−

⟨−

0μμ = 0μμ⟩ 1Z z α−⟩

0μμ = 0μμ⟨ 1Z z α−⟨−

2.6.1.2.Dispersia necunoscută În acest caz se înlocuieşte în formula anterioară σ cu estimaţia sa

şi se ţine cont că variabila aleatoare XsX

XT sn

μ−= este repartizată Student

cu n-1 grade de libertate.

Page 58: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

56

2.6.2. Ipoteze asupra diferenţelor a două medii

2.6.2.1.Cazul când se cunosc dispersiile Se consideră două populaţii normale ( )2

11 ,σμN şi ( )222 ,σμN , o selecţie

aleatoare din din populaţia 111211 ,...,, nxxx ( )2

11 ,σμN şi o selecţie aleatoare

din populaţia 222221 ,...,, nxxx ( )2

22 ,σμN . Variabila aleatoare

( ) ( )

( )( ) ( )1 1 2 1 2 1

2 21 21 2

1 2

X X X XZ

D X Xn n

2μ μ μ μ

σ σ

− − − − − −= =

− +

este, dupa cum s-a

aratat anterior, repartizată N(0,1).

2.6.2.2.Cazul dispersiilor necunoscute, dar presupuse egale În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale

utilizăm dispersia ponderată de selecţie 222

21 σσσ ==

( ) ( ) ( ) ( )22

11

21

1 12

2

2

11

21

222

2112

1 2

−+

−+−=

−+−+−

= ∑ ∑nn

XxXxnn

snsnsn n

iip

ca un estimator nedeplasat pentru . 2σ

După cum s-a arătat anterior, mărimea ( ) ( )

1 2

1 2 1 22

1 2

1 1n n

p

X XT

sn n

μ μ+ −

− − −=

+

este repartizată ( )221 −+ nnT

2.6.2.3.Cazul observaţiilor perechi In cazul când observaţiile formează în mod natural perechi, cum ar fi de

exemplu când se măsoară concentraţiile în n probe, fiecare din ele cu două metode diferite sau cazul când două medicamente se administrează unui aceluiaşi lot de voluntari, în două perioade diferite.

Considerăm în acest caz variabila aleatoare 21 XXd −= . În cazul în care selecţiile aparţin la aceiaşi populaţie, media lui d va fi

zero: ( ) 0=dE .

Page 59: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

57

Când se cunosc dispersiile avem ( )nn

dD d

22

212 σσ

σ +== şi variabila

aleatoare d

este repartizată ( )1,0N .

Când nu se cunosc dispersiile se folosesc dispersiile de selecţie şi se ţine

cont că variabila aleatoare

nsdd

după cum se poate arăta uşor, este

repartizată Student cu n-1 grade de libertate. 2.6.2.4. Compararea proporţiilor Dacă vom considera un experiment în care răspunsul este de tip da sau

nu, de exemplu vindecare sau nevindecare, supravieţuire sau moarte, etc., numărul de rezultate k de un anumit tip în n repetări ale experimentului este o variabilă aleatoare repartizată binomial.

Deoarece avem, după cum s-a calculat anterior ( ) npkE = şi , variabila aleatoare standardizată ( ) npqkD =

( )( )

npq

pnk

npqnpk

kDkEkz

−=

−=

−= se aproximează ca fiind normal repartizată.

Fie două populaţii de tip “urna Poisson cu bile albe şi bile negre”, cu parametrii (probabilitatea bilei albe) şi respectiv . În două selecţii din cele două populaţii, de volum şi respectiv presupunem că s-a obţinut răspuns “pozitiv” de şi respectiv ori.

1p 2p

1n 2n

1k 2k

Fie 2,1, == ink

hi

ii . În cazul ipotezei nule pppH == 210 : , variabila

aleatoare va fi distribuită cu media 0 şi dispersia 21 hh −

( ) ( ) ( ) ( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛−−=

−+

−=−

212

22

1

1121

11111nn

ppn

ppn

pphhD

Page 60: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

58

În aceste condiţii se aproximează că variabila aleatoare

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛+−

21

21

111nn

pp

hh va fi repartizată ( )1,0N .

O estimare naturală a lui p este 21

21

nnkkp

++

= .

O îmbunătăţire a aproximării se poate obţine prin introducerea unor

“corecţii de continuitate” pentru şi : 1h 2h

( )

1 21 2

1 2

1 12 2

1 11

h hn n

Z

p pn n

⎛ ⎞ ⎛− − −⎜ ⎟ ⎜

⎝ ⎠ ⎝=⎛ ⎞

− +⎜ ⎟⎝ ⎠

⎞⎟⎠

2.6.3. Estimarea dispersiei Considerăm o selecţie de volum n dintr-o populaţie normală ( )2,σμN .

Conform celor arătate anterior variabila aleatoare ( ) 2

2

1n sV

σ−

= este

repartizată ( )12 −nχ . 2.6.3.1.Estimarea raportului a două dispersii Se consideră selecţia aleatoare dintr-o populaţie

111211 ,...,, nxxx

( )211 ,σμN şi o selecţie aleatoare dintr-o populaţie

222221 ,...,, nxxx

( )222 ,σμN .

Conform cu cele arătate anterior, raportul

22

22

21

21

σ

σs

s

F = este repartizat

. ( )1,1 21 −− nnF

Se calculează 22

21

ssF = luându-se . 2

221 ss ⟩

Page 61: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

59

( ) ( ) ( ) ( )[ ]

( ) ( )( ) ( )

( ) ( )2

1

2

21

2

21

22

21

2

21

2

2

2

2

1

⎟⎟⎟⎟

⎜⎜⎜⎜

⎛−

−⎟⎠⎞

⎜⎝⎛ −

=−−−

=

=−+−−−−

=

=−−−

=−

=−

=

∑∑

∑∑

n

XxXnx

XnnXnXx

XxXxsnv

n i

ni

ni

ni

ni

σμ

σμ

σμμ

σμμμμ

σμμ

σσ

Dar σμ−ix

este repartizat N(0,1) căci ( )

0=−

=⎟⎠⎞

⎜⎝⎛ −

σμ

σμ ii xEx

E şi

12 =⎟⎠⎞

⎜⎝⎛ −

σμix

D

Deci v este o sumă de n-1 pătrate de variabile de tip N(0,1).

2.6.3.2.Compararea mai multor dispersii. a) Testul Bartlett pentru verificarea omogenităţii dispersiilor Fie m estimări independente pentru dispersiile msss ,...,, 21 mσσσ ,...,, 21

pe baza unor selecţii de volume . mnnn ,...,, 21

Se pune problema verificării ipotezei privind egalitatea acestor dispersii 22

2210 ...: mH σσσ ===

În acest caz Bartlet a arătat că variabila aleatoare

( ) ( )( )∑

∑ =− m ki

k

ii isssksk

12

222 lnlnln303,2

unde , 1−= ii nk ∑= ikk şi s dispersia ponderată a întregului set de date,

este repartizată ( )12 −mχ .

b) Testul rapid Cochran pentru selecţii de acelaşi volum Daca selectiile considerate au acelasi volum nnnn k ==== ...21 ,

atunci se calculeaza valoarea ∑

= kis

sG

12

2max

max care se compară cu o valoare

maximă admisă pentru acceptarea ipotezei nule. In formula de mai sus avem:

Page 62: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

60

( )∑=

−−

=n

jiiji xx

ns

1

22

11 si 2

12max max iki ss ≤≤=

Ipoteza se respinge daca 0H ( )αcG ⟩max unde ( )αc se gaseste din tabelele Cochran la perechea ( )1, −nk grade de libertate si la probabilitatea ( )( ) αα −=⟨ 1max cGP .

c) Testul Hartley Daca selectiile au acelasi volum se poate aplica pentru testul 12≤k

2

2

minmax

i

icalc s

sH =

iar ipoteza se respinge daca 0H ( )αHHcalc⟩ unde ( )αH se gaseste din tabelele Hartley la probabilitatea ( )( ) αα −=⟨ 1max HHP .

2.6.3.3. Aplicaţie: Utilizarea testului t în analiza comparativă a medicamentelor

În compararea mediilor am utilizat testul t, numit şi testul Student. Deoarece acesta este poate cel mai utilizat în analiza medicamentelor, vom face câteva consideraţii asupra aplicării practice a acestuia.

La compararea efectului a două medicamente, la compararea rezultatului determinărilor analitice cu valoare impusă de standardul de control asupra medicamentului precum şi în multe alte situaţii, apar rezultate diferite acolo unde ne aşteptăm ca acestea să fie egale. Ne punem întotdeauna problema dacă, diferenţele constatate în practică sunt “semnificative” sau nu. Deoarece rezultatele provin din testarea unor eşantioane reduse, nu putem fi niciodată siguri în ceea ce priveşte parametrii întregii populaţii. Totuşi, asumându-ne un risc mai mare sau mai mic, trebuie să luăm decizii.

Dacă, de exemplu, dozăm cantitatea de substanţă activă din 10 comprimate care provin dintr-o şarjă de 1.000.000 de comprimate, alegerea celor 10 comprimate se presupune că s-a făcut aleator şi ele reprezintă un eşantion reprezentativ pentru întreaga şarjă. Problema este dacă, în funcţie de valoarea medie a conţinutului pentru cele 10 comprimate şi variabilitatea celor 10 valori, putem spune, asumându-ne un anumit risc, că valoarea medie a concentraţiei în substanţa activă pentru tot lotul este cea declarată. În acest caz aplicarea testului t în verificarea ipotezei asupra mediei, aşa cum s-a arătat mai sus, este imediată.

La compararea mediilor a două selecţii independente, numite în experimentele cu medicamente “grupuri paralele”, o atenţia deosebită

Page 63: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

61

trebuie acordată verificării independenţei efective a acestora. De exemplu la testarea efectelor unui medicament asupra unui grup de pacienţi în comparaţie cu un alt grup ce se numeşte placebo, trebuie avut în vedere că pacienţii să nu se influenteze ca urmare a discuţiilor între ei. Dacă loturile sunt de animale ce trăiesc în aceiaşi cuşcă, medicamentul poate favoriza sau din contra, defavoriza un grup în lupta animalelor pentru hrană şi adaugă efecte suplimentare asupra rezultatelor finale ale testului.

În sfârşit, un caz foarte frecvent în testările comparative ale efectelor sau nivelelor plasmatice ale medicamentelor, este acela al observaţiilor pereche, când lotul de subiecţi trataţi se constituie ca propriul martor. Acestea oferă unele avantaje asupra experimentului pe grupuri paralele.

În primul rând, în experimentul pe grupe paralele, variabilitatea rezultă din diferenţele de răspuns la medicament între cele două grupuri, aşa numita “intervariabilitate”. În experimentul pereche apare “intravariabilitatea”, variabilitatea în răspunsul aceluiaşi subiect la două tratamente diferite şi avem motive să presupunem că aceasta este mai mică, de regulă decât intervariabilitatea. Teoretic, intervariabilitatea include şi intravariabilitatea şi deci nu poate fi mai mică decât aceasta. Din aceste motive, testul pereche oferă avantajul unei variabilităţi mai mici.

Testul pereche oferă apoi avantajul că lotul poate fi mai mic. În experimentul pe grupe paralele, de exemplu două loturi de 10 subiecţi primesc două medicamente diferite. În experimentul pereche numai 10 subiecţi pot primi în prima administrare un medicament şi în a doua perioadă al doilea medicament.

Desigur că acestă cuplare nu este întotdeauna posibilă. Când dozăm cantitatea de substanţă activă din comprimate sau determinăm timpul de dizolvare, acestea sunt consumate în timpul testării.

Trebuie menţionat că testul pereche prezintă dezavantajul că între cele două tratamente trebuie să existe o perioada destul de lungă pentru ca primul medicament administrat să se elimine din organism care, în cazul medicamentelor cu timp de înjumătăţire mare cum ar fi de exemplu piroxicamul, depăşeşte 30 de zile, in cazul clomifenului sau al penicilinei retard fiind nevoie de perioada intre cele doua administrari, de mai multe luni. În aceste situaţii se prelungeşte destul de mult timpul pentru definitivarea studiului.

Deasemenea, efectul primului medicament, în cazul că experimentele se fac pe pacienţi, poate duce la o îmbunătăţire a stării de sănătate a acestora şi la o modificare considerabilă a răspunsului la al doilea tratament.

Page 64: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2
Page 65: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

63

2.7. Teste neparametrice

Testul t pentru compararea mediilor depinde, în special pentru selecţiile de volum mic, de ipoteza că cele două populaţii sunt distribuite aproximativ normal şi că dispersiile sunt practic egale.

De regulă, tehnicile statistice care se ocupă de variabilele continue

se bazează pe ipoteza că variabila aleatoare are o distribuţie normală de bază. Ipoteza nu este atât de restrictivă, deoarece de multe ori este posibil să o modificăm astfel încât să obţinem alta, aproximativ normal distribuită. Suplimentar, dacă vom considera mediile, în concordanţă cu teorema limită centrală, distribuţia mediei probelor se aproprie cu atât mai mult de distribuţia normală, cu cât creşte volumul probelor.

Şi astfel, ca o concluzie practică, erorile se datorează mai curând

lipsei de constanţă a dispersiei sau lipsei de independenţă a variabilelor decât deviaţiilor de la normalitate.

Pentru cazurile când nu stim distribuţia variabilei, o cale alternativă

este să aplicăm teste care nu necesită ipoteze despre tipul de distributie. Testele independente de distributie, numite şi teste de rang,

înlocuiesc valorile variabilei cantitative observate cu rangurile lor. Testele neparametrice sunt valabile şi pentru variabile normal distribuite, dar sunt mai puţin eficiente, pentru acelaşi prag de semnificaţie fiind necesare eşantioane mai mari decât pentru testele parametrice.

In acelasi timp este de retinut ca testele neparametrice nu sunt un

paraceu universal: aplicarea lor este posibila atunci cand sunt continue si independente.

Page 66: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

64

2.7.1. Media şi dispersia eşantioanelor dintr-o populaţie finită.

Să considerăm o populaţie finită de N elemente, la care asociem numerele . Dacă presupunem că toate elementele au aceeaşi

probabilitate

Nxxx ,...,, 21

N1 , putem calcula media şi dispersia populaţiei:

(1) ( ) ∑∑ ===N

iiN

i xN

pxXE11

şi (2)

( ) ( ) ( )( ) ( )( )

∑∑∑∑

∑∑

∑∑

≠≠

−−

=−⎟⎠⎞

⎜⎝⎛ −=

=−=

=−=−==

jiji

Ni

jiji

Ni

Ni

Ni

Niii

Ni

xxN

xN

NxxN

xNN

xN

xN

pxpxXEXEXD

212

2212

2

2

1212

2

112222

21211

11

σ

Multimea tuturor selecţiilor posibile de mărimea n din populaţie va include:

( )nn xxxx ,,...,, 121 − ( )1121 ,,...,, +− nn xxxx . . . ( )NnNnN xxx ,...,, 21 +−+− Aceste probe sunt formate prin alegerea a n elemente din N. Există

căi de a alege o astfel de probă. Încă o dată, presupunem că fiecare

probă are aceeaşi probabilitate de a fi selectată,

nNC

nNC

1 .

Să considerăm media selecţiei j: ∑=

=n

ijij x

nX

1

1 şi să considerăm

variabila aleatoare ( ) nNCjjXX

,1==

Valoarea medie a variabilei X este

Page 67: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

65

( )

( ) ( )

( ) ⎥⎥⎥⎥

⎢⎢⎢⎢

+++

++++++++++=

===

+−+−

+−−

==∑∑

NnNnN

nnnn

nN

C

jjn

Nj

C

jj

xxxn

xxxxn

xxxxn

C

XC

pXXEnN

nN

...1

...1...11

1

21

1121121

11

Acum să considerăm de câte ori intră în sumă orice particular, să spunem . Probele care conţin se obţin prin selectarea a (n-1) alte elemente din populaţia disponibilă de (N-1) elemente şi, aceasta se poate face în moduri. Vor fi deci probe conţinând şi la fel se aplică pentru fiecare .

ix

1x 1x

11

−−

nNC 1

1−−

nNC 1x

ix

( )( )

( ) ( )11!!1

!1!!

! −−=

−−−

=−

= nN

nN C

nN

nNnN

nN

nNnNC

În consecinţă

(3) ( ) μ==⎟⎠⎞

⎜⎝⎛= ∑∑−

−N

iN

inNn

N

xN

xCnC

XE11

11

111

ceea ce înseamnă că media mediei probei este egală cu media populaţiei. Pentru calcularea dispersiei folosim identitatea

(4) ( ) ( ) ( )( )22D X E X E X= −

Să considerăm ( ) ∑∑==

==nN

nN C

jjn

Nj

C

jj X

CpXXE

1

2

1

22 1

Mai departe

( ) ( )2

21

2

1211

2...1......1

⎥⎦⎤

⎢⎣⎡ +++++⎥⎦

⎤⎢⎣⎡ ++++= +−+−−

=∑ NnNnNnn

C

jj xxx

nxxxx

nX

nN

Când ridicăm la pătrat fiecare termen, fiecare va deveni şi, după cum vedem, fiecare apare de ori. Astfel

ix 2ix

ix 11

−−

nNC

(5) ( ) ......1 222

21

112

1

2++++=∑ −

−=

NnN

C

jj xxxC

nX

nN

Ridicarea la pătrat a sumei dă deasemenea termeni de forma şi fiecare termen va apare de .

ji xx22

−−

nNC

În consecinţă, putem scrie

Page 68: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

66

(6)

( ) ( )⎥⎦⎤

⎢⎣⎡ ++++++= −

−−

−−

=∑ NN

nNN

nNn

N

C

jjn

N

xxxxCn

xxxCnC

XC

nN

121222

222

21

112

1

2...2...111

Pentru a înlocui în (4) punem ( )( )2XE în forma:

(7)

( )( ) ( )

( )2

1212

222

21

2

121

2

...2...

...1

Nxxxx

Nxxx

xxxxN

XE

NNn

NN

+++

+++=

=⎥⎦⎤

⎢⎣⎡ ++++=

Substituind (6) şi (7) în (4) , obţinem:

(8)

( ) ( )

( )NNnNn

N

NnNn

N

xxxxN

CnC

xxxN

CnC

XD

1212222

222

212

112

...221

...111

−−−

−−

++⎟⎟⎠

⎞⎜⎜⎝

⎛−+

++++⎟⎟⎠

⎞⎜⎜⎝

⎛−=

Coeficientul lui ( )222

21 ... Nxxx +++ se poate scrie ca

( )

1 11 12 2 2 2 2

11

2

1 1 1 1 1 1 1 1

11

n nN Nn

nNN

N nC CNC n N n N nN N nNCn

N n Nn N N

− −− −

−−

2

−− = − = − =

− −=

=

şi coeficientul lui ( )NN xxxx 121 ... −++ este

( )( )

( )( ) ( )1

221

1222

11

1222

222

22

−−

−=−−

−=−

−−

−−

−−

NnnN

NNNnNn

NC

nnnNNC

nN

nN

Apoi substituind aceste rezultate în (8), obţinem:

(9) ( ) ( )( ) ( ) ( )

⎭⎬⎫

⎩⎨⎧ ++−+++

−−−

= − NNN xxxxN

xxxN

NNn

nNXD 121222

2212 ...2...1

1

Partea din { } este exact , astfel încât 2σ

(10) ( )2 2 11

1 1N n nD X

n N n Nσ σ− −⎛ ⎞= = −⎜ ⎟− −⎝ ⎠

Page 69: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

67

Observam ca avem aparent o contradictie cu regula:

( ) ( )2 2

2 2

1ii

x nD X D D xn n n n

σ σ⎛ ⎞= = =⎜ ⎟⎜ ⎟

⎝ ⎠=∑ ∑

In fapt, in aceasta regula X este media unui experiment repetat de n ori, de exemplu, extragerea consecutive, una cate una a n bile, pe cand X de mai sus semnifica extragerea a n bile dintr-odata.

De exemplu, selectia ( )1,...,1,1 nu este posibila in cazul nostru si altfel nici o repetare, toate elementele selectate fiind distincte.

Este de notat că dacă ∞→N , atunci dispersia lui n

X2σ

→ , forma

ei obişnuită pentru o populaţie infinită, sau pentru experimentul de tip extracţie din urnă cu întoarcerea bilelor extrase în urnă.

2.7.2. Testul de rang Wilcoxon

Testul de rang Wilcoxon1 este un test cu ipoteza nulă că două populaţii sunt identice, fată de ipoteza alternativă că ele diferă printr-o translaţie lineară. Testul înlocuieşte observaţiile prin rangurile lor. Rangurile sunt repartizate la valorile din selecţii în ordinea creşterii mărimii fără să ţină cont de probele cărora le aparţin.

Să presupunem că o probă este de mărime n şi alta de mărime N-n. Testul presupune că orice combinaţie de ranguri în aceste două grupuri este egal probabilă. Numărul total de moduri de grupare a rangurilor este . n

NCConsideram urmatorul exemplu Nivelele plasmatice maxime ale ionului după administrare

i.m. −4EDTA

Tabelul 3. Voluntar CE IA BL PM MC DP SL Prima zi 33,3 25,1 22,8 32,4 23,7 48,33 33,04 rangurile 9 3 1 7 2 11 8 a-3-a zi 25,4 31,2 28,4 39,2 rangurile 4 6 5 10

Privind rezultatele în a treia zi de tratament la proba de mărime n,

suma rangurilor este 4+6+5+10=25. Combinaţiile de ranguri pentru care 1 F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947

Page 70: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

68

putem obţine o sumă a rangurilor mai mică decât aceasta, pentru un n = 4 dat sunt

1+2+3+4=10, 1+2+3+5=11, 1+2+3+6=13, 1+2+3+7=14, 1+2+3+8=15 etc.

După cum se poate vedea nu este uşor să calculăm toate posibilităţile, astfel încât vom folosi faptul că media rangurilor unei probe este distribuită aproximativ normal cu parametri care sunt calculati în continuare.

Sunt disponibile tabelele care dau limitele de acceptare a ipotezei pentru suma obţinută, ca o funcţie de n, N şi riscul asumat. Pentru

exemplul nostru găsim în tabele, pentru 0H

05,0=α , 41 =n şi intervalul 11 – 25.

72 =n

Fie R suma rangurilor şi R media rangurilor probei de mărime n.

Conform (1), valoarea medie a lui R este ( ) ∑=N

ixN

RE1

1 .In cazul nostru

sunt rangurile de N valori însemnând numerele 1,2,….,N. În consecinţă ix

( ) ( ) ( ) ( )2

12

11...21111

+=⇒

+=+++== ∑ NRENN

NN

Nx

NRE N

i

Calculul lui dă: 2σ

( ) ( ) ( )( ) ( )( ) ( )( ) ( )

121

211

6121111

11

22

2

2

1212

2

1212222

−=⎟

⎠⎞

⎜⎝⎛ +

−++

=−=

=−=−==

∑∑

∑∑NNN

NNNN

Ni

Ni

N

xN

xN

XEXEXD

NN

Ni

Niσ

Dispersia lui R se obţine prin înlocuirea lui σ în (10)

(11) ( ) ( )( )n

nNNN

nNn

NNn

nRD

121

1121

111

22 −+=

−−−

=⎟⎠⎞

⎜⎝⎛

−−

−=σ

În concluzie, variabila aleatoare ( )( ) ( )( )

nnNN

NR

RD

RER

121

21

−+

+−

=− va fi

repartizată aproximativ ( )1,0N . Intr – o notatie alternativa N poate fi notat cu 1n n2+ , n cu si N–n

cu obtinandu-se: 1n

2n

Page 71: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

69

( )

1 2

1 2 2

1

12

112

n nRZ

n n nn

+ +−

=+ +

Se mai utilizeaza si alta forma a formulei. Se amplifica cu , se

obtine 1n

1Rn R= si ( )

( )

1 1 2

1 2 1 2

121

12

n n nR

Zn n n n

+ +−

=+ +

Kruskal si Wallis2 au observat ca aproximaţia este îmbunătăţită când valoarea α este mai mare de 0,02 prin aducerea lui R mai aproape de media

lui cu n2

1 .

În literatura medicală şi biologică testul se mai numeşte Mann – Whitney şi se utilizează notaţiile 1nn = şi 2nnN =− ( 21 nn ≤ ).

Când cel puţin unul din numerele şi sunt mai mici decât 10, distribuţia de probabilitate a sumei rangurilor pozitive R se poate calcula direct. Intervalele de încredere cu diverse probabilităţi (0,95; 0,99; etc.) pentru R se găsesc în tabele.

1n 2n

In exemplul nostru n = 4, N = 11, R = 25, 25,6425

==R şi

( )( ) ( )( )

1 11 16,25 0,252 2 0,1971 11 1 11 4412 12*4

NRZ

N N nn

+ +− −= = =

+ − + −=

Valoarea obţinută ne asigură că nu apare o acumulare a EDTA la orice nivel de risc α din cele uzual utilizate.

Dacă facem corecţia pentru continuitate

2 W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am. Stat. Assoc.,47,583-621,1952

Page 72: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

70

( )( ) ( )( )

1 1 11 1 16,25 0,3752 2 2 8 0,28571 11 1 11 4412 12*4

NRnZ

N N nn

+ +− + − += = =

+ − + −=

concluzia nu se schimba. 2.7.3. Ajustarea pentru valori egale în testul Wilcoxon

Dacă apar egalităţi, o alternativă pentru neglijarea lor este de a repartiza la aceste observaţii media rangurilor pe care le-ar fi primit dacă nu erau egale.

Să considerăm un grup de k egalităţi. Numerele întregi m+1, m+2, …, m+k sunt înlocuite cu media lor.

( ) ( ) ( )( )

212

1...21 +

+=

++

=++++++ km

k

kkkm

kkmmm

Suma pătratelor ( )222

21 ... Nxxx +++ este astfel redusă prin

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )( ) ( ) ( )

( ) ( ) ( ) ( )

22 2 2

22 2 2 2 2

2

11 2 ...

2

12 1 2 ... 1 2 ... 1

41 1 2 1 1

2 12 6 41 1 1

4 2 3 312 12 12

km m m k k m

k kkm k m k km km k

k k k k k k km k k m

k k k k k Tk k

+⎡ ⎤+ + + + + + − + =⎢ ⎥

⎣ ⎦

++ + + + + + + + − − + − =

+ + + += + − + − =

+ − += + − − = =

Suma rangurilor rămâne neschimbată. Astfel:

( ) ( )( ) ( )

( )( ) ( )

( )( ) ( )N

TNNN

TNNNNN

NNTNNN

NNN

TNNNN

xN

xN

Ni

Ni

121

1233241

12131212

211

126121111

2

2

2

2

2

12122

−−=

−−−++=

=+−−++

=

=⎥⎦⎤

⎢⎣⎡ +

−⎟⎠⎞

⎜⎝⎛ −

++=−= ∑∑σ

şi ( ) ( )2 112 1

N N T N nD RnN N− − −

=−

Page 73: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

71

2.7.4. Teste referitoare la perechi de observaţii 2.7.4.1.Testul semnelor

Să considerăm nivelele plasmatice maxime ale unui medicament

după o primă administrare la un număr de n voluntari sănătoşi şi nivelele plasmatice maxime după trei zile de tratament. Fie

ix

iy( )yx,ρ probabilitatea de

apariţie a valorilor x şi y. Dacă medicamentul nu se acumulează în organism, cele două seturi de concentraţii sunt selecţii ale aceleiaşi populaţii şi ( ) ( )iiii xyyx ,, ρρ = pentru toate perechile.

Aceasta implică simetria lui ( )yx,ρ faţă de linia 0=− xy . Să definim variabila aleatoare xyz −= .

Avem că ( ) ( )21

=⟩=⟨ xyPxyP sau ( ) ( )2100 =⟩−=⟨− xyPxyP care

este mai departe echivalent cu ( ) ( )2100 =⟩=⟨ zPzP . Astfel z va avea o

mediană zero. Mai departe definim variabilele după cum urmează iz

1=iz pentru 0⟩izşi pentru 0=iz 0⟨iz . Presupunem continuitatea distribuţiei de grup originală ( )yx,ρ , z va fi

deasemenea continuă, şi “intersecţiile” (cazurile ii yx = ) vor avea probabilitatea zero.

iz sunt independente, astfel încât suntem în situaţia binomială de a face

n încercări independente, probabilitatea de succes 1=iz fiind 21 la fiecare

încercare. Astfel, ∑niz

1 are o distribuţie binomială cu parametrii

21

=p şi

n. Distribuţia de grup ( )yx,ρ poate fi diferită în fiecare încercare, însă de

fiecare dată ( )211 ==izP şi astfel distribuţia lui ∑n

iz1

va fi neschimbată.

Page 74: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

72

Alternativa ipotezei nule este ca în locul lui să avem ix iii dxx −=′ , ceea ce înseamnă că fiecare descreşte cu o cantitate , unde . În acest caz

ix id 0⟩id( yx , )′ρ nu va mai fi simetric, ci deplasat spre stânga şi

( )2100 ⟩⎟

⎠⎞⎜

⎝⎛ ′⟩=⎟

⎠⎞⎜

⎝⎛ ⟩′−=⟩ iiiii xyPxyPzP .

Astfel, nu va mai fi în mod necesar constantă şi distribuţia lui

nu va mai fi o distribuţie binomială.

( 0⟩izP )∑n

iz1

Testul semnelor, dă pentru probabilitatea a k diferenţe pozitive

∑∑

∑∑∑−

==

=

=

==

==⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛=⎟

⎠⎞

⎜⎝⎛ =≥

kn

j

jnn

n

ki

innn

n

ki

inn

iniin

n

kii

ni

CC

CCzpnkzP

0

1

21

21

21

211

21

21,

În cazurile simple, pentru k şi n mici, această probabilitate se poate calcula direct.

Pentru valori mai mari, se poate folosi aproximaţia normală. Sa luăm în considerare valorile nivelelor plasmatice ale ionului

(Tabelul3) după administrarea i.m. la patru voluntari sănătoşi. −4EDTA

Tabelul nr. 4: Voluntar CE IA BL PM Prima zi 33,3 25,1 22,8 32,4 a-3-a zi 25,4 31,2 28,4 39,2

iz -7,9 +6,1 +5,6 +6,8

iz 0 1 1 1

Avem

06,021

21

21

21,

43

4044

44

044

4

1

====⎟⎠

⎞⎜⎝

⎛=⟩ ∑∑

=

CCpzPj

ji

ceea ce înseamnă că putem accepta ipoteza nulă privind egalitatea constantei de eliminare în prima zi cu cea din ziua a treia.

Pentru esantioane mai mari de 20 se poate folosi aproximarea formala a distributiei binomiale:

1 12 21 1* *2 2

PnZ

n

− −=

Page 75: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

73

unde p este proportia diferentelor pozitive. 2.7.4.2.Testul Wilcoxon pentru observaţii perechi

Wilcoxon a propus deasemenea un test pentru determinări pare în care rangurile sunt atribuite mărimii absolute a diferenţelor şi apoi se dă rangurilor semnul diferenţelor.

Ipoteza nulă este că distribuţia diferenţelor este simetrică faţă de zero, astfel orice rang este pozitiv sau negativ cu aceiaşi probabilitate. Valorile egale primesc ca rang media rangurilor grupului.

Numărul total de moduri de sume de ranguri ce se pot obţine este N2 .Să ataşăm rangurilor i variabilele aleatoare di ce iau valorile di=1 când i

este pozitiv şi di=0 când i este negativ, se foloseste insa cea mai mica valoare dintre suma rangurilor pozitive si a celor negative.

Să considerăm suma rangurilor pozitive ids i∑= .

Media ei va fi ( ) ( ) ( )∑∑ ==N

iN

i diEidEsE11

Dar ( )21

210

211 =∗+∗=idE şi ( ) ( )

41

21

1

+== ∑ NNisE N

( ) ( )( ) ( )

22 2 2

1 1

2 21

2

2

N Ni i

i j

Ni i j

i j

E s E id E i d ijd d

i E d ijE d d

⎛ ⎞= = +⎜ ⎟

⎝ ⎠

= +

∑ ∑ ∑

∑ ∑

i j =

Însă ( )21

210

211 222 =∗+∗=idE si

( ) 104100 ∗+∗∗=ji ddE *

41

41*1*1

41*0*1

41

=++

În consecinţă

( ) ( ) ⎥⎦⎤

⎢⎣⎡ −+=+= ∑∑∑∑∑

NNN

ji

N iiiijisE1

22

112

122

41

212

41

21

Acum putem calcula dispersia lui s

( ) ( ) ( )( )

( )( )24

12141

41

41

21

1

2

2

11

22

11

222

++==

=⎟⎠

⎞⎜⎝

⎛−

⎥⎥⎦

⎢⎢⎣

⎡−⎟

⎞⎜⎝

⎛+=−=

∑∑∑∑

NNNi

iiiisEsEsD

N

NNNN

Page 76: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

74

În cazul în care apar egalităţi, ( ) ( )48

11 +− kkk trebuie să fie scăzut pentru

fiecare grup de egalitati. O alternativă este de a scoate toate valorile egale din probă. Să considerăm acum observaţiile pare din experimentul ce a dus la datele din tabelul 5.

Tabelul 5. Nivelele plasmatice maxime ale după

administrarea i.m. −4EDTA

Voluntar CE IA BL PM Prima zi 33,3 25,1 22,8 32,4 a-3-a zi 25,4 31,2 28,4 39,2 Diferenţa -7,9 +6,1 +5,6 +6,8 di 0 1 1 1 Rangul -4 2 1 3 S=3+2+1=6

În acest caz avem N=4 si

( )( )

( )

( )( )27,0

249*5*4

56

24121

41

=−

=++

+−

=−

=NNN

NNs

sDsEsz care este foarte

apropiat de valorile obţinute anterior.

2.7.4.3. Testul H, Krusskal – Wallis, de analiza a variatiei “pe o cale” aplicata rangurilor

Testul H, sau testul Kruskal – Wallis3 este o generalizare a testului Wilcoxon în cazul a k probe, . La fel ca şi în testul Wilcoxon, observaţiile primesc ranguri, şi media rangurilor Ri se calculează pentru fiecare grup.

2⟩k

( )2

1+=

NRE i şi ( ) ( )( )i

ii n

nNNRD

1212 −+

= unde ii

i

RRn

= si RRN

=

3 W.H.Kruskal, W.A.Wallis; Use of ranks in the one – criterion analysis of variance, J.Am.Stat.Assoc.,47,583-621,1952

Page 77: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

75

Raportul ( )( )i

ii

RD

RER2

− va fi repartizat ( )1,0N , conform teoremei limita

centrala. Kruskal şi Wallis au arătat că suma pătratelor lor, cu un factor de

ponderare ⎟⎟⎠

⎞⎜⎜⎝

⎛−

Nni1 are aproximativ distribuţia ( )12 −kχ

( )( )( )

2

2

1

12 1 1

112

K ii

i i

i

NR nH kNN N n

n

χ=

⎡ ⎤+⎢ ⎥− ⎛ ⎞⎢ ⎥= − ≅ − ⇒⎜ ⎟⎢ ⎥ ⎝ ⎠+ −⎢ ⎥

⎢ ⎥⎣ ⎦

( )( )( )

( )( )

( )( )

2 2

1 1

12 121 1 112

K Ki i ii

i ii

i

2

i iR R n R R nN nHN N n N N N N N

n= =

− −−= ⋅ = =

+ − + +∑∑ ∑

R R−

deci, deoarece sumam suma patratelor diferentelor intre mediile grupurilor si media totala, testul este in esenta un fel de ANOVA pe o cale si se aplica si atunci cand datele nu sunt normal repartizate, cu dispersii egale.

Am folosit,

( )22 2 2 2

2 ii i ii i i

i

Rn R R n R R R n N R N R

n− = − + = −∑ ∑ ∑ ∑ =

( )22 14

i

i

NRN

n+

= −∑

In final H se mai poate scrie :

( ) ( )212 3 1

1i

i

RH NN N n

= −+ ∑ +

Dacă apar valori egale, H trebuie să fie împărţit la factorul NN

T−

− ∑31

unde ( ) ( ) 31 1T k k k k= − + = − k este calculat pentru fiecare grup de legături.

Pentru probe mici aproximaţia nu este prea bună şi Kruskal şi Wallis au dat tabele pentru k=3 şi ni ≤ 5.

Page 78: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

76

Să aplicăm testul pentru acelaşi experiment, considerând două grupuri de observaţii după prima administrare şi un grup de observaţii după a – 5- a administrare:

Nivelele plasmatice maxime ale ionului după administrarea i.m. sunt în tabelul3.

−4EDTA

54

71391 =

+++=R , 7

38112

2 =++

=R si 25,64

105643 =

+++=R

( )( ) ( )( )

( )( ) ( )( )

86,011

5,9117

74*25,6

118

83

117

74

1141

4*12411111

211125,6

1131

3*12311111

21117

1141

4*12411111

21115

1

121

21

22

22

==++=

=⎟⎠⎞

⎜⎝⎛ −

⎥⎥⎥⎥

⎢⎢⎢⎢

−+

+−

+⎟⎠⎞

⎜⎝⎛ −

⎥⎥⎥⎥

⎢⎢⎢⎢

−+

+−

+

+⎟⎠⎞

⎜⎝⎛ −

⎥⎥⎥⎥

⎢⎢⎢⎢

−+

+−

=⎟⎠⎞

⎜⎝⎛ −∑

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

−+

+−

=Nn

nnNN

NRH i

i

i

i

Dat fiindcă valoarea obţinută pentru test aparţine zonei de acceptare, ipoteza ca grupurile sunt selectate din aceiaşi populaţie este acceptată.

103,0205,0;2 =χ

2.7.5. Alegerea între testele laplaciene şi testele neparametrice

Testele nonparametrice au o putere mai mică decât cele clasice, deoarece înlocuirea valorilor cu rangurile lor semnifică pierderea a o parte din informaţie. De exemplu am spune ca doi boxeri sunt de aceiasi valoare deoarece fiecare a câţtigat câte 5 meciuri din 10 întâlniri dintre ei. În condiţia în care în ultima întâlnire A l-a omorât pe B, concluzia trebuie schimbată, deoarece diferenţa de valoare între ei la ultimul meci a fost cu mult mai mare decât celelate diferenţe.

Această pierdere de informaţie este reală în cazul testelor neparametrice atunci când efectiv variabilele aleatoare sunt repartizate normal şi au dispersiile egale. În caz contrar se poate întâmpla ca un test neparametric să fie chiar mai eficient decât cele parametrice.

In altă ordine de idei, aplicarea testelor neparametrice în cazul selecţiilor de volume mari, este foarte laborioasă. Ca urmare, conduita de urmat în alegerea unui tip sau altul de test ar fi după cum urmează:

Page 79: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

77

1. În cazul eşantioanelor mici sunt de preferat testele neparametrice deoarece calculele sunt mai rapide şi eficienţa este comparabilă cu cea a testelor clasice.

2. Când se ştie că selecţiile aparţin la populaţii repartizate normal şi cu dispersii egale, testele clasice sunt mai eficiente.

3. Când nu se cunosc repartiţiile variabilelor, alegerea şi concluziile se vor face în funcţie de alte informatii privitoare la experiment.

4. Când se ştie că variabilele aleatoare testate nu sunt repartizate normal sau este vorba de variabile care se bazează pe o scală arbitrară (“scoruri”) sau clasificări pe criterii preponderant calitative (de exemplu “ameliorarea” stării subiecţilor trataţi) se apelează la testele neparametrice. 2.7.6. Analiza de variatie pe doua cai a rangurilor. Testul Friedman4

Consideram compararea a k esantioane de aceeasi marime, . in k=In acest caz datele se inscriu intr- o matrice. Daca rangurile le

stabilim pe fiecare linie, de exemplu, Tabelul nr. 6

Valoarea masurata a dozei subiect A B C

1 1 2 3 2 2 1 3 3 1 2 3 4 1 3 2 5 1 3 2

iR 6 11 13 Putem testa daca se produce o crestere semnificativa a valorilor

masurate (de exemplu ) o data cu cresterea dozei, aplicam testul Friedman

maxc

( ) ( )2 21

12 3 11c iR l c

lc cχ − = − +

+ ∑

unde l este numarul de linii si c este numarul de coloane.

4 Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973

Page 80: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste neparametrice

78

Page 81: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

79

2.8. Regresia liniară Dreptele sunt construite din mulţimi de perechi de date, X şi Y.

Două asemenea perechi (de exemplu două puncte) definesc în mod unic o dreaptă.

Y A BX= + unde : • A reprezintă interceptul lui Y (valoarea lui Y când X=0) şi • B este panta

2 1

2 1

Y YYBX X X

−Δ= =Δ −

pentru oricare două puncte de pe dreaptă.

fig. 1. Panta şi interceptul definesc dreapta: pentru oricare A şi B date,

dreapta este definită. În exemplul elementar a două puncte date, o aproximare statistică pentru a defini dreapta nu este necesară.

Dacă reprezentarea grafică a două mărimi ce sunt observate simultan sugerează o dependenţă liniară, ajungem la problema determinării dreptei ce descrie “cel mai bine” această dependenţă. Cazurile din farmacie cele mai frecvente in acest sens privesc chimia analitica, unde semnalul este proportional, intre anumite limite, cu concentratia, legea Lambert-Beer fiind cel mai cunoscut exemplu. In acelasi timp, se incearca sa se simplifice lucrurile prin « liniarizare » in studiile de stabilitate ale medicamentelor. In terapie, o intrebare obligatorie la care trebuie sa raspunda prezentarea oricarui medicamente se refera la “liniaritatea farmacocineticii”.

După cum s-a discutat la capitolul privind extremele funcţiilor de mai multe variabile, o soluţie a acestei probleme o constituie “dreapta prin cele mai mici pătrate”, dreapta pentru care suma pătratelor distantelor de la ea la punctele experimentale este minimă. Această soluţie consideră punctele ca fiind “exacte”. Problema capătă cu totul altă înfăţişare atunci

Page 82: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

80

când punctele experimentale sunt considerate valori ale unor variabile aleatoare, devenind o problemă de statistică matematică şi analiză numerică în acelaşi timp.

dependenta semnalului masurat de concentratie

0

5

10

15

20

25

0 5 10 15

fitare liniara, dar dependenta non-liniara

-20

0

20

40

60

80

100

120

0 5 10 15

Fig. 2 Dreapta prin cele mai mici patrate care aproximeaza dependenta intre variabile. a. dependenta este efectiv liniara dar datele sunt afectate de erori, b. Datele sunt afectate de erori si dependenta este mai mult parabolica decat liniara

In general, chiar daca nu constientizam acest fapt, de fiecare data cand

incercam sa gasim o dependenta liniara intre doua variabile, facem implicit urmatoarele ipoteze: 1. Variabila X este masurata fara eroare. Desi nu este totdeauna adevarat, cel mai adesea X este masurat cu erori relativ mici, si in aceste conditii presupunerea poate fi considerata adevarata. In cazul unor teste privind un medicament administrat in mai multe doze, X este doza “nominala” care se considera ca a fost administrata. Eroarea in “dozare” este foarte mica.Un alt exemplu de variabila X care este adesea folosit este timpul care poate fi masurat cu suficienta precizie si acuratete. 2. Pentru fiecare X, y este independent si normal distribuit. Adesea vom folosi notatia Y.x pentru ă arata ca valoarea lui Y este o functie de X. 3. Variatia lui y se presupune a fi aceeasi pentru fiecare X. Daca variatia lui y nu este constanta, dar este fie cunoscuta, fie asemanatoare cu cea a lui X intr-un anume fel, sunt alte metode pentru a estima panta si ordonata dreaptei . 4. Intre X si Y exista o relatie de liniaritate. Y A BX= + , unde A si B sunt parametri adevarati. Bazandu-ne pe teorie sau experiente, avem motive sa credem ca X si Y sunt corelate liniar. In fig. 2b se vede ca dreapta care aproximeaza “cel mai bine” dependenta intre cele doua variabile nu

Page 83: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

81

corespunde legii reale care guverneaza fenomenul, “cel mai bine” nefiind de fapt bine.

Aceste premise sunt descrise în:

Fig. 3. Media si dispersia in regresia liniara

Exceptând poziţionarea (media, valoarea medie) distribuţia lui y este

aceeaşi la fiecare valoare a lui X. În exemplul acesta, media distribuţiei lui y descreşte pe măsură ce creşte X (panta e negativă).

In cazul studiilor de stabilitate, dependenta concentratiei substantei

active de timp este, in cel mai bun caz o exponentiala ktectc −= 0)(

Dar , pentru valori mici ale lui t exponentiala este aproximata de o dreapta

)1()( 00 ktcectc kt −≈= − Ca parametri esentiali ai cineticii de degradare se folosesc, in locul

constantei de viteza k , timpul de injumatatire si timpul de “siguranta” sau timpul la care concentratia scade la 90 % din valoare sa initiala.

Examinăm în continuare aspectele matematice pentru cazul cel mai simplu când valorile variabilei x (care în cele mai multe cazuri corespunde timpului) nu sunt afectate de erori şi, pentru fiecare valoare a lui x corespund un număr de valori y, determinate într-un singur experiment printr-o metodă afectată de erori întâmplătoare:

111211 ,...,, nyyy , pentru 1x..

iinii yyy ,...,, 21 , pentru , i=1,2,…,k ixCazul când pentru orice i avem 1=in este relativ mai simplu, dar

este de subliniat că şi în cazul când aceştia sunt diferiţi de 1 poate fi tratat în

Page 84: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

82

aceiaşi manieră admitând că între perechile ( )ii yx , să fie şi perechi cu acelaşi . ix

Să admitem că pentru un x fixat, valoarea măsurată y este o variabilă aleatoare cu urmatoarea structură:

(1) y xη ε α β ε= + = + + distribuită normal cu dispersia şi media 2σ xβαη += Problema care ne-o punem este aceea ca, din datele experimentale , să obţinem nişte estimări a, b şi s2 pentru α, β si σ2, şi să determinăm distribuţiile acestor estimaţii.

iy

Estimarea ecuaţiei de regresie o notam : (2) bxaY +=

Metoda celor mai mici pătrate dă valorile a şi b care minimizează suma pătratelor deviaţiilor (erorilor) între valorile observate şi cele prezise de ecuaţia de regresie (2):

iy

(3) ( ) ( )22 ∑ −−=∑ −= iiiiE bxayYySS Metoda este în principal datorată lui Gauss. Pentru aflarea parametrilor a şi b, nu este necesară ipoteza privind distribuţia normală a erorilor, dar aceasta este necesară pentru construirea unor intervale de încredere şi pentru testarea unor ipoteze privind aceiaţi estimatori. Metoda celor mai mici pătrate oferă avantajul că estimatorii pe care îi dă sunt deplasaţi şi au o dispersie minimă în clasa estimatorilor nedeplasaţi. Valorile lui a şi b care minimizează suma pătratelor erorilor sunt soluţiile sistemului

( )( ) 2

0 2 02 00

i i i i

i i i i i

SSy a bx na b x ya

i iy a bx x a x b x x ySSb

∂⎧ =⎪ ⎧ ⎧− − − = + =⎪ ⎪ ⎪∂ ⇔ ⇔⎨ ⎨ ⎨− − − = + =∂ ⎪ ⎪⎩ ⎩⎪ =⎪ ∂⎩

∑ ∑ ∑∑ ∑ ∑ ∑

(4)

Rezolvând sistemul prin regula lui Cramer se obţin ca estimatori pentru α şi β:

( )∑ ∑−∑ ∑ ∑ ∑−

= 22

2

ii

iiiii

xxnyxxxY

a şi ( )∑ ∑−

∑ ∑ ∑−= 22

ii

iiii

xxnyxyxn

b

Numărătorul expresiei lui b poate fi scris şi în forma

( ) iiii

iiiiii yxxnynx

yxnyxyxn ∑ −=⎟⎠⎞

⎜⎝⎛∑ ∑ ∑−=∑∑−∑

Deoarece ( ) 0=∑ − xxi şi ( ) 0=∑ − xxy i , mai putem scrie

Page 85: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

83

( ) ( ) ( ) ( )( )yyxxxxyyxxyxx iiiiiii −∑ −=∑ −−∑ −=∑ − Similar, după cum se poate uşor verifica, avem: ( ) ( )222 ∑ −=∑−∑ xxnxxn iii

În consecinţă, o formă alternativă pentru b este ( )( )( )∑ −

∑ −−= 2

yx

yyxxb

i

ii .

Putem verifica uşor că b este un estimator nedeplasat pentru β. Presupunem valoarea aşteptată dată de ecuaţia iy ixβα + , pentru un . Atunci:

ixx =

( )( ) ( )

( )( )( )

( )

( )( )

( )( )

( )( )

2 2

22

2 2 2

1

0

i i i i

i i

i ii i i

i i i

x x E y y x x xE b

x x x x

x xx x x x x nx x x x x x

α β

α β β

− − − += = =

− −

−− −= + = +

− − −β=

∑ ∑∑ ∑

∑ ∑∑ ∑∑ ∑ ∑

Dispersiile lui a şi b pot fi obţinute direct, deoarece sunt funcţii liniare de , care valori sunt presupuse independente şi distribuite normal, cu dispersia :

iy2σ

( ) ( )( )

( ) ( )( )( ) ( )∑ −

=∑ −

∑ −=

⎥⎥⎦

⎢⎢⎣

∑ −

∑ −= 2

2

22

2

2xxxx

yDxx

xx

yxxDbD

ii

ii

i

ii σ

Din prima ecuaţie a sistemului (4) avem: XbYa −= .

( ) ( ) ( ) ( )

( )

( ) ( )

( )

( ) ( )bDnx

xxnx

xxnnx

nx

x

xx

xn

xxxyD

nbDx

ny

DaD

i

i

i

i

iii

i

i

ii

∑=∑ −

∑=

=∑ −

∑∑+∑−

=⎟⎟

⎜⎜

∑ −+=

=∑ −

+∑=+⎟⎠⎞

⎜⎝⎛ ∑=

2

2

22

2

2

2

2

22

22

22

2

22

2

2

1

1

σ

σσ

σ

Deci, 22

bi

a Snx

S ∑=

Page 86: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

84

2.8.1. Estimaţii şi ipoteze asupra coeficientului b Coeficientul b are o importanţă deosebită şi prin aceea că el

reprezintă o măsură a corelării între x şi y. 1. Coeficientul b este, după cum s-a arătat, repartizat normal cu media

β şi dispersia ( )∑ −2

2

xxi

σ

2. Dacă iy sunt punctele experimentale, iar iY estimările lor teoretice,

ii bxaY += , suma pătratelor erorilor va fi ( )∑ −= 2iiE YySS . Vom

arăta că: 2

2σ=⎟

⎠⎞

⎜⎝⎛

−nSSE E

Pentru a demonstra aceasta relaţie plecăm de la definiţia sumei erorilor ( )[ ]

( ) ( )[ ] ( ) ( )[ ]( ) ( )[ ] ( ) ( )( ) ( )2222

22

2

2 ∑ −+−∑ −−∑ −=∑ −−−=

=∑ ∑ −−++−=−−+−=

=∑ +−=

xxbyyxxbyyxxbyy

bxaxbayybxayyy

bxaySS

iiiiii

iiii

iiE

Dar( )( )

( )∑ −

∑ −−= 2

xx

yyxxb

i

ii şi putem înlocui ( )( ) ( )∑ −=−∑ −2

xxbyyxx iii .

Deci avem ( ) ( ) BAxxbyySS iiE −=∑ −−∑ −=222

Calculăm separat ( )AE şi ( )BE .

( ) ( )[ ] ( ) ( ) ( )22222ynEyEynyEyyEAE iii −∑=∑ −=∑ −=

În continuare, folosind identitatea ( ) ( ) ( )( )22 YEYEYD += şi faptul că

( ) xyE βα += şi ( )n

yD2σ

= obţinem

( ) ( ) ( )

( ) ( )

222 2

22

i

i

E A x n Xn

x X

σα β σ α β

α β α β

⎡ ⎤⎡ ⎤= + + − + + =⎢ ⎥⎣ ⎦ ⎣ ⎦⎡ ⎤= + − + =⎢ ⎥⎣ ⎦

Page 87: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

85

( ) ( )

( ) ( )( )( )( ) ( )( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )

222 2

22

2 222 2 2 2 2

2 2 22 2 2 2

2 2

1

i

i

i i

i i i i

i i i

i i

x n Xn

x X

x X x X

x X x X x X x X

x X x nX x X

nn x x n x xn

σα β σ α β

α β α β

α β α β α β α β

β α β β α β

β β β

σσ β σ β

⎡ ⎤⎡ ⎤= + + − + + =⎢ ⎥⎣ ⎦ ⎣ ⎦⎡ ⎤= + − + =⎢ ⎥⎣ ⎦

= + + + + − − =

⎡ ⎤= − + + = − + + =⎣ ⎦

= − = − = − =

= − + − = − + −

∑∑ ∑

∑ ∑ ∑

∑ ∑

Mai departe,

( ) ( ) ( ) ( ) ( ) ( )( )[ ]( )

( )∑ ⎟⎟⎠

⎞⎜⎜⎝

⎛+

∑ −−=

=+∑ −=∑ −=

22

22

2222

βσXx

xx

bEbDxxbExxBE

i

i

ii

şi deci, ( ) ( ) ( ) ( ) ( ) 2222222 21 σσββσ −=−−−−+−= ∑∑ nXxXxnSSE iiE

3. Variabila aleatoare 2σESS

este repatizată ( )22 −nχ .

Pe baza acestor trei proprietăţi putem estima intervalele de încredere pentru β şi verifica ipoteze asupra valorilor sale.

a) Cazul dispersiilor cunoscute În cazul în care se cunoaşte dispersia erorilor de măsurare

se foloseşte faptul că variabila

aleatoare

( ) ( ) 2σε == ii yDD

( )

( )21

2

2

⎥⎥⎦

⎢⎢⎣

∑ −

−=

−=

xx

bbD

bz

i

σ

ββ este repartizată ( )1,0N .

Page 88: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

86

b) Cazul dispersiilor necunoscute

În acest caz se înlocuieşte dispersia lui b: ( )∑ −= 2

2

xxi

bσσ cu

estimatorul numit “ dispersia de selecţie”:

( )

( ) ( )∑ −−=

∑ −−

∑ −

= 22

2

22xx

nSS

xxn

Yy

Si

E

i

ii

b .

Variabila aleatoare

( ) ( ) ( ) 222

22

21

2

21

2 −

=

⎥⎦

⎤⎢⎣

⎡−

=

⎥⎥⎦

⎢⎢⎣

∑ −−

−=

n

Z

nSS

b

xxn

SS

bTn

E

b

i

E

χ

σ

σβ

β

este repartizată Student cu n-2 grade de libertate. Ca urmare putem determina intervalele în care se află β cu diverse probabilităţi sau verifica ipoteze privind valoarea lui, exact cum este utilizat testul t pentru testarea ipotezei privind media necunoscută. Intervalul de încredere pentru β este:

bn

bn

StbStb2

1,22

1,2αα β

−−−−+⟨⟨−

2.8.2. Estimarea dispersiei punctelor dreptei de regresie Considerăm un punct fixat şi punctul corespunzător lui: , pe dreapta de regresie y

0x 0y

bxaxy +=++= εβα xbaY += 000 bxxbYbxay +−=+=

( )xxbYy −+= 00 estimatia lui este o variabilă aleatoare distribuită normal.

0y

Avem ( ) 000 xYYE βα +== şi

( ) ( )( )

( )0

2 22 22 2 20 0 2y y b

i

D y x x x xn x x

σ σσ σ σ= = + − = + −−∑

0

Page 89: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

87

Estimând valoarea lui prin 2σ 2

2ESSs

n=

− avem

( )( )0

2

02 22

1y

i

x xs s

n x x

⎡ ⎤−⎢ ⎥= +⎢ ⎥−⎢ ⎥⎣ ⎦∑.

Variabila aleatoare ( )0

00

ysxyT βα +−

= este repartizată Student cu

grade de libertate şi permite calculul intervalelor de încredere pentru 2n−0xβα + .

( ) ( )

2 2

0 , 2 . 0 , 2 .2 21 1,n Y x n Y x

x x x xy t S y t S

n nx x x x

α α

− −

− −− −

⎛ ⎞⎛ ⎞ ⎛ ⎞⎜ ⎟− −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎜ ⎟− + + +⎜ ⎟⎛ ⎞ ⎛ ⎞⎜ ⎟− −⎜ ⎟ ⎜ ⎟⎜ ⎟⎝ ⎠ ⎝ ⎠⎝ ⎠∑ ∑

Dispersia depinde de distanţa între şi0Ys 0x x , iar limitele de

incredere ale lui Y pentru valori specifice ale lui x depind de dispersie, numarul gradelor de libertate, numarul de puncte utilizate pentru determinarea dreptei si valoarea sa este minimă atunci când xx =0 . În acest caz, Yy =0 şi yy ss =

0.

Facem observaţia că dispersia determinată în punctul este dispersia datorată regresiei. Valorile experimentale nu sunt însă valori ale regresiei

0y

( )xxbYy −+= 00 , estimate de drepta de regresie. În acest caz, valoarea individuală determinată diferă faţă de valoarea printr-o eroare ε, a cărei dispersie este egală cu , variabilitatea datelor individuale faţă de valorile corespunzătoare regresie Y.

0Y2σ

Ca urmare, valorile individuale vor avea dispersia: ( )( )∑ −

−++= 2

2

022

220

xx

xxn

i

y σσσσ

ceea ce , pentru valorile de selecţie devine ( )( )0

2

02 22

11y

i

x xs s

n x x

⎡ ⎤−⎢ ⎥= + +⎢ ⎥−⎢ ⎥⎣ ⎦∑.

Page 90: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

88

2.8.3. Calculul intervalelor de încredere pentru dreapta de regresie în cazul stabilităţii formelor farmaceutice.

In cazul studiilor de stabilitate avem doua tipuri de probleme. Pentru o concentratie data, de exemplu 90 % din cea initiala, in afara de timpul de pe dreapta de regresie cand se atinge acest prag, ne intereseaza si marginea inferioara a intervalului de timp, deci timpul pentru care suntem siguri ca nu a scazut concentratia sub 90 %. Din punct de vedere al sigurantei pacientilor , este mai bine sa contam pe acest timp.

FDA sugereaza ca ar fi mult mai potrivita abordarea folosind un interval de incredere unilateral decat unul bilateral pentru a estima data de expirare. Pentru cele mai multe produse, continutul in substanta activa poate doar sa descreasca in timp, si numai marginea inferioara a intervalului de incredere vs. curba timpului pot fi considerata relevanta. (o exceptie poate fi in cazul produselor lichide unde evaporarea solventului duce la cresterea concentratiei substantei active).

Pentru a obtine acest domeniu de valori pentru X (timpul pentru continutul de minim 90%) folosind metoda estimatiei grafice asa cum este descrisa mai sus, presupune calcularea bandei de incredere pentru un domeniu suficient de intins pentru X.

Fig. 5. Banda de incredere 95% pentru linia de « stabilitate »

“Banda” de încredere are formă de hiperbolă şi ilustrează variaţia

lărgimii intervalului de încredere pentru diferite valori ale lui X, respectiv Y.

Page 91: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

89

Calcularea intervalului de incredere pentru un X la o valoare specifica lui Y este

g

XXXXNgbStXgX y

⎥⎥⎦

⎢⎢⎣

⎡∑ ⎟

⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −+−±−

−−−

1

//)1(]/)([)(22

unde ( )

∑ ⎟⎠⎞

⎜⎝⎛ −

=− 2

2

22

XXb

Stg y

Aceasta procedura de estimare a lui X pentru o valoare data a lui Y se numeste adesea “predictie inversa”.

2.8.4. Studiul stabilităţii medicamentelor

Exemplul 1: Studiul stabilităţii în cazul comprimatelor de vitamina B1

(tiamimă).

Măsurătorile privind rata de descompunere a unui medicament au mare importanţă în studiile despre medicamente, datele de stabilitate fiind de regulă analizate prin metode statistice. Stabilirea unei date de expirare a medicamentului defineşte pragul de viaţă a acestuia. În mod tipic, medicamentul este stocat/depozitat în condiţii variate de temperatură, umiditate, lumină (intensitate a luminii) ş.a.m.d. şi este analizat gradul de de stabilitate/descompunere a medicamentului la intervale de timp specificate.

Experţii stabilesc datele de expirare a medicamentului bazându-se pe datele ştiinţifice referitoare la stabilitatea medicamentelor. Condiţiile fizice ale testului stabilităţii (de exemplu: temperatură, umiditate), durata testării, programul analizei, ca de altfel şi numărul loturilor, sticlelor şi tabletelor trebuie analizate luând probe pentru studiile de stabilitate. O definiţie şi o implementare atente a acestor condiţii sunt importante deoarece validitatea şi precizia recomandării termenului fina de expirare depinde de cum este realizat experimentul.

Reglementările GMP (Good Manufacturing Practice) stabilesc criteriile statistice, incluzând mărimea probelor test in functie de cele de referinţă (observarea şi măsurarea), intervalele pentru fiecare atribut/caracteristică măsurată fiind folosite pentru asigurarea validităţii estimărilor statistice de stablitate. Termenul de expirare trebuie să fie “statistic valid”.

Page 92: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

90

Mecanismul determinării duratei de viaţă a medicamentului poate fi complex, mai ales atunci când sunt utilizate condiţii extreme, cum ar fi cele pentru “accelerarea” studiilor de stabilitate (de exemplu temperatură ridicată şi condiţii de umiditate ridicate).

De obicei condiţiile extreme sunt utilizate în testarea stabilităţii pentru a economisi timpul şi pentru a obţine o dată de expirare mai aproape de realitate. Toate produsele trebuie testate pentru stabilitate şi în condiţiile recomandate de producător (deci nu accelerate). FDA a sugerat ca cel puţin trei loturi de produse să fie testate pentru a li se determina termenul de expirare. Este necesar a se înţelege că pentru loturi diferite se pot obţine rezultate de stabilitate diferite, mai ales în situaţiile în care excipienţii pot afecta stabilitatea. În aceste cazuri variaţia între calitate şi cantitate a aditivilor (excipienţilor) între loturi poate afecta stabilitatea. O altă cauză pentru care se folosesc mai multe loturi pentru testarea/determinare stabilităţii este acela de a asigura că toate caracteristicile de stabilitate sunt similare de la un lot la altul.

Intervalurile de timp alese pentru analiza păstrării probelor-martor depind de caracteristicile majore ale produsului şi de stabilitatea anticipată. Un model “statistic” optim pentru studiul stabilităţii ţine seama de timpul de depozitare prevăzut până când medicamentul va fi supus analizei. Această problemă este dezbătută pe larg de literatura farmaceutică. Totuşi, modelele rezultate din asemenea premise sunt de obicei greoaie şi nepractice. De exemplu, din punct de vedere statistic, panta eficacităţii/concentraţiei funcţie de timpul (graficul ratei descompunerii) se obţine cu mai multă precizie dacă jumătate din totalul punctelor observate sunt obţinute la timpul 0, iar cealaltă jumătate la finalul timpului de testare. Numitorul creşte în aceste condiţii, invers proporţional cu variabilitatea pantei.

În situaţiile practice se va urmări informaţia privind punctele de la începutul şi finalul analizei pentru a evaluarea ratei descompunerii pe durata studierii procesului de stabilitate precum şi verificarea linearităţii ratei de descompunere în funcţie de timp. Cu cât se studiază mai multe puncte experimentale se îndeplinesc mai bine cerinţele regulatorii ale FDA-ului. Cei mai folosiţi timpi pentru efectuarea analizelor sunt la timpii t: 0, 3, 6, 9, 12, 18 şi 24 luni şi apoi la intervale anuale de timp.

Să luăm în considerare o anumită formulare (ex.: comprimate) care fac obiectulul studiului stabilităţii. Se aleg trei tablete la întâmplare, se analizează la: 0,3, 6, 9, 12 şi 18 luni, după producţie, în condiţiile temperaturii camerii (20 de grade Celsius). Datele sunt prezentate în tabelul de mai jos.

Page 93: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

91

Timp X (luni) Concentratia Y * Media 0 51, 51, 53 51,7 3 51, 50, 52 51,0 6 50, 52, 48 50,0 9 49, 51, 51 50,3 12 49, 48, 47 48,0 18 47, 45, 49 47,0

Luând în considerare aceste date, se propune stabilirea termenului de valabilitate care se defineşte ca durata de timp de la data fabricaţiei până când un comprimat conţine 90% din substanţa activă declarată. Produsul luat în considerare are o concentraţie declarată de 50 mg şi cu o specificaţie tehnică care prevede o supradozare de 4%; în acest caz producătorul va fabrica tablete cu o concentraţie de 52 mg de substanţă activă.

Figura arată că datele sunt variabile. O examinare atentă a acestui grafic sugerează că dreapta este reprezentarea adecvată a acestor date.

4445464748495051525354

0 2 4 6 8 10 12 14 16 18 20

timp (luni)

Conc

entra

tie (m

g)

Aplicarea metodei dreptei celor mai mici pătrate este cel justificată

în situaţiile în care există un model teoretic care să arate că scăderea în concetraţie este lineară în raport cu timpul (în acest exemplu, un proces de ordin zero).

Cinetica scăderii concetraţiei substanţei active în timpul depozitării în cazul formelor dozate solide este complexă şi un modelul este greu de conceput. În cazul de faţă, se presupune că concetraţia şi timpul sunt în relaţie lineară:

( ) 0C t C kt= − unde • C(t) = concentraţia la timpul t • C0 = concentraţia la timpul 0 (interceptul Y, A)

Page 94: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

92

• k = constanta • t = timpul de depozitare Având ca obiectiv estimarea perioadei de valabilitate a medicamentului, cea mai uşoară metodă de analiză a acestor date este estimarea pantei şi interceptului dreptei celor mai mici pătrate.(La o primă vedere putem estima panta şi interceptul “din ochi” (metodă grafică). Când facem calculele celor mai mici pătrate, reţinem că fiecare valoare a timpului (X) este asociată cu trei valori ale concentraţiei medicamentului (y). Dacă calculăm C0 şi K, fiecare valoare de timp este numărată de trei ori şi N este egal cu 18. Avem:

( ) ( ) ( )0 0 0 1 1 1 .... 18 18 18 144X = + + + + + + + + + =∑

( ) ( ) ( )2 2 2 2 2 2 2 2 2 20 0 0 1 1 1 .... 18 18 18 1782X = + + + + + + + + + =∑

( ) ( ) ( )0 0 0 1 1 1 .... 18 18 188

18X

+ + + + + + + + += =

( ) ( )51 51 53 .... 47 45 49 894y = + + + + + + =∑

( ) ( )2 2 2 2 2 2 251 51 53 .... 47 45 49 44476y = + + + + + + =∑ 51 51 53 ... 47 45 49 50

18y + + + + + += =

( ) ( )0*51 0*51 0*53 .... 18*47 18*45 18*49 6984Xy = + + + + + + =∑

( ) ( ) ( )2 2 23* 0 8 ... 18 8 630X X ⎡ ⎤− = − + + − =⎣ ⎦∑

( ) ( ) ( ) ( ) ( )2 2 2 2 251 50 51 50 53 50 ... 49 50 74y y− = − + − + − + + − =∑

Avem:

( )2 22

18*6984 144*894 0,267 /18*1782 144

n Xy X yb mg luna

n X X

− −= = = −

−−∑ ∑ ∑∑ ∑

( )894* 0, 267 *8 51,8018

a y b X= − = − − =

Ecuaţia dreptei de regresie este: ( ) 51,80 0, 267*C t t= −

Ca estimare a dispersiei folosim:

Page 95: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

93

( ) ( ) ( )

( ) ( )

( )

2 22 2exp

222 2

22

2 2 2

244476 894 /18 0, 267 *630

1,182518 2

thii i y y b X Xy ySSE

n n n

yy b X X

nn

− − −−= = =

− − −

− − −= =

− − −= =

∑ ∑∑

∑∑ ∑

Calcularea timpului în care concetraţia comprimatului este de 90% din cantiatea de substanţă activă declarată, adică 45 mg, se foloseşte ecuaţia

pentru calcularea lui t (timpul) pentru o concetraţie de 45 mg (C = concetraţia la care comprimatul conţine 90% din substanţa activă declarată).

( ) 51,80 0, 267*C t t= −

51,80 0, 267*C t= − ⇒ 25,5t luni= Estimarea timpului la care concetraţia comprimatului va fi de 90% din cantitatea declarată iniţial (se regăsesc 45 mg de substanţă activă după 25,5 luni de la data fabricaţiei). Aceasta este un rezultat mediu bazat pe datele a 18 tablete. Pentru o singură tabletă, timpul de descompunere la 90% din cantitatea declarată de substanţă activă variază în funcţie de cantitatea de substanţă activă iniţială (la t = 0, t este timpul). Cu toate acestea, perioada de valabilitate a medicamentului se estimează pe baza rezultatelor mediilor. Exemplul 2:Studiul stabilitǎţii tiaminei (forma farmaceuticǎ – comprimate) In tabelul următor se va lua un studiu al stabilitaţii tiaminei (vitamina B1).

timpul (luni) t concetratia in tiamina C (mg/tableta) 0 1003 98.96 98.19 96.8

12 96.2

Timpul mediu este: 0 3 6 9 12 65

luni+ + + += = t

În tabelul urmator sunt calculate:

Page 96: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

94

t t t− ( )2t t−

C dC dC C− ( )2

dC C−

0 6 36 100 100 0 0 3 3 9 98.9 99 0.1 0.01 6 0 0 98.1 98 -0.1 0.01 9 3 9 96.8 97 -0.2 0.04

12 6 36 96.2 96 0.2 0.04 total=90 Total=0.1 unde: C = concentratia in tiamina (mg/tableta)

dC = concentratia calculata din dreapta de regresie t = timpul Dispersia se obţine astfel:

2 0 0,01 0,01 0,04 0,04 0,035 3

s + + + += =

−, adică 0,18

2SSEsn

= =−

, 2 0,1;5 2 0,1;3 2,35nt t tα − −= = = (avem 3 grade de libertate)

, 2* 0,18*2,35 0, 423s nT s tα −= = = Dar, pentru un t fixat, considerand si eroarea de determinare experimentala:

( )( )( )

2

0 0 211s

t tC t C k t T

n t t

−= − − + +

−∑

Se obţine un interval de încredere de 95% egal cu:

( )( )

2

2

6100 0,3* 0,423 1,2

6t

tt−

− ± +−∑

Pentru t=0 se obtine [ ]100 0,423 1,6 100 0,423*1,264 100 0,535 99,465 ;100,535± = ± = ± ⇒

Daca vom considera numai eroarea fata de dreapta de regresie

( )( ) ⎥

⎥⎦

⎢⎢⎣

∑ −

−+= 2

2

02 10

xx

xxn

ssi

y . Vom putea construi un interval de incredere

pentru punctul y fixat (deci o concentratie data).

Page 97: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

95

Variabila aleatoare ( )0

00

ysxyT βα +−

= este repartizată Student cu n-

2 grade de libertate şi permite calculul intervalelor de încredere pentru 0xβα + .

( ) ( )⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

⎟⎠⎞

⎜⎝⎛ −

⎟⎠⎞

⎜⎝⎛ −

++

⎟⎠⎞

⎜⎝⎛ −

⎟⎠⎞

⎜⎝⎛ −

+−−

−−

2

2.2,0

2

2.2,01,1

xx

xx

NSty

xx

xx

NSty xYnxYn αα

unde ; 1/n=1/5=0.2 . 0,03Y xS s= =Se obţine un interval de încredere de forma:

( )( )

2

2100 0,3* 0,423 0,2t t

tt t

−− ± +

−∑

Pentru t=0, concentratia activa initiala este estimata :

[ ]36100 0,423 0,2 100 0,327 99,673 ;100,32790

± + = ± ⇒

2.8.5. Regresia ponderata

Una din presupunerile implicite in aplicarea inferentei statistice este

acela ca variatia lui y este aceeasi la fiecare valoare a lui X. Apar multe situatii in practica atunci cand aceasta presupunere nu este respectata. Un caz frecvent este acela cand variatia lui y este proportionala cu X. Aceasta apare cand y are un coeficient constant al variatiei (CV) si y este proportional cu X (y = BX), observat de obicei in metodele de analiza instrumentala in chimia analitica.

Doua din abordarile posibile in rezolvarea acestei probleme sunt: a) O transformare a lui y pentru a face variatia omogena, cum ar fi

transformarea logaritmica . b) O analiza de regresie ponderata.

Page 98: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

96

O pondere uzuala in chimia analitica pentru valoarea la concentratia Xi

este inversul patratutului acesteia 2

1

iX . Deci, in formulele pentru calculul

coeficientilor A si B valorile yi se vor inlocui cu valorile 2i

iii X

yyw =

2.8.6. Analiza reziduala in testarea ipotezelor privind corelatia

Se numesc reziduuri diferentele intre valorile calculate prin regresie si cele experimentale ( ceea ce , in alt context, numeam ca „erori”)

Examinarea reziduurilor poate dezvalui variatia heterogenitatii sau nonlinieritatea.

Daca modelul liniar si presupunerile in analiza prin cele mai mici patrate

sunt valabile, reziduurile ar trebui sa fie aproximativ normal distribuite si n-ar trebui sa apara nici o tendinta.

Figura 6 arata un grafic al reziduurilor ca functie de X. Faptul ca

reziduurile prezinta o forma de palnie, marindu-se pe masura ce X creste, sugereaza folosirea unei transformari logaritmice sau utilizarea unor ponderi pentru a reduce heterogeneitatea variatiei.

Page 99: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

97

Valori reziduale

0

1

2

3

4

5

6

7

8

9

10

0 50 100

Concentratia

Val

oare

rezi

dual

a

Valori reziduale logaritmate

0

1

2

3

4

5

6

7

8

9

10

1 2 3 4 5Concentratia (ln)

Val

ori r

ezid

uale

Fig. 6a Valorile reziduale in raport cu distributia normala

Fig.6b Valorile reziduale in raport cu distributia log normala. Mare parte din heterogenitatea variatiei a fost inlaturata.

Consideram o variabila aleatoare y care depinde liniar de variabila

aleatoare x : xy βα +=

Atunci cand facem determinarile experimentale noi nu stim nici daca cele doua variabile se coreleaza liniar si nici care este dreapta care descrie dependenta lor. Putem insa, prin analiza datelor experimentale sa determinam, prin metoda celor mai mici patrate, o estimare a dreptei

bxay +=ˆ daca vom considera un set de determinari ( )

jNjijy,1=

corespunzatoare pentru

un dat : ix

Page 100: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

98

Distanta de la un punct dat la ijy y se poate descompune in trei

componente: distanta pana la iy - media punctelor , distanta de la media grupului la valoarea estimata prin dreapta si distanta de la punctele de pe

dreapta la media totala

ijy

iy

y : ( ) ( ) ( )yyyyyyyy iiiiijij −+−+−=− ˆˆ

Ridicand la patrat, sumand si tinand cont ca sumele de produse mixte sunt zero, se obtine :

( ) ( ) ( ) ( )2222ˆˆ ∑∑∑∑ −+−+−=− yyNyyNyyyy iiiiiiijij

sau elinearitatelinearitatladedeviatieeroareT SSSSSSSS ++=

Observam ca, daca toate punctele ar fi pe o dreapta va fi zero, deci aceasta suma este o masura a corelarii liniare.

elinearitatladedeviatieSS

Intr-adevar :

( ) ( )xxSS

rxxbbxabxayyx

y −=−=−−+=−ˆ

Facem observatia ca datele pot fi aproximate foarte bine dupa o alta lege (de exemplu xky = cum este in cazul in care se aplica la dizolvare legea lui Higuchi).

Se definesc coeficientul de corelatie si a raportului de corelare ca :

Page 101: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

99

total

linear

SSSS

r =2 si total

elinearitatladedeviatielinear

Y

XYY

SSSSSS

s

ss +=

−= 2

22

• Raportul de corelare 2η este proportia de variabilitate a lui Y atribuabila covariantei cu X ; • Coeficientul de determinare (corelatie) este proportia de variabilitate a lui Y atribuabila covariantei liniare cu X .

Legatura intre panta dreptei de regresie si coeficientul de corelatie Avem dupa definitie

∑ ⎟⎟⎠

⎞⎜⎜⎝

⎛ −⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

y

i

x

i

Syy

Sxx

Nr 1

In cazul in care punctele sunt toate pe o dreapta iy ii bxay +=

( )yx

i

y

i

x

i

SSxxb

NSxbabxa

Sxx

Nr ∑∑

−=⎟

⎟⎠

⎞⎜⎜⎝

⎛ −−+⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

211

dar, ( ) ( ) 22

222

2x

iiy Sb

Nxxb

Nxbabxa

S =−

=−−+

= ∑∑

Deci, inlocuind mai sus ( )

yx

i

y

i

x

i

SSxxb

NSxbabxa

Sxx

Nr ∑∑

−=⎟

⎟⎠

⎞⎜⎜⎝

⎛ −−+⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

211

( )11

2

22

==−

= ∑x

x

xx

i

SS

bSSxxb

Nr

Cand punctele nu sunt pe dreapta, panta dreptei prin cele mai mici patrate b este:

( )( )( )

( )( ) ( )( )x

y

x

y

yx

ii

x

ii

i

ii

SS

rSS

SSyyxx

Syyxx

xx

yyxxb =

−−=

−−=

−−= ∑∑

∑∑

22

Deci, x

y

SS

rb =

Page 102: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

100

2.8.7. Stabilitatea dreptei de regresie in bioanalitica In bioanalitica si in chimia analitica in general, pentru fiecare

concentratie, la stabilirea dreptei “de etalonare” se fac mai multe determinari.

Curbele de etalonare (dreptele) trebuie sa treaca prin origine; adica in cazul acesta rezultatul trebuie să fie 0 dacă concentraţia de medicament este 0. Calcularea pantei este simplificată dacă dreapta este forţată să treacă prin punctul de (0, 0). În cazul acesta nostru, dacă interceptul este zero, panta este:

2

Xyb

X= ∑∑

Fig. 7. Curba care trece prin origine si are interceptul 0 Dacă această dreaptă urmează să fie folosită pentru a prevedea

concetraţiile actuale bazându-se pe rezultatele analizei experimentale, vom obţine răspunsuri care sunt diferite faţă de cele previzionate de dreapta trasată anterior. Cu toate acestea, ambele drepte au fost construite din acelaşi date experimentale. “Este vre-o dreapta care este corecta?” sau “Este una din cele 2 drepte mai “buna” decat cealalta?”. Desi nu putem spune cu încredere care dreapta este mai potrivita, este necesara o cunoastere a metodei analitice este foarte importanta in luarea deciziilor pentru una dintre cele 2 drepte.

De exemplu, un intercept diferit de zero, sugerează fie non-linearitatea pentru un sir de analize fie prezenţa unei substanţe care interferează în proba de analizat.

Dreapta pe care o vom folosi se va face pe baze statistice. Un test statistic al interceptului poate fi pornind de la ipoteza nula ca interceptul este 0, (H0: A = 0). Respingerea ipotezei este o dovadă puternică că dreapta cu intereceptul pozitiv este cea mai adecvata pentru aceste date.

Page 103: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

101

Se calculeaza apoi “acuratetea” sau “exactitatea “ acestor determinari, cuantificata prin distanta valorii calculate prin regresie

Piroxicam

Linear RegressionY = B*X + A

Parameter Value Error A -0.0029 0.0079

B 0.3294 0.0019 R 0.9999

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

0 2 4 6 8 10 12

Conc (µg/mL)

Area

Ana

lit/Ar

ea S

I

Fata de concentratia “nominala’, concentratia care s-a preparat

efectiv ( pe care o consideram ca nu este afectata de erori). In momentul in care media determinarilor efective la una din aceste concentratii se modifica, si dreapta de regresie se va modifica si deasemena si distantele tuturor punctelor experimentale la aceasta dreapta.

Este de dorit o dependenta stabila a acuratetei punctelor de

acuratetea datelor de intrare, in sensul ca o eroare mica in preparare sau in masurare, sa afecteze putin acuratetea “dreptei”.

In mod concret , consideram datele experimentale de la determinarea dreptei de etalonare a piroxicamului in probe de plasma (fig. 5). Orice eroare in preparare sau masurare schimba dreapta.

Sa evaluam ce efect are asupra acuratetei punctelor o eroare de 10 % la limita de cuantificare (LLOQ) si o eroare de 10 % la limita superioara de cuantificare.

Acuratetea punctelor dupa o schimbare de 10% a conc. experimentale la diferite limite de cuantificare

Page 104: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

102

Tabelul nr. 7 Limita inferioara de cuantificare Limita superioara de cuantificare

Conc A/SI Conc exp Acc

Acc initial Conc A/SI

Conc exp Acc

Acc initial

0.1 0.0240 0.083 83.3 90.014 0.1 0.0267 0.164 164.1 90.01 0.25 0.0818 0.259 103.4 102.841 0.25 0.0818 0.318 127.1 102.84 0.5 0.1570 0.487 97.4 97.070 0.5 0.1570 0.527 105.5 97.07 1 0.3396 1.041 104.1 103.991 1 0.3396 1.037 103.7 103.99 2.5 0.7903 2.409 96.4 96.321 2.5 0.7903 2.294 91.8 96.32 5 1.6711 5.083 101.7 101.643 5 1.6711 4.752 95.0 101.643 10 3.2840 9.978 99.8 99.786 10 3.6124 10.168 101.7 99.786

Se observa ca efectul erorilor la concentratii mici asupra celorlalte

concentratii este neglijabil, in timp ce efectul erorilor la valori mari asupra acuratetei concentratiilor mici este “critic” , transformandu-le pe acestea in “valori discordante”. Concluzii În studiul stabilitaţii medicamentului, pe lângǎ determinariile practice de stabilitate, aplicarea metodei regresiei lineare are un rol important. Astfel determinarea intervalului de încredere pentru a stabili termenul de valabilitate al unui medicament se obţine folosind aceasta metoda. Cu ajutorul dreptei de regresie (dreapta celor mai mici pǎtrate) se pot face estimari pentru a stabili valabilitatea unui produs. Aşa cum s-a aratat in exemplul tabletelor cu tiaminǎ, se ia in considerare limita inferioarǎ in calculul stabilitǎţii unui medicament, deoarece practic durata de viaţǎ a unui medicament se situeazǎ intre limitele acestui interval. În acest fel putem fi siguri ca data de expirare care este înscrisa pe cutie, este practice sub data efectivǎ de expirare şi se înlaturǎ eventualele erori care apar în calculul statistic. De regulǎ durata de valabilitate se calculeazǎ astfel încât la termenul de expirare, forma farmaceuticǎ luatǎ în considerare (în cazul nostru tabletele de tiaminǎ) sǎ conţinǎ cel puţin 90% din substanţa activǎ declaratǎ, respective dozatǎ. Luând în considerare aceste lucruri, estimarea dreptei de regresie, respective a parametrilor ei joacǎ un rol foarte important in studiul stabilitǎţii unui medicament, indiferent de forma farmaceuticǎ luatǎ în calcul.

Page 105: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

103

Calculul intervalelor de încredere sunt necesare de asemenea pentru a stabili durata de viaţa a unui medicament. Practic ele conduc la stabilirea valabilitǎţii acestor. Tocmai de aceea se ia în considerare limita inferioarǎ a acestor intervale. În acest mod se eliminǎ o parte din erori. În momentul datei limitǎ a valabilitǎţii unui medicament, acesta trebuie sa nu fi pierdut mai mult de 10% din cantitatea aflatǎ iniţial în produsul luat în calcul. În estimarea întervalelor de încredere pentru stabilirea valabilitǎţii unui medicament, analizele se fac de regulǎ la 0, 3, 6, 9, 12 luni, iar mai apoi anual. De asemenea se pot efectua şi studii de stabilitate accelerate, la timpi mai scurţi dar în condiţii de temperaturǎ şi umiditate crescute.

Page 106: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Regresia liniara

104

Page 107: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

105

2.9. Metode statistice de analiza factorilor de variabilitate în experimentul biologic (ANOVA) Să cercetăm, în continuare, problema comparării mai multor selecţii provenite din populaţii pe care le ştim ca fiind normal repartizate, de exemplu concentraţiile plasmatice realizate de tablete care conţin diferiţi excipienţi, dar care au aceeaşi substanţă activă, în aceeaşi doză. Vrem să verificăm ipoteza compusă că acestea provin de fapt din aceiaşi populaţie, având media μ şi dispersia σ, deci că excipienţii folosiţi nu influenţează semnificativ cedarea şi absorbţia substanţei active:

μμμμ === 3210 :H 4

faţă de ipoteza alternativă că cel puţin două medii nu sunt egale. O variantă de rezolvare a problemei ar fi compararea mediilor de selecţie două câte două prin metodele prezentate anterior.

Fie, de exemplu, relaţia între mediile de selecţie 4321 xxxx ⟨⟨⟨ . Este evident greşit a aplica o relaţie de tranzitivitate şi a spune că 21 μμ = şi 32 μμ = şi 432143 μμμμμμ ===⇒= . Motivul acestei erori este legat în primul rând de violarea unui principiu de bază al teoriei selecţiei: alegerea la întâmplare a selecţiilor. Ori compararea loturilor după criteriul “a posteriori”, al mărimii mediilor de selecţie este într-adevăr o abatere de la acest principiu. Mai mult, nici măcar 41 μμ = nu implică în acest caz 32 μμ = din cauza dependenţei rezultatului testelor de relaţiile între dispersiile populaţiilor din care provin selecţiile. Ca urmare, problema comparării mai multor selecţii (loturi) trebuie abordată prin alte metode care să facă compararea tuturor selecţiilor în acelasi timp. O astfel de abordare se bazează pe compararea dispersiilor de selecţie şi se numeşte analiză dispersională. Analiza dispersională este o altă metodă fundamentală a statisticii care, în plus faţă de mijloacele de calcul a “tendinţei centrale” a rezultatelor experimentelor repetate, caracterizează mai ales variabilitatea acestora şi factorii ce o determină. Variabilitatea se poate datora existenţei unor factori cu influenţe sistematice, a unor factori aleatori de fluctuaţie mai pronunţată şi, în final, factori locali, inevitabili, determinând o fluctuaţie mai mică, definita “ca

Page 108: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

106

fluctuaţie experimentală”. Analiza dispersională îşi propune separarea “variabilităţii totale” în: variabilitatea datorată factorilor sistematici, variabilitatea factorilor cu efecte aleatoare, plus o variabilitate “reziduală” (diferenţa până la variabilitatea totală), care reprezintă de fapt variabilitatea experimentală. Din aceste variabilităţi se evaluează dispersiile parţiale corespunzătoare diferiţilor factori, calculându-se semnificaţia rapoartelor lor prin aplicarea testului F. Principial datele experimentale se grupează în funcţie de diferite criterii şi se urmăresc efectele asupra variabilitatii în funcţie de aceste criterii, efecte care se cuantifică în raport cu variablitatea reziduală. Analiza dispersională este cunoscută în aplicaţiile de biofarmacie şi farmacocinetică sub denumirea de ANOVA (de la Analysis of Variance). 2.9.1. Analiza funcţională unifactorială Cea mai simplă analiză dispersională, numită analiză dispersională unidimensională sau unifactorială (numită în literatura engleză şi “one-way ANOVA”) sau “experiment complet aleator”, “experiment cu grupuri paralele”, corespunde testului t de analiză a două eşantioane independente şi compară două sau mai multe grupuri. De exemplu, n pacienţi sunt grupaţi în k scheme de tratament. Putem să comparăm efectele a două medicamente administrate la mai multe grupuri de voluntari, la care se poate adauga şi un grup “placebo”. Voluntarii se distribuie aleator în toate grupurile. După măsurarea unui parametru dat, se testează ipoteza nulă că toate valorile parametrului testat sunt egale în populaţia corespunzătoare diferitelor tratamente testate, deci tratamentele sunt echivalente între ele.

In ipoteza că toate grupurile aparţin aceleiaşi populaţii, ideea testului este aceea că variabilitatea în interiorul grupurilor trebuie să fie de acelaşi ordin cu variabilitatea între mediile grupurilor.

În consecinţă, dispersia totală, evaluată ca suma a pătratelor diferenţelor între valorile individuale şi media întregii populaţii selectate SST, este separată într-o parte datorită variaţiei între grupuri (within), sau variabilităţii “interioare” şi o parte datorită variabilităţii “dintre” (between) grupuri: BWT SSSSSS += .

Dacă numărul de grupuri este k şi numărul de subiecţi în grupul i este această egalitate poate fi explicitată după cum urmează: in

Page 109: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

107

(2

1∑∑

=

−=n

i

n

jijT

i

XxSS ) (1)

unde =X media mareN

x

n

Xnn

x

ki

kii

i

i jij ∑

∑∑

∑∑∑

===1

1 şi iX este media

grupului i. Fixând grupul i putem scrie

( ) ( ) ( )[ ]

( ) ( ) ( )( )∑∑∑

∑∑

−−+−+−=

=−+−=−=

iii

ii

n

jiiij

n

ji

n

jiij

n

jiiij

n

jij

XXXxXXXx

XXXxXx

222

1

22

Ultimul termen este egal cu

( ) ( )( ) 022 =−−=⎟⎟⎠

⎞⎜⎜⎝

⎛−− ∑ iiiii

n

jiiji XnXnXXXxXX

i

şi (1) devine

( ) ( ) WB

k

i

n

jiij

k

iiiT SSSSXxXXnSS

i

+=−+−= ∑∑∑22

(2)

relaţie cunoscută ca identitatea analizei dispersionale. Considerăm variabilele aleatoare:

11

2

−=

−=∑ N

SSn

SSs T

i

TT , 2

1B

BSSsk

=−

şi kN

SSkn

SSs W

i

WW −

=−

=∑

2 .

Ţinând cont de regula generală demonstrată mai înainte că, ( ) ( )11 222 −≈− nn x χσδ avem,

( ) ( )( )

( )

2

.2 2

.,

1 11

ij ij

W ij i i ii j i ii

x xSS x x n n s

n

−= − = − = −

∑∑ ∑ ∑ i

Deci, ( ) ( )( ) ( )kNnn

SSs i

i

WW −=−≈

−= ∑∑

22222 11

χσχσ

Page 110: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

108

Analog, ( )1222 −≈ ksB χσ şi deci raportul 2

21

W

B

W

B

SS

kNSSkSS

F =

−= este

distribuit ( )1,F k N k− − .

Se observă că de fapt ( )

2

2

11 x

k

iii

B sk

XXn

kSS

=−

−=

∑ reprezintă

dispersia de selecţie ponderată a mediilor de grup faţă de marea medie. Abaterile mediilor grupurilor faţă de media generală depind atât de

hazardul măsuratorilor cât şi de factori ce ţin de însăsi natura grupurilor. Abaterile în interiorul grupurilor sunt independente de aceşti factori, deoarece fiecare valoare măsurată este raportată la însăşi media grupului respectiv. Ele reprezintă fluctuaţii aleatoare.

Variabilitatea în interiorul grupurilor reprezintă diferenţa între variabilitatea totală şi variabilitatea între grupuri.

Pentru simplificarea calculelor în aplicaţiile practice s-au introdus

notaţiile şi şi formulele precedente se

aduc la forme echivalente ce presupun un volum mai mic de calcule, după cum urmează:

∑∑∑ = xxk

i

n

jij

i

∑∑∑ = 22 xxk

i

n

jij

i

( ) ( ) ( )

( ) ( )N

xx

Nx

x

Nx

NNx

xXNxXxXxSS

ijij

ijijijijijijT

22

22

2

222222

22

∑∑∑∑

∑∑∑∑∑∑

−=−=

=+−=+−=−=

( ) ( )∑∑∑

∑∑∑ ∑

∑−

⎟⎟⎠

⎞⎜⎜⎝

=⎟⎟⎠

⎞⎜⎜⎝

−⎟⎟⎠

⎞⎜⎜⎝

=−= ==

k

i

k

i

n

jij

ki

i jijk k

i

n

jij

iiB

n

xn

x

n

x

n

xXXnSS

ii

1

2

1

2

1

1

2

1 1

2

12

Page 111: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

109

2.9.1.1. Aplicarea ANOVA in testarea ipotezei privind depdendenta liniara a datelor

Evaluarile statistice de pana acum permit determinarea unei drepte sau a unui fascicul de drepte care aproximeaza evolutia fenomenului descris de datele experimentale.

Un astfel de rezultat se poate obtine oricand, chiar si atunci cand evident evolutiile nu urmeaza un model liniar. Deci, « cea mai buna dreapta” poate fi in fond foarte proasta.

Din acest motiv este nevoie si de teste statistice care sa verifice ipoteza ca efectiv un model liniar este aplicabil.

a) Testarea linearitatii :

Pornind de la cele prezentate in capitolul privind regresia liniara,

observam ca are eroareSS IN − grade de libertate si deci IN

SSMS eroare

eroare −=

avem ca ( ) 2eeroareMSE σ=

In cele ce urmeaza vom calcula media sumei ; linearMS

( ) ( )( ) ( )( ) ( ) ( )2222ˆ bExxxbabxaEyyEMSE iiilinear ∑∑∑ −=−−+=−=

Dar, ( ) ( ) ( )[ ] ( ) ( )[ ]22

222 bE

xxbEbDbE

i

y +−

=+=∑

σ

Folosind relatia x

y

SS

rb = ⇒ ( )y

xbEσσ

ρ= si

( ) ( ) ( )( ) 222

2

222

2

2

22

2

2

yyx

yiy

x

y

i

yilinear

Nxx

xxxxMSE

σρσσ

σρσ

σσ

ρσ

+=−

+=

=⎟⎟

⎜⎜

⎛+

−−=

∑∑

In fapt aici am presupus ca pentru fiecare punct valorile corespunzatoare au o dispersie

ix

ijy 2xyσ care este aceeasi pentru toate

punctele si deci putem sa o notam cu sau . ix 2yσ 2

eσLucrurile nu se intampla intotdeauna in acest fel. De exemplu in

cazul dreptei de etalonare in bioanalitica dispersiile sunt practic semnificativ

Page 112: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

110

mai mari la limita de cuantificare (pana la 20%) – fata de restul concetratiilor la care limita admisa pentru « precizie » este de 15%.

Ipotezele de verificat sunt : 0:0 =ρH echivalenta cu 0:0 =βH folosind variabila

aleatoareeroare

linearIN MS

MSF =−,1 .

b) Testarea ipotezei de nonlinearitate : 0: 22

0 =− ρηHPentru aceasta se compara valorile testului

eroare

elinearitatladedeviatieINI MS

MSF =−− ,2 cu valorile din distributia Fischer.

• Raportul de corelare 2η este proportia de variabilitate a lui Y atribuabila covariantei cu X ; • Coeficientul de determinare (corelatie) este proportia de variabilitate a lui Y atribuabila covariantei liniare cu X . 2.9.1.2. Compararea parametrilor farmacocinetici ai unui medicament după administrarea pe mai multe căi

Să considerăm constanta de eliminare (Tabelul 8) pentru un medicament administrat într-o singură doză oral şi i.v., iar i.m. timp de trei zile la diferite grupuri. Este de aşteptat ca eliminarea să fie independentă de calea de administrare.

Vom compara constantele de eliminare după administrarea orală şi i.m. Tabelul nr. 8: Constanta de eliminare 14 min10 −∗ek

Oral prima doza i.m. o doza i.m. a-5-doza 106 55 84 109 40 105 160 109 174

∑ ijx 375 204 363 ∑ = 942x

∑ 2ijx 48717 16506 48357 1135802 =∑ x

in 3 3 3 N=9

1−in 2 2 2 ( ) 61 =−∑ in

ix 125 68 121

Page 113: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

111

( ) ( )∑ ∑∑ =−=−=−= 14984

9942113580

2222

Nx

xXxSS ijT

( )

6074985964392313872468759

9423

3633

2043

375 22221

2

1

2

1

1

2

=−++=−++=

=⎟⎟⎠

⎞⎜⎜⎝

−⎟⎟⎠

⎞⎜⎜⎝

=−=

∑∑∑

∑∑ =

=k

i

i jijk

i

n

jijk

iiiB

n

x

n

xXXnSS

i

8910607414984 =−=−= BTW SSSSSS

14856

89102 ==−

=kN

SSs W

W , 30372

60741

2 ==−

=kSSs B

B

( ) ( ) 07,2148530376,2,1 2

2

====−− ∑W

Bi s

sFknkF valoare aflată în zona de

acceptare ( 26,75,97;6,2 =f si 92,1099;6,2 =f ) Aplicăm în continuare acelaşi procedeu, introducând şi administrarea i.v. Tabelul nr. 9: Constanta de eliminare 14 min10 −∗ek i.m. o doza i.m. a-5-doza i.v. 106 55 84 63 109 40 105 70 160 109 174

∑ ijx 375 204 363 133 1075=∑ x

∑ 2ijx 48717 16506 48357 8869 1224492 =∑ x

in 3 3 3 2 N=11

1−in 2 2 2 1 ( ) 71 =−∑ in

ix 125 68 121 66

( ) ( )∑ ∑∑ =−=−=−= 17392

111075122449

2222

Nx

xXxSS ijT

Page 114: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

112

( )

8428105056884443923138724687511

10752

1333

3633

2043

375 222221

2

1

2

1

1

2

=−+++=

=−+++=

=⎟⎟⎠

⎞⎜⎜⎝

−⎟⎟⎠

⎞⎜⎜⎝

=−=

∑∑∑

∑∑ =

=k

i

i jijk

i

n

jijk

iiiB

n

x

n

xXXnSS

i

8964842817392 =−=−= BTW SSSSSS

12807

89642 ==−

=kN

SSs W

W , 28093

84281

2 ==−

=kSSs B

B

( ) ( ) 19,2128028096,2,1 2

2

====−− ∑W

Bi s

sFknkF valoare aflată în zona de

acceptare ( 26,75,97;6,2 =f şi 92,1099;6,2 =f ) 2.9.1.3. Condiţii necesare pentru aplicarea analizei dispersionale.

a) Modelul variabilei aleatoare supusă măsuratorilor Subliniem ceea ce am spus sau am presupus ca şi condiţii prealabile

pentru a putea aplica testul prezentat: 1) Pentru ca sumele calculate să fie repartizate 2χ este obligatoriu ca

selecţiile să provină din populaţii repartizate normal. Dacă acest lucru nu se întâmplă, rămâne să fie aplicate teste neparametrice, după cum s-a prezentat anterior.

2) Analiza dispersională compară dispersia între grupuri cu dispersia totală din interiorul grupurilor pentru punerea în evidenţă a efectelor sistemice. Dispersiile în populaţiile din care provin grupurile s-au presupus egale. Pentru verificarea acestei ipoteze se poate aplica testul F dispersiilor de selecţie luate două câte două, sau se poate aplica testul Bartlett.

3) Aditivitatea efectelor de intra şi intervariabilitate, fenomen care depinde de natura intimă a fenomenului măsurat. Ca urmare rezultatul masuratorilor este o variabila aleatoare care se poate scrie: ijiijx εαμ ++= cu ( ) 0=ijE ε şi ( ) 2

eijD σε = unde μ este

Page 115: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

113

media generală a populaţiei, ( ) 2ασα =D , iα este un factor fix ce variază de

la un grup la altul şi este egal cu diferenţa între μ şi media grupului

i iμ μ α= + , iar ijε este eroarea de măsurare. Media a n determinări în interiorul unui grup este

iiij

ii nX εαμ

εαμ ++=++= ∑ deoarece iα şi μ sunt constante.

Media generală va fi: εαμεα

μ ++=++= ∑∑∑knk

M iji deoarece

iα variază de la un grup la altul iar μ este acelaşi pentru întreaga populaţie.

Mai departe ( ) ( )ij i i ij i i ij ix X μ α ε μ α ε ε ε− = + + − + + = − şi dispersia în

interiorul grupului va fi: ( ) ( )

11

22

2

−=

−= ∑∑

i

iij

i

iiji nn

Xxs

εε iar media ei este

( ) ( ) ( ) 2

22

2

11 ei

iij

i

iiji n

En

XxEsE σ

εε=⎟

⎜⎜

−=⎟

⎜⎜

−= ∑∑ (din faptul că aşa cum s-a

arătat mai înainte ( ) 22 σ=xsE , fiind un estimator nedeplasat al dispersiei).

2xs

Sumând pentru toate grupurile se obţine

( ) ( ) ( ) ( )222 2 2

11 i ii iw e

n E Sn S N kE s EN k N k N i

σ σ−⎛ ⎞− −

= = =⎜ ⎟⎜ ⎟− − −⎝ ⎠=∑∑

Deci este un estimator nedeplasat al lui indiferent dacă ipoteza este adevărată sau nu.

2ws 2σ

0HDacă nnnn k ==== ...21

( ) ⎥⎦

⎤⎢⎣

⎡⎟⎠⎞⎜

⎝⎛ −+−

−=⎟

⎠⎞⎜

⎝⎛ −

−=

−= ∑ ∑∑

2222

111

1εεαα iiii

BB k

nXXnkk

SSs

( ) 2

2

1 ins

kn i

ε

εε=

−∑ şi ( )2

2 2eeE ns n

σ σ= =

În ceea ce priveşte α avem două cazuri în funcţie de cum a fost ales: a) α este o variabila aleatoare ( )2,0 ασN , atunci 22 si 2

eB snss += α

( ) 222eB nsE σσα +=

Page 116: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

114

b) iα factori ficşi , 0=⇒−= ∑ iii αμμα şi 0=α , atunci

( ) 22

2

1i

B kns

−=

0es+∑ α

şi ( ) 22

2

1 ei

B knsE σ

α+

−= ∑

Daca ne referim la grupe oarecare, alese întâmplator din toate selecţiile posibile din întreaga populaţie, α este o variabilă aleatoare care aparţine ( )2,0 ασN , dar nu mai avem 0=∑ iα pentru o grupă de selecţie oarecare.

Este cazul când concluziile ce ne interesează se referă, în principal, la întreaga populatie şi nu la şarjele cercetate, de exemplu cand dorim sa verificam omogenitatea populatiei.

Calcule similare arată că, atunci când nnnn k ==== ...21 , şi 222

eB snss += α ( ) 222ασσ nsE eB += .

Ca urmare, 1

2

−=

kSSs B

B este o estimatie nedeplasată a lui numai

atunci când ipoteza este adevărată.

2eσ

0H b) Clasificarea ierarhică în trepte. Scindarea dispersiei totale în

dispersii parţiale ale treptelor. Dacă vom considera eroarea unei metode de analiză, este de aşteptat ca aceasta să fie egală cu suma erorilor parţiale ale fazelor analizei. Scindarea erorii totale în erorile parţiale ale fazelor oferă posibilitatea punerii în evidenţă a fazelor ce determină diminuarea reproductibilităţii şi a locului unde trebuie intervenit pentru îmbunătăţirea metodei. 2.9.2. Analiza dispersională multifactorială În analiza anterioară criteriul de împărţire în grupuri a fost unul singur – calea de administrare sau perioada de administrare. În continuare ne vom ocupa de cazul când vrem să determinăm ponderea a doi factori în acelaşi timp, folosind datele obţinute într-un singur experiment. Pentru simplificarea scrierii prezentăm pentru început cazul când testăm k medicamente continând aceeaşi substanţă activă, administrate în n perioade diferite. Se consideră că efectele determinate de cei doi factori analizaţi sunt variabile aleatoare independente. Având doi factori, se testează două ipoteze de nul. Dacă vom aşeza datele într-o matrice, liniile şi coloanele

Page 117: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

115

corespunzând respectiv pentru valori date ale primului şi ale celui de al doilea factor, o primă ipoteză se referă la egalitatea mediilor liniilor, iar a doua la egalitatea mediilor coloanelor. Ipoteza alternativă presupune existenţa unor diferenţe între linii sau respectiv între coloane. Tabelul nr. 10 :

Medicament

1 2 … k 1 X11 X12 X1k

.1x 2 X21 X22 X2k

.2x . . .

Perio

ada

Trat

amen

t

n Xn1 Xn2 xnk .nx

1.x 2.x

kx.

unde jx. reprezintă media valorilor din coloana i, iar .ix reprezintă media valorilor din linia j. In experimentele clinice analiza dispersionala pe 2 cai este asociata unui tip special de experiment numit “experiment cu blocuri complet randomizate”. Modelul acestui tip de experiment a fost dezvoltat in 1925 de catre R.A.Fischer1 care a cercetat productivitatea mai multor soiuri de grau, numite de el tratamente, semanate in mai multe blocuri omogene formate din mai multe loturi, loturi ce difereau intre ele prin compozitia solului. Distribuirea tratamentelor s-a facut aleator pe loturi in cadrul blocurilor. In acest fel fiecare bloc include toate tratamentele. Distributia aleatoare se face in fiecarui bloc. Obiectivul studiului este de a separa efectele reziduale aleatoare de efectele de bloc. Eficacitatea studiilor depinde de omogenitatea blocurilor. Aceste conditii, suplimentare conditiilor de distributie normala si de egalitate a dispersiilor, sunt greu de asigurat intotdeauna drept pentru care trebuiesc stabilite limitele abaterilor in functie de obiectivele studiului.

1 R.A.Fischer, Statistical Methods for Research Works, 13-th Editions, Hafner, New York, 1958

Page 118: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

116

2.9.2.1. Modelul variabilei aleatoare. Valorile experimentale le considerăm ca rezultanta unor efecte aditive corespunzător liniilor, coloanelor şi erorilor întâmplătoare: ijjiijx εβαμ +++= unde iα este partea lui datorată liniei (schemei de administrare), ijx jβ reprezintă contribuţia coloanei (forma medicamentoasă), iar ijε este eroarea experimentală. Modelul este in esenta un model « aditiv » prin aceea ca nu presupune interactiuni intre factori. Intr-o prezentare grafica, atunci cand consideram raspunsurile pentru un factor tinut constant si un factor ce ia doua valori diferite (numite de regula « nivele ») sa obtinem linii paralele.

De exemplu, consideram liniile de sub curba (AUC) ale propafenonei si hidroxi-propafenonei pentru doua medicamente, testat T si referinta R, administrate la aceiasi subiecti2.

Propafenona

2 C. Mircioiu, V.A.Voicu, Difficulties in applying BE rules. Drugs with active metabolites, Biointernational 2005, Octomber 24th-26th, London

Page 119: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

117

Hidroxi-propafenona

2.9.2.2. Scindarea sumei pătratelor abaterilor. Suma pătratelor abaterilor valorilor individuale faţă de media generala M este:

(∑∑ −= 2xxSS ijT ) , expresie ce se poate scrie şi în forma:

( ) ( ) ( ) ( )[ ]( ) ( ) ( ) RCLCLijCL

CLCLijT

SSSSSSxxxxxxxx

xxxxxxxxxxSS

++=∑∑ +−−+∑∑ −+∑∑ −

=∑∑ ∑∑ +−−+−+−=−=222

22

Produsele mixte nu s-au mai trecut deoarece sunt nule. Am scindat aşadar variabilitatea totală într-o componentă dată de linii, o componentă dată de coloane şi o componentă reziduală.

Corespunzător rezultatelor prezentate la analiza unifactorială, aici se poate arăta că:

( ) ( ) ∑∑ ++−= 2221 jCiLLCT nnnnSSE βασ

( ) ( ) ∑+−= 221 iLCL nnSSE ασ

( ) ( ) ∑+−= 221 jCLC nnSSE βσ

( ) ( )( ) 211 σ−−= LCR nnSSE

Page 120: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

118

In cazul analizei bifactoriale apar două ipoteze de nul pe care vrem să le testăm:

( ) :10H toate formele de tratament (liniile) sunt echivalente, adica 0=iα ; ( ) :20H toate medicamentele (coloanele) sunt echivalente, adica 0=jβ .

Indiferent dacă ipotezele sunt adevărate sau nu, ( ) 22 σ=RsE . Dacă cele două ipoteze sunt adevărate: , si sunt

estimaţiile nedeplasate ale lui .

22Re ss = 2

Cs 2Ls

Pentru a testa ipoteza ( )1H este natural să considerăm raportul 2

2

e

L

ss ,

iar pentru ipoteza ( )2H raportul 2

2

e

C

ss

.

În cazul în care pentru fiecare combinaţie de cauze se fac mai multe determinări folosind mai mulţi voluntari, variabilitatea se poate scinda în patru componente:

RWCLT SSSSSSSSSS +++=

2.9.2.3. Variaţia unui parametru farmacocinetic atât în funcţie de calea de administrare cât şi în funcţie de numărul de administrare Constanta de eliminare 14 min10 −∗ekTabelul nr. 11: Oral prima

doza i.m. o doza

i.m. a-5-doza

i.v.

106 55 84 63 109 40 105 70 160 109 174

∑ ix 375 204 363 133 1075=∑ x

∑ 2ix 48717 16506 48357 8869 1224492 =∑ x

in 3 3 3 2 N=11

1−in 2 2 2 1 ( ) 71 =−∑ in

ix 125 68 121 66

( )17392

22 =−= ∑∑ N

xxSST

Mai departe considerăm două grupuri: voluntarii cărora medicamentul li s-a administrat o dată şi voluntarii care au primit 5 doze.

Page 121: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

119

( ) ( ) 22351050568

1332043753

363.22

=−++

+=dozenrSSB

( ) 15157223517392. =−=−= dozenrSSSSSS TW

16849

15157==

− kNSSW , 15157

115157

1==

−kSSB

( ) ( ) 91684

151579,1,1 ===−− ∑ FknkF i care aparţine zonei de acceptare

pentru riscul 01,0⟨α ( )56,1099;9,1 =f dar nu aparţine zonei de acceptare pentru 05,0⟨α ( )12,595;9,1 =f .

( ) ( )17392

111075122449

22

22=−=−=−= ∑∑∑ N

xxxxSS iT

Un alt factor care poate influenţa concentraţia în sânge este calea de administrare.

( ) ( )

8428105056884443923138724687511

10752

1333

2043

375 22221

2

1

2

1

1

2

=−+++

=−++=

=⎟⎟⎠

⎞⎜⎜⎝

−⎟⎟⎠

⎞⎜⎜⎝

=−=

∑∑∑

∑∑ =

=k

i

i jijk

i

n

jijk

iiiB

n

x

n

xXxncaleSS

i

( ) ( ) 22351050568

1332043753

363.22

=−++

+=dozenrSSB

( ) ( ) 67922235842817392. =−−=−−= dozenrSScaleSSSSSS BBTW În acest fel am obţinut următoarele rezultate:

Tabelul nr. 12 Sursa de variaţie GL SS Rapotul F Între căile de administrare 3 8428 f(3,6)=1,24 Între numarul de doze 1 2235 f(1,6)=0,32 Variaţia intragrupuri 6 6792 Variaţia totală 10 17392

şi comparând cu valorile din tabelele de repartiţie Fisher se constată că poate fi acceptată ipoteza că toate grupurile cercetate aparţin aceleiaşi populaţii statistice. Deci, nici calea de administrare şi nici numărul de doze nu influenţează rata eliminării.

Page 122: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica ANOVA

120

2.9.2.4. Compararea biodisponibilităţii unei substanţe active administrate în preparate diferite şi în perioade diferite de tratament.

Trei medicamente au fost administrate la nouă subiecţi într-un studiu de biodisponibilitate obţinându-se ariile de sub curbă prezentate mai jos :

Separăm acum varianta în patru componente: pacienţi, perioadă, medicament şi eroarea în interiorul tuturor grupurilor.

Perioada 1 2 3 Suma Pacient 1 B=107 C=102 A=99 308 Pacient 2 A=100 C=106 B=89 295 Pacient 3 B=98 A=90 C=128 316 Pacient 4 C=71 B=54 A=63 188 Pacient 5 A=92 B=111 C=107 310 Pacient 6 C=113 A=115 B=91 319 Pacient 7 B=169 A=107 C=195 551 Pacient 8 C=88 B=95 A=77 260 Pacient 9 A=122 C=168 B=155 445 Suma pe perioadă I: 160 II: 1028 III: 1004 2992=∑ x

Suma pe medicament A: 945 B: 969 C: 1078 3647202 =∑ x

Media pe medicament 105 107,7 119,8

( )1,33162

22 =−= ∑∑ N

xxSST

( ) ( ) ( )1,29834

3

9

1

22

=−= ∑ ∑∑=i

B Nxlinie

pacientiSS

( ) ( ) ( )5,1116

9

3

1

22

=−= ∑ ∑∑=i

B Nxmedicament

medicamentSS

( ) ( )3,264

9

2222

=−++

= ∑∑ ∑∑NxIIIIII

perioadaSSB

( ) ( ) ( ) 2,1947=−−−= perioadaSSmedicamentSSpacientiSSSSSS BBBTW Pe aceasta cale obţinem:

Sursa de variaţie DF Suma pătratelor Media Raportul F Între pacienţi 8 29834,1 3729,3 Între medicamente 2 116,1 558,3 3,15 Între perioade 2 264,3 132,1 0,75 Variaţia intragrupuri 14 1947,2 177 Total 26 33162,1

Deoarece 74,399,0;14,2 =f nu există diferenţe semnificative între cele două medicamente după administrare unică sau administrări multiple.

Page 123: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t

121

e

2.10. Estimarea efectelor intr-un experiment standard cross-over – prin teste t 2.10.1. Modelul statistic Considerăm două medicamente, unul de testat (T) şi altul de referinţă (R), administrate în două perioade (I şi II). Raţiunea principală a experimentului cross – over, eveniment în care o parte din subiecţi primesc cele două medicamente în secvenţa RT, iar cealaltă parte în secvenţa TR, este aceea că, analiza datelor obţinute poate pune în evidenţă efectele reziduale, sau “carry – over”, cum mai sunt numite, ale administrării în prima perioadă, asupra rezultatelor obţinute în perioada a doua. În cazul existenţei unor astfel de efecte este necesar să se poată face distincţia între efectele “directe”şi efectele reziduale. Efectul direct este efectul ce îl are medicamentul în perioada în care este administrat, pe când efectul carry – over este efectul pe care acesta îl are în perioada următoare administrării sale. Spunem că un medicament are un efect carry – over de ordin k, dacă efectul primei administrări se manifesta şi după k perioade de administrare. Rezultatele experimentului sunt variabile aleatoare pe care le considerăm având următoarea structură:

ijkY

( ) ( ), 1,ijk ik j ijkj k j kY S P F Cμ −= + + + + +

unde μ este media totala, i este indicele pentru subiect, kni ,1= , j este indicele pentru perioadă şi k este indicele pentru secvenţa. este efectul direct, fix, al medicamentului (formulării) administrat în perioada j, în secvenţa k (Observaţie: efectul este de fapt cantitatea de medicament măsurată).

( )kjF ,

Schema de administrare fiind avem că şi,

din faptul că

⎟⎟⎠

⎞⎜⎜⎝

⎛TRRT

( )( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛=

RT

TRkj FF

FFF ,

μ este media lui avem ijkY ( ) 0, =∑ kjF si ( ) 0,1 =∑ − kjC .

( kjC ,1− ) este efectul carry – over (fix) al medicamentului administrat în perioada j-1 (considerăm că, datorită existenţei unui interval de timp “de spălare”, efectul carry – over nu depăşeşte o perioadă).

ijke reprezintă eroarea aleatoare în măsurarea valorilor individuale pentru fiecare subiect.

Considerăm ca variabilele sunt repartizate identic, cu media 0 şi dispersia , iar variabilele sunt repartizate

ikS2sσ ijke ( )2,0 eN σ . În fapt,

dispersiile erorilor pot diferi de la un medicament la altul.

Page 124: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t

122

2.10.2. Testarea efectului secvenţei de administrare Pentru efectul secvenţei de administrare sau a efectelor carry – over, considerând următoarele totaluri pe subiecţi în cadrul unei secvenţe date:

kikiik YYU 21 += , kni ,1= , 2,1=k (R+T si respective T+R) Valoarea medie şi dispersia variabilelor vor fi: ikU

( )⎭⎬⎫

⎩⎨⎧

++

=2sec,21sec,2

ventainsubiectiipentruCventainsubiectiipentruC

UET

Rik μ

μ

( ) ( ) 2221 242 eskikiikik SDUD σσεε +=++=

( ) ( )222 22 esiku UD σσσ +== pentru toţi subiecţii. Fie RT CCC −= . C poate fi folosit pentru determinarea efectelor

carry – over. Datorită restricţiei 0=− RT CC efectele carry – over sunt egale pentru cele două formulări, adică 0=C , dacă şi numai dacă

. Ca urmare, testarea absenţei efectelor carry – over este echivalentă cu testarea egalităţii acestora. Când efectele carry – over sunt absente, efectul direct al medicamentului

0== RT CC

( )RT FFF −= poate fi estimat pe baza datelor din amândouă perioadele. Dacă efectele carry – over nu sunt egale, nu există un estimator nedeplasat pentru efectul direct al medicamentului, din acest motiv fiind necesară testarea prealabilă a existenţei efectelor carry – over.

Consideram de exemplu ca efectul medicamentului R este 9 si cel al medicamentului T este tot 9, efectul de perioada este 0 si efectul rezidual este 1 pentru R si 2 pentru T.

Vom avea rezultatele:

PI PII Secv. RT 9 9+1Secv. TR 9 9+2

Diferenta aparenta R-T va fi:

( ) ( )[ ] ( )[ ]2121

21

21

2sec1sec =+−=−+− vIIIvIII PPPP

Page 125: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t

123

Daca insa efectele de secventa sunt 10 pentru R si 9,5 pentru T, atunci efectul de perioada este tot 0, iar efectele carry – over egale amandoua cu 1, vom gasi:

PI PII Secv. RT 10 9,5+1Secv. TR 9,5 10+1

Ceea ce inseamna ca diferenta aparenta R-T va fi:

( ) ( )[ ] ( )[ ]215,15,0

21

21

2sec1sec =+−=−+− vIIIvIII PPPP

Deci, daca apar efecte reziduale inegale ele vor fi luate drept efecte de formulare.

Din acest motiv, pentru a ne asigura ca estimarea diferentei de formulare este corecta, trebuie sa testam in prealabil faptul ca nu avem efecte reziduale inegale.

Existenţa efectelor carry – over inegale poate fi determinată prin testarea următoarelor ipoteze:

RT CCCH =⇔= 0:0

RT CCCH ≠⇔≠ 0:1 Respingerea ipotezei nule duce la concluzia prezenţei efectelor carry

– over inegale. Pentru testarea ipotezelor asupra lui C se folosesc următoarele medii de selecţie corespunzând fiecărei secvenţe:

∑=

=kn

iik

kk U

nU

1.

1 , 2,1=k

1.U şi 2.U sunt mediile de selecţie pentru eşantioane aleatoare independente din populaţii normale cu dispersii egale. Ca urmare testarea se poate face utilizând testul t.

C poate fi estimat prin diferenţa între mediile subiecţilor pentru cele două secvenţe:

( ) ( )22.12.21.11.1.2.ˆ YYYYUUC +−+=−= Ţinând cont de presupunerile asupra variabilelor prezentate

anterior, este normal distribuit cu media C şi dispersia ikS

C

( ) ( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛+=⎟⎟

⎞⎜⎜⎝

⎛++=

21

2

21

22 111122ˆnnnn

CD ues σσσ .

Page 126: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t

124

Dispersia ( )CD ˆ poate fi estimată prin înlocuirea lui cu dispersia de selecţie totală pentru subiecţii din cele două secvenţe:

2uσ 22ˆ uu S=σ

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛+=

21

2 11ˆˆnn

CD uσ unde ( )∑∑= =

−−+

=2

1 1

2

.21

2

21ˆ

k

n

ikiku

k

UUnn

σ

Mai departe, ( ) 221 ˆ2 unn σ−+ este distribuit ( )221

22 −+ nnu χσ unde este o variabilă distribuită cu ( 221

2 −+ nnχ ) 2χ 221 −+ nn grade de libertate, independentă de . Astfel, în ipoteza , C 0H

2121

11ˆ11ˆ

ˆ

nn

XX

nn

CT

u

RTTR

u

c

+

−=

+= ++

σσ are o repartiţie Student cu

grade de libertate. Ca urmare, vom respinge ipoteza nulă

221 −+ nn

RT CCH =:0 în favoarea ipotezei alternative RTa CCH ≠: la un nivel α de semnificaţie, dacă

⎟⎠⎞

⎜⎝⎛ −+

⟩2,

2 21 nnc tT α .

Deoarece variabila testată conţine estimarea cT ( )222 22 esu σσσ += care se referă atât la variabilităţile între – şi intra – subiecţi, puterea testului va fi mai mică în cazul în care variabilitatea între – subiecţi este mai mare decât intravariabilitatea. În studiile de biodisponibilitate / bioechivalenţă, ca regulă, mărimea lotului de testat se alege pe baza calculelor privind puterea pornind de la efectul direct al medicamentului, efect ce implică intravariabilitatea. Pentru a creşte puterea testului, Grizzle1 a sugerat testarea ipotezei nule la un nivel de semnificaţie %10=α în loc de 5%.

Pe baza statisticii t, se poate calcula un interval de încredere

( ) %100*1 α− pentru C: 212,

2

11ˆˆ21 nn

tC unn

+±⎟⎠⎞

⎜⎝⎛ −+

σα .

Dacă intervalul conţine pe 0, atunci suntem în favoarea (sau de fapt nu putem respinge) ipotezei nule că nu există efecte carry – over sau că acestea sunt egale. Dacă intervalul nu conţine pe 0, tragem concluzia că există efecte carry – over diferite pentru cele două formulări.

1 J. Grizzle, Two period change-over design and its use in clinical trials, Biometric, 21, 467-480, 1965

Page 127: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t

125

2.10.3. Efectul direct al medicamentului

În vederea testării efectului direct al medicamentului se pot folosi diferenţele între perioade în interiorul fiecărei secvenţe, după cum urmează:

( )kikiik YYd 1221

−= , kni ,1= , 2,1=k .

Valoarea medie şi dispersia pentru diferenţele din cadrul perioadelor sunt:

( )( ) ( )[ ]

( ) ( )[ ] ⎪⎭

⎪⎬

⎪⎩

⎪⎨

+−+−

+−+−=

2sec,21

1sec,21

12

12

ventainsubiectiipentruCFFPP

ventainsubiectiipentruCFFPPdE

TTR

RRT

ik

( )2

2 2

2 2e

ik d dMSED d Sσσ= = = =

Se vede că dispersia diferenţelor între perioade include numai intravariabilitatea, ceea ce reprezintă de fapt avantajul experimentului de tip cross – over. În ceea ce priveşte media diferenţelor, aceasta include atât efectul direct al medicamentului cât şi efectul rezidual (carry – over).

Sa notăm efectul perioadei şi efectul direct (efectul formulării) prin şi 12 PPP −= RT FFF −= .

Pentru a verifica ipotezele statistice asupra lui F, să considerăm mediile diferenţelor între perioade în interiorul fiecărei secvenţe:

∑=

=kn

iik

kk d

nd

1.

1 , 2,1=k .

Diferenţa între secvenţe ( 2.1. dd − ) este un estimator nedeplasat al lui F atunci când nu avem efecte carry – over inegale ( TR CC = )

( ) ( ) ( )222.1.CFCCFFddE TR

RT −=−

+−=− unde RT CCC −= .

Ca urmare, dacă RT CC ≠ nu avem un estimator nedeplasat pentru F din datele pentru amândouă perioadele. Dacă însă RT CC = , atunci

( ) ( )[ ] RT YYYYYYddF −=−−−=−= 12.22.11.21.2.1. 21ˆ

Page 128: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t

126

este un estimator nedeplasat cu dispersia minimă pentru F (unde

( )12.21.21 YYYT += şi ( )22.11.2

1 YYYR += ).

Schema de administrare fiind rezultă că ⎟⎟⎠

⎞⎜⎜⎝

⎛TRRT ( )21

21 RRYR += .

RY si TY sunt aşa numitele “least squares means” (LS) – mediile cele mai mici pătrate – pentru produsul de referinţă şi cel testat. În practică, F este estimată prin diferenţa directă între mediile celor două formulări

***ˆRT YYF −= ,

unde ⎟⎟⎠

⎞⎜⎜⎝

⎛+

+= ∑ ∑

= =

1 2

1 12211

21

* 1 n

i

n

iiiR YY

nnY şi ⎟⎟

⎞⎜⎜⎝

⎛+

+= ∑ ∑

= =

1 2

1 11221

21

* 1 n

i

n

iiiT YY

nnY

Când TR CC = , se obţine

( ) ( ) ( )[ ]2211212121

* 1 PnPnFnnnnnn

YE RR ++++++

= μ şi

( ) ( ) ( )[ ]1221212121

* 1 PnPnFnnnnnn

YE TT ++++++

= μ .

Deci, ( ) ( ) ( ) ( )[ ]22111221

** 1 PnnPnnnn

FFYYE RTRT −+−+

+−=−

Ca urmare, diferenţa între mediile celor două formulări , nu este un estimator nedeplasat pentru F decât atunci când

*F21 nn = .

Remarcam faptul ca in practica, din auza ca o parte din subiecti parasesc experimentul clinic inainte ca acesta sa se termina, cazul

este foarte rar. In ciuda acestui fapt unele softuri uzuale ignora aceste fapte ceea ce, dupa cum se va arata mai departe, poate duce la alterari semnificative ale rezultatelor.

21 nn =

Diferenţa între mediile “least – square” pentru cele două formulari, , este normal distribuită, cu media F şi dispersia F

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛+=

21

2 11ˆnn

FD dσ .

Deoarece{ }1id , 1,1 ni = si { }2id , 2,1 ni = sunt două selecţii independente din populaţii normale cu dispersii egale (atunci când nu avem

Page 129: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t

127

efecte carry – over inegale) un test pentru efectul direct poate fi obţinut pe baza statisticii t – pereche.

1 2

ˆ

1 1ˆd

d

FT

n nσ

=+

unde este dispersia de selecţie pentru diferenţa între perioade, şi este un estimator nedeplasat al lui

2ˆ dσ2dσ

( )∑∑= =

−−+

=2

1 1

2

.21

2

21ˆ

k

n

ikikd

k

ddnn

σ

Deoarece ( ) 221 ˆ2 dnn σ−+ este distribuit ( )221

22 −+ nnd χσ , este distribuit t cu

dT221 −+ nn grade de libertate. Un interval de încredere

( ) %100*1 α− pentru F este următorul:

2121

11ˆ2,2

ˆnn

nntF d +⎟⎠⎞

⎜⎝⎛ −+± σα

Prezenţa efectului direct al medicamentului poate fi examinată prin testarea ipotezelor: RT FFH =:0 si RT FFH ≠:1 . Respingem dacă 0H

⎟⎠⎞

⎜⎝⎛ −+

⟩2,

2 21 nnd tT α .

Trebuie să observăm că această metodă de testare se referă la egalitatea efectelor celor două medicamente şi nu la “bioechivalenţa” lor, care va fi discutată mai departe.

După cum s-a menţionat mai sus, nu este un estimator nedeplasat al lui F în prezenţa efectelor carry – over inegale (

FRT CC ≠ ). Un estimator

nedeplasat al lui F poate fi obţinut totuşi folosind numai datele din prima perioadă, dar cu o pierdere de informaţie şi, în consecinţă, de precizie. Dacă

11.Y şi 12.Y sunt mediile celor două formulări în prima perioadă, atunci:

( ) ( ) ( ) FFFFPFPYYE RTRT =−=++−++=− 1111.12. μμ

Să notăm C

FYY ˆ11.12. =− . Avem că

C

F este un estimator

nedeplasat al lui F, chiar şi în prezenţa efectelor carry – over inegale.

Page 130: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t

128

Dispersia lui C

F este ( ) ( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛++=

21

22ˆ 11nn

D esC

F σσ . Observăm

deasemenea că ( ) ( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛+⎟⎟

⎞⎜⎜⎝

⎛+=−

21

22ˆ 11

nnFDD e

sC

F σσ . Deci, pierderea de

precizie ca urmare a folosirii numai a datelor din prima perioadă este de minim 50% atunci când . 02 =sσ

Din acest motiv, în practică, este foarte importantă perioada de spălare pentru a dispărea efectele reziduale până la a două administrare.

În prezenţa efectelor carry – over inegale, se poate verifica ipoteza privind inegalitatea efectelor şi se poate construi şi un interval de încredere ( ) %100*1 α− pentru F folosind datele din prima perioadă.

Un estimator nedeplasat pentru ( )C

FD ˆ este ( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛+=

21

2ˆ 11nn

SD fC

F

unde ( )∑∑= =

−−+

=2

1 1

2

1.121

2

21

k

n

ikkif

k

YYnn

S .

Observăm ca este un estimator nedeplasat pentru , dar

nu avem estimări individuale pentru si pornind numai de la datele din prima perioadă.

2fS 22

es σσ +2sσ 2

Intervalul de încredere ( ) %100*1 α− pentru F în prezenţa efectelor

carry – over inegale va fi 1 2

ˆ

, 21 22

1 1FfC n n

t Sn nα⎛ ⎞+ −⎜ ⎟

⎝ ⎠

± + .

Ipoteza nulă privind absenţa efectului direct este respinsă dacă

⎟⎠⎞

⎜⎝⎛ −+

⟩+

2,2

21

ˆ

2111 nn

f

C

F

t

nnS

α .

În practică, în prezenţa efectelor carry – over inegale, datele din prima perioadă sunt folosite efectiv pentru a testa bioechivalenţa, dar nu trebuie să uităm următoarele consecinţe ale acestei proceduri:

1) Puterea de detecţie a diferenţelor semnificative clinic este micşorată datorită creşterii dispersiei şi,

Page 131: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t

129

2) Pierderea de informaţie anulează însăşi avantajul experimentului crossover şi anume eliminarea variabilităţii între subiecţi în compararea formulărilor. 2.10.4.Efectul perioadei Să definim următoarele diferente:

( )( )⎭

⎬⎫

⎩⎨⎧

−−−

=TRventainsubiectiipentrud

RTventainsubiectiipentrudO

ik

ikik 2sec.,

1sec.,

Valoarea medie şi dispersia acestor diferenţe cross – over sunt:

( )( ) ( )[ ]

( ) ( )[ ] ⎪⎭

⎪⎬

⎪⎩

⎪⎨

−−+−

+−+−=

2sec,21

1sec,21

21

12

ventainsubiectiipentruCFFPP

ventainsubiectiipentruCFFPPOE

TRT

RRT

ik

şi

( )2

22 edikOD

σσ ==

Fie 1.O şi 2.O mediile de selecţie ale diferenţelor în secvenţele 1 şi 2. Avem

⎭⎬⎫

⎩⎨⎧

==

=21

2.

1.. kpentrud

kpentrudO k

Un estimator nedeplasat pentru efectul perioadei P poate fi obţinut ca

( ) ( )[ ]22.12.11.21.2.1. 21ˆ YYYYOOP −−−=−=

Deoarece 0=+ RT CC , P este un estimator de dispersie minimă pentru P, indiferent de prezenţa efectelor carry – over inegale.

Un interval de încredere ( ) %100*1 α− pentru P este

212,2

11ˆˆ21 nn

tP dnn

+±⎟⎠⎞

⎜⎝⎛ −+

σα .

Page 132: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t

130

Respingem ipoteza nulă privind absenţa efectului de perioadă: 210 : PPH = , 21: PPH a ≠ atunci când

⎟⎠⎞

⎜⎝⎛ −+

⟩2,

20

21 nntT α , unde

0

1 2

1 1ˆd

PT

n nσ

=+

.

Interferenţa statistică pentru efectele carry – over, directe şi de perioada sunt prezentate, în rezumat, în tabelul urmator Tabel nr. 15: Teste statistice pentru efectele fixe într-un experiment 2*2 cross – over.

Efect Efecte

carry – over inegale

MVUE* ( ) ..%100/1 ICα− Test statistic

Car

ry

- ov

er

-

( ) (.2 .1

.11 .21 .12 .22

C U U

Y Y Y Y

= − =

+ − +

1 2, 21 22

1 1u

n nC t

n nα σ⎛ ⎞+ −⎜ ⎟⎝ ⎠

± +

1 2

1 1c

u

CT

n nσ

=+

Efec

t dire

ct Nu

( ) (.1 .2

.21 .11 .2212

F d d

Y Y Y

= − =

⎡ − − −⎣

1 2, 21 22

1 1d

n nF t

n nα σ⎛ ⎞+ −⎜ ⎟⎝ ⎠

± +

1 2

1 1d

d

FT

n nσ

=+

Efec

t ind

irect

Da .12 .11

F Y YC= −

1 2, 21 22

1 1f

n n

F t SC n nα⎛ ⎞+ −⎜ ⎟

⎝ ⎠

± +

1 2

1 1f

f

FCT

Sn n

=+

Perio

ada

-

( ) (.1 .2

.21 .11 .1212

P O O

Y Y Y

= − =

⎡ − + −⎣

1 2, 21 22

1 1d

n nP t

n nα σ⎛ ⎞+ −⎜ ⎟⎝ ⎠

± +

1 2

1 1o

d

PT

n nσ

=+

Page 133: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over – prin teste t

131

MVUE* – minimum variance unbiased estimate – estimare nedeplasata de dispersie minima.

Page 134: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

131

2.11. Estimarea efectelor prin ANOVA 2.11.1. Modelul Statistic General

Analiza dispersională a datelor de bioechivalenta urmeaza un model statistic de ANOVA pe doua cai cu interactiuni de tipul:

ijkjkjkijkY εγβαμ ++++= Să notăm că prezenţa unui efect de interacţiune este echivalentă cu

ne-aditivitatea efectelor principale. Suplimentar fata de conditiile puse la ANOVA pe doua cai, vom

avea 0∑∑ ==

kjk

jjk γγ

Statisticienii vorbesc despre “nivelele” pe care le iau factorii. Termenul se referă in fapt la valorile (numerice sau calitative) pe care le poate lua factorul. De exemplu dacă factorul este perioada într-un experiment de bioechivalenţă nivelele sale sunt I, II, III dacă experimentul are trei perioade. În ceea ce priveşte factorul formulare nivelele acestea sunt medicamentele experimentate (de exemplu referinţă, testat 1 şi testat 2). Într-un experiment standard de bioechivalenţă secvenţa are două nivele RT şi TR. Trebuie avut totuşi în vedere că aceaşti factori nu sunt toţi independenţi unii din ei putându-se obţine prin combinaţii liniare de ceilalţi.

Problema, la modul general, sufera o complicare majora atunci cand numarul nivelelor luate de un factor, nu este acelasi in fiecare celula, caz in care se spune ca experimentul nu mai este echilibrat (balansat). Ne vom limita, pentru moment, la studiul cazului echilibrat asa cum se face, se pare, in toate cartile si articolele publicate. Din pacate cazul mult mai frecvent in experimentele clinice este acela neechilibrat. De exemplu, in experimentele de bioechivalenta, datorita iesirii din experiment a unora dintre subiecti, secventele raman inegale. In chiar cazurile ca modelul se aplica experimentelor clinice, exista posibilitatea unei confuzii de termeni. Astfel , in lucrarile de statistica observăm că „repetiţie” semnifică faptul că acelasi experiment se repetă pe mai multi voluntari sau pacienţi, în timp ce, in experimentul de biostatistica, repetiţia înseamna administrarea aceluiaşi medicament de mai multe ori la acelaşi subiect deci in mai multe perioade, ceea ce este cu totul alt model de studiu. Ipoteza de verificat este aceea a lipsei efectelor factorilor si, ca urmare si a interactiunii intre acestia.

Page 135: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

132

0

: 0 1: : 0 1

: 0 1 1

A k

B j

AB jk

H unde k KH H unde j J

H unde j J si k K

αβ

γ

⎧ = ≤ ≤⎪ = ≤ ≤⎨⎪ = ≤ ≤ ≤ ≤⎩

: 0alternativaH cel putin un factor este diferit de Se notează cu:

∑∑∑=•••i j k

ijkYY si cu ∑∑∑=•••i j k

ijkYIJK

Y 1

jk ijki

Y• = Y∑ şi cu 1jk ijkI

i

Y Y• = ∑

j ii k

Y Y• • = jk∑∑ şi cu 1j ijkIK

i k

Y Y• • = ∑∑

k ii j

Y Y•• = jk∑∑ şi cu 1k ijkIJ

i jY Y•• = ∑∑

Atragem atentia ca, intr-un experiment neechilibrat, formulele pentru calculul mediilor prezentate mai sus nu mai raman valabile. Mediile de selectie de tipul celor de mai sus sunt estimatori nedeplasati ai efectului celor doua formulari numai atunci cand secventele sunt egale.

In fapt experimentele sunt proiectate sa fie echilibrate dar pana la sfarsit ele devin neechilibrate.

Se observă că: ( )=−∑ •••YYijk ( )+−∑ ••••• YY k ( )+−∑ ••••• YY j

( )++−−∑ •••••••• YYYY kjjk ( )∑ •− jkijk YY Si, deoarece produsele mixte ale sumelor de mai sus sunt nule,

eroarea totala se poate descompune dupa cum urmeaza: =TSS ( ) =−∑ •••

2YYijk

= ( ) +−∑ •••••

2YY k ( ) +−∑ •••••

2YY j ( ) ++−−∑ ••••••••

2YYYY kjjk

( )∑ •−2

jkijk YY = 2222RABBA SSSS +++

Termenii acestei diferenţe corespund respectiv efectelor principale, interacţiunilor şi unei fluctuaţii aleatoare.

Deoarece indicele i se refera la subiectii experimentului ( )jkijk YY •− ,diferenta intre valoarea subiectului i si media subiectilor din perioada j si secventa k, reprezinta o „intervariabilitate”. In biologie aceasta este foarte

Page 136: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

133

mare si ipoteza unor subiecti „identici” este departe de realitate sau se poate lua in calcul in cazul unor studii pe populatii foarte mari.

Pentru modelul echilibrat, dat fiind modelul statistic, sumele obtinute sunt estimari respectiv pentru parametrii cercetati de noi: =kα ( )••••• −YY k ; =jβ ( )••••• −YY j

=jkγ ( )•••••••• +−− YYYY kjjk ; ...ˆ Y=μ Statistica F pentru verificarea ipotezelor are la numărător respectiv mediile sumelor de pătrate , iar la numitor întotdeauna media sumei pătratelor rezidualelor . Gradele de libertate sunt respectiv

A B AH , H , H B2 2 2A B AB, , S S S

2RS

( ) ( ) ( )A R B R AB R, , , , ,ν ν ν ν ν ν unde: 1−= KAν , 1−= JBν , ( )( )11 −−= KJABν si ( )1−= IJKRν

Sinteza formulelor de calcul este dată în tabelul urmator. Testarea ipotezelor privind actiunea factorilor asupra rezultatelor studiului incrucisat.

Varia ţia

Grade de libertate (df)

Suma pătratelor (SS)

Media sumei pătratelor (MS=SS/df)

Statistica F

A A 1Kν = − ( )22A k

k

S IJ Y Y•• •••= −∑ A

AA

SMSν

2

= R

AA MS

MSF =

B B 1Jν = − ( )22B j

j

S IK Y Y• • •••= −∑ B

BB

SMSν

2

= R

BB MS

MSF =

Inte

racţ

iuni

AB

( )( 11 −−=

KJAB

( )∑∑ •••••••• +−−

=

j kkjjk

AB

YYYYI

S2

2

AB

ABAB

SMSν

2

=

R

ABAB MS

MSF =

Rez

idua

l R

( )1−=IJK

Rν ( )22R jkijk

i j k

S Y •= −∑∑∑ Y R

RR

SMSν

2

=

Tota

l S 1IJKν = −

( )2

T ijki j k

SS Y Y •••= −∑∑∑

Page 137: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

134

2.11.2. ANOVA in cazul unui studiu privind bioechivalenta a doua medicamente, incrucisat, cu doua perioade si doua secvente Modelul Biostatistic

Se consideră două medicamente, unul de testat (T) şi unul de referinţă (R), administrate unui lot de voluntari sănătoşi în două secvenţe (RT) şi (TR) şi două perioade (I şi II). Fiecare subiect este asignat aleator fie secvenţei 1 (RT), fie secvenţei 2 (TR). Subiecţii în cadrul secvenţei RT (TR) primesc medicamentul R (T) în prima perioadă şi medicamentul T (R) în cea de a doua perioadă. Perioadele de administrare sunt, de obicei, separate printr-o perioadă de „spalare ” de cel puţin de trei ori timpul de înjumătăţire al substanţei active din medicamentul administrat.

Scopul experimentului este de a stabili bioechivalenţa dintre cele două medicamente („formulations” în literatura engleză).

Pentru aceasta se aplica modelul de analiză statistica prezentat anterior:

ijkjkjkijkY εγβαμ ++++= Rezultatele experimentului sunt variabile aleatoare pe care le

considerăm având următoarea structură: ijkY

ikijkjkjkjijk SFPCY +++++= − εμ ,1

unde μ este media totala, i este indicele pentru subiect, kni ,1= , j este indicele pentru perioadă şi k este indicele pentru secvenţa. jkF este efectul direct, fix, al medicamentului (formulării) administrat în perioada j, în secvenţa k (Observaţie: efectul este de fapt cantitatea de medicament măsurată sau un parametrul farmacocinetic calculat pornind de la aceasta). 1,j kC − este efectul carry – over (fix) al medicamentului administrat în perioada j-1, de exemplu concentratia medicamentului ramas in organism in perioada II din administrarea in perioada I.

Considerăm că, datorită existenţei unui interval de timp “de spălare” suficient intre administrari, efectul carry – over nu depăşeşte perioada consecutiva celei in care a fost administrat medicamentul.

ijke reprezintă eroarea aleatoare în măsurarea valorilor individuale pentru fiecare subiect.

Page 138: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

135

Considerăm ca variabilele (“efectul de subiect”) sunt repartizate identic pentru toate formularile administrate, cu media 0 şi dispersia , iar variabilele sunt repartizate

ikS2sσ

ijke ( )2,0 eN σ . În fapt, dupa cum a prezentat FDA ca argument pentru introducerea

bioechivalentei individuale, dispersiile erorilor pot diferi de la un medicament la altul.

Modelul se mai poate scrie si sub forma :

ijkikjkijk SY εμ ++= unde efectul fix jkμ este de forma prezentata in tabelul nr. 17 Tabelul nr. 17: Componenta nealeatoare a parametrilor farmacocinetici

Perioada (j=1,2) Secvenţa (k=1,2) I II 1 (RT)

11 1 RP Fμ μ= + + 12 2 T RP F Cμ μ= + + + 2 (TR)

21 1 TP Fμ μ= + + 22 2 R TP F Cμ μ= + + +

unde FR (FT) reprezintă efectul direct al administrării medicamentului R (T); P1 (P2) reprezintă efectul administrării în perioada I (II); CR (CT) reprezintă efectul rezidual („carry-over”) al administrării medicamentului R (T). şi P1+P2 = FR+FT = CR+CT = 0,

Procedand ca in cazul general prezentat mai sus, se descompune

suma totala a erorilor in sume cu ajutorul carora se pot estima efectele de secventa ( ), de perioada ( ), de formulare ( ), precum si a variabilitatilor intraindividuala ( ) , interindividuala ( ).

carrySS PSS drugSS

raSS int erSS int

Se folosesc notatiile ∑=i

iYY. si ∑=i

iYn

Y 1. ( unde n este

numarul valorilor sumate).

Page 139: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

136

Tabelul nr. 18. Descompunerea sumei patratelor erorilor in sume corespunzatoare factorilor fixi si

interactiunile intre acestia

=TotalSS ( )−∑ Yijk =•••

2Y

( ) +−∑ •••••

2YY k

( ) +−∑ •••••

2YY j

( ) (++−∑ ••••••

2YY kj− •• YY jk

)2∑ •− jkijk YY

αSS γSS βSS

=withinSS

( ) =−∑ •

2

kiijk YY

( ) +−∑ •••••

2YY j

( ) +∑ •••

2Y+−− ••••• YYY kjjk

(( ) ( ))2∑ •••• −−− kkijkijk YYYY

PSS drugSS raSS int

=betweenSS

( ) =−∑ ••••

2YY ki

( ) +−∑ •••••

2YY k

( )2∑ ••• − kki YY

carrySS erSS int

Page 140: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

137

Deci, se vede ca avem: • BetweenSS exprimă variabilitatea dintre subiecţi, • withinSS exprimă variabilitatea intra-subiecţi, si • =withinSS PSS + drugSS + raSS int

TotalSS are ( )T 1 22 n nν 1= + − grade de libertate. Cum sunt 1n n2+ subiecţi în ambele secvenţe are withinSS Within 1 2n nν = + grade de libertate, iar

are BetweenSS Between 1 2 1n nν = + − grade de libertate. In locul acestor formule se folosesc formule prescurtate. Mentionam aceste formule prescurate deoarece ele apar practic in

toate cartile de farmacie sau de statistica aplicata in farmacie. Ele reprezinta avantajul unor calcule mai rapide si dezavantajul ca nu sunt „inteligibile”, nefiind clara legatura lor cu variabilitatile parametrilor studiati. 2.11.3. Calculul variabilitatii interindividuale

Vom deduce formula uzuala pentru ( )2int 2∑∑ ••• −=k i

kkier YYSS

Ridicand la patrat se obtine

( )

int

2 2 2

2 2 2

2 2

2

2 2 2 22

2 2 2 2 * *2

22 2

er

i ki k k i k k k i k k k k

k i i k i i

ki k k k k i k k k k k k

k i k i

i k kk

k i k k

SS

YY Y Y n Y Y Y n Y

YY Y n Y Y Y n Y n Y

Y Ynn

•• •• • •• • •• ••

••• •• •• • •• •• ••

• ••

=

⎛ ⎞ ⎛= − + = − +⎜ ⎟ ⎜

⎝ ⎠ ⎝⎛ ⎞ ⎛

= − + = − +⎜ ⎟ ⎜⎝ ⎠ ⎝

= −

∑ ∑ ∑ ∑ ∑ ∑

∑ ∑ ∑ ∑

∑∑ ∑

2

2

⎞=⎟

⎠⎞=⎟

Mai departe, deoarece prin definitie, ;2 2i k k

i k k

k

Y YY Yn

• ••• ••= = se

obtine formula „farmaceutica” a sumei patratelor intersubiecti:

=erSS int ∑∑ −k k

k

ik

ki

nYY22

2..

,

2.

Page 141: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

138

Facem observatia ca la descompunerea sumelor am folosit termenii in engleza deoarece in aceasta limba exista cate doua cuvinte (provenind din latina si din saxona) corespunzand cuvintelor romanesti inter si intra.

2.11.4. Calculul efectelor de secventa In ceea ce priveste , el se poate obtine din diferenta intre

mediile secventelor, care este egala cu diferenta efectelor reziduale din cele doua secvente, motiv care justifica si utilizarea „interschimbabil” a celor doi termeni .

carrySS

Intr-adevar, observând că 11 2

1 2

n Y n YYn n

2•••••

+=

+•• rezultă

( ) ( )

( )( )

( )( ) ( )

( ) ( ){ }

1

2 21 2Carry 1 2

22 2 221 2 1 21 2 2 1 2 12 2

1 21 2 1 2

21 2 1

12 22 11 2121 2

2 2

22 2

2

SS n Y Y n Y Y

n nn n n nY Y Y Y Y Yn nn n n n

n n Y Y Y Yn n

•• ••• •• •••

•• •• •• •• •• ••

• • • •

= − + −

= − + − =++ +

⎡ ⎤= + − +⎣ ⎦+

2−

Media parantezei ( ) (12 22 11 2112

Y Y Y Y• • • • )⎧ ⎫⎡ ⎤+ − +⎨ ⎬⎣ ⎦⎩ ⎭ este

2T RC C−

conform demonstratiei ce urmeaza: 1,ijk ik j jk j k ijkY S P F Cμ ε−= + + + + +

Calculand mediile corespunzatoare lui 11Y• , 12Y• , 21Y• si 22Y• vom obtine:

( )11 1 RE Y P Fμ• = + + ( )21 2 T RE Y P F Cμ• = + + +

( )12 1 TE Y P Fμ• = + + ( )22 2 R TE Y P F Cμ• = + + +

( )12 22 2 TE Y Y Cμ• •+ = + ( )11 21 2 RE Y Y Cμ• •+ = +

De unde rezulta ca: ( ) ( )12 22 11 2112 2

T RC CE Y Y Y Y• • • •−⎛ ⎞⎧ ⎫⎡ ⎤+ − + =⎨ ⎬⎜ ⎟⎣ ⎦⎩ ⎭⎝ ⎠

Page 142: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

139

Deci, efectul ce apare din diferenta intre secvente este in fapt legat de diferenta intre efectele rezidule din cele doua secvente.

CarrySS şi au respectiv InterSS Carry 1ν = şi Inter 1 2 2n nν = + − grade de libertate.

Calculul simplificat al erorii intraindividuale Dupa cum s-a aratat in tabelul de mai sus, poate fi

descompusa in trei componente: o componenta datorata efectului direct al medicamentului ( ), o componenta datorata perioadei ( ) si o componenta datorata variabilitatii intra – subiect ( ):

withinSS

drugSS PSS

raSS int radrugPwithin SSSSSSSS int++= Dintre aceste trei componente, este in fapt singurul termen

legat de variabilitatea biologica intraindividuala. Vom deduce in continuare o formula de calcul “rapid” al acestui termen .

int raSS

Aplicand succesiv formula ( ) ( )nx

xxx iii

2

22 ∑∑∑ −=− se obtine

dupa cum urmeaza.

( ) ( )( ) ( )( )

=⎥⎦

⎤⎢⎣

⎡−

−−=−−−= ∑∑

∑∑•

••••• 2

2

22

intj

jkijk

jkijkkkijkijkra

YYYYYYYYSS

( ) ∑∑ ∑∑∑∑∑

∑ ••••••• +−−=−

−⎟⎠

⎞⎜⎝

−=k

kki

k

jkijk

ik

kki

k

iijk

ijk nYY

nY

YYY

n

YY

222

2222

,

2

2

2

2.11.5. Analiza efectelor fixe cu ajutorul dispersiilor

Descompunerea lui permite testarea ipotezei privind prezenţa variabilităţii inter-subiecţi, adică:

withinSS2

0H : 0sσ = versus . 2aH : 0sσ >

În acest sens se foloseşte statistica

Inter InterV

Intra Intra

SSFSS

νν

= .

Page 143: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

140

Similar, celelalte efecte se pot testa cu ajutorul raportului intre suma erorilor corespunzatoare si (pe post de in modelul general). int raSS RSS

Sinteza formulelor de calcul este dată în tabelul urmator. Tabelul nr. 19: Analiza efectelor fixe cu ajutorul dispersiilor: Sursa de variatie

df SS MS F

Inter - subiecti Secventa (carry - over

1=Carryν CarrySS

Carry

Carry

Carry

SS

MS

ν=

=

er

Carry

Carry

MSMS

F

int=

=

Reziduale 221 −+= nnInterν InterSS

Inter

Inter

er

SSMS

ν=

=int

ra

er

er

MSMS

F

int

int

int

=

=

Intra - subiecti Efectul direct al medicamentului

1=Fν FSS F

FF

SSMS ν=

ra

F

F

MSMS

F

int=

=*

Perioada 1=Pν PSS P

PP

SSMS ν=

ra

P

P

MSMS

F

int=

=

Reziduale 221 −+= nnIntraν IntraSS

Intra

Intra

Intra

SSMS

ν=

=

Total ( ) 12 21 −+= nnTotalν TotalSS

*Formula este validă doar dacă efectul carry-over este nul. Observatii

Vom studia acum legătura dintre cele două modele reprezentate in Tabelul nr.1 si Tabelul nr.4

Page 144: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

141

Dacă factorul A este secvenţa de administrare a medicamentului si factorul B este perioada, atunciα este suma intre efectul carry-over si

efectul subiectilor, ( )1 2P Pβ = este efectul perioadei si R T

T R

F FF F

γ⎞⎛

= ⎟⎜⎝ ⎠

este efectul interacţiunii secvenţei de administrare a medicamentului cu perioada (adică efectul direct al medicamentului „formulation”).

Se observă că sunt verificate conditiile specificate la prezentarea modelului general:

1 2 R T

1 2 1 2

11 12 R T 21 22

11 21 T R 12 22

0 C C0 P P0 F F0 F F

α αβ βγ γ γ γγ γ γ

+ = = ++ = = ++ = = + = ++ = = + = +γ

Facem observatia, altfel esentiala, ca prezentarea in foarte multe

lucrari de biostatistica si bioechivalenta a efectului medicamentului ca interactiune intre secventa si perioada este de neinteles in lipsa identificarilor de mai sus.

In fapt, este vorba de combinatii intre variabile care sa permita separarea efectelor. Aceste combinatii pot aparea ca efecte ai unor factori ce nu se regasesc intr-un tablou farmacologic al determinantilor diferentelor intre formulari.

Efectul de secventa (carry) ramane o piatra de incercare in experimentele de bioechivalenta si aparitia lui in studii efectuate pe baza de protocoale concepute astfel incat sa se evite complet aparitia efectelor reziduale, este de neexplicat.

Page 145: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

142

Page 146: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor

143

2.12. Legatura intre ANOVA si testul t in compararea efectelor 2.12.1. Compararea intre modelul statistic general si modelul statistic specific „cross – over”

In esenta, diferenta intre cele doua modele se refera la alegerea

„termenului rezidual”; modelul 1 nu descompune pe ; 2

RS modelul 2 distinge între reziduale intra-individuale şi reziduale inter-individuale.

Mai exact:

( ) ( )totalwithinbetween

radrugPercarry

erradrugPcarryRABBAT

SSSSSS

SSSSSSSSSS

SSSSSSSSSSSSSSSS

=+=

=++++=

=++++=+++=

intint

intint2222

Această descompunere modifică formulele statisticilor F . In modelul „biostatistic” se imparte cu un numar mai mic ( int raMS ) ceea ce conduce la un interval de incredere mai larg pentru efectele de formulare si deci la cresterea probabilitatii de acceptare a „egalitatii efectelor”. 2.12.2. Testarea efectului secvenţei de administrare folosind metoda ANOVA:

== carrycarry SSMS ( )2112 ••••• −YYn + ( )2222 ••••• −YYn =2

21

2211112 ⎟⎟

⎞⎜⎜⎝

++

− •••••• nn

YnYnYn

+2

21

2211222 ⎟⎟

⎞⎜⎜⎝

++

− •••••• nn

YnYnYn = ( )

( )221

2

212212

nnYYnn

+− •••• + ( )

( )221

2

122

122nn

YYnn+

− ••••

= ( )21221

212•••• −

+YY

nnnn

=( )

21

2

12

112

nn

YY

+

− •••• =( )

2

21

12

112

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

+

− ••••

nn

YY=

Page 147: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor

144

( ) ( ) ( )

2

22

1 2 1 2 1 212 22 11 21 1 2

1 2 1 2

1 2

2 21 22 1 1

n n n n U UY Y Y Y U Un n n n

n n

• •• • • • • •

⎡ ⎤⎢ ⎥

−⎧ ⎫ ⎢ ⎥⎡ ⎤+ − + = − =⎨ ⎬⎣ ⎦ ⎢ ⎥+ +⎩ ⎭ +⎢ ⎥⎢ ⎥⎣ ⎦

Deci,

2 2

1 2 1 22

int

1 2 1 2

12 *ˆ21 1 1 1ˆ

carry

er uu

MS U U U UMS

n n n nσ

σ

• • • •

⎛ ⎞ ⎛⎜ ⎟ ⎜

− −⎜ ⎟ ⎜= =⎜ ⎟ ⎜+ +⎜ ⎟ ⎜⎜ ⎟ ⎜

⎝ ⎠ ⎝

⎞⎟⎟⎟⎟⎟⎠

Se observa ca decizia obtinuta prin ANOVA in ceea ce priveste efectul

rezidual este acelasi cu rezultatul obtinut prin testul t. Incercam, in continuare, sa facem aceiasi comparatie intre cele doua

metode de evaluare a efectului de perioada. 2.12.3. Testarea efectului perioadei folosind ANOVA

( ) ( )

( ) ( ) ( )( ) ( ) ( ){ }

( )

2 1

1 2 1 2

2 2

P

2 21 21 2

2 21 2 2 11 2

2 2 21 2

2 1

1 2

j jkk j i k j

n nn n n n

SS Y Y n Y Y

n n Y Y Y Y

n n Y Y Y Y

n n Y Yn n

• • ••• • • •••

• • ••• • • •••

• • • • • • • •+ +

• • • •

= − = −

⎡ ⎤= + − + −⎢ ⎥⎣ ⎦

⎡ ⎤ ⎡ ⎤= + − + −⎣ ⎦ ⎣ ⎦

+= −

+

∑∑∑ ∑∑

Observatie:

Observam ca raMS

MS

int

β nu mai duce la acelasi rezultat ca in testul t efectuat

pentru variabilele 1•O si 2•O .

Page 148: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor

145

Nepotrivirea apare din aceea ca nu stim exact cum sa calculam media

perioadei: media „least square” 2

21 jjj

YYY ••

••

+= sau media obisnuita

21 nnY

Y jj += ••

••

In acelasi context, al secventelor inegale, mai avem si media totala cand apare problema folosirii mediei mediilor secventelor („least square”) sau media obisnuita.

Mentionam ca in literatura formulele finale sunt date fara demonstratie, iar in aplicatiile efective sunt luate intotdeauna variante pentru cazul particular

(secvente egale). 21 nn =Problema isi are importanta deoarece, de cele mai multe ori, la finalul

experimentului de bioechivalenta nu mai avem 21 nn = . Concluzii:

În practică, în prezenţa efectelor carry – over inegale, si deci a aparitiei

efectelor de secventa, se recomanda a se folosi pentru a testa bioechivalenţa, datele din prima perioadă. Nu trebuie să uităm insa următoarele consecinţe ale acestei proceduri:

1) puterea de detecţie a diferenţelor semnificative clinic este micşorată datorită creşterii dispersiei ( se inlocuieste dispersia intraindividuala cu cea interindividuala) şi,

2) pierderea de informaţie prin acceptarea existentei unor efecte de secventa si renuntarea la datele din perioada a – 2 – a. In fond se anulează avantajul major al experimentului crossover şi anume faptul ca fiecare subiect este propriul sau martor.

Analiza dispersionala (ANOVA) se aplica in toata lumea in evaluarea

studiilor de bioechivalenta, dar in final rezultatele sale nu influenteaza in nici un fel decizia privind bioechivalenta.

Efectele de perioada nu influenteaza estimarea efectelor de formulare. Aparitia efectelor de formulare nu semnifica nimic! Egalitatea nu implica

bioechivalenta si nici bioechivalenta nu implica egalitatea. Aparitia efectelor de secventa invalideaza metoda de testare a efectelor de

formulare. Pe de alta parte insa, testarea egalitatii duce la o informatie nesemnificativa.

Page 149: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor

146

In acelasi timp este de mentionat ca toate ghidurile referitoare la analiza bioechivalentei recomanda utilizarea MSE „mean square erorr” in formula de testare a bioechivalentei. Dar aceasta iarasi nu inseamna nimic. In fond

22 dMSE σ= si nimic nu ne impiedica sa estimam direct 2dσ prin care este mai

usor calculat si rezultatul este acelasi.

2dS

Ramane totusi ca ANOVA – in cazul in care pune in evidenta efectele de secventa – impune o examinare atenta a protocolului studiului si verificarea masurilor de indepartare a efectelor reziduale.

Ca o concluzie finala, ANOVA nu este un instrument de decizie, rolul sau fiind „informativ”.

Page 150: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea bioechivalentei

147

2.13. Estimarea bioechivalentei 2.13.1. Metode parametrice de estimare a bioechivalentei 2.13.1.1. Metoda intervalului de incredere Anterior a fost prezentata modalitatea de testare a ipotezei nule ca doua produse sunt “egale” intre ele dupa efectuarea unui experiment 2*2 cross-over, metoda care a fost criticata de multi autori. In locul acesteia a fost propusa de Metzler1 o metoda bazata pe intervale de incredere. Daca intervalul de incredere ( ) %100*21 α− pentru diferenta

RT μμ − sau pentru raportul R

T

μμ

se afla in limitele de acceptare impuse,

atunci se accepta ca medicamentul testat este bioechivalent cu cel de

referinta. Uzual se aplica regula %20± , iar 05.02=

α si, in acest caz,

regula de acceptare devine: a) Produsele sunt bioechivalente daca intervalul de incredere 90% pentru RT μμ − este in limitele %20± din efectul produsului de referinta sau daca,

b) R

T

μμ

este intre 80% si 125% cu probabilitatea 90%.

Aici trebuie facuta observatia ca, in ambele cazuri, aplicarea regulii presupune cunoasterea lui Rμ , ceea ce nu este niciodata cazul, si se ia din acest motiv RY pe post de Rμ . 2.13.1.2. Metoda celor “doua teste unilaterale”, Schuirmann

Ipoteza nula este ipoteza compusa din doua ipoteze simple, testul de bioechivalenta descompunandu-se de fapt in doua teste unilaterale:

IRTH θμμ ≤−:01 vs 1 :a T RH Iμ μ θ− ⟩ si

SRTH θμμ ≥−:02 vs SRTaH θμμ ⟨−:2 O biodisponibilitate mai mare a produsului testat decat cel de

referinta, implica posibilitatea unor efecte secundare sau toxice crescute si o “siguranta” mai mica. Bioechivalenta implica o echivalenta atat in ceea ce priveste efectul cat si in ceea ce priveste siguranta.

1 C.Metzler, Bioavailabity: a problem of equivalence, Biometrics, 30, 209-317, 1974

Page 151: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea bioechivalentei

148

Daca vrem sa testam ipotezele enuntate la un nivel de semnificatie α , in conditiile in care presupunem ca datele sunt normal repartizate, putem aplica testul t. Echivalenta este stabilita atunci cand

( )( )1 2

1 2

, 21 1ˆ

T R II

d

Y YT t n n −

n n

θα

σ

− −= ⟩ +

+si

( )( )1 2

1 2

, 21 1ˆ

T R SS

d

Y Yn n

n n

θα

σ

− −T t= ⟨ − + −

+

2

2d

MSEσ = (MSE = Mean Square Error din ANOVA),

deci 2

dRMSEσ = (RMSE = Root Mean Square Error)

Observam ca procedeul celor doua teste t unilaterale este echivalent cu metoda clasica de testare a includerii intervalului de incredere pentru

RT μμ − cu probabilitatea ( ) %100*21 α− in intervalul de acceptare.

2.13.1.3. Transformarea logaritmica a datelor Ghidurile de testare a bioechivalentei recomanda transformarea

logaritmica a datelor. Daca datele initiale sunt repartizate normal si coeficientul de variatie

este mic, atunci si datele transformate urmeaza aproximativ o distributie normala.

Pentru a demonstra aceasta observam ca : 22

2

CVXD ==⎟⎟⎠

⎞⎜⎜⎝

⎛ −μσ

μμ

Daca CV este suficient de mic μμ−X este aproximat de zero si :

μμ

μμ

μμ −

≅⎟⎟⎠

⎞⎜⎜⎝

⎛ −+=⎟⎟

⎞⎜⎜⎝

⎛=−

XXXX 1lnlnlnln

Deci, μμμ −

+≅XX lnln ; ( ) μlnln =XE si ( ) 2ln CVXD =

Deci, ( )2,lnln CVNX μ= , adica datele transformate sunt distribuite normal cu media μln si dispersia . 2CV

Deci, coeficientul de variatie obtinut din datele netransformate este o estimare a dispersiei datelor transformate.

Page 152: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea bioechivalentei

149

De obicei insa transformarea logaritmica are rostul de a corecta

asimetria datelor initiale si a le « restrange » prin aceea ca trece in 2σ 2

2

μσ .

In cazul in care nu este foarte mic lucrurile sunt cu mult mai complicate.

2CV

Intervalul de incredere pentru diferenta mediilor datelor transformate sunt aproximativ egale cu cele pentru logaritmul raportului

mediilor netransformate

∗∗ − RT μμ

⎟⎟⎠

⎞⎜⎜⎝

R

T

μμln .

Intr-adevar, fie ( ) TTXE μ= , ( ) RRXE μ= , ( ) ∗= TTXE μln si ( ) ( ) 2lnln σ== RT XDXD

Avem:

( ) ( ) ( )

( ) ( )

2ln

22 2 2

11 ln ln2

1 11 ln 12 2

T

T

XT T T T

T T T T

E X E e E X X

E X eμ

μ

2σμ μ σ μ

∗∗ ∗ ∗

⎛ ⎞= = ≅ + + =⎜ ⎟⎝ ⎠

= + + = + + + = +

Similar obtinem: 2

2σμ μ +=∗ReR

Ca urmare

2

2lnln 2

2

σ

σ

μμ

μ

μ

+

+=

R

T

e

e

R

T si cum 2

2σ este de asteptat sa fie

foarte mic in raport cu si , avem : ∗Reμ ∗

Teμ

∗∗ −=≅ ∗

RTR

TR

T

ee μμ

μμ

μ

μ

lnln

2.13.2. Metode non – parametrice de testare a bioechivalentei

Daca nu sunt verificate ipotezele necesare aplicarii ANOVA (si implicit a testului t), in particular ipotezele privind normalitatea si egalitatea dispersiilor, intervalul de incredere se determina folosind testele non-parametrice. Metoda se bazeaza pe compararea rangurilor. In analiza bioechivalentei, exista indoieli si incertitudini in ceea ce priveste natura distributiei parametrilor farmacocinetici . Timp de multi ani parametrii

Page 153: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea bioechivalentei

150

bioechivalentei au fost analizati ca valori netransformate. Ulterior reglementarile oficiale au recomandat transformarea logaritmica a datelor.

In prezent, analiza statistica se bazeaza pe transformarea logaritmica

a AUC si a valoarii . Deoarece maxC ⎟⎠⎞

⎜⎝⎛=−

BABA lnlnln aceasta este o

analogie (dar nu acelasi lucru) cu analiza raportului parametrilor estimati. O metoda de calcul neparametric a intervalului de incredere pentru

raportul parametrilor a fost data de Hollander si Wolfe2 si extinsa ulterior alaturi de alte metode nonparametrice de Steinijens si Diletti3.

Metodele sunt tentante dar, un lucru esential trecut de obicei sub tacere este acela ca se presupune ca nu apar efecte de perioada sau efecte de secventa. Pe de alta parte, chiar daca statistica arata aparitia unor astfel de efecte, nu avem nici o garantie ca acestea sunt reale. In fapt o decizie corecta privind aceste efecte se bazeaza numai pe evaluarea fenomenologica, pe baza proprietatilor fizicochimice ale substantelor active, a considerentelor fiziologice si a caracteristicilor designului experimentului clinic.

Consideram N subiecti intr-un experiment cross-over cu doua perioade si doua secvente ( care insa nu se iau in calcul). In prima faza se determina diferentele pentru fiecare subiect (Testat – Referinta). Pentru cazul unei transformari logaritmice a AUC se compara diferentele logaritmului raspunsurilor pentru fiecare subiect:

( ) ( ) RAUCAUCAUCAUC

R

TRT =⎟⎟

⎞⎜⎜⎝

⎛=− lnlnln

Se pot calcula si rapoartele R

T

AUCAUC

deoarece acestea sunt in relatie

biunivoca cu diferentele logaritmurilor. Se compara R′ , media geometrica pentru rapoarte, pentru toate

perechile posibile de N rapoarte individuale (R), unde N este numarul de

subiecti. Exista ( )2

1+NN astfel de perechi, incluzand si raportul R/R intre

un subiect si el insusi.

2 Hollander M, Wolfe D A, Non-parametric Statistical Methods,Wiley, New York, 1973 3 Steinijens V W, Diletti E, Statistical Analysis of Bioavailability Studies: Parametric and Non-parametric Confidence Intervals, Eur. J. Clin. Pharmacol 24, 127-136,1983

Page 154: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea bioechivalentei

151

Facem observatia ca media geometrica a rapoartelor este in corespondenta biunivoca cu media aritmetica al logaritmului valorilor :

3ln3

lnlnln abccba=

++ , etc.

Valorile lui R′ sunt apoi ordonate crescator in functie de rang. Limita inferioara si superioara a intervalului de incredere nonparametric de 90%, respectiv 95%, sunt redate in tabelul privind intervalele de incredere folosind testul de rang Wilcoxon.

In practica, nu este necesara compararea logaritmica deoarece noi suntem interesati de rapoartele dintre testat si referinta. Daca noi comparam

rapoartele si folosim media geometrica a perechilor ( )2

1+NN pentru

ranguri, obtinem un interval de incredere pentru rapoartele directe dintre testat si referinta. 2.13.3. Compararea rezultatelor metodelor parametrice si non – parametrice in estimarea bioechivalentei unor forme farmaceutice cu meloxicam

Problema studiului de bioechivalenta privind supozitoarele cu MELOXICAM - medicamentul testat si MELOXICAM - medicamentul de referinta, a fost aceea ca aplicand procedurile statistice standard produsele apareau, dupa cum se poate vedea (fig. 8) chiar si cu ochiul liber – ca fiind inechivalente.

Fig. 8. – Curbele medii pentru produsul testat si cel de referinta

Page 155: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea bioechivalentei

152

O examinare mai atenta insa a profilelor individuale (fig.9a si fig 9b) arata o distribuite omogena, relativ normala a profilelor in cazul medicamentului testat si o distributie absolut anormala in cazul produsului de referinta4.

Fig. 9a– Curbele individuale pentru produsul de referinta

Fig. 9b– Profilele individuale dupa administrarea medicamentului testat

4 A.Medvedovici, F.Albu, C.Georgita, C.Mircioiu, V.David, A non-extracting procedure for the determination of meloxicam in plasma samples by HPLC-diode array detection,Arzneimittel Forschung/Drug Research,.55 (6), 326-331 (2005).

Page 156: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea bioechivalentei

153

Apare ca profilele medicamentului testat se imparte in 3 grupe diferite: un subiect cu valori aberant de mici, 5 voluntari cu valori mari si restul – un grup mai omogen – cu valori intermediare.

In acest context, testarea uzuala a bioechivalentei parametrilor in cele doua populatii (R si T) si pe egalitatea dispersiilor, este departe de a fi cea mai indicata metoda. 2.13.3.1. Estimarea egalitatii mediilor plasmatice folosind testul “non – parametric” Wilcoxon

La testarea egalitatii mediilor plasmatice a doua preparate farmaceutice (testat –T si referinta – R) continand MELOXICAM s-a constatat urmatoarea distributie a datelor: Subject 1 3 5 6 7 8 10 11 12

AUC-R 36720,9 64049,3 47631,2 3493,65 24162,6 21132,1 21583,9 40403,4 24822,5

AUC-T 44936 65279,3 50453,6 12607,7 42293 25032,7 39923,9 77950,8 34553,1

Subject 13 15 16 17 18 19 20 21 23

AUC-R 24918,4 21321,7 29062,7 25463,2 17423,4 48653,8 19775,6 31387,9 23702,3

AUC-T 25216,9 40641,6 37064,5 37006,7 19996,4 38427,8 30947,5 24931,7 35726,4

Tabel 20 Studiem mai intai diferentele dintre AUC pentru medicamentul testat si referinta. Subject 1 3 5 6 7 8 10 11 12 AUC-R 36720,9 64049,3 47631,2 3493,65 24162,6 21132,1 21583,9 40403,4 24822,5 AUC-T 44936 65279,3 50453,6 12607,7 42293 25032,7 39923,9 77950,8 34553,1

AUC AUCT R− 8215 1230 2822 9114 18130 3901 18340 37547 9731

Subject 13 15 16 17 18 19 20 21 23 AUC-R 24918,4 21321,7 29062,7 25463,2 17423,4 48653,8 19775,6 31387,9 23702,3 AUC-T 25216,9 40641,6 37064,5 37006,7 19996,4 38427,8 30947,5 24931,7 35726,4

AUC AUCT R− 299 19320 8002 11544 2573 -10226 11172 -6456 12024

Tabel 21

Valorile egale (diferenta este zero) sunt inlaturate din calculele urmatoare. Diferenta egala cu zero nu contribuie cu noi informatii privind diferenta dintre tratamente. Vom ordona crescator aceste diferente netinandu-se cont de semn (Tabel 22). Subject 13 3 18 5 8 21 16 1 6

AUC AUCT R− 299 1230 2573 2822 3901 -6456 8002 8215 9114

Rang 1 2 3 4 5 6 7 8 9 Subject 12 19 20 17 23 7 10 15 11

AUC AUCT R− 9731 -10226 11172 11544 12024 18130 18340 19320 37547

Rang 10 11 12 13 14 15 16 17 18

Page 157: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea bioechivalentei

154

Dupa ordonarea completa a diferentelor (netinandu-se cont de semne) se vor adauga semnele corespunzatoare diferentelor originale care au determinat aceste ranguri:

Subject 13 3 18 5 8 21 16 1 6

AUC AUCT R− 299 1230 2573 2822 3901 -6456 8002 8215 9114

Rang + semn 1 2 3 4 5 -6 7 8 9 Subject 12 19 20 17 23 7 10 15 11

AUC AUCT R− 9731 -10226 11172 11544 12024 18130 18340 19320 37547

Rang + semn 10 -11 12 13 14 15 16 17 18

Tabel 23

Astfel, subiectul 21 care avea inainte rangul 6 va capata rangul -6 deoarece diferenta pentru acest subiect este negativa. Acelasi lucru se va intampla si cu subiectul 19 care va capata rangul -11.

Vom calcula suma rangurilor pozitive si suma rangurilor negative: 154181716151413121098754321 =+++++++++++++++=+R

si 17116 =+=−R In tabelul de mai jos sunt prezentate valorile “critice” ale celor doua

sume de ranguri necesare pentru nivelul de semnificatie 5%, respectiv 1%, pentru N valori (N se considera numarul de perechi excluzand perechile a caror diferenta este 0). Cea mai mica suma a rangurilor trebuie sa fie cel mult egala cu cea din tabelul de mai jos (tabel 24)pentru a considera cele doua grupuri de rezultate ca fiind diferite la nivelul de incredere specificat.

Numarul de subiecti N

05,0=α 01,0=α

6 0 - 7 2 - 8 3 0 9 5 1

10 8 3 11 10 5 12 13 7 13 17 10 14 21 13 15 25 16 16 30 19 17 35 23 18 40 28 19 46 32 20 52 37

Page 158: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea bioechivalentei

155

In studiul analizat 18=N , suma minima a rangurilor este si (valoarea corespunzatoare din tabel). De aceea, spunem ca

17=−R4017 ≤ cele

doua medicamente realizeaza nivele plasmatice diferite pentru 05,0=α . Rezultatele acestui test sunt foarte aproape de cele obtinute cu testul t. Considerand ca ipotezele testului Wilcoxon sunt mai putin restrictive in comparatie cu testul t, atunci cand nu avem garantia inplinirii conditiilor de aplicare a testului t, testul de mai sus este un test de recomandat. Pentru valorile date aproximarea normala este mai la indemana pentru a compara mediile celor doua populatii:

( )

( )( )24

1124

1

++

+−

=NNN

NNRZ

unde R este suma rangurilor (poate fi utilizata oricare dintre suma rangurilor pozitive sau negative) si N este numarul de elemente (exceptand valorile egale).

In cazul nostru, 18=N si 154=R , deci,

9832,2

1219*5,18*18

419*18154

=−

=Z .

In cazul in care se vor exclude subiectii 6 si 21 vom avea: , ,

16=N127=+R 9=−R si

0508,3

1217*5,16*16

417*16127

=−

=Z

Deci si aproximarea normala a distributiei rangurilor ne duce la

aceiasi concluzie privind existenta unei diferente semnificative intre nivelele plasmatice ale lui R si T.

Page 159: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea bioechivalentei

156

3.13.3.2. Estimarea bioechivalentei prin calculul “non – parametric” al intervalelor de incredere

La testarea bioechivalentei acelor doua preparate farmaceutice (testat –T si referinta – R) s-au obtinut urmatoarele valori pentru . maxC

Subiect 1 3 5 6 7 8 10 11 12

maxC R 923 1739 770 173 795 698 918 707 1381

maxC T 1289 1856 728 639 1726 1028 1626 799 1206

T/R 1,39 1,06 0,94 3,69 2,17 1,47 1,77 1,95 1,50 Subiect 13 15 16 17 18 19 20 21 23

maxC R 927 641 643 879 787 1795 865 1030 1401

maxC T 1048 1241 968 1132 981 1654 1590 809 1768

T/R 1,13 1,93 1,50 1,28 1,24 0,92 1,83 0,78 1,26 Tabel 25

Vom determina media geometrica pentru fiecare raport RT adica

radicalul dintre produsul a doua rapoarte. Astfel: pentru subiectul 1 media geometrica este radicalul dintre produsul raportului subiectului 1 combinat cu el insusi:

397,139653,1*39653,1 ≈ Pentru subiectul 1 combinat cu subiectul 2, media geometrica este

radicalul produsului dintre raportul subiectului 1 si raportul subiectului 2: 221,1067,1*397,1 ≈

Acest rationament il vom aplica pentru fiecare dintre cei 18 subiecti.

Se vor determina ( ) 1712

19*182

1==

+NN de combinatii diferite incluzand

si fiecare raport cu el insusi.

Page 160: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Estimarea bioechivalentei

Mediile geometrice determinate sunt: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

1 1,397 1,221 1,149 2,271 1,741 1,434 1,573 1,652 1,452 1,257 1,644 1,450 1,341 1,319 1,134 1,602 1,047 1,328 2 1,221 1,067 1,005 1,985 1,522 1,254 1,375 1,444 1,269 1,098 1,437 1,268 1,172 1,153 0,992 1,401 0,916 1,161 3 1,149 1,005 0,945 1,869 1,433 1,180 1,294 1,359 1,195 1,034 1,353 1,193 1,103 1,086 0,933 1,318 0,862 1,092 4 2,271 1,985 1,869 3,694 2,832 2,332 2,558 2,686 2,361 2,043 2,674 2,358 2,181 2,146 1,845 2,606 1,703 2,159 5 1,741 1,522 1,433 2,832 2,171 1,788 1,961 2,059 1,810 1,567 2,050 1,808 1,672 1,645 1,414 1,998 1,306 1,655 6 1,434 1,254 1,180 2,332 1,788 1,473 1,615 1,696 1,491 1,290 1,689 1,489 1,377 1,355 1,165 1,645 1,076 1,363 7 1,573 1,375 1,294 2,558 1,961 1,615 1,771 1,860 1,635 1,415 1,852 1,633 1,510 1,486 1,278 1,804 1,179 1,495 8 1,652 1,444 1,359 2,686 2,059 1,696 1,860 1,953 1,717 1,486 1,945 1,715 1,586 1,560 1,342 1,895 1,239 1,570 9 1,452 1,269 1,195 2,361 1,810 1,491 1,635 1,717 1,509 1,306 1,709 1,507 1,394 1,372 1,179 1,666 1,089 1,380

10 1,257 1,098 1,034 2,043 1,567 1,290 1,415 1,486 1,306 1,131 1,479 1,305 1,207 1,187 1,021 1,442 0,942 1,194 11 1,644 1,437 1,353 2,674 2,050 1,689 1,852 1,945 1,709 1,479 1,936 1,707 1,579 1,553 1,336 1,886 1,233 1,563 12 1,450 1,268 1,193 2,358 1,808 1,489 1,633 1,715 1,507 1,305 1,707 1,505 1,392 1,370 1,178 1,663 1,087 1,378 13 1,341 1,172 1,103 2,181 1,672 1,377 1,510 1,586 1,394 1,207 1,579 1,392 1,288 1,267 1,089 1,539 1,006 1,275 14 1,319 1,153 1,086 2,146 1,645 1,355 1,486 1,560 1,372 1,187 1,553 1,370 1,267 1,247 1,072 1,514 0,989 1,254 15 1,134 0,992 0,933 1,845 1,414 1,165 1,278 1,342 1,179 1,021 1,336 1,178 1,089 1,072 0,921 1,301 0,851 1,078 16 1,602 1,401 1,318 2,606 1,998 1,645 1,804 1,895 1,666 1,442 1,886 1,663 1,539 1,514 1,301 1,838 1,202 1,523 17 1,047 0,916 0,862 1,703 1,306 1,076 1,179 1,239 1,089 0,942 1,233 1,087 1,006 0,989 0,851 1,202 0,785 0,996 18 1,328 1,161 1,092 2,159 1,655 1,363 1,495 1,570 1,380 1,194 1,563 1,378 1,275 1,254 1,078 1,523 0,996 1,262

Mediile geometrice considerate o singura data sunt:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 1,397 2 1,221 1,067 3 1,149 1,005 0,945 4 2,271 1,985 1,869 3,694 5 1,741 1,522 1,433 2,832 2,171 6 1,434 1,254 1,180 2,332 1,788 1,473 7 1,573 1,375 1,294 2,558 1,961 1,615 1,771 8 1,652 1,444 1,359 2,686 2,059 1,696 1,860 1,953 9 1,452 1,269 1,195 2,361 1,810 1,491 1,635 1,717 1,509

10 1,257 1,098 1,034 2,043 1,567 1,290 1,415 1,486 1,306 1,131 11 1,644 1,437 1,353 2,674 2,050 1,689 1,852 1,945 1,709 1,479 1,936 12 1,450 1,268 1,193 2,358 1,808 1,489 1,633 1,715 1,507 1,305 1,707 1,505 13 1,341 1,172 1,103 2,181 1,672 1,377 1,510 1,586 1,394 1,207 1,579 1,392 1,288 14 1,319 1,153 1,086 2,146 1,645 1,355 1,486 1,560 1,372 1,187 1,553 1,370 1,267 1,247 15 1,134 0,992 0,933 1,845 1,414 1,165 1,278 1,342 1,179 1,021 1,336 1,178 1,089 1,072 0,921 16 1,602 1,401 1,318 2,606 1,998 1,645 1,804 1,895 1,666 1,442 1,886 1,663 1,539 1,514 1,301 1,838 17 1,047 0,916 0,862 1,703 1,306 1,076 1,179 1,239 1,089 0,942 1,233 1,087 1,006 0,989 0,851 1,202 0,785 18 1,328 1,161 1,092 2,159 1,655 1,363 1,495 1,570 1,380 1,194 1,563 1,378 1,275 1,254 1,078 1,523 0,996 1,262

157

Page 161: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

III. Statistica matematica si biostatistica Estimarea bioechivalentei

158

Tabel 26 Intervalele de incredere folosind testul de rang Wilcoxon

Rangul limitei inferioare Rangul limitei superioare Numarul de subiecti (N) 95% 90% 95% 90% 6 1 3 21 19 7 3 4 26 25 8 4 6 33 31 9 6 9 40 37

10 9 11 47 45 11 11 14 56 53 12 14 18 65 61 13 18 22 74 70 14 22 26 84 80 15 26 31 95 90 16 30 36 107 101 17 35 42 119 112 18 41 48 131 124 19 47 54 144 137 20 53 61 158 150 21 59 68 173 164 22 66 76 188 178 23 74 84 203 193 24 82 93 219 208

Dupa cum se observa, limita inferioara, respectiv superioara a intervalului de incredere 95% este valoarea rangului 14, respectiv 65 al mediilor geometrice determinate anterior, deoarece numarul de subiecti este

. 18=NPentru a determina un rang al mediilor geometrice vom construi, in

EXCEL, tabelul mediilor geometrice luate o singura data Vom folosi functia small(array;k) care calculeaza valoarea de rang

k dintr-un set de date (array). In cazul nostru array, in tabelul Exccel, a fost F3:Q20, ,

respectiv 131 pentru intervalul de incredere , deci am avut: 41=k

%95CI• =small(F3:Q20; 41)=1,194 • =small(F3:Q20; 131)=1,696

ceea ce inseamna un interval de incredere ( )696,1,194,1%95 =CI In cazul intervalului de incredere 90% limita inferioara va avea

rangul 48, iar cea superioara rangul 124 corespunzand astfel intervalului : ( )652,1,247,1%90 =CI

• =small(F3:Q20;48)=1,247 • =small(F3:Q20;124)=1,652

Page 162: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

III. Statistica matematica si biostatistica Estimarea bioechivalentei

159

Limitele inferioare si limitele superioare stabilite de FDA pentru

bioechivalenta sunt ( )25,1,800,0 . In ambele situatii se constata ca nu putem demonstra bioechivalenta

celor doua produse.

2.13.3.3. Estimarea bioechivalentei folosind testul non – parametric Wilcoxon, pornind de la un model care ia in considerare si efectele de perioada

Fie, folosind notatiile standard de la modelul incrucisat cu doua

perioade si doua secvente, diferenta intre formularile testate

RT μμθ −= .

Consideram testarea bioechivalentei folosind doua teste unilaterale:

LLLAL undeHvsH θθθθθ −=⟩≤ ∗∗∗ 0:0: 101 si

UUUAU undeHvsH θθθθθ −=⟨≥ ∗∗∗ 0:0: 202

In vederea testarii ipotezelor enuntate consideram combinatia (“contrastul”):

⎩⎨⎧ =−

=2sec;

1sec,;ventadinsubiectiipentrud

ventadinsubiectiipentruULhdb

ik

hikhik

θ,

unde: • kni ,1= , 2,1=k , reprezinta numarul de subiecti in cele doua secvente

• 2

12 PPdik−

= este jumatate dintre diferentele intre cea de-a II a

perioada si prima perioada • UsauL dupa cum ne referim la compararea cu limita inferioara sau cea superioara a intervalului de acceptare a bioechivalentei

h =

Page 163: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

III. Statistica matematica si biostatistica Estimarea bioechivalentei

160

Folosind rationamentul de la testarea efectelor in experimentul cross-over pentru diferenta intre valorile pereche ale unui subiect dat vom obtine:

ikd

( )( ) ( )[ ]

( )[ ]⎪⎩

⎪⎨

=+−

=−+−=

221

1221

12

12

kpentruPP

kpentruPPbE

h

hik

θ

θθ

( ) ( )2

22 edikhik dDbD

σσ ===

Observam ca din definitiile de mai sus rezulta imediat ca: ( ) ( ) ( ) ∗=−=− hhhihi bEbE θθθ21

Media sumei rangurilor este ( )

41211 ++ nnn

(s-a demonstrat la testul

Wilcoxon).

Consideram suma rangurilor: si si

variabilele aleatoare

(∑==

1

11

n

iLiL bRR ) )(∑=

=

1

11

n

iUiU bRR

( )2

111 +−=

nnRW LL si ( )

2111 +

−=nnRW UU .

Inlocuirea sumei rangurilor R cu ( )2

1+−

nnR este “testul Mann –

Whitney” care insa este in esenta acelasi test.

( ) ( ) ( ) ( )22

12

1 2111211 nnnnnnnWEWE UL =+

−++

==

si

( ) ( ) ( )12

12121 ++==

nnnnWDWD UL

Tragem concluzia ca produsele sunt bioechivalente atunci cand amandoua ipotezele si sunt respinse. 01H 02H

Deci, relatia: ( )αwWU ≤ si ( )α−⟩ 1wWL unde valorile ( )αw se gasesc in tabele, iar valorile complementare se calculeaza cu formula: ( ) ( )αα wnnw −=− 211 , implica biochivalenta celor doua produse.

Page 164: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

III. Statistica matematica si biostatistica Estimarea bioechivalentei

161

In cazul in care avem si un numar de cozi (valori egale), atunci valorile egale se inlocuiesc cu media rangurilor lor si dispersiile devin

kνr

( ) ( ) ( )QnnnnWDWD UL −++== 1121

2121 ,

unde ( )( ) ( )∑ −−++

==

krr

nnnnQ

1

3

2121 11

ννν .

Cand numarul de valori este suficient de mare (de exemplu, mai mare de 40) se poate folosi aproximatia normala:

( )( )

( )

( )1121

21

2121

211

++

++−

=−

=nnnn

nnnR

WDWEW

ZL

L

LLL si

( )( )

( )

( )1121

21

2121

211

++

++−

=−

=nnnn

nnnR

WDWEW

ZU

U

UUU

Vom compara pentru studiul de bioechivalenta privind produsul MELOXICAM testat(T) si referinta (R) efectuat pe 18 subiecti.

totAUC

Subiecti 1 6 7 10 11 15 19 20 21 secv 1 RT RT RT RT RT RT RT RT RT

1P 36721 3494 24163 21584 40403 21322 48654 19776 31387

2P 44936 12608 42293 39924 77951 40642 38428 30948 24932

Subiecti 3 5 8 12 13 16 17 18 23 secv 2 TR TR TR TR TR TR TR TR TR

1P 65279 50454 25033 34553 25217 37065 37007 19996 35726

2P 64049 47631 21132 24823 24918 29063 25463 17423 23702

Vom calcula 2

12 PPdik−

= = jumatate dintre diferentele intre cea de-

a II a perioada si prima perioada Calculam

Page 165: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

III. Statistica matematica si biostatistica Estimarea bioechivalentei

162

1 2

36721 3494 ... 31387 64049 47631 ... 23702 449009 9

RR

AUCAUC

n n= =

++ + + + + + +

= =+

Determinam: 8980*2,0 ===− RUL AUCθθ Deci,

13088898041081111 =+=−= LL db θ ,…..,5752898032289191 =+−=−= LL db θ 4872898041081111 −=−=−= UU db θ ,…,

12208898032289191 −=−−=−= UU db θ 615121212 −=== dbb UL , ……., 6012929292 −=== dbb UL

Ordonam descrescator valorile absolute ale lui , respectiv si vom determina rangurile corespunzatoare

Likb Uikb( )LikbR , respectiv ( )UikbR .

( ) 51105132134671

11 =++++++++=∑=

=

n

iLiL bRR

( )6

210*951

2111 =−=

+−=

nnRW LL

( ) 7821011431618861

11 =++++++++=∑=

=

n

iUiU bRR

( )33

210*978

2111 =−=

+−=

nnRW UU

secv 1 1P 2P ikd LiLi db θ−= 11 ( )LikbR UiUi db θ−= 11 ( )UikbR

RT 36721 44936 4108 13088 7 -4872 6 RT 3494 12608 4557 13537 6 -4423 8 RT 24163 42293 9065 18045 4 85 18 RT 21584 39924 9170 18150 3 190 16 RT 40403 77951 18774 27754 1 9794 3 RT 21322 40642 9660 18640 2 680 14 RT 48654 38428 -5113 3867 13 -14093 1 RT 19776 30948 5586 14566 5 -3394 10 RT 31387 24932 -3228 5752 10 -12208 2

Page 166: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

III. Statistica matematica si biostatistica Estimarea bioechivalentei

163

secv

2 1P 2P ikd 22 iLi db = ( )LikbR 22 iUi db = ( )UikbR

TR 65279 64049 -615 -615 17 -615 15 TR 50454 47631 -1411 -1411 15 -1411 12 TR 25033 21132 -1950 -1950 14 -1950 11 TR 34553 24823 -4865 -4865 11 -4865 7 TR 25217 24918 -149 -149 18 -149 17 TR 37065 29063 -4001 -4001 12 -4001 9 TR 37007 25463 -5772 -5772 9 -5772 5 TR 19996 17423 -1287 -1287 16 -1287 13 TR 35726 23702 -6012 -6012 8 -6012 4

Din tabel avem: ( ) 2205,0;9;9 ==Ww α si ( ) ( ) 59229*91 21 =−=−=− αα wnnw

Intrucat ( )22 33 Uw α⟨ ⇒ ⟨ W si ( )6 59 1 Lw α⟨ ⇒ − ⟩ W nu putem afirma ca produsele sunt bioechivalente 2.13.3.4.Calculul parametric

LATIN SQUARE DESIGN : ANOVA TABLE for AUCtot

LATIN SQUARE with Log (neperian) option SOURCE D.F SS MS F p Period 1 0.000350993 0.000350993 0.00114772 0.9734 NS Subject(Seq) 16 10.4047 0.650296 2.12643 0.07096 NS Formulation 1 0.320187 0.320187 1.04699 0.3214 NS Sequence 1 0.0100203 0.0100203 0.0327659 0.8586 NS Error 16 4.89306 0.305816 Total 35 15.6284 -------------------------------------------------------------------------------- N Mean SD SEM GeoMean Geo SD Formulation:num = R 18 10.2755 0.850093 0.200369 29012.8 2.33987 Formulation:num = T 18 10.4641 0.421689 0.0993931 35035.2 1.52453 -------------------------------------------------------------------------------- Root Mean Square Error = 0.553007 ; CV = 0.0533286 phi = 0.72353 Power of the test = 0.161064 1 - ( Power of the test ) = 0.838936 Minimum detectable difference = 0.188617

Page 167: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

III. Statistica matematica si biostatistica Estimarea bioechivalentei

164

-------------------------------------------------------------------------------- BIOEQUIVALENCE TESTS FOR Level R and level T Reference Confidence Interval: [ 0.8, 1.25] Geomean Ratio (Test/Reference) = 1.20758 90% standard confidence interval (around the ratio:[test form]/[ref form])=[ 0.87528, 1.666] t(0.05 - 16df) = 1.7459 Cannot conclude equivalence. -------------------------------------------------------------------------------- TWO ONE-SIDED T-TESTS FOR Level R and level T Lower: t( 16df) = 0.1873 Upper: t( 16df) = 2.2338 t(0.05 - 16df) = 1.7459 Cannot conclude equivalence

LATIN SQUARE DESIGN : ANOVA TABLE for Cmax LATIN SQUARE with Log (neperian) option SOURCE D.F SS MS F p Period 1 0.18169 0.18169 3.02264 0.1013 NS Subject(Seq) 16 4.71008 0.29438 4.89739 0.001414 *** Formulation 1 1.22793 1.22793 20.4283 0.000349 *** Sequence 1 0.0137681 0.0137681 0.229051 0.6387 NS Error 16 0.961752 0.0601095 Total 35 7.09523 -------------------------------------------------------------------------------- N Mean SD SEM GeoMean Geo SD Formulation:num = R 18 6.72375 0.494661 0.116593 831.927 1.63994 Formulation:num = T 18 7.09312 0.316931 0.0747013 1203.66 1.37291 -------------------------------------------------------------------------------- Root Mean Square Error = 0.245172 ; CV = 0.0354889 90% standard confidence interval (around the ratio:[test form]/[ref form])=[ 1.2544, 1.6687] t(0.05 - 16df) = 1.7459 Cannot conclude equivalence.

Page 168: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

III. Statistica matematica si biostatistica Estimarea bioechivalentei

165

2.13.4.Compararea rezultatelor Este de observat ca testele neparametrice, la fel ca cele parametrice

indica faptul ca cele doua produse nu sunt bioechivalente. Aceasta deoarece intr-adevar la aproape toti subiectii avem:

Ttot

Rtot AUCAUC ⟨

Si totusi rezultatul este profund incorect deoarece intravariabilitatea si distributia non-normala a rezultatelor produsului de referinta indica foarte probabil si o intravariabilitate mare a produsului de referinta.

Dupa cum se vede in fig. 10, fig.11. avem o diferenta foarte mare intre medicamentul de referinta si medicamentul testat dar aceasta diferenta este o combinatie intre intravariabilitatea lui R si cea a lui T.

R TTreatmentName

0

100000

200000

300000

400000

AU

Cto

t(ng

/mL*

h)

AUCtot v s TreatmentName

01 0305 0607 0810 1112 1315 1617 1819 2021 23

R TTreatmentName

0

500

1000

1500

2000C

max

(ng/

mL)

Cmax v s TreatmentName

01 0305 0607 0810 1112 1315 1617 1819 2021 23

Fig. 10Valorile AUCtot pereche pentru R si T Fig. 11Valorile Cmax pereche pentru R si T

In acest caz, dupa cum au propus aproape toti cercetatorii in ultimii

ani ar trebui introduse criterii “scalate” – adica largirea limitelor de acceptare a bioechivalentei, in functie de intravariabilitatea referintei.

Din pacate aceasta nu se poate obtine decat din experimente repetate, deci experimente in care medicamentul referinta este administrat de doua ori.

In experimentul cross-over fara repetitie se obtine o intravariabilitate sau din ANOVA care sunt o combinatie a variabilitatilor pentru

medicamentul testat si referinta si acestea nu se pot estima separat.

2dS raSS int

Page 169: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

III. Statistica matematica si biostatistica Estimarea bioechivalentei

166

Page 170: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

167

2.14. TESTE STATISTICE DE DISCORDANTA

In ceea ce priveste valorile anormale , se pun in principal trei probleme: - decizia privind respingerea sau omisia acestor valori, - analiza efectului lor de distorsionare a rezultatelor estimarilor parametrilor populatiei, - existenta unor factori neluati in seama si necesitatea elaborarii unui alt model statistic, corespunzator realitatii.

In vederea realizarii primului obiectiv se aplica testele de discordanta , numite si teste de respingere , dar decizia de respingere sau non-respingere nu poate fi luata fara examinarea si a celorlate doua probleme enuntate.

Putem defini intuitiv notiunea de discordanta (outlier) astfel: o observatie care deviaza atat de tare de restul observatiilor incat poate fi suspectata ca a fost generata printr-un mecanism diferit. Cand este vorba de un set de date universale, caracteristica principala a unei observatii discordante este “departarea” sau deviatia (masurata) la o scara adecvata) fata de grupul majoritatii observatiilor (inlying observations). Cand este vorba de date multivaluate / structurate, discordanta inseamna abaterea de la modelul statistic (de ex. Regresia liniara) caruia i se supun celelalte valori. In general, putem spune ca, intr-un esantion, o valoare (sau o submultime de valori) este “discordanta” daca nu respecta patentul caruia ii apartin celelalte valori ( este inconsistenta cu restul observatiilor).

In principiu exista doua mecanisme care pot da nastere unui esantion ce pare sa contina valori outlier (daca excludem factorul de eroare umana sau defectiunile aparaturii folosite). Aceste mecanisme dicteaza in buna masura felul in care vor fi tratate aceste valori speciale. a. Datele provin dintr-o distributie heavy tailed (graficul functiei de repartitie se apropie relativ „incet” de asimptota data de axa Ox) precum distributia Student T. In acest caz, valorile aparent indepartate de restul reprezinta un factor firesc, intrisec legii de repartitie.

Acest fenomen nu este caracteristic distributiei normale sau distributiilor gamma (ce manifesta o apropiere rapida de asimptota Ox), drept pentru care nu vom discuta acest mecanism. b. Datele provin din doua distributii diferite. Una dintre acestea, „distributia de baza” genereaza „observatii bune”, in timp ce cealalta, „distributia contaminata” creeaza „observatii discordante” sau „contaminanti”. Daca distributia contaminanta are o descrestere asimptomatica mai lenta decat cea de baza, atunci va fi evidenta tendinta

Page 171: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

168

contaminantilor de a se manifesta ca valori discordante, indepartate de restul observatiilor.

În general există o gamă foarte largă de teste din care putem alege şi în mod natural ne punem problema care sunt criteriile de a alege un test sau altul într-o situaţie particulară şi cum putem defini performanţa testului ales. Sunt patru aspecte principale care trebuiesc luate în considerare. 1. Modelul de bază şi determinarea semnificaţiei. În orice context un test statistic poate fi construit pur şi simplu pe baza intuiţiei şi să respingem sau să acceptăm valorile extreme. Totuşi avem nevoie de un criteriu de respingere care să asigure o anumită semnificaţie operaţiei ceea ce impune în mod esenţial elaborarea unor ipoteze de lucru privind distribuţia testului statistic sau măcar să ştim ceva despre distribuţia de probabilitate pe coadă. 2. Ipoteza alternativă care să ne permită definirea valorilor anormale. 3. Definirea performanţei testului şi a conceptului asociat de putere. Alegerea dintre mai multe teste ar trebui să fie bazată pe performanţa lor relativă. Evaluarea performanţei relative, de exemplu calculul puterii trebuie sau poate fi făcută când avem definită ipoteza alternativă şi distribuţia testului statistic în condiţiile ipotezei alternative. Probemele sunt foarte complicate motiv pentru care până în ultimii ani ele au fost comple ignorate. 4. Care sunt proprietăţile dorite pentru testul de discordanţă. Astfel ne putem pune problema unui test uniform cel mai puternic sau măcar să ne mulţumim cu o optimalitate locală sau cu certitudinea unei nedeplasări sau cu satisfacerea unor proprietăţi de invarianţă. Alternativ putem să construim teste folosind o metodă larg acceptată cum ar fi metoda verosimilăţii maxime a rapotului. 2.14.1. Construcţia testelor de discordanţă

Testele aplicabile au fost clasificate în şapte clase. 1. Statistici bazate pe raportul exces / dispersie.

Acestea sunt rapoarte ale diferenţelor între valoarea aberantă şi vecinul său cel mai apropiat sau imediat după acesta în şir şi intervalul valorilor sau alte măsuri ale dispersiei selecţiei.

Ca exemplu avem 1

2

n n

n

x xx x

−−−

Propus de Dixon pentru examinarea unei valori aberante superioare şi care evită valoarea x1 sau

1n nx xσ

−−

Page 172: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

169

unde σ este deviaţia standard în modelul de bază. Testul presupunea σ cunoscut şi o repartiţie normală a probelor.

Putem înlocui σ cu o estimare a sa dintr-o probă restrânsă din care s-au eliminat valorile bănuite ca aberante.

2. Statistici bazate pe raportul dintre lungimea domeniul de valori / dispersie.

Testele se obţin din cele de mai sus prin înlocuirea numărătorului cu lungimea domeniul valorilor. Ca exemplu avem

1nx xs−

unde s poate fi obţinut din întreg setul de valori sau dintr-un set restrâns prin eliminarea valorilor bănuite a fi aberante sau poate fi cunoscut din alte măsurători.

Dezavantajul acestor teste este acela că el nu face distincţie între cazurile când avem o valoare aberantă superioară, una inferioară sau de amândouă tipurile. 3. Statistici bazate pe raportul deviaţie / dispersie.

Aceste teste înlătură dezavantajul celor anterioare prin aceia că se înlocuieşte lungimea domeniului de valori cu distaţa dintre o valoare aberantă şi măsură a tendinţei centrale a datelor. De exemplu putem considera raportul

1x xs−

La fel ca şi s , x poate fi calculat din intregul set de date sau dintr-o parte a acestuia. 4. Statistici bazate pe sume de pătrate.

Aceste statistici se bazează pe suma pătratelor restricţionate şi suma pătratelor pentru întregul set de valori. De exemplu raportul

( )

( )

2 2, 1

12

1

n

n nii

n

ii

x x

x x

−=

=

∑,

unde

2

1, 1

2

n

ii

n n

xx

n

=− =

∑ poate fi folosit pentru testarea a două valori aberante

superioare xn şi xn-1 dintr-o populaţie normal distribuită.

Page 173: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

170

5. Statistici pe baza raportului între valorile extreme şi valorile medii. Aceste statistici s-au dovedit în particular relevante pentru datele cu distribuţie de tip Gamma. 6. Statistici bazate pe momente de ordin superior.

Statistici care măsoară asimetria sau curbura pot fi folosite şi pentru testarea valorilor aberante.

( )

( )

3

32 2

i

i

n x x

x x

⎡ ⎤−⎢ ⎥⎣ ⎦

∑ şi

( )( )

4

22

i

i

n x x

x x

⎡ ⎤−⎢ ⎥⎣ ⎦

7. Statistici W. Aceste teste se bazează pe rapotul dintre pătratul unei combinaţii liniare a tuturor datelor şi suma pătratelor abaterilor faţă de medie.

( )( )2

2

∑∑

−=

xx

xwW

i

ii

(ponderile w , calculate in functie de parametrii selectiei , se gasesc in tabele).

O situaţie specială apare atunci când avem un grup de valori anormale superior sau inferior şi când testele enumerate mai sus nu pot pune în evidenţă aberaţii datorită unui efect de mascare. De aceea s-au conceput teste pentru evaluarea mai multor valori aberante simultan (proceduri bloc).

Alte teste examinează valorile extreme secvenţial. În fapt acestea examinează în principal valoarea aberantă maximă pe baza unui test deviaţie / dispersie şi dacă xn se devedeşte valoare aberantă el se repetă operaţia pentru xn-1 pe proba redusă. Procedura se continuă până când se găseşte o valoare neaberantă.

Aplicarea unui test sau altul ne poate duce la concluzii in general diferite, in final decizia privind declararea unei valori ca discordante tinand de analiza fenomenului.

Exemplu: 1, 5, 11, 4, 2, 6, 3 O prima masura de precautie pe care trebuie sa o luam este aceea de

a verifica faptul ca distributia datelor nu se modifica radical prin schimbarea unitatilor de masura, deci la schimbari liniare sau la schimbarea de la o distributie normala la una exponentiala.

Page 174: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

171

Prima operatiune, indiferent de testul aplicat, este aceea de asezare a datelor in ordine crescatoare.

1, 2, 3 , 4, 5, 6 , 11 Rezultatul este bine sa fie vizualizat printr-o asezare a punctelor pe o dreapta.

Fig. nr. 6

Motivul pentru care o prima sau ultima valoare pot fi considerate ca discordante este acela ca aceste valori apar a fi foarte separate de de restul datelor , in raport cu imprastierea datelor din selectie.

Aceasta ne duce in mod natural la ideia unei statistici bazata pe raportul A/D unde A este abaterea valorii extreme fata de restul datelor iar D este o masura a dispersiei datelor .

Pe post de A putem lua de exemplu diferenta intre valoarea extrema si urmatoarea valoare, cea mai apropiata de ea 67 xx − , sau distanta intre aceasta si restul datelor considerate ca un grup Mx −7 , unde M este media celorlalte 6 valori.

Pentru D putem considera fie lungimea intervalului de valori , sau distanta intre urmatoarele doua valori 16 xx − 56 xx − care este cu mult

mai mic decat 67 xx − , sau dispersia primelor 6 valori Consideraţiile de mai sus sugerează următoarele statistici pentru

testarea valorilor extreme:

( ) 7 6

6 1

56,7 ;1,6 15

x xyx x−

= = =−

; ( ) 7 6

6 5

56,7 ; 5,6 51

x xyx x−

= = =−

7 11 3,5 2,143,5

x xTs

′− −′ = = =′

Statisticile sunt de forma ( ), ; , s r

q p

x xy r s p qx x−

=−

Am putea lua de exemplu, la numitor în prima statistică întregul domeniu de variaţie al valorilor

( ) 7 6

7 1

56,7 ;1,6 0,510

x xyx x−

= = =−

Page 175: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

172

iar în loc de 5x xTs

′−′ =′

sa folosim 5x xTs−

= , dar statisticile rămân în

esenţă aceleaşi. Consideram spre exemplu valorile concentratiilor maxime ale

MELUOL , un metabolit activ al nicergolinei la 24 de voluntari sanatosi. Pentru a lua o decizie cat mai corecta, vom examina atat valorile individuale, cat si raportul valorilor pentru un acelasi voluntar.

Mai mult decat atat, pentru a avea si o imagine a acestor valori si a raportului dintre ele, considera reprezentarile valorilor pentru medicamentul de referinta (R ) si pentru cel testat ( T ) precum si a raporturilor T/R si a „dependentei” T ( R ) ( care, daca valorile s-ar corela perfect, ar trebui sa fie o dreapta).

Tabelul nr. 21:

Subject CMAX,T (ng/ml)

CMAX,R (ng/ml) T/R T/R

CMAX,T (ng/ml)

CMAX,R (ng/ml)

1 65.70 48.98 134 46 2 2 2 7.85 6.73 117 47 3 3 3 10.11 21.76 46 56 3 3 4 3.94 2.65 149 62 4 4 5 29.54 22.60 131 71 4 4 6 10.58 14.84 71 78 4 5 7 6.84 5.95 115 88 5 6 8 14.79 16.54 89 89 7 7 9 17.29 6.57 263 90 7 7 10 11.61 8.75 133 92 8 7 11 27.48 14.82 185 102 10 9 13 5.24 3.72 141 106 11 14 14 32.11 36.33 88 111 12 15 15 12.49 20.29 62 115 12 15 16 4.23 4.60 92 117 13 15 17 7.01 14.96 47 131 15 15 18 1.96 1.76 111 133 16 15 19 3.09 3.03 102 134 17 17 20 15.91 15.01 106 141 22 20 21 21.54 14.94 144 144 27 22 22 3.34 4.30 78 149 30 23 23 3.75 6.72 56 185 32 36 24 12.67 14.08 90 263 66 49 N 23 23 media 111 14 13 Mean 14.31 13.475 StDev 48.6 14.2 11.4

Page 176: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

173

Fig. nr. 7

0.00

10.00

20.00

30.00

40.00

50.00

60.00

70.00

0 5 10 15 20 25 30

CMAX,T (ng/ml)CMAX,R (ng/ml)

T(R)

R2 = 0.7497

0.00

10.00

20.00

30.00

40.00

50.00

60.00

0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00

Fig. nr. 8

T

0

10

20

30

40

50

60

70

1 3 5 7 9 11 13 15 17 19 21 23

R

0

10

20

30

40

50

60

1 3 5 7 9 11 13 15 17 19 21 23

T / R

0

50

100

150

200

250

300

1 3 5 7 9 11 13 15 17 19 21 23

Observam dupa ordonare, ca valorile concentratiilor maxime pentru

voluntarul 1 sunt cele mai mari si, cel putin pentru T, mult mai mari (aparent discordante) decat pentru ceilalti voluntari.

Voluntarul 9 apare normal in contextul valorilor individuale pentru

T si R dar raportul lor este cel mai mare, si probabil destul de indepartat de celelalte rapoarte.

Page 177: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

174

In tabelul de mai jos sunt redate rezultatele aplicarii testelor Dixon si Tn pentru R, T si T/R . Din punct de vedere al testului Dixon, toate valorile sunt discordante.

Aplicand testul Tn , voluntarul 9 este de eliminat dat fiind raportul

T/R discordant. Tabelul nr. 22: voluntar 9 T/R Dixon (Xk-Xk-2)/(Xk-X3)= 0.55 >0.41 voluntar 1 T/R = 134 valoare normala voluntar 1 R Dixon (Xk-Xk-2)/(Xk-X3)= 0.57 >0.41 voluntar 1 T Dixon (Xk-Xk-2)/(Xk-X3)= 0.58 >0.41 voluntar 9 T/R Tn = ( Xk-Xmediu)/S= 3.14 >2.82 voluntar 1 T/R Tn = ( Xk-Xmediu)/S= 0.48 <2.82 voluntar 1 R Tn = ( Xk-Xmediu)/S= 3.12 >2.82 voluntar 1 T Tn = ( Xk-Xmediu)/S= 3.62 >2.82

Acelasi test arata insa ca voluntarul 1 este anormal din punct de

vedere al celor doua valori, dar nu si din punct de vedere al raportului T/R. Dat fiind ca decizia privind bioechivalenta este influentata doar de

intravariabilitate si nu depinde de intravariabilitate, voluntarul 1 nu este de eliminat.

In final, decizia privind clasificarea unei valori drept discordante,

depinde de analiza fenomenologica si mai putin de rezultatul testelor statistice.

Page 178: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

175

2.14.2. Criteriul Dixon pentru respingerea outliers Tabelul nr. 23

Nivel de semnificatie k 5% 1%

3 ( )( )1

1210 XX

XXrk −

−=

daca cea mai mica valoare este suspecta

0.941 0.988

4 0.765 0.889 5 ( )

( )1

110 XX

XXrk

kk−

−= −

daca cea mai mare valoare este suspecta

0.642 0.780

6 0.560 0.698 7 0.507 0.637 8 ( )

( )11

1211 XX

XXrk −

−=−

daca cea mai mica valoare este suspecta

0.554 0.683

9 0.512 0.635 10 ( )

( )2

111 XX

XXrk

kk−

−= −

daca cea mai mare valoare este suspecta

0.477 0.597

11 ( )( )11

1321 XX

XXrk

k−

−=−

daca cea mai mica valoare este suspecta

0.576 0.679

12 0.546 0.642 13 ( )

( )2

221 XX

XXrk

kk−

−= −

daca cea mai mare valoare este suspecta

0.521 0.615

14 ( )( )12

1322 XX

XXrk −

−=−

daca cea mai mica valoare este suspecta

0.546 0.641

15 0.525 0.616 16 ( )

( )3

222 XX

XXrk

kk−

−= −

daca cea mai mare valoare este suspecta

0.507 0.595

17 0.490 0.577 18 0.475 0.561 19 0.462 0.547 20 0.450 0.535 21 0.440 0.524 22 0.430 0.514 23 0.421 0.505 24 0.413 0.497 25 0.406 0.489

Page 179: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

176

Valorile critice pentru t ca test bilateral la nivelul de semnificatie 5 % pentru eliminarea valorilor discordante:

Tabelul nr. 24: Valoare T Valoare T 3 1.155 15 2.549 4 1.481 16 2.585 5 1.715 17 2.620 6 1.887 18 2.651 7 2.020 19 2.681 8 2.126 20 2.709 9 2.215 25 2.822 10 2.290 30 2.908 11 2.355 35 2.979 12 2.412 40 3.036 13 2.462 50 3.128 14 2.507 100 3.383 2.14.3. Valori discordante fata de corelatia liniara

Un tip special de valoare discordanta este cazul cand un punct experimental pare a nu se potrivi cu modelul corespunzator celorlalte date. Acest lucru este prezentat in figura 9 in contextul simplu al regresiei liniare.

Punctele P din interiorul cercului punctat corespund unui model de regresie liniara. De remarcat totusi faptul ca “elipsa “ ce am desenat-o noi in jurul dreptei de regresie este arbitrara , dar sa presupunem ca avem considerente fenomenologice care sa ne permita definirea unui domeniu in interiorul caruia punctele sa poata fi acceptate ca urmand modelul liniar.

Daca presupunem ca variabila x nu este o variabila aleatoare, si pentru un x dat se determina experimental mai multe valori y, si daca acestea sunt distribuite normal, se poate calcula un interval de incredere in afara caruia sa putem eticheta valorile drept discordante

Page 180: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

177

Fig. 9 Estimarea dreptei care descrie relatia intre variabilele y si x Putem, la fel de bine considera dreapta de regresie drept valoarea

adevarata si sa consideram un domeniu centrat pe aceasta. Aceasta este echivalent cu inlocuirea dispersiei in fiecare punct x cu o singura dispersie, a intregii multimi de puncte (fig.10) .

Dupa cum s-a prezentat la capitolul privind regresia liniara, dreapta “adevarata” y = α + β x (in cazul cand datele urmeaza efectiv un model liniar) este aproximata de dreapta care aproximeaza cel mai bine punctele experimentale y = a + b x , in sensul ca suma patratelor distantelor de la puncte la dreapta este minima (dreapta prin cele mai mici patrate).

Fig.10 Distributia normala a punctelor in jurul valorilor de pe dreapta de regresie Sa consideram in continuare cateva tipuri de puncte in afara

multimii de valori “normale”. Fie de exemplu punctul A in fig. 11. El va fi o valoare discordanta

fata de multimea P sau in multimea P+A relativ la modelul regresiei liniare. El este la o distanta mare de dreapta care fiteaza punctele, sau altfel spus, includerea sa in multimea de date mareste semnificativ variatia reziduala.

Page 181: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

178

Important este, in afara de considerarea efectului punctului asupra erorii reziduale, sa evaluam si efectul asupra parametrilor dreptei de regresie. Parametrii acesteia sunt dependenti de punctele pe care le fiteaza.

Daca in loc de A consideram punctul experimental B obtinand multimea de date P+B, B nu apare a fi o valoare discordanta (un punct experimental discordant) relativ la estimarea regresiei liniare a modelului.

Dar punctul B are un efect considerabil asupra fitarii modelului, intrucat includerea sa in multimea punctelor care determina dreapta prin cele mai mici patrate creste substantial precizia cu care este estimata panta dreptei de regresie.

Si aceasta deoarece x-ul sau este la o distanta considerabila fata de x-ul celorlalte puncte din P. In fapt el este o valoare discordanta in ce priveste coordonata x fata de complexul P+B. Spunem ca B este un punct cu “parghie mare”. A se obseva ca punctul parghie este o componenta a variabilei independente si nu a raspunsului. Astfel, daca in loc de B luam punctul experimental discordant C (cu aceeeasi coordonata x ca a lui B), obtinem multimea P+C si C are aceeasi parghie mare ca si B.

Totusi, in comparatie cu B, includerea lui C schimba substantial estimarea liniei de regresie. Spunem ca C este un punct influential in multimea P+C. Deasemenea C este o valoare discordanta (relativ la modelul regresiei liniare ca in toate cazurile discutate). In multimea P+A valoarea discordanta A are o parghie mai mica dar este influentiala pentru ordonata la origine si mai putin pentru panta.

Pentru simplitate am introdus notiunile de valori discordante, puncte parghie si date influentiale in termeni de puncte individuale. Dar, in particular, aceste notiuni se aplica la fel de bine si grupurilor sau submultimilor de puncte.

Fig. 11 Valori discordante fata de dreapta de regresie

Page 182: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

179

2.14.3.1.Drepte si puncte discordante Problema “discordantei” se complica atunci cand in fapt datele nu se

inscriu pe o singura dreapta ci pe doua sau mai multe drepte in functie de valorile lui x.

Exemplul cel mai sugestiv si cel mai important pentru farmacocinetica in acest sens este acela al medicamentelor cu doua etape de injumatatire, una initiala rapida (de exemplu distributia in compartimentul profund) si una finala ( de exemplu eliminarea) , lenta , notate uzual cu α si β .

Deci datele urmeaza un model biexponential si, dupa logaritmare, se obtin doua domenii de dependenta liniara a logaritmului concentratiei de timp , dupa cum se observa in fig.10 pentru concentratia plasmatica a nicergolinei.

Concentration of nycergoline after oral administration

1

10

100

0 5 10 15 20 25 30

time ( hours)

conc

. ( n

g/m

l)

Fig. 12 Datele de la 4 h la 8 h se inscriu pe o dreapta , iar datele de la 8 h la

24 h pe o alta dreapta. Deci avem un timp de injumatatire de distributie si un timp de injumatatire de eliminare. O analiza pur si simplu statistica ar duce la concluzia ca ultimele doua puncte reprezinta valori discordante. Compararea datelor privind farmacocinetica nicergolinei la mai multi voluntari duce la concluzia ca nu este vorba de o supraestimare a concentratiilor la ultimele doua puncte ci efectiv avem doua faze de eliminare din sange.

Din alt unghi privind lucrurile, intr-un grup de subiecti caracterizati printr-o eliminare monoexponentiala si deci, in reprezentarea logaritmica cu inscrierea punctelor dincolo de tmax pe o dreapta, pot aparea unul sau mai multi voluntari cu eliminare biexponentiala. In fapt este posibil ca toti

Page 183: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

180

subiectii sa aiba o eliminare bifazica, dar modelul “aparent” in functie de intervalul de recoltare si evaluare a probelor de sange sa fie cand cel real, cand unul simplificat.

Ca exemplu, prezentam cazul ibuprofenului. Ibuprofenul fiind cu mult mai solubil in lipide urmeaza un model farmacocinetic cu cel putin doua compartimente. Datele experimentale pot fi insa modelate la majoritatea subiectilor cu un model monocompartimental. In fapt, apare o “degenerare” a modelului prin compensarea unor procese ce afecteaza concentratia plasmatica.

Suntem interesati in vederea predictiei, de modele cat mai simple. Cand unul din subiecti apare efectiv cu o comportare mai complexa, poate fi de preferat eliminarea lui ca “outlier”, desi in fond, el este mai aproape de realitate decat ceilalti subiecti.

Si aici lucrurile sunt relative. Daca vom considera curba medie pentru un lot de voluntari carora li s-a administrat oral omeprazol, vom putea obtine o fitare corespunzatoare cu solutia unui model monocompartimental. Unul dintre subiecti poate aparea discordant fata de medie.

Introducerea unui “time-lag” ce corespunde unei intarzieri in absorbtie (omeprazolul se administreaza, din cauza ca este instabil in mediu acid, de regula sub forma de capsule enterosolubile) acesta revine si el in rand cu ceilalti.

2.14.3.2. Voluntari discordanti in studii de bioechivalenta

Cazul cel mai reprezentativ este acela al medicamentelor al caror metabolizare poate fi lenta la o mica parte din subiecti. Analiza curbelor din figura 4 duce la ideea ca doi dintre voluntari sunt metabolizori lenti, deoarece au concentratii mult mai mari decat restul voluntarilor

Plasma levels of propafenone after repeted administration of RYTMONORM (KNOLL) TO 24 healthy volunteers

0

300

600

900

96 144time (hour)

conc

entra

tion

(ng/

ml)

IIIIIIIVVVIVIIVIIIIXXXIXIIXIIIXIVXVXVIXVIIXVIIIXIXXXXXIXXIIXXIIIXXIV

Figura 13.

Page 184: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

181

Din punct de vedere “statistic” ei vor parea ca “discordanti” indiferent de testul aplicat. Din punct de vedere al scopului urmarit, dupa cum se vede din figura 14, ei nu ar trebui eliminati deoarece nu influenteaza rezultatul final – medicamentele apar a fi bioechivalente (fig.14)

Mean plasma levels of propafenone after repeted administration of PROPAFENON (………..) and RYTMONORM (KNOLL) to 24 healthy volunteers

0

100

200

300

96 144

time (hour)

conc

entra

tion

(ng/

ml)

TR

Figura 14 De fapt, dupa cum este prezentat in capitolul privind evaluarea

statistica a bioechivalentei, ceea ce importa cu mult mai mult, este intravariabilitatea, variabilitatea unui subiect fata de sine insusi, in cele doua perioade ale experimentului.

Dupa cum se vede in figura 15, cei doi “ouliers” in ceea ce priveste intravariabilitatea au si o variatie semnificativa intre cele doua perioade, deci eliminarea lor poate fi luata in consideratie.

In acest caz insa, curbele din figura 14 vor deveni si mai apropiate si nu se va schimba decizia privind bioechivalenta.

0

500

1000

conc

entra

tion

(ng/

ml)

Figura 15

Page 185: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

182

Uneori, unele curbe pot parea discordante prin aceea ca prezinta doua sau mai multe maxime, ceea ce este neuzual in farmacocinetica. Daca este vorba insa de oxicami (piroxicam, meloxicam, tenoxicam etc.), acest fenomen este normal datorita circulatiei enterohepatice a acestor medicamente. Deci curbele de meloxicam din figura 16 nu pot fi considerate curbe discordante.

Mean plasma levels of meloxicam

0

0.8

1.6

0 1

time (h)

Con

cent

ratio

n (u

g/m

l)

2

RT

Figura 16.

In evaluarea bioechivalentei esentiala este compararea perechilor de

curbe apartinand aceluiasi voluntar. Dupa cum se vede din figura 17, cele doua curbe difera foarte mult.

Medicamentele sunt foarte apropiate in ceea ce priveste mediile lor, dar difera foarte mult la acelasi individ in perioade diferite, ceea ce reprezinta o intravariabilitate mare, caracteristica clasei “conazolilor” (ketoconazol, fluconazol, itraconazol etc.).

Voluntarul prezentat are un raport mult prea mare atat intre

concentratiile maxime, cat si intre ariile de sub curba si el este efectiv “outlier”.

Page 186: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Teste statistice de discordanta

183

Figura 17. Aparent acelasi caz ar fi si in figura 18. Spunem ca aparent, deoarece

in cazul acidului mefenamic diferentele intre formularile farmaceutice sunt foarte frecvente si este vorba efectiv de bio-inechivalenta.

Mean plasma levels of mefenamic acid

0

3.5

7

0 4 8 12 16 20

Time (hours)

24

R

T

Figura nr. 18

In concluzie, problema eliminarii unor puncte, sau a unor curbe, sau

a multimii curbelor pentru un subiect dat, nu este in principal o problema

de statistica ci una tinand de analiza fenomenului studiat, de variabilele ce-l

determina si de modelul teoretic urmat.

Page 187: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

185

2.15. Puterea testului. Calculul numarului de voluntari 2.15.1. Estimarea parametrilor. Calculul esantionului minim pentru obtinerea unei estimari a mediei cu o precizie fixata

Pentru un interval de incredere (1-α ), pentru media une populatii precizia estimarii este in fapt definita de lungimea intervalului. Cu cat intervalul este mai mic, cu atat mai precisa va fi estimarea. De aceea, marimea esantionului se poate alege pornind de la lungimea intervalului de incredere care sa asigure o precizie stabilita anterior E, sau altfel spus, o limita a erorii.

Astfel cand datele urmeaza o distributie normala, marimea esantionului necesar va fi data implicit de relatia:

2

E Y znασμ= − = (1)

De exemplu, presupunem ca dorim sa avem 95% incredere si ca eroarea in media estimata sa fie mai mica de 10% din deviatia standard (i.e., E ≤ 0.1 σ ).

Deci, σσα *1.02

=n

z si ca urmare ( )

3852.384*1.0 2

22

2 ≈==σ

σαzn

Procedeul se extinde imediat la cazul estimarii intervalelor de incredere pentru diferenta intre mediile a doua selectii dupa cum se arata in tabelul urmator. Tabelul 25 Determinarea marimii esantionului in functie de precizie: Parametru Estimarea Intervalul de incredere Marimea esantionului μ −

Y n

zY σα2

±−

2

22

2 Ezn σα=

21 μμ − 21

−−

−YY nn

zYY22

21

2

21 )(σσ

α +±−−−

2

22

212

2

)(E

znσσ

α

+=

p p

nqpzpˆˆˆ

2α± 2

2

2

ˆˆ*

Eqpzn α=

21 pp − 21 ˆˆ pp −

( ) ( )n

ppn

ppz

pp

2211

2

21

ˆ1ˆˆ1ˆ

ˆˆ

−+

−±

±−

α

( )2

22112

2

ˆˆˆˆ*

Eqpqpzn +

= α

Page 188: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

186

E poate fi luat o valoare absoluta, o fractie din σ sau o fractie din valoarea mediei estimate. In lipsa unei estimari experimentale a lui p se poate lua un numar “maxim” prin aceea ca se ia ( )pp −1 maxim, deci

21

=p .

De retinut ca alegerea lui n astfel incat eroarea sa nu depaseasca un anumit prag urmareste atingerea unei precizii date in estimarea lui μ cu considerarea numai a erorii de tip I.

O abordare independenta de distributie poate fi obtinuta folosind inegalitatea lui Cebasev:

1-α = P{ } 2

2

1nE

EY σμ −≥≤−−

(2)

Inlocuind inegalitatea cu egalitatea si luand, la fel ca mai sus E = 0.1 σ si α=0,05 obtinem :

2

2

nEσα = si 2000

01,005,0 2

2

2

2

=∗

==σ

σασE

n

Observam ca cifra « asiguratoare » este mult mai mare din aceea ca nu avem nici o informatie despre distributie. 2.15.2. Testarea ipotezelor. Calculul numarului de subiecti in functie de probabilitatile erorilor de tipul I si tipul II fixate in prealabil

Pentru a calcula numarul de subiecti in functie si de puterea testului trebuie specificata diferenta semnificativa clinic in cazul parametrului masurat. In cele mai multe studii clinice obiectivul este demonstrarea eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt medicament. Indiferent de comparator, este important sa se specifice ce diferenta este importanta din punct de vedere clinic sau stiintific. Aceasta diferenta o vom nota cu Δ . Aceasta diferenta defineste “grosismentul” microscopului definit de studiul clinic cu care comparam cele doua medicamente. Intuitia ne spune ca daca se va alege o diferenta mare atunci va fi nevoie de un numar mic de subiecti.

Daca diferenta este relative mica, va fi nevoie de un grup de subiecti mai mare. Daca ∞→Δ , puterea tinde la 1, iar cand

avem0→Δ 01 →− β . Practic se determina numarul de subiecti necesari asigurarii unei

anumite puteri pentru un risc α dat sau, altfel spus selectarea unei

Page 189: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

187

probabilitati pentru eroarea de tip II acceptabila – in conditiile unui risc de eroare de tip I fixat.

Raportul dintre α si β este ca cel din selectia de incertitudine a lui Heisenberg: daca scade probabilitatea erorii de tip I, creste probabilitatea erorii de tip II. 2.15.3. Testarea ipotezelor privind media unui lot Presupunem ca testam urmatoarele ipoteze: H0 : 0μμ = vs. 0: μμ >aH cu risculα cand dispersia este cunoscuta. Simplificam ipoteza alternativa alternativa, luand

Δ+= 0: μμaH unde >0 este o diferenta minima pe care o consideram semnificativa clinic si vrem sa o punem in evidenta.

Δ

Daca diferenta este mai mare decat Δ , va fi mai mic. Deci noi luam in acest fel un “asigurator” (conservativ) asumandu-ne un risc cat mai mic.

nn

Deoarece, in ipoteza alternativa ca Δ+= 0μμ , testul statistic

n

Y/

)( 0

σμ Δ+−

urmeaza o distributie standard normala. Puterea testului este data de relatia { }0

01 0

1 var

( )/ /

aP H respinsa H ade ata

YP zn nα

β

μ μ μσ σ

− = =

⎧ ⎫⎪ ⎪− + Δ Δ

= > − = + Δ⎨ ⎬⎪ ⎪⎩ ⎭

.

1n nP z z P z zα ασ σ⎧ ⎫ ⎧Δ Δ ⎫⎪ ⎪ ⎪= > − = − < − ⎪⎨ ⎬ ⎨ ⎬⎪ ⎪ ⎪⎩ ⎭ ⎩ ⎪⎭

,

de unde , din definitia cuantilelelor

1n nz z zβ α ασ σ−

Δ Δ= − = − −

Page 190: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

188

si de aici

[ ]

2

22

Δ

+= βασ zz

n

Acest rezultat este adevarat si pentru cazul cand ipoteza alternativa este 0: μμ <aH .

Pentru a testa ipoteza bilaterala 0H : 0μμ =

vs. Δ−= 0: μμaH sau Δ+= 0: μμaH

0H este respinsa in zona critica, adica pentru

0

12

x z

n

αμ

σ −

−⟩ sau 0

12

x z

n

αμ

σ −

−⟨ − .

Deci

0 011

2 2

1 x xP z sau z

n n

α αμ μβ μσ σ −

⎛ ⎞⎜ ⎟− −

− = ⟨ ⟩ = =⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

μ

0 0 12 2

* *P x z sau x zn nα ασ σμ μ

⎛ ⎞1μ μ⟨ + ⟩ +⎜ ⎟

⎝ ⎠= =

0 1 0 11 1

12 2

x xP z sau

n n n n

α αμ μ μ μμ μ

σ σ σ σ −

⎛ ⎞⎜ ⎟− −− −

= ⟨ + ⟩ +⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

z

Deoarece media adevarata este 1μ ,

n

xσμ1− este repartizat . Prin

urmare

( 1,0N )

⎟⎟⎟⎟

⎜⎜⎜⎜

+−

Φ−+

⎟⎟⎟⎟

⎜⎜⎜⎜

+−

Φ=−−

21

10

2

10 11 αα σμμ

σμμ

β z

n

z

n

Page 191: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

189

Pentru 5.010 −⟨−

nσμμ

se poate considera ca 02

10 ≅⎟⎟⎟⎟

⎜⎜⎜⎜

+−

Φ ασμμ

z

n

, si deci

⎟⎟⎟⎟

⎜⎜⎜⎜

+−

Φ=−

21

10ασ

μμβ z

n

Conform definitiei avem ( ) ββ =Φ z , 22

1 αα zz −=−

si ca urmare

2

10αβ σ

μμz

n

z −−

= si βα

μμσzzn +

−=

2

10 .

Scotand pe n din ecuatie obtinem:

( )210

2

2

2

μμ

σ βα

⎟⎟⎠

⎞⎜⎜⎝

⎛+

=

zzn

Daca impartim cu 21μ obtinem:

( )2

2*1001

CVσμ

=−

si 2

0 1

1

*100 %μ μμ

⎛ ⎞−= Δ⎜ ⎟

⎝ ⎠

si formula devine:

( )

( )

22

22

%

%

CV z zn

α β

⎛ ⎞+⎜ ⎟

⎝ ⎠=Δ

Cazul distributiei binomiale Fie Y variabila aleatoare Bernoulli cu probabilitatea de succes p si

probabiliatae de esec 1-p. Obiectivul studiului este de a alege intre H0 : p = p0 si Ha : p = p1 (p1>p0) din evaluarea unui esantion de marime n. Proportia de selectie

1

1 n

ii

P Yn =

= ∑

urmeaza aproximativ o distributie normala cu media p si dispersia p(1-p)/n .

Page 192: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

190

Pentru testarea ipotezelor enuntate ne folosim de aproximarea normala

0

0 0

( )( )

P pP E P ZD P p q

n

−−= ≈

⎪⎪⎭

⎪⎪⎬

⎪⎪⎩

⎪⎪⎨

−−

⟩−

=

=⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

=+⟩=

⎪⎪⎭

⎪⎪⎬

⎪⎪⎩

⎪⎪⎨

=⟩−

=

11

0

11

10

11

1

10

010

0

qpqp

z

nqppp

nqppp

ppnqp

zppppz

nqppp

o

o

o

α

ααβ

11

00

11 qpqp

z

nqp

z αβ −Δ

=

nqpqp

qpzz

1111

00 Δ=+ αβ

In concluzie rezulta pentru n :

nqpzqpz

=⎟⎟

⎜⎜

Δ

+2

0011 αβ

2.15.4. Testul pentru compararea mediilor a doua populatii

O procedura asemanatoare ca mai sus poate fi aplicata pentru determinarea marimii esantionului necesar pentru obtinerea unei puteri date in compararea a doua metode de tratament. Fie 21 μμ si mediile tratamentului 1 si, respectiv, tratamentului 2. Cele doua ipoteze sunt: : 0H 21 μμ = vs. 21: μμ ≠aH Presupunand ca 2

1σ si sunt cunoscute si considerand o ipoteza alternativa specifica, simplificata

22σ

Δ=− 21: μμaH formula care da puterea testului este prin definitie

Page 193: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

191

{ }0

1 12 21 21

2 2

1 vara

d d

P H respinsa H ade ata

Y Y Y YP z sau zα α

β

μ μσ σ

− − − −

− = =

⎧ ⎫⎪ ⎪− −

= > ⟨ − = + Δ⎨ ⎬⎪ ⎪⎩ ⎭

unde 2

22

1

21

nndσσ

σ +=

Dar, in ipoteza alternativa, statistica d

YYσ

Δ−−−−

)( 21 este o variabila

normala standard, z Facand aceleeasi operatii ca mai sus, de punere in evidenta a variabilei normal repartizate, si neglijand

1 21 2

2d

Y YP zα μ μσ

− −⎧ ⎫⎪ ⎪−

⟨ − = + Δ⎨ ⎬⎪ ⎪⎩ ⎭

se obtine:

211 2

2

( )1d d

Y YP zαβ μσ σ

− −⎧ ⎫− −Δ Δ⎪ ⎪− = > − − = + Δ⎨ ⎬⎪ ⎪⎩ ⎭

μ .

De aceea

2 d

zαβσ

⎛ ⎞Δ= Φ − −⎜ ⎟

⎝ ⎠,

de unde,

d

zzσαβΔ

−−=2

.

Daca presupunem ca 21 nnn == si atunci 222

21 σσσ ==

2 2 2

222 2d

z z

n

α β σσ⎡ ⎤ Δ Δ

+ = =⎢ ⎥⎣ ⎦

si deci

Page 194: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

192

2

2

2

2

2

2

2

22

21 2)(

Δ

⎥⎦

⎤⎢⎣

⎡+

⎥⎦

⎤⎢⎣

⎡++

=βαβα σσσ zzzz

n

Pentru un test unilateral, formula de mai sus pentru determinarea marimii esantionului devine:

[ ]2

222

21 )(

Δ

++= βασσ zz

n

De retinut ca atunci cand dispersia populatiei este necunoscuta, alegerea marimii lotului nu este o problema usoara. De exemplu, in testarea ipotezei nule in expresia H0 : 0μμ = vs. 0: μμ >aH

cand valoarea adevarata este Δ+= 0μμ , statistica ns

Y/

)( 0 Δ+−−

μ urmeaza o

distributie t necentrata cu parametrul de ne-centrare σδ /Δ= . Tabelul de mai jos contine marimea calculata a loturilor pentru testul t privind meda si respectiv, diferenta dintre mediile tratamentelor respective, pentru diferite valori ale lui δ - “diferenta semnificativa”

Page 195: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

193

Tabelul nr. 26: Test unilateral Test bilateral

05.0=α Riscul

1.0=α =β 0.01 0.05 0.1 0.2 0.5 =β 0.01 0.05 0.1 0.2 0.5

μ μσ

0−=Δ

σμμ 21 −=Δ

0.15 122 0.20 137 0.20 70 0.25 88 0.25 139 101 45 0.30 61 0.30 122 97 71 32 0.35 102 45 0.35 90 72 52 24 0.40 108 78 35 0.40 101 70 55 40 19 0.45 108 86 62 28 0.45 80 55 44 33 15 0.50 88 70 51 23 0.50 65 45 36 27 13 0.55 112 73 58 42 19 0.55 54 38 30 22 11 0.60 89 61 49 36 16 0.60 46 32 26 19 9 0.65 76 52 42 30 14 0.65 39 28 22 17 8 0.70 66 45 36 26 12 0.70 34 24 19 15 8 0.75 57 40 32 23 11 0.75 30 21 17 13 7 0.80 50 35 28 21 10 0.80 27 19 15 12 6 0.85 45 31 25 18 9 0.85 24 17 14 11 6 0.90 40 28 22 16 8 0.90 21 15 13 10 5 0.95 36 25 20 15 7 0.95 19 14 11 9 5 1.00 33 23 18 14 7 1.00 18 13 11 8 5 1.1 27 19 15 12 6 1.1 15 11 9 7 1.2 23 16 13 10 5 1.2 13 10 8 6 1.3 20 14 11 9 5 1.3 11 8 7 6 1.4 17 12 10 8 4 1.4 10 8 7 5 1.5 15 11 9 7 4 1.5 9 7 6 1.6 14 10 8 6 4 1.6 8 6 6 1.7 12 9 7 6 3 1.7 8 6 5 1.8 11 8 7 5 1.8 7 6 1.9 10 7 6 5 1.9 7 5 2.0 9 7 6 4 2.0 6 2.1 8 6 5 4 2.1 6 2.2 8 6 5 4 2.2 6 2.3 7 5 5 4 2.3 5 2.4 7 5 4 4 2.4 2.5 6 5 4 3 2.5 3.0 5 4 3 3.0 3.5 4 3 3.5 4.0 4

Page 196: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

194

2.15.5. Compararea a doua proportii Cand variabilele rezultate sunt cu doua valori posibile (tratamentele fie imbunatatesc, fie nu imbunatatesc starea pacientului) variabilele care ne intereseaza mai mult sunt proportiile pacientilor a caror stare s-a ameliorat si nu media unor masuratori date. Fie p1 si p2 proportia de succes (e.g. vindecare sau imbunatatire) in grupul in care s-a facut tratamentul si, respective in grupul de control. Marimea esantionului se poate determina similar cu cazul testului t bilateral obtinandu-se pentru n :

2

221

22112

)(

)1()1()1(2

pp

ppppzppzn

⎥⎦

⎤⎢⎣

⎡−+−+−

=βα

unde 2

21 ppp += .

2.15.6. Marimea esantionului pentru comparari de mai multe medii prin analiza dispersionala (ANOVA) Pentru analiza dispersionala pe o singura cale cu n observatii pe fiecare tratament, obiectivul principal este de a testa ipoteza privind provenienta esantioanelor din aceiasi populatie. Folosind notatiile de la capitolul privind analiza dispersionala avem:

0H

0: 210 ==== kH τττ … , si cu ipoteza alternativa zeroestenuunputincelH ia τ: Reamintim ca:

∑=−

+=⎟⎠⎞

⎜⎝⎛

−=

k

iik

nkSSAEMSAE

1

22

11)( τσ si 2

)1()( σ=⎟⎟

⎞⎜⎜⎝

⎛−

=nkSSEEMSEE

Astfel, pentru o deviatie data de la ipoteza nula , masurata prin

, valori mari ale lui micsoreaza sansele de obtinere a

valorii FA = MSA/MSE in zona critica a testului.

0H

∑=

−k

ii kn

1

2 )1/(τ 2σ

Sensibilitatea testului descrie puterea procedurii de a detecta diferentele intre mediile grupurilor si reprezinta, in fapt, puterea testului.

Page 197: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

195

Aceasta putere se interpreteaza ca probabilitatea ca F sa cada in zona critica atunci cand ipoteza nula este falsa si mediile tratamentelor difera intre ele. Conform ipotezei nule FA=MSA/MSE urmeaza o distributie F cu (n1,n2) grade de libertate, unde kNnkvsikv −=−=−= )1(1 21 . Deci, pentru analiza dispersiei one-way, puterea este data de:

{ }

⎭⎬⎫

⎩⎨⎧

≠−

>=

=>=−

∑=

01

),,(

var),,(1

1

221

21

k

iiA

aA

knvvfFP

ataadeesteHvvfFP

τα

αβ

(3)

Pentru valori date pentru si puterea poate fi

crescuta folosind esantioane mai mari. Problema revine la proiectarea unui experiment cu o valoare a lui n astfel incat sa avem asigurata o putere data.

∑=

−k

ii kn

1

2 )1/(τ 2σ

In ipoteza alternativa ca urmeaza o distributie

noncentrata cu un parametru de noncentralitate

A

k

ii F,0

1

2 ≠∑=

τ

δ unde 21

2

2

τδ

∑==

k

iin

.

Asfel relatia (3) devine

{ }),,,(01

),,(1 211

221 δαταβ vvfFP

knvvfFP A

k

iiA >=

⎭⎬⎫

⎩⎨⎧

≠−

>=− ∑=

relatie care defineste implicit numarul necesar de subiecti. 2.15.7. Modelul crossover Ipoteze punctuale privind egalitati. FieYijk raspunsul voluntarului i in secventa k in perioada j. Consideram un model care neglijeaza efectele carryover inegale: ijkkjjikijk eTPSY ++++= ),(μ , (4) unde i = 1,2, …, este numarul de voluntary, j este perioada, k = 1, 2 este secventa.

kn

In modelul de mai sus μ este media totala, este efectul aleatoriu al voluntarului i in secventa k, este efectul de perioada j, este efectul direct al tratamentului administrat in perioada j, secventa k, adica

ikS

jP ),( kjT

Page 198: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

196

Placebo pentru k = j ),( kjT =

Medicamentul testat pentru k≠ j, k = 1, 2; j = 1, 2 si eroarea in masuratori. ijke Pentru modelul (4) se presupune ca{ }ikS sunt distribuite independent si identic cu media zero si dispersia si 2

Sσ { }ijke sunt distribuite

independent cu media zero si dispersia . Se presupune ca 2σ { }ikS si { }ijke sunt independente intre ele. Sa testam urmatoarele ipoteze:

0 : T PH μ μ= vs :a TH Pμ μ≠ (5) Consideram diferentele intre perioade pentru fiecare voluntar in interiorul fiecarei secvente definite:

),(21

12 kikiik YYd −=

unde i = 1,2, …, , k = 1, 2. kn Un test pentru ipotezele (5) poate fi un test t bilateral dupa cum urmeaza:

1 2

1 1ˆ

T Pd

d

Y YT ,

n nσ

− −

−=

+

unde )(21

12.21.

−−−

+= YYY T , . 11 . 221 (2

P )Y− − −

= +Y Y si

∑∑= =

−−+

=2

1 1

2.

21

)(2

1ˆk

n

ikikd

k

ddnn

σ , ∑=

=kn

iijk

kjk Y

nY

1

1. , ∑=

=kn

iik

k

k dn

d1

.1

Conform ipotezei nule, Td are o distributie t cu 221 −+ nn grade de libertate. Daca nu se accepta ipoteza nula, atunci 1 2(1 / 2, 2).dT t n nα> − + − In ipoteza alternativa simplificata Δ+= pT μμ puterea testului Td poate fi evaluat similar. In scop de echilibrare, presupunem ca n nn= =21 ; ceea ce inseamna ca fiecare secventa va avea acelasi numar de voluntari.

Page 199: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

197

L

Cele doua ipoteze de mai sus sunt de regula inlocuite cu doua perechi de ipoteze (metoda Schuirmann)

01 : T PH μ μ θ− ≤ vs. 1 :a T PH Lμ μ θ− > si

02 : T PH Uμ μ θ− ≤ vs. URTaH θμμ ⟩−:2 , unde Lθ si Uθ sunt limitele pentru echivalenta semnificative clinic. Dupa cum se observa ipoteza nula este ca medicamentele nu sunt bioechivalente. Cu aceasta prezumtie de “vinovatie” este micsorat riscul pacientului. Daca studiul nu “dezvinovateste” medicamentul testt, acesta nu poate fi introdus in terapie. Putem sa nu acceptam ipoteza nula a inechivalentei daca:

1 21 2

( , 2)ˆ (1/ ) (1/ )

T P LL

d

Y YT tn n

θ ασ

− −

− −= >

+n n+ − si

1 21 2

( , 2)ˆ (1/ ) (1/ )

T P UU

d

Y YT tn n

θ ασ

− −

− −= < −

+n n+ −

Fie θ = T Pμ μ− si )(θφS puterea testului bilateral Schuirmann pentru unθ dat. In cazul bioechivalentei observam ca, in contextul in care se doreste minimalizarea riscului pacientului, avem particularitatea ca functioneaza intr-un fel prezumtia de „vinovatie”, in sensul ca este ipoteza ca medicamentele nu sunt bioechivalente iar puterea testului este probabilitatea de a accepta ipoteza bioechivalentei in cazul cand acestea sunt echivalente

0H

( ) ipacientulurisculataadeHHrespingeP == var00α

( )0 varaP accepta H H ade ata riscul producatoruluiβ = =

( )ataadeHHrespingeP a var1 0=− β In scopul calcularii puterii reformulam putin ipotezele in sensul ca vom lua

0HΔ== uL θθ

In acest context problema testului devine o problema de probabilitate de a detecta o diferenta Δ pe care o consideram ca semnificativa clinic; in cazul bioechivalentei aceasta diferenta este de 20%.

Page 200: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

198

Ipoteza complexa Ipoteza simplificata

LRTH θμμ ⟨−:01

RTaH μμ =:1

uRTH θμμ ⟩−:02

RTaH μμ =:2

Δ−=− RTH μμ:01

RTaH μμ =:1 Δ=− RTH μμ:02

RTaH μμ =:2 Analizam in continuare cazul

Δ−=− RTH μμ:01 vs. 0:1 =− RTaH μμ

( )0 1 ,2

1 ,2 2

1 var2ˆ

2 2ˆ ˆ

a n

d

n T R

d d

xP respinge H H ade ata P tn

xP tn n

α

α

β μσ

μ μσ σ

− −

− −

⎛ ⎞+ Δ⎜ ⎟− = = ⟩ = =⎜ ⎟⎜ ⎟

⎝ ⎠⎛ ⎞

Δ⎜ ⎟= ⟩ − =⎜ ⎟⎜ ⎟⎝ ⎠

2 T Rμ

1 ,2 21 12 2ˆ ˆ

n T

d d

xP tn n

α Rβ μ μσ σ

− −

⎛ ⎞Δ⎜ ⎟− = − ⟨ − =⎜ ⎟⎜ ⎟

⎝ ⎠

,2 2 1 ,2 2 2n nd

t tn

β ασ

− − −Δ

= −

1 ,2 2 ,2 2 1 ,2 2 1 ,2 22ˆn n n

d

t t t tn

α β α βσ

− − − − − − −Δ

= − = + n

( )22

1 ,2 2 1 ,2 2 2

ˆ2 * d

n nn t tα βσ

− − − −= +Δ

In fapt noi am notat T RX X X= − si

2 2dσ σ= ,

dar dupa cum s-a arata anterior,

22

2e

d

σσ = , deci

Page 201: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

199

( )2

2

1 ,2 2 1 ,2 2 2

1 *2

en nn t tα β

σ− − − −= +

Δ

Impartind termenii raportului cu 2μsi tinand cont ca

*100eCV σμ

=

se obtine pentru numarul de subiecti in fiecare secventa:

( )22

1 ,2 2 1 ,2 2 '2

1 *2 n n

CVn t tα β− − − −= +Δ ,

unde ' *100

μΔ

Δ =

Pentru cazul bioechivalentei si pentru intreg experimental, ' 0, 2Δ =

( )22

1 ,2 2 1 ,2 2 2*20n nCVn t tα β− − − −= +

Pornind de la grupul 2 de ipoteze se obtine

Δ=− RTH μμ:01 0:02 =− RTH μμ ( )ataadeHHrespingeP a var1 0=− β

2 2,

2 2,

1 0ˆ2

0ˆ ˆ2 2

n T R

n T R

XP t

n

XP t

n n

α

α

β μ μσ

μ μσ σ

⎛ ⎞⎜ ⎟− Δ⎜ ⎟− = ⟨ − = =⎜ ⎟⎜ ⎟⎝ ⎠

⎛ ⎞⎜ ⎟Δ⎜ ⎟= ⟨ + −⎜ ⎟⎜ ⎟⎝ ⎠

=

si asa mai departe.

Page 202: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

200

Cazul cand exista o diferenta intre medicamente Consideram in continuare cazul cand diferenta intre cele doua medii nu mai este zero ci are o valoare data 0θ :

0T Rμ μ θ− = De regula pentru produsele bioechivalente 0θ este mai mic decat 7% din Rμ . Consideram din nou o ipoteza simplificata:

Δ=− RTH μμ:02 vs 2 :a T RH 0μ μ θ− = si notam

RT XXX −= si vom folosi statistica

02 2

( )1/ 1/ 2 /

T R T Rn

d d

XX XTn n n

θμ μσ σ−

−− − −= =

+

Calculam dupa acelasi procedeu ca mai sus numarul n de subiecti necesari pantru a asigura o putere data :

( ) ( )0

01 ,2 22

0 001 ,2 2

2

1 v

ˆ 2

ˆ ˆ2 2

a

T Rn

T Rn

P respinge H H ade ata

XP tn

XP tn n

α

α

β θ

μ μ θσ

θ θ μ μ θσ σ

− −

− −

− = Φ = =

⎛ ⎞−Δ= ⟩ − = =⎜ ⎟⎜ ⎟

⎝ ⎠⎛ ⎞− Δ −

= ⟩ + − =⎜ ⎟⎜ ⎟⎝ ⎠

ar

02 2 01 ,2 2

2ˆ 2n TnP T t

n αθ

Rβ μ μ θσ−

− −

⎛ ⎞Δ −= ≤ + − =⎜ ⎟⎜ ⎟

⎝ ⎠

Deci 0

,2 21 ,2 22ˆ 2 nn

t tn α β

θσ −

− −

Δ −+ =

de unde ( )

2 2

,2 2 2,2 22

ˆ2 *nn

n t tα βσθ

−−

⎛ ⎞= +⎜ ⎟

Δ −⎝ ⎠

Observam ca puterea depinde de θ , iar numarul de subiecti necesar pentru detectarea unei diferente semnificative clinic data este cu atat mai mare cu cat cele doua medicamente sunt mai apropiate.

Page 203: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

201

2.15.8. Calculul comparativ al numarului de subiecti necesari in testarea bioechivalentei terapeutice a medicamentelor. 2.15.8.1. Calculul in testarea bioechivalentei

Medicamentele bioechivalente nu difera niciodata in ceea ce priveste concentratiile plasmatice cu mai mult de 20 % , diferenta fiind in medie mai mica de 7 % . Studiile de bioechivalenta au rostul de a verifica statistic faptul ca doua medicamente unul de referinta si unul testat difera in ceea ce priveste concentratiile in sange cu mai putin de 20 %, diferenta care este considerata nesemnficativa clinic. Aceasta valoare a dus insa si la multe confuzii si controverse. S-a considerat ca este posibil ca un medicament sa aiba concentratii 80 % din medicamentul de referinta iar altul sa aiba concentratii 120 % din medicamentul de referinta. In acest fel, pacientul care ar schimba intre ele cele doua medicamente de referinta ar avea la un moment dat o variatie de 40 % in nivelele plasmatice. Concluzia este falsa deoarece porneste de la o exprimare literar folclorica a definitiei matematice a bioechivalentei. Definitia exacta cere ca intervalul de incredere 90 % pentru diferenta intre nivelele plasmatice medii ale medicamentului testat si a celui de referinta sa sa fie mai mic decat 20 % :

9,025,18,0 ≥⎟⎟⎠

⎞⎜⎜⎝

⎛⟨⟨ R

AUC

TAUCP

μμ

şi 9,025,18,0max

max ≥⎟⎟⎠

⎞⎜⎜⎝

⎛⟨⟨ R

c

TcP

μμ

Intrucat lungimea intervalului de incredere este proportionala cu variabilitatea medicamentului, cu cat aceasta este mai mare, cu atat diferenta medie intre parametrii farmacocinetici trebuie sa fie mai mica. Practic se ajunge la aceea ca medicamentele bioechivalente difera in medie in ceea ce priveste concetratiile plasmatice, cu mai putin de 5-6 % ceea ce se si verifica efectiv in practica , dupa cum se poate vedea mai jos

Statistica pe 273 aplicaţii generice în 19971

Pentru 127 studii de bio-echivalenţă in vivo

AUC 0-t final (t-last) 3,47 ±2,84% AUC 0 – Infinit 3,25±2,97% C max 4,29±3,72% 1 Sam H. Haidar, Hyojong (Hue) Kwon, Robert Lionberger and Lawrence Yu, Biopharmaceutics Applications in Drug Development, J.E. Henney, JAMA 282: 1995, 1999

Page 204: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

202

De observat ca media diferenţei între generic şi inovator e mai mică

decât diferenţa minimă de 5% in uniformitatea conţinutului permis de USP.

2.15.8.2. Calculul in testarea echivalentei clinice Obiectiv de demonstrat:

Testarea bioechivalentei pornind de la nivelele concentratiilor plasmatice necesita zeci de subiecti in timp ce testarea echivalentei terapeutice necesita zeci de mii de subiecti .

Calculul numarului de subiecti necesari pentru demonstrarea unui efect de reducere a unui marker biologic pentru o afectiune data, in cazul in care acesta ia valori numerice continue si avem dovezi ca datele sunt distribuite normal se face in functie de diferenta semnificativa terapeutic in valorile markerului, de riscul asumat α si de puterea testului 1 β− .

Presupunem ca testam urmatoarele ipoteze:

00 : μμ =H vs. 0: μμ >aH

cu risculα cand dispersia este cunoscuta. Pentru ipoteza alternativa specifica, spunem

Δ+=0

: μμa

H unde >0 este o diferenta pe care o consideram semnificativa clinic. Δ

Numarul de subiecti necesari pentru testarea acestei ipoteze este

( ) 2

2

2

2

2

10

2

2

2

Δ

⎟⎠⎞⎜

⎝⎛ +

=−

⎟⎠⎞⎜

⎝⎛ +

=βαβα

σ

μμ

σ zzzzn

In cazul bioechivalentei se ia un risc de 10 % si o putere de 90 %. Diferenta Δ semnificativa clinic pe care vrem sa o depistam este de

20 %.

64,105,02 2

−=⇒= αα z ; 3,11,0 −=⇒= ββ z si 2,0=Δ

Pentru un medicament cu variabilitate moderata - 20 % ( dincolo de 30 % spunem ca medicamentul este cu variabilitate mare) , inlocuind in formula se obtine

Page 205: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

203

92.0

)28.164.1(2.02

22

2

2

2

2

≈+

⎟⎟⎠

⎞⎜⎜⎝

⎛+

=βασ zz

n

2.15.8.3. Cazul compararii efectelor clinice Când variabilele rezultate sunt cu două valori posibile (tratamentele

fie îmbunătăţesc, fie nu îmbunătăţesc starea pacientului) variabilele care ne interesează mai mult sunt proporţiile pacienţilor a căror stare s-a ameliorat şi nu media unor măsurători date.

Fie şi proporţia de succes (vindecare sau îmbunătăţire) în grupul în care s-a făcut tratamentul şi, respectiv în grupul de control. Mărimea eşantionului se poate determina similar cu cazul testului t bilateral.

1p 2p

Consideram ipotezele:

⎩⎨⎧

≠=

21

210

::

ppHppH

a

⇔⎩⎨⎧

≠−=−

0:0:

21

210

ppHppH

a

Pentru a calcula numarul de subiecti in functie si de puterea testului trebuie specificata diferenta semnificativa clinic in cazul parametrului masurat. In cele mai multe studii clinice obiectivul este demonstrarea eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt medicament. Indiferent de comparator, este important sa se specifice ce diferenta este importanta din punct de vedere clinic sau stiintific. Aceasta diferenta o vom nota cu Δ . Aceasta diferenta defineste “grosismentul” microscopului definit de studiul clinic cu care comparam cele doua medicamente. Intuitia ne spune ca daca se va alege o diferenta mare atunci va fi nevoie de un numar mic de subiecti.

Daca diferenta este relative mica, va fi nevoie de un grup de subiecti mai mare. Daca ∞→Δ , puterea tinde la 1, iar cand

avem0→Δ 01 →− β . Practic se determina numarul de subiecti necesari asigurarii unei

anumite puteri pentru un risc α dat sau, altfel spus selectarea unei probabilitati pentru eroarea de tip II acceptabila – in conditiile unui risc de eroare de tip I fixat.

Raportul dintre α si β este ca cel din selectia de incertitudine a lui Heisenberg: daca scade probabilitatea erorii de tip I, creste probabilitatea erorii de tip II.

Ipoteze ce urmeaza a fi testate vor fi:

Page 206: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

204

⎩⎨⎧

Δ=−=−

21

210

:0:

ppHppH

a

Cunoscandu-se puterea testului βπ −= 1 vom determina marimea esantionului. Conform definitiei puterea testului este:

( ) ( )ataadeHHrespingePataadeHHacceptaP aa varvar11 00 =−=−= βπDeci,

=

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

Δ=−⟩

⎟⎟⎠

⎞⎜⎜⎝

⎛+

−=−

−21

21

21

21

11ˆˆ

ˆˆ1 ppz

nnqp

ppP αβ

⎟⎟

⎜⎜

⎛Δ=−⎟⎟

⎞⎜⎜⎝

⎛+⟩−=

−21

212121

11ˆˆˆˆ ppnn

qpzppP α

Vom scadea din ambii membri ai inecuatiei precedente si vom obtine: Δ

=⎟⎟

⎜⎜

⎛Δ=−Δ−⎟⎟

⎞⎜⎜⎝

⎛+⟩Δ−−=−

−21

212121

11ˆˆˆˆ1 ppnn

qpzppP αβ

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

Δ=−

+

Δ−

+

⎟⎟⎠

⎞⎜⎜⎝

⎛+

+

Δ−−=

−21

2

22

1

11

2

22

1

11

21

21

2

22

1

11

21

ˆˆˆˆˆˆˆˆ

11ˆˆ

ˆˆˆˆˆˆ

pp

nqp

nqp

nqp

nqp

nnqp

z

nqp

nqp

ppP α

Dar,

( 1,0ˆˆˆˆ

ˆˆ

2

22

1

11

21 N

nqp

nqp

ppZ ∈

+

Δ−−= ) si obtinem:

Page 207: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

205

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

Δ=−

+

Δ−

+

⎟⎟⎠

⎞⎜⎜⎝

⎛+

⟩=−−

21

2

22

1

11

2

22

1

11

21

21 ˆˆˆˆˆˆˆˆ

11ˆˆ

1 pp

nqp

nqp

nqp

nqp

nnqp

zZP αβ

( ) ββα =−−=

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

Δ=−

+

Δ−

+

⎟⎟⎠

⎞⎜⎜⎝

⎛+

⟩−−

11ˆˆˆˆˆˆˆˆ

11ˆˆ

1 21

2

22

1

11

2

22

1

11

21

21

pp

nqp

nqp

nqp

nqp

nnqp

zZP

Deci,

=

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

Δ=−

+

Δ−

+

⎟⎟⎠

⎞⎜⎜⎝

⎛+

⟩−−

21

2

22

1

11

2

22

1

11

21

21 ˆˆˆˆˆˆˆˆ

11ˆˆ

1 pp

nqp

nqp

nqp

nqp

nnqp

zZP α

βα =

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

Δ=−

+

Δ−

+

⎟⎟⎠

⎞⎜⎜⎝

⎛+

−⟨= 21

2

22

1

11

2

22

1

11

21

2 ˆˆˆˆˆˆˆˆ

11ˆˆ

pp

nqp

nqp

nqp

nqp

nnqp

zZP

Dar,

( ) ββ =Δ=−⟨ 21 ppzZP , deci

2

22

1

11

2

22

1

11

21

2 ˆˆˆˆˆˆˆˆ

11ˆˆ

nqp

nqp

nqp

nqp

nnqp

zz+

Δ−

+

⎟⎟⎠

⎞⎜⎜⎝

⎛+

−= αβ

Page 208: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

206

Aducand la acelasi numitor obtinem:

Δ−⎟⎟⎠

⎞⎜⎜⎝

⎛+−=+

2122

22

1

11 11ˆˆˆˆˆˆ

nnqpz

nqp

nqp

z αβ

Vom determina diferenta ⎟⎟

⎜⎜

⎛++⎟⎟

⎞⎜⎜⎝

⎛+−=Δ

2

22

1

11

212

ˆˆˆˆ11ˆˆn

qpnqp

znn

qpz βα ⇒

( )⎟⎟⎠

⎞⎜⎜⎝

⎛ ++

+−=Δ

21

221112

21

21

2

ˆˆˆˆˆˆ

nnqpnqpn

znn

nnqpz βα

Ridicand la patrat obtinem:

( )

21

2

2211122122

ˆˆˆˆˆˆ

nn

qpnqpnznnqpz ⎟⎟⎠

⎞⎜⎜⎝

⎛+++

=Δβα

sau, altfel scris:

2

2

22

1

11

212

2 ˆˆˆˆ11ˆˆ⎟⎟

⎜⎜

⎛++⎟⎟

⎞⎜⎜⎝

⎛+=Δ

nqp

nqpz

nnqpz βα

Considerand nn =1 si knknn == 12 vom obtine:

( )

2

2 1 1 2 2

2

2

1 1 2 2

2

ˆ ˆ ˆ ˆ1 1ˆ ˆ

1 ˆ ˆ ˆ ˆˆ ˆ

p q p qz pq zn kn n kn

k p q k p qz pq zkn kn

α β

α β

⎛ ⎞⎛ ⎞Δ = + + + =⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠

⎛ ⎞+ +⎜ ⎟= +⎜ ⎟⎝ ⎠

( )2

2

22112

ˆˆˆˆ1ˆˆ

Δ

⎟⎟⎠

⎞⎜⎜⎝

⎛+++

=

qpkqpzkqpzkn

βα

Deci, ( )

k

qpkqpzkqpzn 2

2

22112

ˆˆˆˆ1ˆˆ

Δ

⎟⎟⎠

⎞⎜⎜⎝

⎛+++

=βα

Page 209: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

207

In cazul in care 121 =⇒= knn si 2

2

22112

ˆˆˆˆˆˆ2

Δ

⎟⎟⎠

⎞⎜⎜⎝

⎛++

=

qpqpzqpzn

βα

unde 2

21 ppp

+= .

2.15.8.4. Cazul aspirinei. Dintre pacientii cu infarct miocardic mor , intr-un interval de un an circa 10 % 2 , iar aspirina se pare ca reduce acest numar de decese cu 10 pana 30 % din riscul celor care nu iau aspirina.

Ne propunem in continuare sa calculam numarul de pacienti cu infarct miocardic ce trebuiesc urmariti pe un an de zile pentru a detecta o reducere cu 20% a riscului de mortalitate , deci de la de la 10% la 8%.

Ne alegem ricul 05,0=α si o putere a testului de 0.9 ( deci β=0,1) 10% 8% ⎯⎯→⎯ %20

10,01 =p , 08,02 =p si 09,0%92%18

2%8%10

=⇒==+

= pp

02,008,01,0 =−=Δ Δ este riscul evenimentului (infarct) în absenţa tratamentului minus

riscul evenimentului în prezenţa tratamentului sau procentulul riscului evenimentului la lotul martor minus procentul riscului evenimentului la lotul tratat.

300.402,0

92,0*08,09,0*1,028,191.0*09.0*296.12

≅⎟⎟⎠

⎞⎜⎜⎝

⎛ ++=n

Deci în studiile infarctului miocardic, aproximativ 10% dintre pacienţi mor în decursul unui an. Un test clinic ar avea nevoie de aproximativ 430 decese în grupul de control (adică, de aproximativ 4300 pacienţi în grupul de control şi 4300 în grupul de persoane tratate) pentru a obţine 90% putere de detectare, 20% reducerea mortalităţii la un nivel de 5% ( 05,0=α ).

În al doilea exemplu calculăm numărul de subiecţi pentru cazul în care avem o reducere cu 20% a riscului de mortalitate de la 30% la 24%.

2 Salim Yusuf: Overview of Result of Randomized Clinical Trials in Heart Disease. II. Unstable Angina, Heart Failure, Primary Prevention with Aspirin and Risk Factor Modification, JAMA 260 (15), 2259-2263, 1988

Page 210: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

208

α=0,05 si β=0,1 30% 24% ⎯⎯→⎯ %20

30,01 =p , 24,02 =p si 27,0%272%54

2%24%30

=⇒==+

= pp

06,024,030,0 =−=Δ

150.106,0

76,0*24.07,0*3,028,173.0*27.0*296.12

≅⎟⎟⎠

⎞⎜⎜⎝

⎛ ++=n

Rezultatul se înmulţeşte cu doi pentru că testul se efectuează pe două loturi identice.

Deci avem nevoie de 2300 subiecti impartiti in 2 loturi. Numarul de morti prin infarct este de 30% din cei ce nu iau medicamentul (lotul martor)

35010030*1150 ≅

Rezultatul calculelelor pentru alte combinatii de “rata evenimentului” si “reducerea riscului” sunt date in tabelul de mai jos.

Procentul de mortalitate % Reducerea riscului % 10 15 20 30 40

10% 1800 1700 1600 1400 1200 20% 430 400 390 350 300 30% 180 170 165 150 130 40% 100 90 87 80 70 50% 60 55 53 50 45

Test bilateral în care α=0,05; P=0,09. Avem la dispozitie doua exprimari, amandoua corecte in masura

explicarii clare privind modul de calcul al scaderii. Astfel daca mortalitatea scade de la 10% la 5% avem o scadere cu 2% in valoare absoluta si cu 20% relativ la valoarea de referinta.

Atunci cand calculam numarul de subiecti necesari pentru a fi inclusi in studiu noi evaluam doua ipoteze privind mediile populatiei:

00 : μμ =H si Δ+= 0: μμAH deci diferenta este una absoluta.

Daca insa plasam efectul intr-un cadru mai larg de comparare a diverselor efecte – in diverse boli, ideea ca orice tratament nu modifica un marker biologic cu mai mult de 30% din valoarea sa, este un rezultat mult mai general, global aplicabil multimii markerilor, este semnificativ pentru boala in sine care este caracterizata de o multime mare de parametri masurabili sau nu.

Page 211: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

209

2.15.8.5. Calculul numarului de subiecti necesari demonstrarii echivalentei terapeutice a doua medicamente care sunt bioechivalente

Când compar aspirina 100% cu aspirina 80% presupun ca medicamentul care elibereaza numai 80 % din cantitatea de aspirina declarata are numai 80 % din actiunea celui care elibereaza intrega cantitate. Deci diferenta considerata mai sus intre aspirina si placebo ( 0.02) va scadea la 80 % , deci va fi de 0.016 .Diferenta intre testat si referinta care trebuie depistata pentru a respinge bioechivalenta cu ajutorul efectului de reducere a ratei de mortalitate a bolnavilor cu infarct intr-un interval de un an va fi

004,0016,0020,0 =−=Δ diferenta echivalentei terapeutice In cazul in care tratez cu aspirina 100% avem 10% 8%, iar

in cazul aspirinei 80% avem 10% 8,4% ⎯⎯ →⎯− %20

⎯⎯ →⎯− %16

08,0ˆ1 =p ⇒ 92,0ˆ1ˆ 11 =−= pq 084,0ˆ 2 =p ⇒ 916,0ˆ1ˆ 22 =−= pq

082,02

ˆˆˆ 21 =+

=ppp ⇒ 918,0ˆ1ˆ =−= pq

În acest caz 2

004,0916,0*084.092,0*08,028,1918.0*082.0*296.1

⎟⎟⎠

⎞⎜⎜⎝

⎛ ++≥n ⇒

87769≥n in fiecare grup, deci un total de circa 197552 de pacienti cu infarct, de urmarit un an.

Concluzii

Literatura medicala abunda de “folclor” privind cazuri in care doua medicamente bioechivalenta nu au fost echivalente clinic dar, studiile sistematice in acest sens lipsesc. Din modul de prezentare a problemei rezulta clar ca autorii nu au nici cea mai mica idee despre ce inseamna bioechivalenta si cu ata mai putin stiu care este numarul de subiecti necesari pentru a demonstra ceea ce in fapt nu se poate demonstra.

Page 212: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

210

Reprezentativ un astfel de studiu in cazul amiodaronei3 se refera la un sondaj de opinie in randul medicilor de familie. Indiferent de numarul foarte mare al ignorantilor asupra subiectului – rezultatul nu poate fi considerat ca o concluzie stiintifica.

3 James A. Reiffel, Peter R. Kowey, Generic Antiarrythmics Are Not Therapeutically Equivalence for the Treatment of Tachyarrhythmias, The American Journal of Cardiology, vol. 85, may 1, 2000

Page 213: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

211

2.16. DISTRIBUTIA BINOMIALA 2.16.1. Compararea proportiilor cu testul exact Fisher

Consideram toate rezultatele posibile a doua incercari independente, in primul caz si in al doilea caz, toate cu aceeasi probabilitate de

succes P. Notam numarul succeselor cu si . 1n 2n

1k 2k

Tabelul nr. 27

1k 1 1n k− 1n

2k 2 2n k− 2n

1 2k k+ 1 2 1 2( )n n k k+ − + 1 2n n+

unde: -

1k si 2k numarul succeselor

- 1 1n k− si 2 2n k− numarul esecurilor - 1n , 2n numarul de incercari si 1 2k k+ fixate

Consideram rezultatele particulare 1 1x k= si 2 2x k= . Calculam

probabilitatea obtinerii acestor rezultate si , cand se dau marimile esantioanelor si si numarul total de succese obtinute ( ), cu presupunerea ca probabilitatea de succes P este aceeasi pentru fiecare din cele doua incercari.

1k 2k

1n 2n 1k k+ 2

Definim si ca fiind evenimentele (1E 2E 1 1x k= , 2 2x k= ) respectiv( 1 2x x+ = 1 2k k+ ).

Probabilitatea ca sa se obtina datele din tabel este:

{ } { } { }{ }

1 21 1 2 2 1 2 1 2 1 2

2

,P E E

P x k x k x x k k P E EP E

= = + = + = = (**)

unde ( reprezinta realizarea concomitenta a evenimentelor si . )1 2E E 1E 2EDaca se realizeaza , adica (1E 1 1x k= , 2 2x k= ), atunci automat se

intampla , deoarece nu putem avea 2E 1 1x k= si 2 2x k= fara a avea simultan ( 1 2x x+ ) = ( 1 2k k+ ).

Page 214: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

212

De aceea probabilitatea evenimentului ( )1 2E E este aceeasi cu

probabilitatea evenimentului , adica 1E { }1 2P E E = { }1P E . Inlocuind in relatia (**) se obtine

{ } { }{ }

1 1 1 2 21 1 2 2 1 2 1 2

2 1 2 1

( ),( )

P E P x k x kP x k x k x x k kP E P x x k k

= ∩ == = + = + = =

+ = + 2

2

2 11

2

( )( )( )E

P E EP EP E

∩=

Din definitia distributiei binomiale si vor fi date de formulele:

1( )P E 2( )P E

111 1 2 2

1 21( ) (1 ) (1 )k n k k k nkn nP E C p p C p p 2 2k− −= − −

2 1 21 21 2 1

1 2

)2

(( ) (1 ) n kkk k n kkn nP E C p p+ ++

+−= − +

( ) ( )( )

1 2

1 2

2 1 2

1 2

1 2 1 2 1 21 21

1 2 1 1 2 2 1 2

! !! !( )! !( )!( )! !

k kn n

E k kn n

C C k k n n k kn nP Ek k n k n k n nC +

+

⎡ ⎤+ + − +⎣ ⎦= = ⋅− − +

De obicei in tabelele de contingenta se foloseste notatia din tabelul

de mai jos. Cu aceasta notatie probabilitatea rezultatelor devine Tabelul nr. 28

A a b a+b B c d c+d a+c b+d

( )2 1( )!( )!( )!( )!( ) ,

! ! ! !( )!( )!( )!( )!( )! 1 1

( )! ! ! ! ! ! !

Ea b c d a c b dP E P a c a c

c d a b a b c da b c d a c b d C

a b c d c d a b c d a b! !

+ + + += + = =

+ + ++ + + +

= ⋅+ + +

= ⋅

Regula de calcul se poate obtine mai usor daca observam ca la

numarator avem factorialele totalurilor marginale, iar la numitor numerele din tabel si totalul general.

Page 215: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

213

Exemplu. Din studii anterioare se stia ca proportia de reactii adverse, in special

dureri de cap, la voluntarii sanatosi dupa administrarea isosorbit mononitrat (ISMN) este de circa 30%.

S-a testat o noua formulare T comparativ cu formularea de referinta in ceea ce priveste biodisponibilitatea. Protocolul experimentului clinic a cerut, pe langa compararea biodisponibilitatii, si inregistrarea efectelor adverse. Experimentul a fost de tip incrucisat, pe 24 voluntari din care, in prima perioada 12 au primit medicamentul de referinta (R) si 12 medicamentul testat (T). Doi voluntari dintre cei care au primit referinta au abandonat experimentul. In final numarul voluntarilor cu dureri de cap a fost de 3 pentru R si 5 pentru T. Deci punand datele in tabelul 2x2 se obtine:

Medicament Reactii adverse (RA) Total Da Nu R 3 9 12 T 5 5 10 Total 8 14 22

Proportia de RA la ISMN a fost gasita mai mare medicamentul testat:

5 310 12

> .

Se poate afirma ca acest lucru este adevarat cu probabiliatatea 90%. Verificam in acest scop ipotezele:

0 ::

T R

A T R

H P PH P P

=>

cu α = 0,10.

Aplicam testul Fisher. Sa calculam pentru inceput probabilitatea de a se obtine exact rezultatul obtinut in experiment.. Conform cu cele reprezentate mai sus, luand =12, =10 si 1n 2n 1k k2+ = 8

3 9 128!14!12!10!5 5 10 0,1733!5!5!9!22!

8 14 22P⎛ ⎞⎜ ⎟ = =⎜ ⎟⎜ ⎟⎝ ⎠

Mai departe trebuiau calculate si probabilitatile pentru combinatiile “mai putin probabile” decat combinatia obtinuta experimental si cu proportii mai mari pentru . Avem de exemplu: TP

Page 216: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

214

2 10 128!14!12!10! 16 4 10 0,04

22! 2!6!4!10!8 14 22

P⎛ ⎞⎜ ⎟ = ⋅ =⎜ ⎟⎜ ⎟⎝ ⎠

1 11 12

17 3 10 0,00451!7!11!3!

8 14 22P c⎛ ⎞⎜ ⎟ = ⋅ =⎜ ⎟⎜ ⎟⎝ ⎠

si

0 12 12

18 2 10 00!8!12!2!

8 14 22P c⎛ ⎞⎜ ⎟ = ⋅ =⎜ ⎟⎜ ⎟⎝ ⎠

Deci ( )5 1,173 0,04 0,0041 0 0,1010

P p⎛ ⎞≥ = + + + >⎜ ⎟⎝ ⎠

. P = 0,213.

Deci, in ipoteza ca cele doua medicamente nu difera in ceea ce priveste probabilitatea aparitiei efectelor adverse in proportie mai mare de 5

10 este 0,213.

Ca urmare nu putem respinge ipoteza ca minimul de efecte adverse este mai mare in medicamentul testat decat in cel de referinta doar din intamplare.

Este de mentionat o restrictie importanta a testului Fisher si anume aceea ca numarul total de “cazuri” de un anumit tip este constant (in cazul nostru am ales in consecinta numai combinatiile pentru care numarul total de subiecti prezentand efecte adverse a fost egal cu 8 asa cum s-a obtinut in experiment ). De altfel, raportat la un experiment anterior acesta ar fi trebuit sa fie 6-7. Desi aceasta restrictie este bine cunoscuta ca incorecta, testul Fisher se aplica in toata lumea fara precautii in ceea ce priveste verosimilitatea asimilarii practic a tuturor sumelor marginale “constante”.

In continuare sa comparam rezultatul cu rezultatul obtinut din compararea proportiilor experimentale folosind aproximarea normala.

Pentru a verifica ipotezele 0 1 2

1 2

::A

H p p pH p p

= =>

cu α = 0,10, calculam

Page 217: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

215

( )

1 21 2

1 2

1 12 2

1 1ˆ ˆ1

p pn n

Z

p pn n

⎛ ⎞− − +⎜ ⎟

⎝ ⎠=⎛ ⎞

− +⎜ ⎟⎝ ⎠

, unde 114

101253ˆ

21

21

21

2211 =++

=++

=++

=nnkk

nnpnpnp

5 3 1 110 12 20 24 0,77

4 7 1 111 11 10 12

Z

⎛ ⎞− − +⎜ ⎟⎝ ⎠= =⎛ ⎞⋅ +⎜ ⎟⎝ ⎠

( ) ( )0,77 0,77 0,22P Z⟩ = Φ − = ceea ce este foarte apropiat de rezultatul

obtinut cu metoda Fisher. Mai departe comparam cele doua proportii de RA folosind testul 2χ . Revenim la tabel

3 9 125 5 108 14 22

si calculam valorile “asteptate” – pornind de la estimarea “combinata” a probabilitatii:

1 2

1 2

3 5 4ˆ12 10 11

k kpn n+ +

= = =+ +

Valorile asteptate vor fi

1 1

2 2

4ˆ( ) 12 4,36114ˆ( ) 10 3,64

11

E k n p

E k n p

= ⋅ = ⋅ =

= ⋅ = ⋅ =

Iar celelalte valori se obtin prin scadere din si . Deci, dupa scrierea datelor asteptate, tabelul devine:

1n 2n

3 (4,36) 9 (7,64) 125 (3,64) 5 (6,36) 10

8 14 22si mai departe:

Page 218: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

216

( ) ( ) ( ) ( ) ( )2 2 2 2 22 3 4,36 9 7,64 5 3,64 5 6,36

1,464,36 7,64 3,64 6,36

i i

i

O EE

χ− − − − −

= = + + +∑iO

=

= valorile observate

iE = valorile asteptate (expectation) Daca vom cauta in tabele, vom gasi ca valoarea de prag pentru

distributia 2χ cu un singur grad de libertate pentru aria de 0,90 este 2,71. Deoarece 1,46 este mai mic decat 2,71, se accepta ipoteza ca cele

doua proportii sunt egale sau, mai exact spus, nu se poate respinge ipoteza ca sunt egale.

Dupa cum s-a discutat la prezentarea testului 2χ aplicat in compararea proportiilor acesta este echivalent pentru un singur grad de libertate cu aplicarea distributiei normale. Valoarea obtinuta la aplicarea testului Z ridicata la patrat ar trebui sa dea valoarea obtinuta prin statistica

2χ , dar . 20,77 1,46≠ Daca insa, in calculul statisticii Z renuntam la aplicarea corectiei de

continuitate obtinem: 5 3 0

10 12 1, 214 7 1 1

11 11 10 12

Z− −

= =⎛ ⎞⋅ +⎜ ⎟⎝ ⎠

si . 46,121,1 2 ≈ Deci, testul 2χ este echivalent cu testul Z fara corectia de continuitate.

Page 219: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

217

2.16.2. Tabele de contingenta R x C Un tip special de experimente clinice este acela in care mai multe grupuri de subiecti sunt comparate in ceea ce priveste un raspuns , numit si ”marker” ce nu iau valori numerice ci un numar finit de stari cum ar fi agravat, neschimbat, vindecat, ameliorat.

Se poate intampla adesea ca si atunci cand raspunsul reprezinta o variabila aleatoare continua, din punct de vedere clinic sa fim interesati in incadrarea acestor valori in anumite intervale. Daca spre exemplu masuram viteza de sedimentare a hematiilor ( VSH ), dat fiind nespecificitatea acestui parametru sa ne fie mai util sa catgorisim valoare obtinuta ca normala ( de exemplu intre 0 si 5 mm/h), crescuta moderat ( 5 – 40 mm/h ) sau foarte mare ( peste 40 mm/h).

Uneori procesul este invers, de cuantificare a unor stari prin asocierea unor numere pe o anumita scara, de exemplu o scara vizuala privind durerea sau o scara de apreciere a eficientei unui tratament antireumatic, cum este de exemplu indicele WOMAC, ce vine sa integreze o serie mai mare de semne clinice mai mult sau mai putin subiective, mai mult sau mai putin corelate intre ele.

In toate cazurile de mai sus putem fi interesati in frecventa diferitelor raspunsuri in cadrul unor grupuri constituite ad-hoc in raport cu obiectivele studiului , de exemplu barbati – emei, lot tratat – lot netratat etc. La modul general, experimente de tipul celor de mai sus duc la niste tabele pe care se numesc tabele R x C , unde R este numarul de grupuri ( “row” ) si C numarul de coloane. Cazul cel mai simplu si de altfel si cel mai frecvent este cazul tabelelelor 2 x 2 , de exeplu vindecat, nevindecat sau toxic, non – toxic etc. Aceste tabele se mai numesc si “tabele de contingenta”, termenul de contingenta fiind etimologic unul preluat din geometrie ( tangent, cotangent etc). De regula, in aceste tabele suntem interesati sa verificam ipoteze privind proportiile privind prevalenta unor simpome sau efecte in aumite grupe si, in acest caz problema se reduce la compararea unor frecvente, care subiect a fost tratat la capitolul verificarea ipotezelor statistice. O formulare echivalenta, in contextul aranjarii rezultatelor in tabele, cu ipotezele privind frecventele , se refera la relatiile intre linii si coloane. Consideram spre exemplu un tabel generic privind rezultatele comparative, pe loturi paralele, obtinute cu doua medicamente, unul de referinta R, si unul testat T (tabelul 29).

Page 220: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

218

Tabel 29. Exemplu de tabel de contingenta 2x3

lipsa efect efect moderat vindecat R 20 30 40 T 15 30 50

Ipoteza nula ca tratamentele sunt echivalente se traduce in ipoteza

privind independenta liniilor, sau altfel spus, rezultatele nu implica diferente intre tratamente.

In fapt liniile nu depind de criteriile dupa care se face impartirea intre ele, nu depind de nivelele factorului dupa care se face clasificarea. In fond ele nu sunt independente intre ele ci, in ipoteza avem aceiasi linie indiferent de nivel.

0H

Relatiile intre liniile si coloanele tabelelor de contingenta pot fi testate cu ajutorul testului 2χ cu (R-1)(C-1) grade de libertate.

( )22

( 1)( 1)i i

R Ci

O EE

χ − −

−=∑

unde O sunt valorile observate iar E sunt valorile asteptate (“Expected”). Pentru calculul valorilor asteptate va trebui sa completam tabelul cu

totalul pe fiecare linie si coloana. Consideram pentru inceput un tabel 2x2 obtinut din tabelul29 prin considerarea numai a doua raspunsuri : “lipsa efect” si “vindecat” Tabel 30. Exemplu de tabel de contingenta 2x2

lipsa efect vindecat R 20 40 60 T 15 50 65 total 35 90 125

Rescriem tabelul sub o forma generica ( tabelul 31) Tabel 31. Tabel de contingenta 2x2 generic

lipsa efect vindecat R 1 1n k− 1k 1n T 2 2n k− 2k 2n total ( )1 2 1 2( )n n k k+ − + 1 2k k+ 1 2n n+

Page 221: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

219

Problema compararii celor doua tratamente o putem reduce la

compararea celor doua frecvente de pacienti vindecati 1

1

kn

si 2

2

kn

.

In acest scop presupunem ca cele doua variabile si sunt distribuite binomial cu acelasi parametru

1k 2kp ( proportia celor care raspund la

tratament). Dupa cum s-a aratat la capitolul privind distributia binomiala mediile si dispersiile sunt date de formulele ( )1 1E k n p= ; ( )2 2E k n p= ; ( )1 1D k n p= q ; ( )2 2D k n p= q

Dar, atunci cand p este mic 2(1 )npq np p np p np= − = − ≈ si deci ( ) ( )i iD k E k≈

Mai departe, cand este suficient de mare variabila aleatoare

standardizată

in( )( )

k E k k np k np O Eznpq np ED k

− − −= = ≈ =

− se aproximează ca

fiind normal repartizată.

In aceste conditii ( )2i i

i

O EE−

∑ este prin definitie repartizata 2χ

iar o estimare naturală a lui p este 21

21

nnkkp

++

= si respectiv

( ) ( )1 2 1 2

1 2

n n k kp

n n+ − +

=+

In particular cu datele din tabelul 2 vom avea p = 90/125=0.72si 35 0.28125

=

E(k1)= 60x90/125=43.2 E(k2)= 65x90/125=46.8 E( )=60x35/125=16.8 E(1n k− 1 22n k− )= 65x35/125=18.2 Formam acum un tabel completat cu valorile asteptate ( tabelul 32) Tabelul 32 Valorile observate si valorile asteptate

lipsa efect vindecat R 20 (16.8) 40 (43.2) 60 T 15 (18.2) 50 (46.8) 65 total 35 90 125

si calculam valoarea testului

Page 222: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

220

( ) ( ) ( ) ( )2 2 22

1

2

20 16.8 15 18.2 40 43.2 50 46.816.8 18.2 43.2 46.8

1 1 1 13.2 1.6216.8 18.2 43.2 46.8

χ− − − −

= + + +

⎛ ⎞+ + + =⎜ ⎟⎝ ⎠

2

=

Pentru o semnificatie de 95%, valoarea de prag a lui 21χ este 3.84 .

Deci putem spune ca liniile sunt independente si deci tratamentele sunt echivalente. Aplicatie:

Vom testa reactia diferitelor persoane la razele solare in functie de culoarea ochilor. Vom ordona 107 de subiecti in functie de culoarea ochilor (albastri, verzi si caprui). Fiecare subiect este expus razelor ultraviolete si sunt examinate reactiile adverse (jupuire, eritem, fara reactie) dupa 4 ore de expunere.

Valorile observate sunt prezentate in tabelul urmator: Reactii adverse Culoare ochilor Jupuire Eritem Non - reactie

Total

Albastri 25 28 6 59 Verzi 5 5 7 17 Caprui 6 10 15 31 Total 36 43 28 107

Valorile asteptate sunt prezentate in tabelul urmator: Reactii adverse Culoare ochilor

Jupuire Eritem Non - reactie Total

Albastri 85,19

10736*59 = 71,23

10743*59 = 44,15

10728*59 =

59

Verzi 72,5

10736*17 = 83,6

10743*17 = 45,4

10728*17 =

17

Caprui 43,10

10736*31 = 46,12

10743*31 = 11,8

10728*31 =

31

Total 36 43 28 107 Testul statistic este:

( )( )( ) ( ) ( ) ( ) 14,18

11,811,815...

71,2371,2328

85,1985,1925 2222

24

21313 =

−++

−+

−=

−== ∑−−

i

ii

EEO

χχ

Pentru un nivel de semnificatie 10,0=α avem si cum vom respinge ipoteza : reactia nu depinde de culoarea ochilor.

49,924 =χ

49,914,18 ⟩ 0H

Page 223: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

221

2.16.3.Teste de independenta la clasificarea dupa doua criterii Problema tabelelor de contingenta este problema demonstrarii

faptului ca doua criterii de clasificare introduse pe aceiasi populatie sunt independente.

Doua criterii se pot considera independente daca distributia dupa un criteriu este aceiasi indiferent daca mai aplicam sau nu si al doilea criteriu de clasificare.

De exemplu daca rezultatele obtinute prin aplizarea a doua tratamente si gruparea dupa varsta sunt independente , ne asteptam sa avem aceleasi proportii de ameliorari si/sau vindecari in toate grupele de varsta cu cele doua medicamente. Ipoteza nula este aceea ca cele doua criteriide clasificare sunt independente. Verificarea acestei ipoteze se face folosind exact acelasi test ca mai sus

( )22

( 1)( 1)i i

R Ci

O EE

χ − −

−=∑

dar interpretarile calculelor sunt diferite. Consideram din nou tabelul 30 , unde cele doua criterii de clasificare

sunt medicamentul administrat si efectul obtinut.

Tabelul 33. Clasificarea pacientilor dupa tratament si efecte lipsa efect efect moderat vindecat total R 20 30 40 90 T 15 30 50 95 total 35 60 90 185

Sa estimam probabilitatile asteptate in fiecare celula in conditiile incare cele doua criterii sunt independente ( ceea ce semnifica in fapt echivalenta medicamentelor R si T).

Estimam la inceput probabilitatile marginale, pornind de la totalurile marginale.

Probabilitatea ca un pacient luat la intamplare din lotul selectat sa nu prezinte o ameliorare a starii sale este de 35/90=0.39 ; probabilitatea ca la un subiect oarecare efectul sa fie moderat este 60/90=0.67 si probabilitatea vindecarii este 90/185. Similar, probabilitatile caun subiect sa fi primit medicamentul de referinta este 90/185 si respectiv 95/185 ca sa fi primit medicamentul testat.

Una din definitiile independentei a doua evenimente A si B este aceea ca ( ) ( ) ( )P A B P A P B∩ =

Page 224: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

222

In conditiile ipotezei nule ca cele doua siteme de clasificare ( efectul si medicamentul 0 sunt independente, pentru prima celula a tabelului rezulta:

( ) ( ) ( )

092.018590*

18535

*

==

==∩ RmedicamentPefectlipsaPRmedicamentefectlipsaP

Probabilitatea ca un subiect sa simta o ameliorare la administrarea

medicamentului R va fi 60 90185 185

si asa mai departe.

Valorile asteptate se obtin apoi prin inmultirea probabilitatii clasificarii intr-o celula data cu numarul total de subiecti deci , pentru prima celula avem 0.092*185=17 .

Observam ca aceasta valoare se poate calcula mai usor deoarece

18590*35185*

18590*

18535

= deci valoarea asteptata pentru o celula data se

poate obtine ca produsul intre totalurile marginale impartit la totalul general. Se observa ca am intrat deja in algoritmul prezentat anterior pentru

tabelele 2x2.

Page 225: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

223

2.16.4. Tabelele 2x2 corelate

In experimentul anterior, in fapt am comparat numarul de reactii adverse la doua grupuri paralele de subiecti. In evaluarea rezultatelor si in concluziile obtinute desigur ca un rol important l-a avut si intervariabilitatea subiectilor, care este in general destul de mare. Nu am avut nici o informatie privitoare la omogenitatea celor doua loturi.

Dupa cum s-a prezentat de mai multe ori in paginile anterioare, in experimentul biologic se recurge ori de cate ori este posibil la experimentul incrucisat, in care fiecare subiect este propriul sau martor.

O evaluare mult mai relevanta in ceea ce priveste efectele adverse comparative pentru cele doua medicamente o obtinem daca vom compara frecventa acestora la acelasi lot, sa zicem lotul 1 (de 12 subiecti) care in perioada a 1a a primit R si in perioada a 2a a primit T. Observam ca R a avut ra la 3 voluntari, iar T la 5 voluntari.

De fapt, la o examinare mai amanuntita rezultatele sunt conform tabelelor urmatoare: 1 2 3 4 5 6 7 8 9 10 11 12 R ra - - - ra - - - - ra - - T - ra - ra - - ra - - ra - ra

R

ra N- ra Total ra 1 4 5 T N- ra 2 5 7

Total 3 9 12 Deci un subiect a avut RA la amandoua medicamentele si 5 nu au

avut la nici unul din cele doua medicamente, comportamentul lor nu ne da informatii despre diferentele intre medicamente, ci numai despre toxicitatea substantei active. Informatia despre o eventuala diferenta este cuprinsa in intregime in celelalte doua cifre (2 si 4).

Daca medicamentele ar fi complet echivalente ar fi de asteptat ca numarul celor care au avut reactii adverse la R si nu au avut la T sa fie aproximativ egal cu numarul celor care au avut reactii adverse la T si nu au avut la R. Deci cei 6 subiecti ar trebui sa fie impartiti in medie la fel. Deci avem in fapt de evaluat tabelul:

ra la R si n-ra la T 2 ra la T si n-ra la R 4 Total 6

ra = reactii adverse n-ra = non-reactii adeverse

Page 226: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

224

Folosind direct distributia binomiala cu 12

p = si n = 6, obtinem:

( )2

0

2 k k n knP x C p q −≤ =∑ si deoarece p = q = 1

2

( ) ( )2

0 1 2 66

0

6 5 1 222 1 62 2 64

k nn n n nP X C p C C C p ⋅⎛ ⎞≤ = = + + ⋅ = + + = =⎜ ⎟

⎝ ⎠∑ 0,34

Sau folosind aproximarea normala:

( ) ( )0

1 12 3 0,52 22 01 1,564

x npP X

npq

⎛ ⎞⎛ ⎞+ − + −⎜ ⎟ ⎛ ⎞⎜ ⎟ −⎜ ⎟≤ = Φ = Φ = Φ = Φ − =⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎜ ⎟ ⋅⎜ ⎟⎝ ⎠ ⎝ ⎠

, 41 0,34

Deci acelasi rezultat. Concluzia este ca nu putem respinge ipoteza echivalentei celor 2

medicamente in ceea ce priveste reactiile adverse. Daca am fi aplicat un test de comparare tabelului aparent, de exemplu folosind aproximarea normala a datelor din tabel, am fi obtinut:

46,0143

314

121

121

121

121*

127*

124

241

241

123

125

≈==

⎟⎠⎞

⎜⎝⎛ +

−−−=Z ⇒ ( ) 32,046,0 =−θ

Concluzia este aceiasi ca nu se poate respinge ipoteza ca cele doua medicamente au avut proportii de substante active diferite doar din intamplare. In fapt, in esenta numarul de date este prea mic pentru a putea asuma, la un risc acceptabil, ca cele doua medicamente au toxicitate diferita.

Page 227: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

225

2.16.5. Teste de omogenitate In unele situatii practice, numarul subiectilor pentru fiecare nivel al

unuia din criterii este fixat dinainte. De exemplu numarul de barbati si numarul de femei inrolati in studiu sau numarul de subiecti pe diferite categorii de varste. Daca vom testa nivelele efectului unui medicament clasificarea dupa acest criteriu va fi o variabila aleatoare.

Problema pe care ne-o punem in acest caz este aceea a omogenitatii: sunt esantioanele omogene in raport cu un criteriu dat?

Ipoteza nula in acest caz este aceea ca toate esantioanele provin dintr-o populatie omogena si deci frecventele in interiorul celor doua grupe nu difera semnificativ. Exemplu

Consideram o clasificare a fumatorilor in ceea ce priveste numarul de tigari fumate si varsta. Fixam in prealabil numarul de subiecti din grupele de varsta 20-30, 30-40, 40-50, peste 50 ani si stabilim nivelele de fumatori 0-10, 10-20, peste 20 tigari/zi. Presupunem ca am obtinut tabelul de mai jos: Nr. tigari Varsta (ani) 20-30 30-40 40-50 > 50 total 0-10 20 30 40 50 140 10-20 30 40 30 30 130 > 20 50 50 50 20 170 total 100 120 120 100 440 Deci vom considera ipotezele: H0: cele 4 categorii de varsta sunt omogene in ceea ce priveste consumul de tigari. HA: cele 4 categorii de varsta nu sunt omogene in ceea ce priveste consumul de tigari.

Calculam ca mai sus valorile “asteptate”: valoarea asteptata va fi produsul totalurilor marginale, impartit la numarul total de subiecti.

Exemplu: in prima celula 100 140 31,8440

etc⋅= .

Intr-adevar, daca populatiile sunt omogene sau echivalente si toate esantioanele provin din aceeasi populatie in ceea ce priveste consumul de

Page 228: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Distributia binomiala

226

tigari, cea mai buna estimare a proportiei in totalul populatiei, a celor ce consuma mai putin de 10 tigari/zi este 100/440 acelasi pentru celelalte categorii de fumatori. Ne vom astepta in acest caz sa gasim de exemplu (100/440) ⋅140 fumatori 0-10 tigari in categoria de varsta 20-30 ani.

Page 229: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

227

2.17. APLICATII IN EPIDEMIOLOGIE 2.17.1. Studii cohort

Studiile epidemiologice se ocupa de punerea in evidenta a unor factori (de exemplu fumatul) care cresc riscul de aparitie a unor boli – de exemplu cancerul pulmonar. O abordare corecta a acestor studii trebuie sa se bazeze pe urmarirea in timp a doua loturi – unul expus la factorul considerat de risc si un lot martor care nu este expus factorului de risc. Un astfel de studiu se numeste studiu Cohort. Radacina indo-europeana “ghort” inseamna in esenta loc ingradit. In latina avem “hortus” – gradina, in limbile slave “gorod” – oras, in romana gard, in engleza “yard” – curte, etc.

Deci un studiu cohort indica faptul ca subiectii studiului sunt separati intr-un fel, ingraditi si urmariti. Aceste studii prezinta dezavantajul ca necesita un timp indelungat pentru a fi efectuate, pentru ca trebuie asteptat uneori un numar mare de ani. In cazul bolilor rare numarul subiectilor ce ar trebui urmariti pentru a se ajunge la un numar de bolnavi care sa permita evaluari statistice demne de incredere ar trebui sa fie urias. 2.17.2. Studii case – report

In locul studiilor prospective, controlate, pe subiecti sanatosi, se poate recurge la alte studii, retrospective – pe bolnavi, studii “case – report”, pe baza rapoartelor de caz, a fiselor de observatii si a altor documente.

In astfel de studii retrospective se compara numarul bolnavilor care au fost expusi la un factor de risc cu numarul bolnavilor care nu au fost expusi. In contextul aceluiasi exemplu dat mai sus, se compara numarul bolnavilor de cancer pulmonar fumatori, cu numarul bolnavilor care nu sunt fumatori. Lucrurile sunt ceva mai complexe in cazul celor care au fumat o perioada de timp si apoi s-au lasat, sau cazul celor care nu au fumat dar au fost expusi sistematic fumului de tigara.

Aparent celor doua tipuri de studii ar fi echivalente, dar de fapt nu sunt. Consideram urmatorul exemplu fictiv: se impart bolnavele de cancer de col uterin care au murit in primul an de la depistarea bolii – in doua categorii:

• prima categorie cele cere au numele Maria sau Ileana • a doua categorie cele care au alte nume

Rezultatul obtinut este acela ca numele Maria si Ileana creste semnificativ riscul de cancer.

Rezultatul este evident fals. Greseala nu este de statistica ci apare din aceea ca loturile nu sunt omogene in ceea ce priveste provenienta din

Page 230: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

228

mediul rural si din orase. Maria si Ileana sunt mai mult nume de la sate – acolo unde asistenta medicala este, din pacate, foarte precara. Depistarea bolii se face mai tarziu sau prea tarziu si tratamentul este si el “bolnav”.

Intr-un studiu prospectiv se poate urmari omogenitatea loturilor printr-o judicioasa stabilire a criteriilor de includere / excludere in / din studiu, ceea ce este mult mai dificil la un studiu preponderent “post – mortem”. 2.17.3. Evaluarea prospectiva (studii cohort) si retrospectiva (case - report) a riscului din cauza expunerii la un factor dat. Riscul expunerii.

Riscul expunerii se defineste prin formula ( )( )DPDPR

NE

E= se evalueaza

intr-un studiu prospectiv si este definit ca raportul dintre probabilitatea imbolnavirii celor expusi si probabilitatea imbolnavirii celor neexpusi

(E – expus, D – disease = boala) Dar, in case – study, noi nu expunem subiectii, ci consideram

bolnavi. Deci eveniment produs este boala, si obtinem: ( )•DP Pentru simplificare, ne situam in cazul bolilor rare ( ) 1=NDP Pentru probabilitatea de aparitie a bolii la cei expusi folosim formula

Bayes

( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( )( ) ( ) ( )EPDPEP

DPEPNDPEPDPEP

DPEPDPNDD

D

NDD

DE +

≅+

=

si, similar, la cei neexpusi:

( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( )( ) ( ) ( )NEPDPNEP

DPNEPNDPNEPDPNEP

DPNEPDP

NDD

D

NDD

DNE +

≅+

=

Inlocuind in raport se obtine

( ) ( ) ( ) ( ) ( )[ ]( ) ( ) ( )[ ] ( ) ( )DPNEPEPDPEP

NEPDPNEPDPEPR

DNDD

NDDD

++

=

si daca simplificam prin ( )DP , se obtine: ( ) ( ) ( ) ( )[ ]( ) ( ) ( )[ ] ( )NEPEPDPEP

NEPDPNEPEPR

DNDD

NDDD

++

=

Page 231: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

229

Riscul retrospectiv (“odds ratio”)

Consideram raportul “defectelor - odds ratio” OR care se obtine intr-un studiu retrospectiv (case-study):

Rapoartele odds sunt rapoartele intre proportia celor expusi si proportia celor de neexpusi in populatia de bolnavi si respectiv acelasi raport in populatia de sanatosi. Spre exemplu se considera proportia factorilor intr-un lot de bolnavi de cancer pulmonar si proportia fumatorilor intr-un lot din intreaga populatia. Raportul acestor proportii, numit odds ratio, este o masura a riscului de imbolnavire al celor expusi.

)()()()(

)()()(

)(

EPNEPNEPEP

NEPEP

NEPEP

ORNDD

NDD

ND

ND

D

D

==

In exemplul nostru:

=ORsanatosidepopulatiainrfumatoriloproportia

avibodepopulatiainrfumatoriloproportia ln

In cazul bolilor rare ar trebui determinat numarul de imbolnaviri intr-un lot expus comparativ cu un lot neexpus pe perioade foarte lungi ceea ce este foarte scump si, in general, nu este fezabil datorita iesirii din studiu a foarte multi dintre subiecti. In aceasta situatie insa, daca aproximam ca probabilitatea imbolnavirii este aproximativ zero ( ( ) 0≅DP ) si probabilitatea de neimbolnavire este aproape 1( ( ) 1≅NDP ), riscul obtinum retrospectiv OR este o estimare a riscului din cauza expunerii – R. Intr-adevar,

( ) ( ) ( ) ( )[ ]( ) ( ) ( )[ ] ( )

( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( )

( ) ( )( ) ( )NEPEP

NEPEPNEPEPNEPDPEPNEPEPDPNEPEP

NEPEPDPEPNEPDPNEPEP

RDND

NDD

DNDDD

NDDDD

DNDD

NDDD =++

=+

+=

Si comparand cele doua rezultate am obtinut ORR ≅

Page 232: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

230

2.17.4. Intervalul de incredere pentru riscul relativ estimat retrospectiv (odds ratio) in studiile de control de caz Riscul relativ estimat retrospectiv (“odds ratio” - OR) este intotdeauna pozitiv si rareori trece de 10. Distributia sa de probabilitate nu este normala la marimile de esantioane obisnuite. Transformarea logaritmica ( )ORln este de obicei folosita pentru a duce la distributii aproximativ normale.

Daca vom considera un lot testat si unul de referinta avem, dupa definitie:

1T

TT

pOp

=−

; 1

CC

C

pOp

=−

unde C = control si T = testat

( )( )11

TT

C C T

p pOORO p p

−= =

−C si ln ln ln ln ln

1 1CT

T CT C

ppOR O Op p

= − = −− −

Observam ca daca riscul nu difera in cele doua loturi, , o estimare a lui se obtine din frecventa

experimentala: 1 TOR p p= ⇔ = C OR

( )( )1

1

T

C T

p pOR

p p

−=

C unde T

TT

xpn

= si CC

C

xpn

=

Deoarece nu este normal distribuit se foloseste in practica

ORlnOR

In vederea obtinerii unei estimari a dispersiei lui aplicam asa zisa “metoda

lnORδ “

Metoda δ de calcul aproximativ a dispersiei unei functii f de variabila aleatoare x, ( )( )D f x prin dezvoltarea lui f in jurul lui μ :

( ) ( ) ( )( )f x f f xμ μ μ′= + −

( )( ) ( ) ( )( )E f x f fμ μ μ μ′= + −

( )( ) ( ) ( ) ( )( )( ) ( )( ) ( )2 22D f x E f x f E f x x f x D xμ μ⎡ ⎤′ ′= − = − =⎡ ⎤⎣ ⎦ ⎣ ⎦

In cazul in care ( ) ln1

pf pp

=−

vom avea:

Page 233: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

231

( )( ) ( ) ( )

( )( )

2

2

1ln ln *

1 1

11 1 1*1 1

p pp pD f p D pp p

p pp p n np p

⎡ ⎤′ ′ −⎛ ⎞ ⎛ ⎞⎢ ⎥= =⎜ ⎟ ⎜ ⎟⎢ ⎥− −⎝ ⎠ ⎝ ⎠⎣ ⎦

−⎛ ⎞= + =⎜ ⎟− −⎝ ⎠

n=

Aplicand regula in cazul nostrum se obtine formula lui Woolf:

( )( ) ( ) ( )1 1ln1 1

1 1 1 1 1 1 1 1 1 11 1

T T T C C C

T T T C C C

D ORn p p n p p

n p p n p p a b c d

= + =− −

⎛ ⎞⎛ ⎞= + + + = + +⎜ ⎟⎜ ⎟− −⎝ ⎠ ⎝ ⎠

+

Intervalul de incredere Intervalul de incredere de 95% este egal cu:

( )dcba

OR 111196,1ln +++±

Intervalul de incredere in scala originala de risc relativ estimat este prin urmare dat de [ ]UL OROR ; sau ( ) ( )[ ]UL OROR ee lnln ; unde si

sunt limitele inferioare si superioare ale lui ( )LORln

( UORln ) ( )ORln Observatie:

Intervalul [ ]UL OROR ; nu este simetric fata de media riscului relativ estimat. 2.17.5. Calcularea marimilor esantionului pentru estimarea unui risc relativ intr-un studiu case – report, cu o precizie data1

Se doreste o eroare mai mica de ε Se poate face o estimare a numarului de subiecti in ipotezele:

• Esantioanele sa fie egale nnn == 2 1

• Riscul relativ estimat este mai mare de 1.

ORW

OR

ORROLL

=−

ε

1 Woolf B. On estimating the relationship between blood group and disease, Human Genet., 19, 251-3, 1955

Page 234: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

232

( ) ( )

( )( ) ( )[ ] ( )[ ]

⎥⎥⎦

⎢⎢⎣

⎡−

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

−−−

−=−=

=−==−=⇒

ORSEzORSEzOROR

ORORLL

eORORee

eeWROOROR L

ln*ln*lnln

lnln

21

21

*

ˆ*

αα

ε

( ) ( )[ ] ( ) ( ) ⎭⎬⎫

⎩⎨⎧

⎥⎦

⎤⎢⎣

⎡−

+−

−=−=−−−

221121

21 1

1111*ln*1ln

PPPPnzORSEz ααε

Rezolvand obtinem:

( ) ( )( )[ ]2

2211

2

21

1ln11

11

ε

α

⎥⎦

⎤⎢⎣

⎡−

+−

=− PPPP

zn

2.17.6. Calcularea marimii esantioanelor pentru testarea ipotezelor privind riscul relativ estimat retrospectiv (OR)

Ipoteza nula este de obicei 1:0 =ORH Aceasta este echivalenta cu si ipoteza alternativa este 210 : PPH = 21: PPH A ≠

Prin urmare, pentru a calcula marimea esantioanelor necesare pentru testarea ipotezelor privind riscul relativ estimat retrospectiv, se poate folosi aceeasi abordare ca cea folosita la testarea ipotezei vs 210 : PPH =

Δ=− 21: PPH A Formula corespunzatoare este:

( )[ ] ( ) ( )[ ]

( )221

2

221112

11112

PP

PPPPzPPzn

−⎭⎬⎫

⎩⎨⎧

−+−+−

=−

−βα

, unde 2

21 PPP +=

In studiile de control a cazului, - rata de expunere de control este de obicei cunoscuta cu o precizie mare. In acest caz este folosita expresia modificata.

2P

( )[ ] ( ) ( )[ ]

( )221

2

22111222

11112

PP

PPPPzPPzn

−⎭⎬⎫

⎩⎨⎧

−+−+−

=−

−βα

Page 235: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

233

2.17.7. Originea conceptului OR (Odds Ratio) propusă de către Woolf. Woolf a ajuns la conceptul de odds ratio pornind de la studiul

datelor din literatură medicală referitoare la predispoziţia către anumite boli existentă la anumite grupe sanguine.

Mai mulţi cercetători au evidenţiat2 că există o predispoziţie către cancerul gastric la subiecţii cu grupa sangvină A şi o predispoziţie către ulcerul peptic la cei cu grupa sangvina 0 . Pentru cancer frecventele sunt de 2% si respectiv 1% si deci, pentru un lot de 5000 subiecti cu grupa A si 5000 de subiecti cu grupa 0 s-ar obtine rezultatele:

B+

(bolnavi cu cancer gastric) B- (control)

p (Procent de boala in grupa)

Grupa sangvina A 100 (a) 5000 (b) 2% Grupa sangvina 0 50 (c) 5000 (d) 1% Total 150 10.000 Consideram in continuare un studiu “retrospective” si calculam: • 1p proporţia celor cu grupa A în lotul de bolnavi:

1100 2150 3

p = =

• 2p proporţia celor cu grupa A în lotul control:

25000 1

10000 2p = =

Avem:

1 22 1 0,16673 2

p p− = − =

Consideram ca proportiile de 1% si 2% sunt adevarate si in cazul in care lotul de control include cele doua grupuri de sange in alt raport decat 1:1, de exemplu 9:1

B+

(bolnavi cu cancer gastric) B- (control)

Grupa sangvina A 180 (a) 9000 (b) Grupa sangvina O 10 (c) 1000 (d) 190 10.000

2 Aird I, Bentall HH, Roberts JAF: The relationship between cancer of stomach and the ABO blood groups, Brit Med J, 1, 799, 1953

Page 236: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

234

In acest caz :

1 2180 9000 0,047190 10000

p p− = − =

Intuitiv, dacă n-ar exista o predispoziţie pentru cancer de stomac la cei cu grupa A, cele două proporţii ar trebui să fie egale. Şi totuşi, după cum se poate observa, cele două proporţii din exemplul de mai sus diferă semnificativ. Acesta este un exemplu în care intuiţia sau logica convenţională ne poate induce în eroare şi în care metodele statistice ne pot veni în ajutor.

Woolf a observat deci că diferenţa între cele două proporţii depinde de numărul de subiecţi cu grupa A şi cu grupa 0 din lotul de control, deci diferă de la un studiu clinic la altul, chiar dacă rata specifică de atac în interiorul unui grup sangvin dat rămane constantă.

El a arătat deci, că dacă de exemplu în lotul de control avem 5000 de subiecţi cu grupa A, si 5000 de subiecţi cu grupa 0 se obţine un rezultat, şi în cazul în care există 9000 de subiecţi cu grupa A si respectiv 1000 de subiecţi cu grupa 0 se obtine un rezultat mult diferit de primul caz.. Rezultatele sunt foarte diferite în condiţiile în care proporţia de bolnavi în cele două grupe rămân constante 2% şi 1%.

În aceste condiţii el a propus înlocuirea testului de comparare a celor două proporţii aşa cum s-a enuţtat, cu compararea raportului ratelor de incidenţă 100/5000 şi 50/5000.

Ratele de incidenţă reprezintă proporţiile de bolnavi în cadrul grupei sangvine A (a/b) şi proporţia de bolnavi din cadrul grupei sangvine 0 (c/d):

a adcOR b bcd= =

Pentru compararea ratelor de incidenta, se testează ipotezele: vs 0 : 1H OR = 1 : 1H OR ≠

În studiile case-control (caz martor) OR (Odds Ratio) măsoară asocierea dintre o expunere şi riscul de dezvoltare a unei boli. În cazul bolilor rare, dupa cum s-a aratat mai sus, OR redă o estimare destul de precisă a riscului relativ (RR).

Page 237: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

235

2.17.8. Metoda Mantel-Haenszel de calcularea OR in studii case-control stratificate3

Cand avem mai multe studii clinice epidemiologice, de exemplu unul pe femei si unul pe barbati, in ipoteza ca nu exista diferente semnificative intre cele doua sexe in ceea ce priveste riscul unei anumite boli induse de un factor de risc dat, este natural sa reunim loturile si sa facem calculele pentru populatia reunita. Daca insa nu putem presupune acest lucru, o metoda alternativa de calcul este metoda Mantel-Haenszel .Metoda Mantel-Haenszel este folosită pentru a estima „pooled odds ratio” din mai multe straturi sau mai multe studii similare:

1

1

ki i

i iMH

ki i

i i

a dn

ORb cn

=

=

⎛ ⎞⎜ ⎟⎝=⎛ ⎞⎜ ⎟⎝ ⎠

∑⎠ n a b c d, unde ii i i i+ + + =

Strat / Studii Cazuri Control Total Expusi

1a 1b 11n Neexpusi

1c 1d 01n

1

Total 11m 01m 1n

......... ........................ ............ ............ ............. Expusi

ja jb 1 jn

Neexpusi jc jd 0 jn

j

Total 1 jm 0 jm jn

......... ........................ ............ ............ ............. Expusi

Ka Kb 1Kn Neexpusi

Kc Kd 0Kn

K

Total 1Km 0Km Kn

Notam ORi i= Ψ . Deoarece i ii

i i

a db c i i i i ia d b cΨ = si deci = Ψ

, avem:

3 Mantel N., Haenszel W, Statistical aspects of the analysis of data from retrospective studies of disease, JNCI 1959, 22:719-748

Page 238: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

236

i i i i i ii i

i i iMH i

i i i i j j

i i j j

a d b c b cn n nOR wb c b c b cn n n

Ψ Ψ= Ψ = = = = Ψ

∑ ∑∑ ∑

∑ ∑ ∑i ,

unde

i i

ii

j j

j

b cnw b c

n

=

∑ poate fi interpretata ca ponderea componentei in

suma.

Facem observatia ca ponderile sunt in fapt estimari ale inversului dispersiilor componentelor

iw

iΨ . In anumite conditii restrictive, aplicand metoda verosimilitatii

maxime se poate arata ca4 dispersia lui MHOR se calculează conform ecuaţiei:

( )( ) 112

1 11

12

1

* **ln

22

*

2

KKj j j j j j j jj j j j

j j j j jj j jMH

K KK j j j jj j

j jj jj j

Kj j j j

j j j

Kj j

j j

b c a d b c a da d a dn n n nn n

D ORa d b ca dn nn

b c b cn n

b cn

==

= ==

=

=

⎛ ⎞+ +++⎜ ⎟⎜ ⎟

⎝ ⎠= + +⎛ ⎞⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠⎝ ⎠

+

+⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠

∑∑

∑ ∑∑

Intervalul de încredere se poate obţine folosind ecuaţia:

( )( )2

exp logMH MHOR z D ORα

⎛ ⎞±⎜ ⎟⎝ ⎠

4 P.Silocks, An easy approad to the Robins – Breslow. Greendland variance estimation, Epid. Perspectives & Innov. 2, 2005 (http:www.epiperspectives.com/content/2/110)

Page 239: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

237

Exemplu . Consideram rezultate dintr-un studiu privind incidenta cancerelor de gura efectuat in Olanda

Femei Fumătoare Nefumătoare Total Paciente cu Leucoplakie localizare mucoasă obraji

6 5 11

Control (femei populaţie Olanda) 30.3 69.7 100 Total 36.3 74.7 111 Bărbaţi Fumători Nefumători Total Pacienţi cu Leucoplakie localizare mucoasă obraji

11 1 11

Control (bărbaţi populaţie Olanda) 36.7 63.3 100 Total 47.7 64.3 112

Vom aplica relatia 1

1

ki i

i iMH

ki i

i i

a dn

ORb cn

=

=

⎛ ⎞⎜ ⎟⎝=⎛ ⎞⎜ ⎟⎝ ⎠

∑⎠ in care avem:

1 6a = 2 11a =

1 5b = 2 1b =

1 30,3c = 2 36,7c =

1 69,7d = 2 63,3d =

1 111n = 2 112n = In cazul nostru obtinem:

1 1 2 2

1 2

1 1 2 2

1 2

6*69.7 11*63.3111 112 5.95*30.3 1*36.7111 112

MH

a d a dn nOR b c b cn n

+ += =

++=

deci riscul la nivelul intregii populatii este de circa 6 ori mai mare in cazul fumatorilor decat in cazul nefumatorior .

Page 240: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

TABELE STATISTICE

239

Tabele pentru z

z 0 1 2 3 4 5 6 7 8 9 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0754 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2258 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2518 0,2549 0,7 0,2580 0,2612 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2996 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4639 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993

Page 241: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

TABELE STATISTICE

240

3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995 3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997 3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998 3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000

Page 242: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

TABELE STATISTICE

241

Tabele pentru t

ν

55,0t 60,0t 70,0t 75,0t 80,0t 90,0t 95,0t 975,0t 99,0t 995,0t

1 0,158 0,325 0,727 1,000 1,376 3,08 6,31 12,71 31,82 63,66 2 0,142 0,289 0,617 0,816 1,061 1,89 2,92 4,30 6,96 9,92 3 0,137 0,277 0,584 0,765 0,978 1,64 2,35 3,18 4,54 5,84 4 0,134 0,271 0,569 0,741 0,941 1,53 2,13 2,78 3,75 4,60 5 0,132 0,267 0,559 0,727 0,920 1,48 2,02 2,57 3,36 4,03 6 0,131 0,265 0,553 0,718 0,906 1,44 1,94 2,45 3,14 3,71 7 0,130 0,263 0,549 0,711 0,896 1,42 1,90 2,36 3,00 3,50 8 0,130 0,262 0,546 0,706 0,889 1,40 1,86 2,31 2,90 3,36 9 0,129 0,261 0,543 0,703 0,883 1,38 1,83 2,26 2,82 3,25 10 0,129 0,260 0,542 0,700 0,879 1,37 1,81 2,23 2,76 3,17 11 0,129 0,260 0,540 0,697 0,876 1,36 1,80 2,20 2,72 3,11 12 0,128 0,259 0,539 0,695 0,873 1,36 1,78 2,18 2,68 3,06 13 0,128 0,259 0,538 0,694 0,870 1,35 1,77 2,16 2,65 3,01 14 0,128 0,258 0,537 0,692 0,868 1,34 1,76 2,14 2,62 2,98 15 0,128 0,258 0,536 0,691 0,866 1,34 1,75 2,13 2,60 2,95 16 0,128 0,258 0,535 0,690 0,865 1,34 1,75 2,12 2,58 2,92 17 0,128 0,257 0,534 0,689 0,863 1,33 1,74 2,11 2,57 2,90 18 0,127 0,257 0,534 0,688 0,862 1,33 1,73 2,10 2,55 2,88 19 0,127 0,257 0,533 0,688 0,861 1,33 1,73 2,09 2,54 2,86 20 0,127 0,257 0,533 0,687 0,860 1,32 1,72 2,09 2,53 2,84 21 0,127 0,257 0,532 0,686 0,859 1,32 1,72 2,08 2,52 2,83 22 0,127 0,256 0,532 0,686 0,858 1,32 1,72 2,07 2,51 2,82 23 0,127 0,256 0,532 0,685 0,858 1,32 1,71 2,07 2,50 2,81 24 0,127 0,256 0,531 0,685 0,857 1,32 1,71 2,06 2,49 2,80 25 0,127 0,256 0,531 0,684 0,856 1,32 1,71 2,06 2,48 2,79 26 0,127 0,256 0,531 0,684 0,856 1,32 1,71 2,06 2,48 2,78 27 0,127 0,256 0,531 0,684 0,855 1,31 1,70 2,05 2,47 2,77 28 0,127 0,256 0,530 0,683 0,855 1,31 1,70 2,05 2,47 2,76 29 0,127 0,256 0,530 0,683 0,854 1,31 1,70 2,04 2,46 2,76 30 0,127 0,256 0,530 0,683 0,854 1,31 1,70 2,04 2,46 2,75 40 0,126 0,255 0,529 0,681 0,851 1,30 1,68 2,02 2,42 2,70 60 0,126 0,254 0,527 0,679 0,848 1,30 1,67 2,00 2,39 2,66 120 0,126 0,254 0,526 0,677 0,845 1,29 1,66 1,98 2,36 2,62 ∞ 0,126 0,253 0,524 0,674 0,842 1,28 1,645 1,96 2,33 2,58

Page 243: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

TABELE STATISTICE

243

Tabele pentru 95,0F

2

ν

1 2 3 4 5 6 7 8 9 10

1 161 200 216 225 230 234 237 239 241 242 2 18,5 19,0 19,2 19,3 19,3 19,4 19,4 19,4 19,4 19,4 3 10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14

10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 28 4,20 3,43 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 ∞ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83

Page 244: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

TABELE STATISTICE

244

2

ν

12 15 20 24 30 40 60 120 ∞

1 244 246 248 249 250 251 252 253 254 2 19,4 19,4 19,5 19,5 19,5 19,5 19,5 19,5 19,5 3 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,53 4 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,63 5 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,40 4,37 6 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,70 3,67 7 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,23 8 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,93 9 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,75 2,71

10 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,58 2,54 11 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,45 2,40 12 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,34 2,30 13 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,25 2,21 14 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,18 2,13 15 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,11 2,07 16 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,06 2,01 17 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,01 1,96 18 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,97 1,92 19 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,93 1,88 20 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,90 1,84 21 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,87 1,81 22 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,84 1,78 23 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,81 1,76 24 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,79 1,73 25 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,77 1,71 26 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,75 1,69 27 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,73 1,67 28 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,71 1,65 29 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,70 1,64 30 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,68 1,62 40 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,58 1,51 60 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,47 1,39 120 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,35 1,25 ∞ 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,22 1,00

Page 245: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

TABELE STATISTICE

245

Tabele 2χ

Aria Numar grade de libertate 0,025 0,950 0,975 0,990 1 0 3,842 5,024 6,635 2 0,0501 5,992 7,378 9,210 3 0,216 7,815 9,348 11,345 4 0,484 9,488 11,143 13,277 5 0,831 11,071 12,833 15,086 6 1,237 12,592 14,449 16,812 7 1,690 14,067 16,013 18,475 8 2,180 15,507 17,535 20,090 9 2,700 16,919 19,023 21,666 10 3.247 18,307 20,483 23,209 11 3,816 19,675 21,920 24,725 12 4,404 21,026 23,337 26,217 13 5,009 22,362 24,736 27,688 14 5,629 23,685 26,119 29,141 15 6,262 24,996 27,488 30,578 16 6,908 26,296 28,845 32,000 17 7,564 27,587 30,191 33,409 18 8,231 28,869 31,526 34,805 19 8,907 30,144 32,852 36,191 20 9,591 31,410 34,170 37,566 21 10,283 32,671 35,479 38,932 22 10,982 33,924 36,781 40,289 23 11,689 35,173 38,076 41,638 24 12,401 36,415 39,364 42,980 25 13,120 37,653 40,647 44,314 26 13,844 38,885 41,923 45,642 27 14,573 40,113 43,195 46,963 28 15,308 41,337 44,461 48,278 29 16,047 42,557 45,722 49,588 30 16,791 43,773 46,979 50,892

Page 246: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

BIBLIOGRAFIE

247

1. W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 – 1, 1972. 2. F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947 3. W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am. Stat. Assoc.,47,583-621,1952 4. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973 5. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973 6. Chow, S.C. & Liu, J.P. (1992) Design and analysis of bioavailability and bioequivalence studies. New York, Marcel Dekker (cap. 3) [1]. 7. Saporta, C. (1990) Probabilité, Analyse des données et statistique. Paris, Ed. Technip (cap. 15) [2]. 8. Vaduva, I. (1970) Analiză dispersională. Bucureşti, Ed. Tehnică (cap. 4) [3]. 9. K.A.Brownlee, Statistical Theory and metodology in Science and Engineering, J. Wiley, New – York, 1960 10. D. Ceausescu, Tratarea statstica a datelor chimico – analitice, Ed. Tehnica, Bucuresti, 1973 11. M. Tiron, teoria erorilor de masurare si metoda celor mai mici patrate, Ed. Tehnica, Bucuresti, 1972 12. F. Gremy, D. Salmon, Bases statistiques pur la recherchemedicale et biologique, Dunod, Paris, 1969 13. M. R. Spiegel, Probability and statistique, McGraw – Hill, New – York, 1980 14. D. Ceausescu, Utilizarea statisticii matematice in chimia analitica, Ed. Tehnica, Bucuresti, 1980 15. M. Iosifescu, T. Postelnicu, Curs de biomatematica, Univ. Ecologica, Bucuresti, 1990 16. M. Iosifescu, Gh. Mihoc, R. Teodorescu, Teoria probabilitatilor si statistica matematica, Ed. Tehnica, Bucuresti, 1966 17. S. Bolton, Statistics, in Remington: The Science and Practice of Pharmacy, 9 – th ed., Mark publ., Easton, Pennsylvania, 1995 18. United States Pharmacopoeia, ed. XXIII, cap. Statistical Procedures for Bioequivalence Studies Using a Standard Two – treatment Crossover design, 1995 19. P. G. Welling, F.L.S. tse, S. Dighe, Pharmaceutical Bioequivalence, cap. 3, C.M. Metzler: Statistical criteria, M. Dekker, New – York, 1991

Page 247: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

BIBLIOGRAFIE

248

20. V.W.Steinijans, D. Hauschke, Update on the statistical analysis of bioequivalence studies, Int. J.Clin.Pharmacol. Ther. Toxicol,. 28(3), 105 – 110, 1990 21. M. Rowland (ed), Variability and Drug Therapy: Description, Estimation and Control, Raven Press, New York, 1985 22. S.C. Chow, J.P.Liu, Design and Analysis of Biovailability and Bioequivalence Studies, M. Dekker, London, New York, 1992 23. A. Rescigno. A. Marzo, U. Thyroff – Friesinger, A new measure of bioequivalence, 1 –st European Congress of Pharmacology, Milano, june 1995, poster nr. 19 24. A Marzo, Open questions in bioequivalence, 1 –st European Congress of Pharmacology, Milano, june 1995, poster nr. 18 25. E. Beyssac, C. Lauro. Marty, H-l Chabard, J-M Aiache, Study of bioequivalence metrics, 6-th European Biopharmaceutics and Pharmacokinetics, Atena, aprilie 1997 26. C. Mircioiu, V. Voicu: Degenerated, solutions of pharmacokinetics models for some lipophilic drugs, Canad. J. Physiol, Pharmacol. 72 (suppl.1), 305, 1994 27. C. Mircioiu, V. Voicu, M. Jiquidi: Mathematical algoritms and computer programs as source of variability in population drugs, 1-st Congress of the European Association for Clinical Pharmacology and Therapeutics, September, 27-30, 1995, Paris 28. C. Mircioiu: „Mathematical variability” in pharmacokinetics, 6-th Europ. Congress of Biopharmaceutics and Pharmacokinetics, Atena, 22-24 April 1996, Europ. J. Drug Metab. Pharmacokin. (special issue), abstract 371 29. Choi L., Caffo B., Rohde C., A survey of the likelihood approach to bioequivalence trials, Statistics in Medicine, 27 (2008), 4874 – 4894 30. Zhang Z., A law of Likelihood for composite hypotheses, ar Xiv:0901.0463 (math. ST) 31. W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 – 1, 1972 32. F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947 33. W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am. Stat. Assoc.,47,583-621,1952 34. W.H.Kruskal, W.A.Wallis; Use of ranks in the one – criterion analysis of variance, J.Am.Stat.Assoc.,47,583-621,1952 35. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973

Page 248: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

BIBLIOGRAFIE

249

36. R.A.Fischer, Statistical Methods for Research Works, 13-th Editions, Hafner, New York, 1958 37. C. Mircioiu, V.A.Voicu, Difficulties in applying BE rules. Drugs with active metabolites, Biointernational 2005, Octomber 24th-26th, London 38. J. Grizzle, Two period change-over design and its use in clinical trials, Biometric, 21, 467-480, 1965 39. C.Metzler, Bioavailabity: a problem of equivalence, Biometrics, 30, 209-317, 1974 40. Sam H. Haidar, Hyojong (Hue) Kwon, Robert Lionberger and Lawrence Yu, Biopharmaceutics Applications in Drug Development, J.E. Henney, JAMA 282: 1995, 1999 41. Salim Yusuf: Overview of Result of Randomized Clinical Trials in Heart Disease. II. Unstable Angina, Heart Failure, Primary Prevention with Aspirin and Risk Factor Modification, JAMA 260 (15), 2259-2263, 1988 42. James A. Reiffel, Peter R. Kowey, Generic Antiarrythmics Are Not Therapeutically Equivalence for the Treatment of Tachyarrhythmias, The American Journal of Cardiology, vol. 85, may 1, 2000 43. Woolf B. On estimating the relationship between blood group and disease, Human Genet., 19, 251-3, 1955 44. Aird I, Bentall HH, Roberts JAF: The relationship between cancer of stomach and the ABO blood groups, Brit Med J, 1, 799, 1953 45. Mantel N., Haenszel W, Statistical aspects of the analysis of data from retrospective studies of disease, JNCI 1959, 22:719-748 46. P.Silocks, An easy approad to the Robins – Breslow. Greendland variance estimation, Epid. Perspectives & Innov. 2, 2005 (http:www.epiperspectives.com/content/2/110) 47. C.Mircioiu, Statistica aplicata in farmacie si studii clinice, Ed. Universitara Carol Davila, Bucuresti, 2007

Page 249: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

CUPRINS

I. ELEMENTE DE TEORIA PROBABILITATILOR 1.1. Campuri de probabilitate 1 1.1.1. Corp borelian 2 1.1.2. Spatii masurabile 3 1.1.3. Probabilitate 5 1.1.4. Probabilitate conditionata 7 1.1.5. Formula probabilitatii cauzelor (Bayes) 7 1.2. Variabile aleatoare 11 1.2.1. Definitie 11 1.2.2. Operatii cu variabile aleatoare 11 1.2.3. Functia de repartitie 12 1.2.4. Densitatea de repartitie 13 1.2.5. Valoarea medie 14 1.2.6. Dispersia 16 1.2.7. Inegalitatea lui Cebasev 18 1.2.8. Teorema lui Bernoulli (legea numerelor mari) 19 1.3. Distributii de probabilitate 21 1.3.1. Distributia normala 21 1.3.2. Distributia binomiala 23 1.3.3. Distributia Poisson 24 1.3.4. Aproximarea normala a distributiei binomiale 25 1.3.5. Repartitia χ2 Helmert - Pearson 25 1.3.6. Repartitia STUDENT 27 1.3.7. Repartiţia F (Behrens - Fisher – Snedecor) sau distribuţia

raportului a două dispersii 28

II. STATISTICA MATEMATICA SI BIOSTATISTICA 2.1. Teorema limita centrala (A.M.Leapunov) 29 2.2. Teorema lui Cebâşev 29 2.3. Metoda verosimilitatii maxime 30 2.4. Teoria selectiei 31 2.4.1. Populatii si selectii. Inferenta statistica 36 2.4.2. Media de selectie 38 2.4.3. Dispersia de selectie 39 2.4.4. Covarianta de selectie 39 2.4.5. Coeficientul de corelatie de selectie 40 2.4.6. Proprietati ale caracteristicilor de selectie 41

251

Page 250: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

CUPRINS

2.5. Estimatii 44 2.5.1. Estimarea intervalului de incredere pentru medii 45 2.5.2. Estimarea intervalului de încredere α−1 pentru diferenţei a

două medii 47

2.5.3. Estimarea intervalelor de încredere pentru dispersie 50 2.5.4. Estimarea intervalului de încredere raportul a două dispersii 50 2.5.5. Utilizarea intervalelor de încredere în studiile de comparare

a biodisponibilităţii medicamentelor 51

2.6. Verificarea ipotezelor statistice 53 2.6.1. Ipoteze asupra mediei 54 2.6.2. Ipoteze asupra diferenţelor a două medii 56 2.6.3. Estimarea dispersiei 58 2.6.3.1 Estimarea raportului a doua dispersii 58 2.6.3.2 Compararea mai multor dispersii: testul Bartlett, testul rapid

Cochran, testul Hartley 59

2.6.3.3 Utilizarea testului t in analiza comparativa a medicamentelor 60 2.7. Teste neparametrice 63 2.7.1. Media si dispersia unui esantion dintr-o populatie finita 64 2.7.2. Testul de rang Wilcoxon 67 2.7.3. Ajustarea pentru valori egale in testul Wilcoxon 70 2.7.4. Teste referitoare la perechi de observatii 71 2.7.4.1 Testul semnelor 71 2.7.4.2 Testul Wilcoxon pentru observatii perechi 73 2.7.4.3 Testul H 74 2.7.5. Alegerea intre testele laplaciene si testele neparametrice 76 2.7.6. Analiza de variatie pe doua cai a rangurilor. Testul

Friedman 77

2.8. Regresia liniara 79 2.8.1. Estimatii si ipoteze asupra coeficientului b 79 2.8.2. Estimarea dispersiei punctelor dreptei de regresie 84 2.8.3. Calculul intervalelor de încredere pentru dreapta de regresie

în cazul stabilităţii formelor farmaceutice 86

2.8.4. Studiul stabilităţii medicamentelor 88 2.8.5. Regresia ponderata 89 2.8.6. Analiza reziduala in testarea ipotezelor privind corelatia 95 2.8.7. Stabilirea dreptei de regresie in bioanalitica 100

252

Page 251: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

CUPRINS

2.9. Metode statistice de analiza factorilor de variabilitate in

experimentul biologic (ANOVA) 105

2.9.1. Analiza functionala unifactoriala 106 2.9.1.1 Aplicarea ANOVA in testarea ipotezei privind depdendenta

liniara a datelor 109

2.9.1.2 Compararea parametrilor farmacocinetici ai unui medicament dupa administrarea pe mai multe cai

110

2.9.1.3 Conditii necesare pentru aplicarea analizei dispersionale 112 2.9.2. Analiza dispersionala multifactoriala 114 2.9.2.1 Modelul variabilei aleatoare 116 2.9.2.2 Scindarea sumei patratelor abaterilor 117 2.9.2.3 Variatia unui parametru farmacocinetic atat in functie de calea

de administrare cat si in functie de numarul de administrari 118

2.9.2.4 Compararea biodisponibilitatii unei substante active administrate in preparate diferite si in perioade diferite de tratament

120

2.10. Estimarea efectelor intr-un experiment standard cross – over

– prin teste t 121

2.10.1. Modelul statistic 121 2.10.2. Testarea efectului secventei de administrare 122 2.10.3. Efectul direct al medicamentului 125 2.10.4. Efectul perioadei 129 2.11. Estimarea efectelor prin ANOVA 131 2.11.1. Modelul statistic general 131 2.11.2. ANOVA in cazul unui studiu privind bioechivalenta a doua

medicamente, incrucisat, cu 2 perioade si 2 secvente 134

2.11.3. Calculul variabilitatii interindividuale 137 2.11.4. Calculul efectelor de secventa 138 2.11.5. Analiza efectelor fixe cu ajutorul dispersiilor 139 2.12. Legatura intre ANOVA si testul t in compararea efectelor 143 2.12.1. Compararea intre modelul statistic general si modelul

statistic specific „cross – over” 143

2.12.2. Testarea efectului secventei de administrare folosind metoda ANOVA

143

2.12.3. Testarea efectului perioadei folosind ANOVA 144

253

Page 252: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

CUPRINS

2.13. Estimarea bioechivalentei 147 2.13.1. Metode parametrice de estimare a bioechivalentei 147 2.13.1.1 Metoda intervalului de incredere 147 2.13.1.2 Metoda celor „doua testari unilaterale” Schuirmann 147 2.13.1.3 Transformarea logaritmica a datelor 148 2.13.2. Metode non-parametrice de estimare a bioechivalentei 149 2.13.3. Compararea rezultatelor metodelor parametrice si non –

parametrice in estimarea bioechivalentei unor forme farmaceutice cu meloxicam

151

2.13.3.1 Estimarea egalitatii mediilor plasmatice folosind testul “non – parametric” Wilcoxon

153

2.13.3.2 Estimarea bioechivalentei prin calculul “non – parametric” al intervalelor de incredere

156

2.13.3.3 Estimarea bioechivalentei folosind testul non – parametric Wilcoxon, pornind de la un model care ia in considerare si efectele de perioada

159

2.13.3.4 Calculul parametric 163 2.13.4. Compararea rezultatelor 165 2.14. Teste statistice de discordanta 167 2.14.1. Constructia testelor de discordanta 168 2.14.2. Criteriul Dixon de respingere a outliers 175 2.14.3. Valori discordante fata de corelatia liniara 176 2.14.3.1 Drepte si puncte discordante 179 2.14.3.2 Voluntari discordanti in studii de bioechivalenta 180 2.15. Puterea testului. Calculul numarului de voluntari 185 2.15.1. Estimarea parametrilor. Calculul esantionului minim pentru

obtinerea unei estimari a mediei cu o precizie fixata 185

2.15.2. Testarea ipotezelor. Calculul numarului de voluntari in functie de probabilitatile erorilor de tipul I si tipul II fixate in prealabil

186

2.15.3. Testarea ipotezei privind media unui lot 187 2.15.4. Testarea pentru compararea mediilor a doua populatii 190 2.15.5. Compararea a doua proportii 194 2.15.6. Marimea esantionului pentru comparari de mai multe medii

prin analiza dispersionala (ANOVA) 194

2.15.7. Modelul cross – over. Ipoteze punctuale privind egalitati 195 2.15.8. Calculul comparativ al numarului de subiecti necesari in

testarea bioechivalentei terapeutice a medicamentelor 201

2.15.8.1 Calculul in testarea bioechivalentei 201 254

Page 253: Statistica Aplicata in Farmacie Si Studii Clinice Ed 2

CUPRINS

2.15.8.2 Calculul in testarea echivalentei clinice 202 2.15.8.3 Cazul compararii efectelor clinice 203 2.15.8.4 Cazul aspirinei. 207 2.15.8.5 Calculul numarului de subiecti necesari demonstrarii

echivalentei terapeutice a doua medicamente care sunt bioechivalente

209

2.16. Distributia binomiala 211 2.16.1. Compararea proportiilor cu testul exact Fisher 211 2.16.2. Tabele de contingenta R x C 217 2.16.3. Teste de independenta la clasificarea dupa doua criterii 221 2.16.4. Tabelele 2x2 corelate 223 2.16.5. Teste de omogenitate 225 2.17. Aplicatii in epidemiologie 227 2.17.1. Studii cohort 227 2.17.2. Studii case – report 227 2.17.3. Evaluarea prospectiva (studii cohort) si retrospectiva (case -

report) a riscului din cauza expunerii la un factor dat 228

2.17.4. Intervalul de incredere pentru riscul relativ estimat retrospectiv (odds ratio) in studiile de control de caz

230

2.17.5. Calcularea marimilor esantionului pentru estimarea unui risc relativ estimat intr-un studiu case – report, cu o precizie data

231

2.17.6. Calcularea marimii esantioanelor pentru testarea ipotezelor privind riscul relativ estimat retrospectiv (OR)

232

2.17.7. Originea conceptului OR (Odds Ratio) propusă de către Woolf

233

2.17.8. Metoda Mantel-Haenszel de calcularea OR prin combinarea mai multor experimente clinice

235

Anexe Tabele statistice pentru z 239 Tabele statistice pentru t 241 Tabele statistice pentru Fischer 243 Tabele statistice pentru 2χ 245 Bibliografie 247 Cuprins 251

255