teste de ipoteze

16
Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007 1 1.1. TESTE DE IPOTEZĂ Concepte de bază în evidenţa (siguranţa) statistică În statistică obiectivul fundamental constă în luarea unei decizii, chiar în cazul existenţei unei incertitudini. Decizia luată trebuie să fie corectă şi independentă (pe cât posibil) de lipsa de cunoştinţă - materializată prin incertitudine. În cazul testelor de ipoteză problema de bază constă în elaborarea regulilor de decizie în aşa fel încât, dintre variantele posibile să se aleagă concluzia corectă cu o probabilitate acceptată ca satisfăcătoare. Se emit mai multe ipoteze şi prin decizie se acceptă doar o ipoteză care se încadrează în probabilitatea stabilită. Ipoteza statistică reprezintă o presupunere asupra parametrilor uneia sau unor repartiţii sau chiar asupra repartiţiei în sine (spre exemplu, egalitatea mediilor a două populaţii, a dispersiilor, a proporţiilor, verificarea formei normale a unei repartiţii, etc.). Testele statistice reprezintă metode matematice de verificare a ipotezelor statistice. Prin acestea se doreşte examinarea unei ipoteze care apoi se aplică populaţiei de date dacă este confirmată a fi adevărată. Testarea se face pe baza eşantionului de date. Astfel, orice decizie comportă un anumit risc. Decizia se ia asupra întregii populaţii, deci constituirea eşantionului este de importanţă majoră. În enunţarea unei ipoteze există două posibilităţi: Ipoteza nulă notată H 0 , în care parametrii de comparat se consideră egali. Spre exemplu, media populaţiei 1 având date în eşantionul 1 este egală cu media populaţiei 2 caracterizată de eşantionul 2. 2 1 0 : μ μ = H . Aceasta arată lipsa diferenţelor parametrilor examinaţi sau a existenţei unei relaţii. Ipoteza alternativă în care se consideră cei doi parametri diferiţi. 2 1 1 : μ μ H . Această ipoteză este contrară ipotezei nule şi arată existenţa diferenţelor sau a relaţiilor posibile între parametri. Se creează apoi funcţia discriminantă statistică (forma matematică a testului), a cărei valoare calculată se compară cu valori tabelate corespunzătoare tipului de repartiţie în care se încadrează. Pe scurt, etapele de urmat în verificarea prin test statistic vor fi: 1. Enunţarea ipotezei. Se definesc ipotezele: nulă, respectiv alternativă. Acestea urmăresc scopul cercetării, exprimând ceea ce avem de verificat. 2. Alegerea parametrului de studiu (poate să fie conţinut implicit în enunţarea ipotezei). Ca exemple avem: media, varianţa, relaţia exprimată prin corelaţie, parametrii de regresie, proporţii în cadrul populaţiilor, etc. 3. Deducerea şi calculul statisticii discriminante dorite aplicând regula de decizie. De exemplu, la compararea mediilor se poate lua în calcul o nouă variabilă aleatoare definită ca diferenţa între indicatori. În acest caz aceasta poate urma o distribuţie de tip t (Student) sau Z, deci normală. 4. Acceptarea sau respingerea ipotezei prin calculul semnificaţiei p. Se calculează statistica (t, Z sau Fisher spre exemplu) din datele eşantioanelor de lucru. Corespunzător se deduce valoarea p, care reprezintă probabilitatea de a avea o eroare de tip I. Aceasta este o integrală în cadrul distribuţiei de frecvenţă determinate şi reprezintă semnificaţia testului. Ca idee de bază, trăsătura populaţiei studiate care este cuprinsă în eşantionul analizat (tehnica de determinare a volumului eşantionului şi a elementelor sale este crucială) poate reprezenta o caracteristică majoritară, care dacă este observată în proporţie de 95% (definită ca standard), atunci este acceptată. În situaţia în care nu este întâlnită în această proporţie (de exemplu avem doar 90% din cazuri ce respectă regula), vom accepta mai degrabă ipoteza alternativă, deoarece variaţia întâlnită (chiar dacă este în proporţie de numai 10%) implică existenţa unui factor ce a modificat trăsătura. Semnificaţia statistică este nivelul de probabilitate la care acceptăm eroarea de tip I (este eroarea de a decide greşit că H 1 este adevărată, deci există diferenţă falsă). Aceasta este considerată puternică dacă are

Upload: ipaperrr

Post on 07-Aug-2015

157 views

Category:

Documents


5 download

DESCRIPTION

curs informatica an 1 UMF

TRANSCRIPT

Page 1: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

1

1.1. TESTE DE IPOTEZĂ

Concepte de bază în evidenţa (siguranţa) statistică

În statistică obiectivul fundamental constă în luarea unei decizii, chiar în cazul existenţei unei incertitudini. Decizia luată trebuie să fie corectă şi independentă (pe cât posibil) de lipsa de cunoştinţă - materializată prin incertitudine.

În cazul testelor de ipoteză problema de bază constă în elaborarea regulilor de decizie în aşa fel încât, dintre variantele posibile să se aleagă concluzia corectă cu o probabilitate acceptată ca satisfăcătoare.

Se emit mai multe ipoteze şi prin decizie se acceptă doar o ipoteză care se încadrează în probabilitatea stabilită.

Ipoteza statistică reprezintă o presupunere asupra parametrilor uneia sau unor repartiţii sau chiar asupra repartiţiei în sine (spre exemplu, egalitatea mediilor a două populaţii, a dispersiilor, a proporţiilor, verificarea formei normale a unei repartiţii, etc.).

Testele statistice reprezintă metode matematice de verificare a ipotezelor statistice. Prin acestea se doreşte examinarea unei ipoteze care apoi se aplică populaţiei de date dacă este confirmată a fi adevărată. Testarea se face pe baza eşantionului de date. Astfel, orice decizie comportă un anumit risc. Decizia se ia asupra întregii populaţii, deci constituirea eşantionului este de importanţă majoră.

În enunţarea unei ipoteze există două posibilităţi: – Ipoteza nulă notată H0, în care parametrii de comparat se consideră egali. Spre exemplu, media

populaţiei 1 având date în eşantionul 1 este egală cu media populaţiei 2 caracterizată de eşantionul 2.

210 : µµ =H .

Aceasta arată lipsa diferenţelor parametrilor examinaţi sau a existenţei unei relaţii. – Ipoteza alternativă în care se consideră cei doi parametri diferiţi.

211 : µµ ≠H . Această ipoteză este contrară ipotezei nule şi arată existenţa diferenţelor sau a relaţiilor posibile între

parametri. Se creează apoi funcţia discriminantă statistică (forma matematică a testului), a cărei valoare calculată

se compară cu valori tabelate corespunzătoare tipului de repartiţie în care se încadrează. Pe scurt, etapele de urmat în verificarea prin test statistic vor fi:

1. Enunţarea ipotezei. Se definesc ipotezele: nulă, respectiv alternativă. Acestea urmăresc scopul cercetării, exprimând ceea ce avem de verificat.

2. Alegerea parametrului de studiu (poate să fie conţinut implicit în enunţarea ipotezei). Ca exemple avem: media, varianţa, relaţia exprimată prin corelaţie, parametrii de regresie, proporţii în cadrul populaţiilor, etc.

3. Deducerea şi calculul statisticii discriminante dorite aplicând regula de decizie. De exemplu, la compararea mediilor se poate lua în calcul o nouă variabilă aleatoare definită ca diferenţa între indicatori. În acest caz aceasta poate urma o distribuţie de tip t (Student) sau Z, deci normală.

4. Acceptarea sau respingerea ipotezei prin calculul semnificaţiei p. Se calculează statistica (t, Z sau Fisher spre exemplu) din datele eşantioanelor de lucru. Corespunzător se deduce valoarea p, care reprezintă probabilitatea de a avea o eroare de tip I. Aceasta este o integrală în cadrul distribuţiei de frecvenţă determinate şi reprezintă semnificaţia testului.

Ca idee de bază, trăsătura populaţiei studiate care este cuprinsă în eşantionul analizat (tehnica de

determinare a volumului eşantionului şi a elementelor sale este crucială) poate reprezenta o caracteristică majoritară, care dacă este observată în proporţie de 95% (definită ca standard), atunci este acceptată. În situaţia în care nu este întâlnită în această proporţie (de exemplu avem doar 90% din cazuri ce respectă regula), vom accepta mai degrabă ipoteza alternativă, deoarece variaţia întâlnită (chiar dacă este în proporţie de numai 10%) implică existenţa unui factor ce a modificat trăsătura.

Semnificaţia statistică este nivelul de probabilitate la care acceptăm eroarea de tip I (este eroarea de a decide greşit că H1 este adevărată, deci există diferenţă falsă). Aceasta este considerată puternică dacă are

Page 2: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

2

valoarea p=5% (deci 95% din cazuri nu s-au modificat), este definită ca medie pentru valori între 5-10% (deci peste 90% de cazuri nemodificate) şi nu este acceptată pentru p>10% (deci sub 90% din cazuri nemodificate).

Dacă nu acceptăm ipoteza nulă, înseamnă că alternativa a fost dovedită, dar nu cu 95% încredere. Aici nu trebuie gândit complementar. În figura 2.8 1 se observă că în funcţie de pragul ales suprafeţele α , respectiv β ce reprezintă erori, nu sunt egale. Faptul că testul a ieşit semnificativ implică existenţa datelor modificate peste o limită admisă ca normală, deci acceptăm schimbarea ca fiind datorată probabil unor elemente care şi-au impus efectul (acceptăm ipoteza H1).

Există o variaţie intrinsecă a datelor care motivează practic obiectul de analiză al statisticii. Această variaţie impune limitele definite de valoarea semnificaţiei de 5%. Pentru valori diferite ale varianţei vom avea de exemplu, valori diferite corespunzătoare abscisei de tip Z sau t.

Lucrând cu o probabilitate de 95% avem deja anumite riscuri. Chiar dacă un procent destul de mare de date au o anumită caracteristică, aceasta nu înseamnă că toate elementele populaţiei vor păstra proprietatea. Evident şi normal de anticipat, aşteptăm ca o proporţie de 5% din date să fie „anormale”. Trebuie să fim pregătiţi să tratăm problema exhaustiv şi să ţinem cont de această posibilitate – cazurile limită.

Metoda de lucru constă în determinarea distribuţiei, urmată de statistica creată prin scopul nostru. Spre exemplu, dacă dorim să studiem diferenţa mediilor a două populaţii, atunci în mod generic, putem produce un număr mare de eşantioane iar diferenţa mediilor acestora va defini statistica de lucru. Avem practic un nou set de date care respectă o anumită lege de distribuţie ce ne ajută în determinarea semnificaţiei statistice căutate.

Testele de ipoteză sunt foarte importante deoarece reprezintă o metodă statistică de decizie bazată pe „cântărirea” cunoştinţelor obiective, prin estimări probabilistice asupra setului de valori determinate practic.

Erori posibile

După cum s-a prezentat deja, există două ipoteze în testele statistice şi anume ipoteza nulă notată H0, respectiv cea alternativă notată H1.

Se pot comite în această situaţie două erori : Eroare de tip I – să se accepte în mod greşit ipoteza alternativă H1, când în realitate H0 este adevărată. Eroare de tip II – să se accepte în mod greşit ipoteza nulă H0, când în realitate H1 este adevărată. Situaţiile posibile sunt prezentate în tabelul de mai jos. Tabelul 2.8 1.

Sistem decizional cu prag Situaţie adevărată

Ipoteza H0 este

adevărată Ipoteza H0 este

falsă

Dec

izie

pr

in te

st Acceptare

ipoteză H0 Nu există eroare

Eroare tip II

β

Respingere

ipoteză H0

Eroare tip I α

Nu există eroare

Este de dorit ca aceste erori să fie cât mai mici posibil. Se cunoaşte că există o legătură invers proporţională între ele. Putem micşora eroarea α dar drept consecinţă, eroarea de tip II se va mări într-o anumită măsură (fig. 2.8 1). Încercând să scădem valoarea β obţinem o creştere a erorii de tip I. Este clar că efectele sunt contradictorii şi un compromis trebuie acceptat, funcţie de scopul urmărit.

Parametrii distribuţiilor estimate depind de volumul eşantioanelor cercetate. În concluzie, pentru a micşora ambele erori şi a elimina pe cât posibil efectul nedorit al lipsei de informaţie vom folosi volume mari de date care vor duce la scăderea în special a erorii de tip II. Astfel, vom putea modifica pragul notat d pentru a micşora şi eroarea de tip I.

Grafic, putem reprezenta problema prin două curbe Gauss-Laplace care se suprapun pe o anumită porţiune (fig. 2.8 1).

Avem două distribuţii conform celor două ipoteze posibile. Pragul decizional (d) poate fi ales funcţie de dorinţe. Se observă cu claritate dependenţa invers proporţională între cele două erori materializate prin suprafeţele α respectiv β ce reprezintă în fapt probabilităţi. Dacă deplasăm dreapta de decizie d în stânga,

atunci micşorăm suprafaţa notată β , dar mărim suprafaţa α ce defineşte eroarea de tip I.

Page 3: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

3

Cu cât cele două distribuţii se suprapun mai puţin cu atât erorile de decizie sunt mai mici.

Figura 2.8 1 – Distribuţiile pentru cele două ipoteze. A este distribuţia ce susţine H0, B este

distribuţia ce susţine H1.

Regiunea de acceptare / respingere a ipotezei nule

În cadrul testelor statistice o temă importantă constă în formarea regulilor de decizie. Se definesc astfel două regiuni, numite de acceptare, respectiv de respingere a ipotezei nule.

În continuare ne interesează dacă în cazul ipotezei contează doar existenţa diferenţei dintre indicatori sau, varianta a doua, ne interesează şi direcţia diferenţei adică ipoteza alternativă prezintă semnul „mai mare” sau doar „mai mic”.

Dacă suntem în primul caz şi doar existenţa diferenţei este importantă, avem în lucru un test cu semnificaţie bilaterală. Acesta se aplică în situaţiile în care ipoteza alternativă conţine variantele posibil mai mare şi posibil mai mic. De exemplu, pentru compararea mediilor, ipoteza susceptibilă H1 poate avea formele m1>m2, respectiv m1<m2.

Figura 2.8 2 - Regiunea de

acceptare/respingere pentru

încredere bilaterală

Pentru situaţia în care avem un singur prag de decizie, ne interesează dacă variabila studiată are valori mai mici (sau mai mari) decât o valoare cunoscută sau variabila din lotul 1 are valori mai mici (sau mai mari) faţă de cea din lotul 2. Figura anterioară se simplifică având doar un singur prag corespunzător semnificaţiei dorite.

Figura 2.8 3 - Regiunea de

acceptare/respingere pentru încredere unilaterală (H0: media m1

< m2)

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

B

ααααββββ

dA

H1 este adevăratăH0 este adevărată

Regiunea de acceptare a H0

Regiunea de respingere a H0

Regiunea de respingere a H0

Statistica calculată (t, Z, F, etc.)

Funcţia densitate de probabilitate

Praguri corespunzătoare a 95% încredere

2

αZ+ 2

αZ−

Regiunea de acceptare a H0 Regiunea de

respingere a H0

Statistica calculată (t, Z, F, etc.)

Funcţia densitate de probabilitate

Pragul corespunzător a 95% încredere

m1 αZ+

Page 4: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

4

Observaţie Nivelul de semnificaţie de 5% defineşte pragul (în situaţia unui test unilateral) sau pragurile (pentru un

test bilateral) corespunzătoare. Este de aşteptat ca aceste limite să fie diferite, deoarece probabilitatea de 5% reprezintă suprafaţa cuprinsă în regiunea de respingere. În testul bilateral avem două suprafeţe simetrice iar în cazul unilateral avem doar o singură regiune de respingere. Astfel, pentru 5% semnificaţie unilaterală avem valoarea Z tabelata (p=0,05) = 1,65 iar pentru semnificaţie bilaterală avem Z tabelată(p=0,025) = 1,96.

Testul ipotezei simple – compararea mediei unui eşantion cu o valoare de referinţă

Acest test constă în specificarea valorile parametrilor necunoscuţi din cadrul unei repartiţii. Este vorba de seturi de date de tip continuu.

Ca exemple putem prezenta verificarea egalităţii mediei glicemiei unui subgrup cu valoarea standard cunoscută, sau media presiunii arteriale, sau greutatea la naştere etc.

Algoritmul de determinare constă în generarea de eşantioane din populaţia ţintă. Se calculează media acestora şi se studiază noul eşantion astfel format. Conform teoremei limită centrală, eşantionul mediilor urmează o distribuţie de tip t, care converge către distribuţia Z (normală) pentru nu număr suficient de mare de date. Acest rezultat este foarte important, deoarece indiferent de tipul densităţii de probabilitate a populaţiei studiate, media eşantioanelor are o distribuţie de tip cunoscut.

Vom testa în continuare egalitatea mediei unei populaţii repartizate normal, cu o anumită valoare de referinţă.

Cazul 1 – Valoarea dispersiei este cunoscută Presupunem că avem de verificat egalitatea mediei unui parametru medical (spre exemplu uricemie,

glicemie) cu o anumită valoare dată µ0. Notăm media populaţiei cu µ şi o considerăm necunoscută. Notăm dispersia cu σ2 şi presupunem că i se cunoaşte valoarea.

Definim ipoteza nulă H0: Mediile sunt egale, µ = µ0 . Definim ipoteza alternativă H1: Mediile diferă, µ ≠ µ0 .

Considerăm de asemenea că lucrăm cu un nivel de semnificaţie α bilateral simetric. Dimensiunea

eşantionului este n, iar media calculată din eşantion este X (aceasta este apropiată de media populaţiei

notată µ ). Distribuţia mediilor este de tip Gauss-Laplace de medie µ şi abatere standard de n ori mai

mică, n

σ (numită şi eroare standard). Scăzând valoarea constantă µ0 din mediile eşantioanelor distribuţia

nu se modifică decât prin translare. Împărţind în continuare la eroarea standard (dispersia eşantioanelor) obţinem forma normalizată (medie 0 dispersie 1).

Avem astfel funcţia statistică discriminantă de forma:

( )n

XZ c

σµ0−= (statistica calculată din eşantion).

Aceasta este repartizată normal cu media 0 şi dispersia 1, N(0,1). Pentru nivelul de semnificaţie bilateral se alege un interval ( )2/2/ , αα ZZ +− astfel:

( ) ααα −=+≤≤− 12/2/ ZZcZP .

Dacă Zc respectă condiţia ( )2/2/ αα ZZZ c +≤≤− , cu 2/αZ valori tabelate ale repartiţiei normale,

atunci ipoteza H0 se acceptă cu încredere 1-α, sau cu riscul α. Această condiţie mai poate fi scrisă restrâns

sub forma: 2

αZZ c ≤ .

Page 5: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

5

În caz contrar, dacă este îndeplinită relaţia 2

αZZ c > , ipoteza H0 se respinge în favoarea acceptării

ipotezei H1. Se poate aplica şi un test unilateral. În acest caz se definesc ipotezele următoare : 1 – Ipoteza H0: media populaţiei este mai mică decât valoarea µ0, 0µµ < .

2 – Ipoteza H1: media populaţiei este mai mare decât valoarea µ0, 0µµ ≥ .

Conform formulei probabilităţii avem de verificat: ασ

µα −=

−10 Z

n

XP .

Dacă ],(0α

σ

µZ

n

XZc −−∞∈

−= , atunci ipoteza H0 se acceptă cu nivel de semnificaţie α, sau risc

α, sau încredere 1-α. În caz contrar, se acceptă ipoteza H1 în defavoarea ipotezei H0. Tot în cadrul testului unilateral putem avea ipotezele de forma: H0: 0µµ > , cu alternativa H1: 0µµ ≤ .

Intervalul de acceptare este definit de relaţia:

ασ

µα −=

−10 Z

n

XP .

Observaţie În unele cărţi de specialitate, cât şi în unele programe de statistică nivelul de semnificaţie se notează

cu p în loc de α. Cazul 2 – Valoarea dispersiei este necunoscută

Considerăm că avem de verificat ipoteza H0: 0µµ = , adică media unui parametru medical este egală

cu valoarea µ0 dată. Ipoteza alternativă este H1: 0µµ ≠ , media parametrului respectiv este diferită de

valoarea µ0 dată. Valoarea dispersiei populaţiei, notată σ2, nu este cunoscută, iar volumul eşantionului îl notăm cu n. Pentru verificarea ipotezei H0 se va calcula funcţia discriminantă:

( ) SnXtc ⋅−= 0µ (1), unde S reprezintă aproximarea dispersiei cu formula:

nn

S ⋅−

=1

22 σ

, 0µ este valoarea de comparaţie, iar X este valoarea medie a eşantionului.

Variabila aleatoare creată cu formula (1) respectă o repartiţie Student cu 1−= nυ grade de libertate (notată cu t).

Notăm nivelul de semnificaţie cu α (sau riscul), respectiv încrederea cu β=1-α (a nu se confunda cu eroarea de tip II, este doar o coincidenţă de notaţie!). Valoarea α=0,05 (sau 5%) este acceptată în majoritatea cazurilor medicale.

Conform formulei de calcul a probabilităţii avem: ( ) ααα −=+≤≤− 12/2/ tttP c .

Comparaţia se face cu tα/2, deoarece folosim un risc bilateral simetric (valorile sunt tabelate în anexe).

Dacă relaţia 2,αυ

ttc < este respectată, atunci acceptăm ipoteza H0 cu nivel de semnificaţie α.

Dacă avem respectată relaţia 2,αυ

ttc ≥ , atunci respingem ipoteza H0 şi nu putem afirma cu încredere

P=1-α că mediile sunt egale.

Page 6: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

6

Interpretarea trebuie făcută cu atenţie, deoarece a respinge ipoteza H0 nu înseamnă că se acceptă ipoteza H1 cu încredere P=1-α. Ipoteza alternativă a fost acceptată ca urmare a depăşirii unui prag definit ca decident. Ne aflăm pe suprafaţa erorii de tip I şi astfel ipoteza alternativă este de preferat.

Exemplu Vom folosi un set de date create cu ajutorul computerului şi rezolvăm problema la modul generic.

Considerăm că în cadrul experimentului realizat am obţinut următorul set de valori:

Page 7: teste de ipoteze

LUCIAN VASILE BOICULESE, GABRIEL DIMITRIU, MIHAELA MOSCALU ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM 2007

Page 7 of 16

Tabelul 2.8 2.

Parametrul analizat (X)

1 1,83 2 1,60 3 1,74 4 1,84 5 1,26 6 1,44 7 1,43 8 1,43 9 1,50

10 1,72 11 1,33

12 1,43 13 1,87 14 1,57 15 1,64 16 1,44 17 1,57 18 1,44 19 1,74 20 1,42 21 1,24 22 1,32 23 1,22

Se doreşte să se verifice dacă datele diferă sau nu semnificativ faţă de valoarea standard normală

X0=1,2. Pentru aceasta se va afla media lotului se va deduce statistica t sau Z calculată şi în final se va decide acceptarea sau respingerea ipotezei H0.

Folosind Microsoft Excel:

În situaţia dată nu avem cunoştinţe despre valoarea dispersiei, deci statistica calculată este de tip t

cu formula ( )

nS

XXtc

0−= , unde n

nS ⋅

−=

1

22 σ

.

Ne interesează doar verificarea semnificaţiei statistice pentru diferenţa între valori nu şi sensul acesteia (mai mare sau mai mic). Lucrăm astfel cu un test bilateral.

Distribuţia t (Student) este caracterizată de numărul gradelor de libertate df=23-1 (volumul eşantionului minus 1, în cazul nostru) şi de semnificaţia statistică 0,05 standard. În concluzie, citim valoarea de comparaţie existentă în tabele ( ) 074,2025,02/,22 === αdft (din anexele cărţii).

Putem calcula pas cu pas fiecare element din formula prezentată mai sus.

Pentru medie: =AVERAGE(D4:D26), obţinem 523,1=X .

Pentru dispersia corectată: =STDEV(D4:D26), obţinem 196,0=S . În final obţinem : tcalculat = 7,90. Valoarea calculată 7,90 este mai mare faţă de cea tabelată 2,074 şi decidem că ipoteza H0 nu este

acceptabilă. În concluzie, decidem că există diferenţă semnificativă statistic între datele experimentale şi valoarea standard normală cunoscută.

Problema prezentată se putea rezolva şi prin determinarea intervalului de confidenţă – metodă

discutată în capitolul corespunzător. Dacă intervalul determinat pentru media eşantionului cuprinde valoarea de comparaţie, atunci nu există diferenţă semnificativă statistic.

Folosind softul SPSS Pentru această verificare există special o subrutină dezvoltată. Aceasta se lansează urmând din

meniu paşii: Analyze + Compare means + One-Sample T Test…

Page 8: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU

ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

8

Figura 2.8 4 - SPSS compararea mediei unui eşantion cu o valoare de referinţă. Se defineşte conform figurii alăturate variabila ce defineşte eşantionul cât şi valoarea de referinţă. Se obţin două tabele cu datele statistice calculate. Tabelul 2.8 3. One-Sample Statistics

N Mean Std. Deviation Std. Error

Mean X 23 1.5234 .19675 .04103

Tabelul 2.8 4 . One-Sample Test

Par

amet

rul

X

Test Value = 1.2

t

df

Sig. (2-tailed)

Mean Difference

95% Confidence Interval of the Difference

Lower Upper X 7.883 22 .000 .32339 .2383 .4085

În primul tabel sunt determinate valorile mediei, deviaţiei standard şi a erorii standard. Acestea

pot fi determinate şi în Ms Excel. În tabelul al doilea găsim valoarea statisticii t calculate 7,883 (cu o precizie mai bună faţă de cea

calculată de noi, 7,90), nivelul de semnificaţie ce este sub 0001 , iar în final limitele intervalului de

confidenţă a diferenţei faţă de referinţa 1,2. Interpretare

Conform nivelului de semnificaţie calculat (sub 0001 ) deducem că există diferenţă semnificativă

statistic, deoarece valoarea de 0,001 este mai mică decât 0,05 sau 5%. Altă metodă de interpretare constă în studiul intervalului de confidenţă a diferenţei. Dacă acesta

nu cuprinde valoarea 0, atunci există semnificaţie statistică. În cazul nostru evident ajungem la acelaşi rezultat. Valoarea 0 nu este cuprinsă în domeniul 0,2383 ÷ 0,4085, deci media eşantionului diferă faţă de valoarea normală 1,2.

Page 9: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU

ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

9

Testul ipotezei duble – compararea mediilor a două eşantioane (t, Student)

Foarte frecvent în aplicaţiile de tip medical (şi nu numai) apare problema comparării unor parametri dintr-un eşantion cu parametrii altui eşantion (pot fi chiar din aceeaşi populaţie, dar la momente diferite).

Presupunem că avem două eşantioane notate X, cu valorile x1, x2, …, xnx, respectiv Y, cu valorile

y1, y2, …, yny. Considerăm că cele două populaţii sunt repartizate normal, şi anume ( )2,: xxNX σµ ,

respectiv ( )2,: yyNY σµ .

Dorim să testăm ipoteza H0: µx = µy, mediile sunt egale, cu alternativa H1: µx ≠ µy, mediile sunt diferite (se aplică testul „t” sau testul Z). Pentru aceasta se defineşte o variabilă aleatoare V = X – Y,

care funcţie de cunoştinţele despre dispersiile 22 , yx σσ , va respecta o anumită funcţie de distribuţie.

Din teorema limită centrală rezultă că distribuţia diferenţei mediilor poate fi de tip t (Student) sau Z (Gauss-Laplace). Se respectă acelaşi procedeu de determinare a unui număr mare de eşantioane şi se analizează diferenţa mediilor ca fiind o nouă variabilă de studiu V.

Cazul 1 – Datele sunt perechi O metodă des întâlnită în practica medicală constă în măsurarea datelor înainte de tratament şi

după tratament. Se doreşte verificarea existenţei diferenţei semnificative, deci eficienţa tratamentului este analizată.

Marele avantaj al folosirii datelor pereche constă în eliminarea efectului factorilor de confuzie: vârstă, sex, rasă, etc. Chiar în acest sens se proiectează studii perechi caz-martor în care persoanele care au aceleaşi valori ale factorilor de confuzie sunt trataţi ca perechi.

Datele astfel culese conţin o anumită legătură a cuplului şi nu vor putea fi analizate ca aparţinând a două eşantioane independente.

Se defineşte o nouă variabilă aleatoare formată din diferenţa pe fiecare pereche de date d.

Această variabilă va fi comparată cu valoarea 0. Distribuţia urmată va fi de tip Student (t) de medie d

respectiv dispersie 2dσ . Studiind distribuţia mediilor eşantioanelor obţinem aceeaşi medie (ce poate

fi 0) dar dispersia este micşorată (conform demonstraţiilor matematice) de n ori (n este volumul

eşantioanelor), n

d

d

22 σ

σ = .

În concluzie, distribuţia normalizată a mediilor eşantioanelor este de tip Student de forma:

n

S

dt

dc

0−= , unde Sd este aproximarea deviaţiei standard (împărţire la n-1).

Ipoteza H0 afirmă că mediile sunt egale deci d=0, diferenţa este 0. Ipoteza alternativă H1: mediile nu sunt egale deci d este diferit de 0. Valoarea statisticii tabelate pentru test bilateral este determinată de semnificaţia standard de 5%

iar numărul gradelor de libertate df=n-1. În tabelele distribuţiei t se citeşte valoarea

( )025,02/,1 =−= αndft .

Interpretarea respectă aceeaşi regulă generală, dacă t calculat este mai mare ca t tabelat (ambele în modul) atunci există semnificaţie statistică, deci cele două seturi de date diferă semnificativ. În caz contrar dacă t tabelat este mai mare ca t calculat se acceptă ipoteza H0, deci mediile sunt egale.

Cazul 2 – Dispersiile 22 , yx σσ sunt cunoscute

În această situaţie variabila V urmează o distribuţie normală şi va avea dispersia echivalentă

y

y

x

xV

nn

222

σσσ += .

Funcţia discriminantă se va calcula cu formula:

Page 10: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU

ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

10

( ) ( )

y

y

x

x

yx

V

V

nn

YXVZ

22 σσ

µµ

σ

µ

+

−−−=

−= .Variabila Z este repartizată normal N(0,1). Pentru

specificaţie bilaterală simetrică regiunea de acceptare va fi: ( ) ααα −=<<− 122 ZZcZP , cu α nivelul de semnificaţie.

Pentru medii egale se determină:

y

y

x

x

nn

YXZc

22 σσ+

−= .

Atunci când se calculează Zc şi se respectă relaţia 2αZZc < , se va accepta ipoteza H0 cu

încrederea P = 1 - α. Astfel, putem considera că mediile sunt egale.

Dacă relaţia: 2αZZc ≥ este respectată, atunci nu putem accepta ipoteza H0 şi în schimb vom

considera mediile ca fiind diferite.

Cazul 3 – Dispersiile 22 , yx σσ sunt egale de valori necunoscute.

În această situaţie statistica discriminantă urmează o repartiţie Student de forma:

( )( ) ( )

yxy

yy

x

xx

c

nnn

Sn

n

Sn

YXt

111122

+⋅⋅−

+⋅−

−= , n

nSn

nS

y

yyx

x

xx ⋅

−=⋅

−=

1,

1

22

22 σσ

.

Valoarea calculată se compară cu valoarea tabelată 2,αυt , unde:

22121 −+=+= nnυυυ .

Dacă se respectă relaţia 2,αυttc < , vom accepta ipoteza H0, deci mediile se pot considera a fi

egale.

Dacă 2,αυttc ≥ , nu putem accepta ipoteza H0 şi concluzionăm că mediile sunt diferite.

Cazul 4 – Dispersiile sunt necunoscute (pot fi sau nu egale) În acest caz se calculează funcţia discriminantă:

( )

y

y

x

x

c

n

S

n

S

YXt

22

+

−= . Această variabilă aleatoare aproximează o lege de distribuţie de tip Student.

Valoarea calculată se va compara cu valoarea tabelată 2,αυt .Numărul gradelor de libertate se

calculează cu formula:

( ) xy

yx

CC υυ

υυυ

⋅−+⋅

⋅=

22 1, unde constanta C este

yyxxx

x

nSnSn

SC

22

1

+⋅= .

De asemenea, s-au folosit formulele de calcul:

1,1 −=−= yyxx nn υυ , yy

yyx

x

xx n

nSn

nS ⋅

−=⋅

−=

1,

1

22

22 σσ

.

La fel ca şi în celelalte cazuri, dacă 2,αυttc < acceptăm ipoteza H0 şi mediile sunt egale, altfel

considerăm mediile ca fiind inegale.

Page 11: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU

ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

11

Observaţie

Metodele prezentate reprezintă tehnici statistice matematice optime pentru a obţine un rezultat cât mai corect. Nu este greşit dacă se aplică cazul general pentru compararea datelor, de exemplu nu se cunoaşte nimic despre aceste valori (sunt sau nu perechi, au varianţele egale, sunt normal distribuite). Rezultatul însă va fi determinat într-o formă aproximativă prezentând lipsă de semnificaţie în anumite situaţii limită, tocmai prin lipsa de informaţie cuprinsă.

Exemplu

Presupunem că avem două seturi de date înainte şi după tratament iar parametrul de studiu este glicemia. Dorim să analizăm dacă există diferenţă semnificativă statistic, ceea ce ar confirma sau infirma eficienţa tratamentului.

Tabelul

2.8 5. înainte după

1 1.83 1.34 2 1.60 1.63 3 1.74 1.00 4 1.84 1.45 5 1.26 1.13 6 1.44 1.28 7 1.43 1.08 8 1.43 1.48 9 1.50 1.12 10 1.72 1.53 11 1.33 1.42 12 1.43 1.35

13 1.87 1.13 14 1.57 1.27 15 1.64 1.01 16 1.44 1.46 17 1.57 1.01 18 1.44 1.04 19 1.74 1.31 20 1.42 1.11 21 1.24 1.57 22 1.32 1.15 23 1.22 1.30

Este uşor de observat că datele sunt perechi, deci vom aplica testul specific acestei situaţii. Folosind MsExcel

Pentru lansarea testului urmăm paşii : Tools + Data Analysis + t-Test: Paired Two Sample for

Means. Se completează interactiv datele din figura alăturată.

Figura 2.8 5 - Compararea mediilor testul t MsExcel. Se definesc domeniile eşantioanelor, numite variabila 1 respectiv 2, nivelul de semnificaţie

(standard 5%) şi domeniul sau celula de start a afişării rezultatelor. În final se obţin următoarele valori:

Page 12: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU

ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

12

Tabelul 2.8 6 - Rezultatele testului t sau Student.

t-Test: Paired Two Sample for Means înainte după

Mean 1.523389088 1.267697646 Variance 0.038711492 0.037625235

Observations 23 23 Pearson Correlation -0.040121114 Hypothesized Mean Difference 0 df 22 t Stat 4.351833135 P(T<=t) one-tail 0.000127727 t Critical one-tail 1.717144335 P(T<=t) two-tail 0.000255454 t Critical two-tail 2.073873058

Tabelul rezultatelor ne oferă toate informaţiile necesare pentru o interpretare corectă a analizei. Statistica t calculată are valoarea 4,351 şi se compară cu valoarea tabelată ce este prezentă în tabel

pentru test bilateral având valoarea 2,07 (numită valoare critică). Valoarea calculată depăşind valoarea tabelată rezultă că există diferenţă semnificativă statistic.

Acelaşi rezultat se obţine comparând valoarea semnificaţiei p calculate în cazul bilateral al testului cu 5% valoare standard erorii de tip I. Valoarea semnificaţiei (P two tailed=0,00025) este mult mai mică ca 0,05 deci şi prin această metodă (era de aşteptat!) se obţine semnificaţie statistică.

Folosind SPSS

Şi în acest program avem posibilitatea de a alege dintre mai multe variante ale testului t pentru compararea mediilor pe cea convenabilă studiului. În situaţia în care datele sunt perechi, acestea se introduc pe două coloane conform figurii alăturate.

Pentru lansare se urmează calea: Analyze + Compare Means + Paired Samples T-Test

Figura 2.8 6 - Compararea mediilor, testul t pentru date perechi în SPSS.

Page 13: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU

ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

13

Se definesc în continuare cele două variabile ce conţin datele perechi şi se realizează analiza. În final, se obţin două tabele cu datele calculate. Tabelul 2.8 7 - Paired Samples Statistics

Mean N Std. Deviation Std. Error Mean

Pair 1 Înainte 1.5226 23 .19650 .04097 După 1.2683 23 .19481 .04062

Tabelul 2.8 8 - Paired Samples Test

Pair 1

Paired Differences

t

df

Sig. (2-tailed)

Mean

Std. Deviation

Std. Error Mean

95% Confidence Interval of the

Difference

Lower Upper Înainte - După .25435 .28195 .05879 .13242 .37627 4.326 22 .000

Ca şi în cazul utilizării softului Ms Excel este determinată valoarea statisticii t=4,326 şi

corespunzător, nivelul semnificaţiei dedus. Diferenţa este semnificativă, pcalculat este sub 1 la mie. Sunt determinate de asemenea şi limitele intervalului de confidenţă a diferenţei studiate pentru 95% probabilitate. În această situaţie valoarea 0 nu este cuprinsă în acest interval şi astfel se justifică (metoda a doua) existenţa semnificaţiei statistice.

Observaţie

Testele de comparaţie au valoare practică în situaţia în care se specifică în mod direct, diferenţa necesară pentru a accepta ca util procesul de modificare a valorilor datelor. De exemplu, tratamentul este considerat eficient dacă mediile celor două populaţii diferă cu cel puţin 0,4 în valoare absolută. Iată Ms Excel are această posibilitate de a impune verificarea diferenţei minime necesare în calcul.

Verificarea semnificaţiei statistice în cadrul impunerii unei anumite diferenţe între mediile populaţiilor studiate se poate realiza şi prin studiul intervalului de confidenţă a diferenţei. Dacă valoarea impusă este cuprinsă în interiorul intervalului, atunci nu există diferenţă semnificativă statistic.

Testul ipotezei multiple – compararea mediilor mai multor eşantioane (ANOVA)

Presupunem că avem de determinat semnificaţia diferenţelor dintre m grupe independente de date. Făcând apel la cunoştinţele deja prezentate, un posibil răspuns ar fi să comparăm două câte două, grupuri în toate combinaţiile posibile (se va aplica testul t). Dacă am avea 10 loturi atunci numărul de

teste ar fi combinări de 10 luate câte 2, adică 45!2)!210(

!10

2

10210 =

⋅−=

=C . Un număr destul de

mare de variante. Ţinând cont de performanţele actuale ale sistemelor informatice, nu aceasta ar fi problema. Dacă

privim tema în discuţie, în termeni ai probabilităţii de a avea o eroare, atunci iată că procentul de 5% ar însemna în cazul nostru aproximativ 2 teste greşite din cele 45 (aşa zisa eroare de tip I este prezentă aici şi constă în a accepta greşit existenţa diferenţei semnificative între două grupe, când în realitate aceasta nu există).

Ideea de a elimina această posibilă eroare se bazează pe crearea unui singur test pentru a compara cele m grupe de date simultan.

Prin analiza varianţei numită ANOVA (analysis of variances) se aplică un singur test, ce respectă o statistică de tip Fisher pentru determinarea semnificaţiei diferenţei dintre mediile eşantioanelor.

Page 14: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU

ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

14

Presupunem că avem m grupe de date, fiecare grup j având nj elemente. Notăm un element din întregul set de valori cu xij, unde i reprezintă poziţia elementului din grupul j. Astfel i variază de la 1 la nj, iar j de la 1 la m.

Ipoteza H0 este: mj µµµµ ==== ......21 , iar alternativa,

H1: Există cel puţin două grupe de medii diferite. ∃ k, l pentru care lk µµ ≠ .

În figura alăturată este prezentată componenţa loturilor de studiu. Figura 2.8 7 – Grupele de date de comparat. Ca ipoteză de lucru, se presupune că fiecare grup de date este distribuit normal iar dispersiile sunt

egale între grupuri. Aceste presupuneri trebuie verificate, altfel testul ANOVA nu poate fi aplicat.

Numărul total de elemente n poate fi calculat cu formula următoare ţinând cont de cele m grupe :

∑=

=m

jjnn

1

(j este numărul de grupe).

Media totală a tuturor valorilor este : n

x

xji

ij∑=

,, deci suma tuturor elementelor raportată la

numărul total de elemente. Putem calcula media totală şi ţinem cont de valoarea mediei fiecărui grup astfel: Notăm media

grupului j cu jx . Acest grup are nj elemente.

Avem în final media totală: n

xn

xj

jj∑ ⋅

= .

Variaţia variabilei aleatoare X de interes este măsurată convenţial în termeni ai deviaţiei faţă de valoarea medie ( xxij − ).

Suma totală a pătratelor deviaţiilor este (total sum of square):

( )∑ −=ji

ij xxSST,

2 .

Putem scrie suma deviaţiei astfel (adăugăm şi scădem jx ):

( ) ( )xxxxxx jjijij −+−=− .

Folosind teorema lui Cochran se poate demonstra că prin sumare şi ridicare la pătrat se păstrează

egalitatea: ( ) ( ) ( )∑∑∑ −+−=−ji

jji

jijji

ij xxxxxx,

2

,

2

,

2 .

Ţinând cont că ultima sumă depinde numai de numărul de grupe de comparat (j):

( ) ( ) ( )∑∑∑ −⋅+−=−j

jjji

jijji

ij xxnxxxx2

,

2

,

2 .

Aceste variaţii reprezintă:

x1 x2 … xn1

Lotul 1 Medie 1x

x1 x2 … xnj

Lotul j Medie jx

x1 x2 … xnm

Lotul m Medie mx

Page 15: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU

ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

15

� Suma totală a pătratelor deviaţiilor:

( )∑ −=ji

ij xxSST,

2 .

� Suma pătratelor deviaţiilor între grupuri (sum of square between):

( )∑ −⋅=j

jj xxnSSB2 .

� Suma pătratelor deviaţiilor în grupuri (sum of square within):

( )∑ −=ji

jij xxSSW,

2 .

Avem egalitatea: SST = SSW + SSB. Deducem astfel, că există două surse de variaţie, între grupuri şi în cadrul grupurilor. Raportul

mediilor acestor două surse de variaţie respectă (în cazul presupunerilor de repartiţii normale şi dispersii egale) o distribuţie de tip Fisher. Aceasta este statistica de analizat în studiul de tip ANOVA.

SSB – reprezintă o distribuţie de tip Chi pătrat, cu m-1 grade de libertate. SSW – reprezintă o distribuţie de tip Chi pătrat, cu n-m grade de libertate.

Putem calcula mediile: 1−

=m

SSBMSSB , respectiv

mn

SSWMSSW

−= .

Statistica Fisher se obţine prin raportul MSSW

MSSBF = . Aceasta va avea m-1 respectiv n-m grade de

libertate. Pentru interpretare se calculează valoarea F prin raportul prezentat şi se compară cu valoarea

tabelată corespunzătoare gradelor de libertate determinate şi unui nivel de semnificaţie standard de 5% (0,05). Dacă valoarea calculată este mai mare decât cea tabelată, rezultă că mediile nu sunt egale şi există cel puţin două grupe cu diferenţă semnificativă statistic.

Dacă se calculează valoarea semnificaţiei, aceasta se va compara cu valoarea 5%. În situaţia în

care este mai mică atunci există diferenţă semnificativă statistic. Menţionăm că testul ANOVA în cazul existenţei diferenţei semnificative are dezavantajul de a nu

putea prezenta care sunt grupurile care diferă. Această metodă este optimă în situaţia în care nu avem diferenţă semnificativă între grupe

deoarece am realizat un singur test pentru m grupe de comparaţie. Exemplu numeric de calcul

Pentru a minimiza calculele necesare realizării testului ANOVA vom considera că avem trei grupuri cu câte 4 date fiecare. Valorile sunt cuprinse în tabelul următor.

Tabelul 2.8 9 – Valorile grupelor de comparat.

Grupul A Grupul B Grupul C 2 2,9 2

2,5 3,2 2,1 3 3 2,6

2,7 3,1 2,3 Calculând mediile celor 3 grupe de date obţinem: 55,21 =x ; 05,31 =x ; 25,21 =x . Media pe

toate grupurile este 616,2=x . Valoarea SSW este: SSW = (2-2,55)2 + (2,5-2,55)2 + (3-2,55)2 + (2,7-2,55)2 + (2,9-3,05)2 + (3,2-

3,05)2 + (3-3,05)2 + (3,1-3,05)2 + (2-2,25)2 + (2,1-2,25)2 + (2,6-2,25)2 + (2,3-2,25)2 ; SSW = 0,79.

Page 16: teste de ipoteze

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU

ELEMENTE DE BIOSTATISTICĂ (ANALIZA STATISTICĂ A DATELOR BIOLOGICE) , ED. PIM IASI 2007

16

Valoarea SST este: SST = (2-2,616)2 + (2,5-2,616)2 + (3-2,616)2 + (2,7-2,616)2 + (2,9-2,616)2 + (3,2-2,616)2 + (3-2,616)2 + (3,1-2,616)2 + (2-2,616)2 + (2,1-2,616)2 + (2,6-2,616)2 + (2,3-2,616)2 ; SST = 2,09.

Valoarea SSB o calculăm ca diferenţa celor două şi obţinem SSB = 1,30. Se vor calcula mediile prin raportarea sumelor pătratelor diferenţelor la gradele de libertate şi în

final se va determina valoarea statisticii Fisher. Pentru continuarea calculului putem realiza tabelul de mai jos (tabelul de mai jos este cuprins în

toate programele de analiză a varianţei ANOVA, acestea calculează de asemenea şi nivelul de semnificaţie p).

Tabelul 2.8 10 - Tabelul de calcul pentru testul ANOVA.

Sursa de variaţie Suma pătratelor

SS

Grade de

libertate

df

Media SS

MS

Statistica

Fisher

F

Between Groups 1.306666667 3-1 = 2 0.653333333 7.443037975 Within Groups 0.79 12-3 = 9 0.087777778 Total 2.096666667 11

Valoarea statisticii Fisher corespunzătoare tabelată este F(2; 9; p=5%)=4,256 Valoarea calculată fiind mai mare decât cea tabelată, deducem că mediile diferă semnificativ, dar

nu cunoaştem efectiv care dintre acestea sunt diferite. Programele de calcul şi analiză statistică determină şi valoarea semnificaţiei, notată cu p. Dacă

valoarea acesteia este mai mică de 0,05, atunci mediile diferă semnificativ. Pentru studiu este indicat a se analiza şi exemplul din capitolul EpiInfo 3.3.2.