lp12 biostat teste statistice t f

of 5

BIOSTATISTICA

Teste statistice

Teme:

Compararea populațiilor prin mediile eșantioanelor – testul t sau Student.

Compararea varianțelor populațiilor – testul F (Fisher).

În cadrul testelor statistice se folosește noțiunea de ipoteză statistică.

Ipoteza statistică reprezintă o presupunere asupra parametrilor uneia sau unor repartiţii sau

chiar asupra repartiţiei în sine (spre exemplu, egalitatea mediilor a două populaţii, a

dispersiilor, a proporţiilor, verificarea formei normale a unei repartiţii, etc.).

Testele statistice reprezintă metode matematice de verificare a ipotezelor statistice. Prin

acestea se doreşte examinarea unei ipoteze care apoi se aplică populaţiei de date dacă este

confirmată a fi adevărată. Testarea se face pe baza eşantionului de date. Astfel, orice decizie

comportă un anumit risc. Decizia se ia asupra întregii populaţii, deci constituirea eşantionului

este de importanţă majoră.

În enunţarea unei ipoteze există două posibilităţi:

– Ipoteza nulă notată H0, în care parametrii de comparat se consideră egali. Spre exemplu,

media populaţiei 1 având date în eşantionul 1 este egală cu media populaţiei 2 caracterizată

de eşantionul 2.

210 : H

Aceasta arată lipsa diferenţelor parametrilor examinaţi sau a existenţei unei relaţii.

– Ipoteza alternativă H1 sau HA în care se consideră cei doi parametri diferiţi.

211 : H

Această ipoteză este contrară ipotezei nule şi arată existenţa diferenţelor sau a relaţiilor

posibile între parametri.

Variante de ipoteze Ipoteza nulă Ipoteza alternativă

Forma bilaterală 210 : H 211 : H

Forma unilaterală 210 : H

211 : H

Forma unilaterală 210 : H

211 : H

Obs. – ipoteza nulă conține totdeauna semnul ”=”.

Se creează apoi funcţia discriminantă statistică (forma matematică a testului), a cărei

valoare calculată se compară cu valori tabelate corespunzătoare tipului de repartiţie în care se

încadrează.

Pe scurt, etapele de urmat în verificarea prin test statistic vor fi:

1. Enunţarea ipotezei. Se definesc ipotezele: nulă, respectiv alternativă. Acestea

urmăresc scopul cercetării, exprimând ceea ce avem de verificat.

2. Alegerea parametrului de studiu (poate să fie conţinut implicit în enunţarea ipotezei).

Ca exemple avem: media, varianţa, relaţia exprimată prin corelaţie, parametrii de regresie,

proporţii în cadrul populaţiilor, etc.

3. Deducerea şi calculul statisticii discriminante dorite aplicând regula de decizie. De

exemplu, la compararea mediilor se poate lua în calcul o nouă variabilă aleatoare definită ca

diferenţa între indicatori. În acest caz aceasta poate urma o distribuţie de tip t (Student) sau Z,

deci normală.

4. Acceptarea sau respingerea ipotezei nule prin calculul semnificaţiei p. Se calculează

statistica (t, Z sau Fisher spre exemplu) din datele eşantioanelor de lucru. Corespunzător se

of 5

deduce valoarea p, care reprezintă probabilitatea de a avea o eroare de tip I. Aceasta este o

integrală în cadrul distribuţiei de frecvenţă determinate şi reprezintă semnificaţia testului.

Dacă p (nivelul de semnificație) este mai mic sau egal cu 5% adică 0.05 atunci ipoteza H0

este eliminată în favoarea ipotezei H1 – spunem că există diferență semnificativă statistic.

Decidem că cele două populații diferă semnificativ.

Același lucru se obține dacă comparăm valoarea statisticii t-calculată cu valoarea

corespunzătoare pragului de 5% adică t-0.05 sau t-critic. Dacă t-critic este mai mare ca t-0.05

atunci avem semnificație statistică. Este același lucru cu p≤0.05.

În caz contrar dacă p>0.05 sau t-calculat<t-critic atunci nu avem semnificație statistică

deci H0 rămâne valabilă și eliminăm ipoteza H1.

Pentru testul t avem 3 variante (formulele de calcul diferă oferind astfel o precizie mai

bună):

1. Datele sunt perechi – aceleași pacient de exemplu înainte și după tratament

(volumul eșantionului înainte trebuie să fie egal cu cel denumit după).

2. Datele au varianțe egale (aceasta poate fi verificată cu testul F).

3. Formula standard – nu se cunosc informații suplimentare despre date.

Metoda de lucru este aceeași indiferent de tipul ipotezei – comparăm mediile sau

dispersiile datelor.

Exemple (Excel):

Compararea mediilor. 1 - Avem două seturi de date înainte și după tratament:

Glicemia tratament

înainte după

1 1.83 1.34

2 1.60 1.63

3 1.74 1.00

4 1.84 1.45

5 1.26 1.13

6 1.44 1.28

7 1.43 1.08

8 1.43 1.48

9 1.50 1.12

10 1.72 1.53

11 1.33 1.42

12 1.43 1.35

13 1.87 1.13

14 1.57 1.27

15 1.64 1.01

16 1.44 1.46

17 1.57 1.01

18 1.44 1.04

19 1.74 1.31

20 1.42 1.11

21 1.24 1.57

22 1.32 1.15

23 1.22 1.30

Alegem din Meniul DATA apoi DATA ANALYSES testul t corespunzător – testul pentru

date perechi.

of 5

În continuare definim opțiunile pentru realizarea testului.

Se specifică șirurile de celule în care se află valorile înainte și după tratament.

Se specifică şirul de celule în care se află valorile primei variabile – Glicemia la femei.

Se bifează, deoarece am selectat și celula cu numele seriilor

Nu se bifează, deoarece şirurile de valori au acelaşi nume. Se precizează locul de afişare a

rezultatelor – pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou.

Se precizează locul de afişare a rezultatelor – pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou.

of 5

Interpretăm rezultatul obținut.

t-Test: Paired Two Sample for Means

Înainte După

Mean 1.523389088 1.267697646

Variance 0.038711492 0.037625235

Observations 23 23

Pearson Correlation -0.040121114

Hypothesized Mean Difference 0

df 22

t Stat 4.351833135

P(T<=t) one-tail 0.000127727

t Critical one-tail 1.717144335

P(T<=t) two-tail 0.000255454

t Critical two-tail 2.073873058

Interpretare:

1- Valoarea statisticii calculate este t Stat=4.3518 și este mai mare ca t Critical two-tail =

2.0738. Decidem că există semnificație statistică deci avem confirmarea statistică a

diferențelor găsite. Cu alte cuvinte valorile după tratament sunt diferite de cele dinainte.

Dacă citim valorile mediilor observăm că valorile după tratament sunt mai mici

comparativ cu cele dinaintea tratamentului.

2- Același lucru îl obținem dacă comparăm valoarea P(T<=t) two-tail=0.00025 cu valoarea

prag 0.05. Deoarece este mai mică concluzionăm la fel ca în analiza statisticii t că

există semnificație statistică – diferențe confirmate.

Deoarece acesta a fost scopul tratamentului să scadă valoarea glicemiei – concluzionăm că

tratamentul este eficient.

Obs. – atenție la alegerea tipului de test !

Una din variantele de test t consideră varianțele egale – acest lucru trebuie verificat cu

testul F(Fisher).

Compararea varianțelor – testul Fisher

Pentru a putea decide ce variantă de test t se foloseşte în situaţia noastră, vom verifica mai

întâi dacă cele două eşantioane au varianţele egale sau nu. Pentru aceasta, se va folosi un alt

test statistic, şi anume testul F de egalitate a varianţelor.

Acest test este relativ simplu ca structură; el calculează valorile medii şi varianţele pentru

cele două eşantioane luate în discuţie şi apoi determină raportul celor două varianţe calculate,

notat cu F; dacă F este foarte apropiat sau chiar egal cu 1, înseamnă că varianţele în cele

două eşantioane sunt egale, şi cu cât F este mai mare cu atât eşantioanele sunt mai diferite

între ele în ceea ce priveşte acest parametru

Procedeul este asemănător testului t.

Se selectează comanda Data / Data Analysis / F-Test Two Sample for Variances:

Se completează cu datele (referințele) corespunzătoare testului F.

of 5

Fereastra de definire a testului Fisher

Rezultatele – și interpretarea:

Sunt calculaţi următorii indicatori:

- Media, varianţa şi numărul de observaţii pentru cele două şiruri de valori;

- Valoarea statisticii calculate F = 1.0204;

- P(F<=f) one-tail: probabilitatea de a se observa o valoare F = Fcalculat mai mică decât

F = Ftabel (atunci când Ftabel este un număr pozitiv) sau mai mare decât Ftabel (atunci

când Ftabel este un număr negativ), în ipoteza în care varianţele variabilei Glicemie la

femei şi bărbaţi sunt egale (ca exemplu de calcul). Dacă această probabilitate este mai

mică de 0.05 (5%), se poate considera că ipoteza de la care s-a pornit, că varianţele

variabilei Glicemie la femei şi bărbaţi, sunt egale, este INFIRMATĂ, diferenţele între

ele fiind semnificative statistic.

În cazul nostru P(F<=f) one-tail = 0.4669 > 0.05, deci ipoteza nulă este

CONFIRMATĂ, VARIANŢELE SUNT EGALE.

Atenție – prima variabilă pentru testul F pentru lucru în Excel este variabila cu varianță

mai mare !! – astfel se respectă regula F-calculat mai mare ca F-critic pentru a obține

semnificație.

Din fișierul Excel – corespunzător laboratorului realizați comparațiile statistice prin testele

t respectiv F.

lp12 biostat teste statistice t f

Documents