lp12 biostat teste statistice t f
DESCRIPTION
biosTRANSCRIPT
Page 1 of 5
BIOSTATISTICA
Teste statistice
Teme:
Compararea populațiilor prin mediile eșantioanelor – testul t sau Student.
Compararea varianțelor populațiilor – testul F (Fisher).
În cadrul testelor statistice se folosește noțiunea de ipoteză statistică.
Ipoteza statistică reprezintă o presupunere asupra parametrilor uneia sau unor repartiţii sau
chiar asupra repartiţiei în sine (spre exemplu, egalitatea mediilor a două populaţii, a
dispersiilor, a proporţiilor, verificarea formei normale a unei repartiţii, etc.).
Testele statistice reprezintă metode matematice de verificare a ipotezelor statistice. Prin
acestea se doreşte examinarea unei ipoteze care apoi se aplică populaţiei de date dacă este
confirmată a fi adevărată. Testarea se face pe baza eşantionului de date. Astfel, orice decizie
comportă un anumit risc. Decizia se ia asupra întregii populaţii, deci constituirea eşantionului
este de importanţă majoră.
În enunţarea unei ipoteze există două posibilităţi:
– Ipoteza nulă notată H0, în care parametrii de comparat se consideră egali. Spre exemplu,
media populaţiei 1 având date în eşantionul 1 este egală cu media populaţiei 2 caracterizată
de eşantionul 2.
210 : H
Aceasta arată lipsa diferenţelor parametrilor examinaţi sau a existenţei unei relaţii.
– Ipoteza alternativă H1 sau HA în care se consideră cei doi parametri diferiţi.
211 : H
Această ipoteză este contrară ipotezei nule şi arată existenţa diferenţelor sau a relaţiilor
posibile între parametri.
Variante de ipoteze Ipoteza nulă Ipoteza alternativă
Forma bilaterală 210 : H 211 : H
Forma unilaterală 210 : H
211 : H
Forma unilaterală 210 : H
211 : H
Obs. – ipoteza nulă conține totdeauna semnul ”=”.
Se creează apoi funcţia discriminantă statistică (forma matematică a testului), a cărei
valoare calculată se compară cu valori tabelate corespunzătoare tipului de repartiţie în care se
încadrează.
Pe scurt, etapele de urmat în verificarea prin test statistic vor fi:
1. Enunţarea ipotezei. Se definesc ipotezele: nulă, respectiv alternativă. Acestea
urmăresc scopul cercetării, exprimând ceea ce avem de verificat.
2. Alegerea parametrului de studiu (poate să fie conţinut implicit în enunţarea ipotezei).
Ca exemple avem: media, varianţa, relaţia exprimată prin corelaţie, parametrii de regresie,
proporţii în cadrul populaţiilor, etc.
3. Deducerea şi calculul statisticii discriminante dorite aplicând regula de decizie. De
exemplu, la compararea mediilor se poate lua în calcul o nouă variabilă aleatoare definită ca
diferenţa între indicatori. În acest caz aceasta poate urma o distribuţie de tip t (Student) sau Z,
deci normală.
4. Acceptarea sau respingerea ipotezei nule prin calculul semnificaţiei p. Se calculează
statistica (t, Z sau Fisher spre exemplu) din datele eşantioanelor de lucru. Corespunzător se
Page 2 of 5
deduce valoarea p, care reprezintă probabilitatea de a avea o eroare de tip I. Aceasta este o
integrală în cadrul distribuţiei de frecvenţă determinate şi reprezintă semnificaţia testului.
Dacă p (nivelul de semnificație) este mai mic sau egal cu 5% adică 0.05 atunci ipoteza H0
este eliminată în favoarea ipotezei H1 – spunem că există diferență semnificativă statistic.
Decidem că cele două populații diferă semnificativ.
Același lucru se obține dacă comparăm valoarea statisticii t-calculată cu valoarea
corespunzătoare pragului de 5% adică t-0.05 sau t-critic. Dacă t-critic este mai mare ca t-0.05
atunci avem semnificație statistică. Este același lucru cu p≤0.05.
În caz contrar dacă p>0.05 sau t-calculat<t-critic atunci nu avem semnificație statistică
deci H0 rămâne valabilă și eliminăm ipoteza H1.
Pentru testul t avem 3 variante (formulele de calcul diferă oferind astfel o precizie mai
bună):
1. Datele sunt perechi – aceleași pacient de exemplu înainte și după tratament
(volumul eșantionului înainte trebuie să fie egal cu cel denumit după).
2. Datele au varianțe egale (aceasta poate fi verificată cu testul F).
3. Formula standard – nu se cunosc informații suplimentare despre date.
Metoda de lucru este aceeași indiferent de tipul ipotezei – comparăm mediile sau
dispersiile datelor.
Exemple (Excel):
Compararea mediilor. 1 - Avem două seturi de date înainte și după tratament:
Glicemia tratament
înainte după
1 1.83 1.34
2 1.60 1.63
3 1.74 1.00
4 1.84 1.45
5 1.26 1.13
6 1.44 1.28
7 1.43 1.08
8 1.43 1.48
9 1.50 1.12
10 1.72 1.53
11 1.33 1.42
12 1.43 1.35
13 1.87 1.13
14 1.57 1.27
15 1.64 1.01
16 1.44 1.46
17 1.57 1.01
18 1.44 1.04
19 1.74 1.31
20 1.42 1.11
21 1.24 1.57
22 1.32 1.15
23 1.22 1.30
Alegem din Meniul DATA apoi DATA ANALYSES testul t corespunzător – testul pentru
date perechi.
Page 3 of 5
În continuare definim opțiunile pentru realizarea testului.
Se specifică șirurile de celule în care se află valorile înainte și după tratament.
Se specifică şirul de celule în care se află valorile primei variabile – Glicemia la femei.
Se bifează, deoarece am selectat și celula cu numele seriilor
Nu se bifează, deoarece şirurile de valori au acelaşi nume. Se precizează locul de afişare a
rezultatelor – pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou.
Se precizează locul de afişare a rezultatelor – pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou.
Page 4 of 5
Interpretăm rezultatul obținut.
t-Test: Paired Two Sample for Means
Înainte După
Mean 1.523389088 1.267697646
Variance 0.038711492 0.037625235
Observations 23 23
Pearson Correlation -0.040121114
Hypothesized Mean Difference 0
df 22
t Stat 4.351833135
P(T<=t) one-tail 0.000127727
t Critical one-tail 1.717144335
P(T<=t) two-tail 0.000255454
t Critical two-tail 2.073873058
Interpretare:
1- Valoarea statisticii calculate este t Stat=4.3518 și este mai mare ca t Critical two-tail =
2.0738. Decidem că există semnificație statistică deci avem confirmarea statistică a
diferențelor găsite. Cu alte cuvinte valorile după tratament sunt diferite de cele dinainte.
Dacă citim valorile mediilor observăm că valorile după tratament sunt mai mici
comparativ cu cele dinaintea tratamentului.
2- Același lucru îl obținem dacă comparăm valoarea P(T<=t) two-tail=0.00025 cu valoarea
prag 0.05. Deoarece este mai mică concluzionăm la fel ca în analiza statisticii t că
există semnificație statistică – diferențe confirmate.
Deoarece acesta a fost scopul tratamentului să scadă valoarea glicemiei – concluzionăm că
tratamentul este eficient.
Obs. – atenție la alegerea tipului de test !
Una din variantele de test t consideră varianțele egale – acest lucru trebuie verificat cu
testul F(Fisher).
Compararea varianțelor – testul Fisher
Pentru a putea decide ce variantă de test t se foloseşte în situaţia noastră, vom verifica mai
întâi dacă cele două eşantioane au varianţele egale sau nu. Pentru aceasta, se va folosi un alt
test statistic, şi anume testul F de egalitate a varianţelor.
Acest test este relativ simplu ca structură; el calculează valorile medii şi varianţele pentru
cele două eşantioane luate în discuţie şi apoi determină raportul celor două varianţe calculate,
notat cu F; dacă F este foarte apropiat sau chiar egal cu 1, înseamnă că varianţele în cele
două eşantioane sunt egale, şi cu cât F este mai mare cu atât eşantioanele sunt mai diferite
între ele în ceea ce priveşte acest parametru
Procedeul este asemănător testului t.
Se selectează comanda Data / Data Analysis / F-Test Two Sample for Variances:
Se completează cu datele (referințele) corespunzătoare testului F.
Page 5 of 5
Fereastra de definire a testului Fisher
Rezultatele – și interpretarea:
Sunt calculaţi următorii indicatori:
- Media, varianţa şi numărul de observaţii pentru cele două şiruri de valori;
- Valoarea statisticii calculate F = 1.0204;
- P(F<=f) one-tail: probabilitatea de a se observa o valoare F = Fcalculat mai mică decât
F = Ftabel (atunci când Ftabel este un număr pozitiv) sau mai mare decât Ftabel (atunci
când Ftabel este un număr negativ), în ipoteza în care varianţele variabilei Glicemie la
femei şi bărbaţi sunt egale (ca exemplu de calcul). Dacă această probabilitate este mai
mică de 0.05 (5%), se poate considera că ipoteza de la care s-a pornit, că varianţele
variabilei Glicemie la femei şi bărbaţi, sunt egale, este INFIRMATĂ, diferenţele între
ele fiind semnificative statistic.
În cazul nostru P(F<=f) one-tail = 0.4669 > 0.05, deci ipoteza nulă este
CONFIRMATĂ, VARIANŢELE SUNT EGALE.
Atenție – prima variabilă pentru testul F pentru lucru în Excel este variabila cu varianță
mai mare !! – astfel se respectă regula F-calculat mai mare ca F-critic pentru a obține
semnificație.
Din fișierul Excel – corespunzător laboratorului realizați comparațiile statistice prin testele
t respectiv F.