testul hi pătrat

TESTE STATISTICE 1

2

NOTIUNI

• Testarea ipotezelor statistice

• Ipoteza nulă, ipoteza alternativa

• Erori în testarea ipotezelor statistice

• Regiunea critică

• Teste parametrice

• Teste nonparametrice

3

INTRODUCERE

• Formularea de noi ipoteze (modele sau teorii)

este una dintre cele mai importante aspecte

ale cercetării ştiinţifice.

• O ipoteză nouă trebuie testată pentru a vedea

că are temei (în concordanţă cu observaţiile),

şi pentru a justifica că este “mai bună” decât

alte ipoteze alternative.

• Aceasta conduce la scheme de experimente

în scopul obţinerii de dovezi pentru susţinerea (sau respingerea) unei noi ipoteze.

4

METODE PENTRU TESTAREA IPOTEZELOR

• Compararea a două ipoteze sau teorii

concurente

• Prima dată trebuie formulate ca modele.

• Ipoteza nulă H0, reprezintă modelul pe care

experimentatorul ar dori să-l înlocuiască.

• Ipoteza alternativă H1 este noul model care de

regulă reprezintă o negaţie a ipotezei nule.

5


• Indiferent cum este formulat protocolulexperimentului, scopul cercetătorului este de a testa ipoteza nulă (de cele mai multe ori pentru a o respinge)

• Ipoteza nulă nu trebuie probată, ci anulată

• Inferenţă negativă

• Scopul testului statistic este de a dovedi că ipoteza nulă H0 este falsă• nu putem niciodată afirma că acceptăm ipoteza nulă

• O putem nega sau nu o putem nega

6


• Prin respingerea ipotezei nule, cercetătorul afirmă

că rezultatele observate nu sunt datorate

întâmplării (efect semnificativ)

• Când ipoteza nulă nu este rejectată, cercetătorul

afirmă că diferenţele observate sunt datorate

întâmplării şi rezultatele nu sunt semnificative.

7

TESTE STATISTICE

8

SCENARIU

Se cunoaște că media dimensiunii mandibulare la pacienții cu

ocluzie normală este aproximativ 65 mm. Pe un eșantion

reprezentativ de 80 de pacienti cu malocluzie de gr II s-a

determinat media ca fiind 69,5 mm.

Diferenţa între cele două medii este semnificativă?

Adică, se poate afirma că persoanele cu malocluzie de grad II

au dimensiunea mandibulară mai mare de cat cei cu ocluzie

normală?

9

ETAPELE UNUI TEST STATISTIC

• Pasul 1: Specificăm ipoteza nulă şi ipoteza alternativă.

• Pasul 2: Alegem statistica adaptată situaţiei .

• Pasul 3: Alegem nivelul de semnificaţie şi pe baza sa calculăm pragul de separare (între valorile “acceptabile” şi cele considerate ca “inacceptabile”).

• Pasul 4: Calculăm valoarea statisticii, folosind datele din eşantion (ales aleator).

• Pasul 5: Decidem, prin compararea valorii calculate cu pragul dat de nivelul de semnificaţie, dacă respingem sau nu ipoteza nulă.

10

ETAPELE UNUI TEST STATISTIC – 1 (IPOTEZELE STATISTICE)

• Ipoteza nulă H0 este ipoteza care trebuie testată, testul efectuându-se sub prezumţia că ipoteza nulă ar fi adevărată.

• Ipoteza alternativă H1 este acea ipoteză care într-un sens sau altul contrazice ipoteza nulă.

• - se mai numeşte şi ipoteza de lucru.

11

ETAPELE UNUI TEST STATISTIC -1 EXEMPLU

• Ipoteza nulă

• H0: μA = μB (μA - μB = 0)

Media valorilor unei variabile cantitative în populaţia

A nu este diferită de media valorilor în populaţia B;

• Ipoteza alternativă

• H1: μA ≠ μB (μA - μB ≠ 0)

Media valorilor în populaţia A este diferită de media

valorilor în populaţia B.

12

ETAPELE UNUI TEST STATISTIC -1 EXEMPLU

• Ipotezele anterioare stipulau diferenţa fără a o enunţa: ipoteze non-direcţionale

• Uneori se urmăreşte tocmai respingerea ipotezei alternative (comparaţia unui tratament cu un standard)

• Ipoteze direcţionale• H1: μA < μB (μA - μB < 0)

• H1: μA > μB (μA - μB > 0)

13

REGIUNEA CRITICA

Accept Ho

1 – α

Critical value Critical value

Critical value

Critical value

Reject Ho Reject Ho

Reject Ho

Reject Ho

Accept Ho

1 – α

Accept Ho

1 – α

14

ETAPELE UNUI TEST STATISTIC – 2 (ALEGEREA PARAMETRULUI STATISTIC)

Definirea unui parametru care sub ipoteza nulă H0 urmează o lege de probabilitate cunoscută (de exemplu legea normală).

Un bun parametru statistic al testului trebuie să îndeplinească două condiţii:

• trebuie să se comporte diferit atunci când ipoteza nulă H0 este adevărată faţă de situaţia în care ipoteza alternativă H1 este adevărată.

• distribuţia de probabilitate a parametrului statistic al testului sub prezumţia că H0 este adevărată, este cunoscută.

15

ETAPELE UNUI TEST STATISTIC –3

3. Definirea unui prag de semnificaţie

(probabilitatea de a respinge H0 cand ea

de fapt este adevarata)

-de obicei se alege un nivel de

semnificaţie între 1% (=0.01) şi 5%.

( = 0.05)

ETAPELE UNUI TEST STATISTIC – 4(CALCULUL PARAMETRULUI STATISTIC)

• 4. Definirea unei regiuni critice pentru parametrul

definit la punctul 2, asociată pragului de

semnificaţie (adica a regiunii unde parametrul

are cel puţin probabilitatea de a se găsi).

16

17

ETAPELE UNUI TEST STATISTIC –4

Depinzând de ipoteza alternativă, se poate alege una din următoarele trei regiuni critice:

• Regiunea critică unilaterală la dreapta – valoarea parametrului statistic al testului este mai mare sau egală cu valoarea din dreapta a intervalului critic;

• Regiunea critică unilaterală la stânga – valoarea parametrului statistic al testului este mai mică sau egală cu valoarea din stânga a intervalului critic;

• Regiunea critică bilaterală – valoarea parametrului statistic al testului este mai mică sau egală cu valoarea extremă din stânga regiunii critice sau mai mare sau egală cu valoarea extremă din dreapta regiunii critice, valorile extreme ale regiunii critice având nivele egale de semnificaţie.

18

ETAPELE UNUI TEST STATISTIC – 5

DECIZIA (FOLOSIND REGIUNEA CRITICĂ)

• Dacă parametrul statistic calculat se află în regiunea critică atunci se respinge ipoteza nulă H0, deci se acceptă ipoteza alternativă H1. Această decizie are un risc de eroare , fiind riscul de prima speţă.

• Dacă parametrul statistic nu se află în regiunea critică atunci nu există niciun motiv de a respinge ipoteza nulă H0. Acceptând-o, există un risc de eroare, numit risc de speţa a doua notat cu .

19

ETAPELE UNUI TEST STATISTIC – 5

DECIZIA (FOLOSIND VALOAREA LUI P)

La aplicarea testelor statistice programele de prelucrare statistica vor afisa o probabilitate de semnificatie a testului statistic, numita si nivel de

semnificatie observat (notat cu p).

• Stabilirea semnificaţiei testului pe baza valorii lui p se face frecvent cu următoarea regulă empirică (consideram nivelul ales =0,05) :

1. Dacă 0,01 <= p<0,05 , rezultate semnificative.

2. Dacă 0,001 <= p<0,01, rezultate înalt semnificative.

3. Dacă p<0,001, rezultate foarte înalt semnificative.

4. Dacă p>=0,05, rezultate nesemnificative statistic.

5. Dacă 0,05 <= p<0,1, se notează o oarecare tendinţă spre considerarea unei semnificaţii statistice.

22

ERORI ÎN TESTAREA IPOTEZELOR STATISTICE

H0 este falsa H0 este

adevarata

Respingem H0 Corectă!Eronată (eroare

de tipul I)

Nu respingem

H0Eronată (eroare

de tipul al II-lea)Corectă!

decizia

realitatea

23

EROAREA DE TIP I ŞI NIVELUL DE SEMNIFICAŢIE

• Probabilitatea comiterii unei erori de tip I = nivelul de semnificaţie, α (alfa)

• Probabilitatea este determinată prin teste statistice

• Am concluzionat că există reale diferenţe deşi acestea sunt datorate şansei

• Concluzionăm că un tratament este eficient pe baza unei interpretări greşite

• Nivelul alfa (riscul maxim acceptabil) 5% există o şansă de 5% de a respinge incorect ipoteza nulă

• exemple:• p= 0,18 ipoteza nulă nu se poate respinge

• p= 0,04 ipoteza nulă se poate respinge cu un risc acceptabil de 4% de a comite o eroare de tipul I

24

EROAREA DE TIP II

• H0 este nu este respinsă, deşi este falsă;

• Am concluzionat că există diferenţele observate sunt datorate şansei atunci când acestea apar datorită diferenţelor dintre eşantioane

• Am putea abandona un tratament pe care tocmai îl testăm sau o direcţie de cercetare

• Probabilitatea de a nu rejecta o ipoteză nulă falsă = β, probabilitatea de a face o eroare de tipul II

• 1- β = complementul lui β, puterea unui test

• Puterea testului = probabilitatea ca un test să respingă ipoteza nulă sau să obţină semnificaţie statistică

H0 este falsa H0 este adevarata

Respingem H0

Corectă!Eronată (eroare

de tipul I)

Nu respingem H0 Eronată (eroare

de tipul al II-lea)Corectă!

25

25

CE DETERMINĂ PUTEREA UNUI TEST?

• Criteriul de semnificaţie

• Varianţa

• Dimensiunea eşantionului

• Dimensiunea efectului

26

STATISTICI PARAMETRICE ŞI NON-PARAMETRICE

• Statisticile utilizate pentru a estima parametrii unei

populaţii sunt statistici parametrice

• Sunt bazate pe extragerea randomizată de eşantioane dintr-o populaţie normal distribuită

• Eşantioanele reprezintă parametrii populaţiei

• Dacă nu se respectă aceste condiţii, sunt necesare

altfel de teste statistice: teste nonparametrice:

• Nu fac supoziţii asupra populaţiei

• Pot fi folosite atunci când criteriile de normalitate şi

omogenitate nu sunt îndeplinite

COMPAR AT I I PE DOUA ESANT IO ANE 27

TESTE STATISTICE

COMPARAREA A DOUĂ MEDII

28

• Compararea mediilor eşantioanelor pentru

determinarea statistică a diferenţelor se face

prin două caracteristici:

• Media – diferenţa mediilor între grupuri

caracterizează nivelul de separare între grupuri

• Varianţa – caracterizează variabilitatea în interiorul

grupurilor

TESTUL STUDENT (T)

29

• Se bazează pe prezumţia că eşantioanele sunt

extrase aleator dintr-o populaţie normal

distribuită (în practică se verifică întotdeauna)

• Subtipuri:

• Testul t pentru eşantioane independente:

• Varianţe egale

• Varianţe inegale

• Testul t pentru eşantioane perechi

• Dacă eșantioanele nu au o distribuție normală,

atunci se vor folosi teste neparametrice (Mann-

Whitney)

TESTUL T PENTRU EŞANTIOANE INDEPENDENTE

30

Utilizat pentru compararea a două eşantioane independente

Eşantioanele sunt considerate independente deoarece sunt compuse din seturi independente de subiecţi între care nu există nici o relaţie derivată din studiu

se bazează pe această prezumţia de egalitate a varianţelor (omogenitatea varianțelor)

În mod normal omogenitatea varianţelor se testează statistic Testul Levene sau testul Barlett Bazate pe statistica F

Dacă varianţele nu sunt semnificativ statistic diferite (p>0,05) atunci pot fi considerate egale –>Folosim testul t pentru varianțe egale

Dacă sunt diferite –>Folosim testul t pentru varianțe inegale

TESTUL T PENTRU EŞANTIOANE PERECHE

31

• Se foloseşte în protocoale de cercetare care implică măsurători repetate asupra aceloraşi indivizi sau asupra unor indivizi cu caracteristici asemănătoare (chiar gemeni)

• Datele sunt considerate împerecheate deoarece pentru fiecare valoare există o valoare pereche

• Testul evaluează scorul de diferenţă din cadrul fiecărei perechi astfel încât subiecţii sunt comparaţi numai cu ei înşişi sau cu perechea lor

COMPARAȚII PE MAI MULTE EȘANTIOANE

ANALIZA DE VARIANŢĂ ANOVA

• Este utilizat atunci când trebuiesc comparate 3 sau mai multe eșantioane independente.

• Bazat pe statistica F şi pe prezumţia că eşantioanele sunt extrase aleator dintr-o populaţie normal distribuită (în practică se verifică întotdeauna)

• Ipoteza statistică:

H0: μ1 = μ2 = μ3 ... = μn

• Daca distribuția nu este normală, testul folosit va fi Kruskal-Wallis sau Testul Median

ANOVA UNIVARIATĂ PENTRU EŞANTIOANE INDEPENDENTE

• Univariat – analiza se aplică asupra unui experiment

cu un singur factor, care produce cel puţin trei

grupuri independente

• Ipoteza statistică:

H0: μ1 = μ2 = μ3 ... = μn

• Testul statistic utilizat este testul F (propus de Sir Ronald

Fischer)

TESTUL HI PĂTRAT(CHI SQUARE)

TESTUL HI PĂTRAT

• Analiza frecvenţelor pentru variabile calitative

• Test neparametric care verifică dacă distribuţia

observată diferă de cea aşteptată (teoretică)

TESTUL HI PĂTRAT

• În aplicare testului Hi-pătrat întotdeauna: • Frecvenţele sunt date de numărul de cazuri şi nu reprezintă

procente sau ranguri

• Categoriile sunt exhaustive şi mutual exclusive: orice subiect poate aparţine unei categorii şi numai uneia

• fio -frecvenţa observată şi fi

t -frecvenţa teoretice (aşteptată), i=1,2,..,n.

• Statistica testului (ecartul între cele două tabele) notată cu

se calculează prin formula:

CL

iti

f

ti

fi

f

1

2)0(2

2

TESTUL HI PĂTRAT

Serveşte la compararea a două distribuţii, urmând două modele, care constau în:

• compararea unei distribuţii observate (sau empirice) pe un eşantion cu o distribuţie teoretică. In acest caz, se caută să se determine dacă un eşantion se aseamănă cu un anumit model teoretic, fiind astfel vorba de un test Hi-pătrat de ajustare.

• compararea a două distribuţii observate în scopul stabilirii fie a independenţei dintre două criterii sau omogenitatea dintr-un tabel de contingenţă. Este vorba în acest caz de un test Hi-pătrat de omogenitate sau de independenţă.

TESTUL HI PĂTRAT - PASI

• Se formulează ipoteza de independenţă între cele două caractere M şi T (adică ipoteza nulă H0 , în acest caz)

• Se calculeaza un tabel de contingenţă teoretic care satisface această ipoteză de independenţă.

• Se determină abaterea (ecartul) dintre cele două tabele de contingenţă (observat şi teoretic).

• Dacă această abatere este mică atunci ea este explicată doar prin întâmplare (hazard) şi ipoteza de independenţă este acceptată.

EXEMPLU

Se caută efectul fumatului asupra îmbolnăvirii de o maladie dată

(M). Pentru aceasta se observă un eşantion de 400 de subiecţi

dintre care:

• 160 au boala M prezentă, 240 nu au boala M prezentă

• 130 sunt fumători şi 270 nu sunt fumători

• Tabelul de contingenţă observat (cu frecvenţele observate)T

CALCULUL TABELULUI DE CONTINGENŢĂ

TEORETIC

Trebuie să completăm un tabel de contingenţă teoretic

(numit şi tabel de contingenţă calculat)

Ipoteza de independenţă dintre cele două caractere M şi

F permite să se calculeze probabilităţile:

Pr(M F) = Pr(M) Pr(F), unde

- Pr(M F) este probabilitatea de a avea simultan

caracterele M şi F

- Pr(M) este probabilitatea de a avea caracterul M

- Pr(F) este probabilitatea de a avea caracterul F.

EXEMPLU-CONTINUARE

Estimări ale acestor probabilităţi se obţin astfel:

Pr(M) = şi analog,

Pr(F) = ,

Pr(MF) = ,

unde F(F,M) este frecvenţa teoretică (căutată) din prima căsuţă a tabelului de contingenţă teoretic.

Deci F(F,M) se calculează prin formula:

F(F,M) = (Pr(M) Pr(F))/n = .

Numarul de indivizi avind M

Numarul total de indivizi

160

400

130

400

400

),( MFF

indivizidetotalNumarul

siFMavindindivizideNumarul

130 160

40052

EXEMPLU-CONTINUARE

La fel se calculează şi celelalte frecvenţe teoretice

Acest mod de calcul se aplică şi în cazul general când cele două caractere studiate au fiecare un număr de modalităţi (valori) de realizare arbitrar ( 2).

EXEMPLU-CONTINUARE

• Se poate astfel constata că pentru un tabel de contingenţă teoretic 2x2 este suficient să calculeze o frecvenţă teoretică pentru a putea determina tabelul în întregime.

• Această proprietate se regăseşte şi în cazul general a unui tabel cu L linii şi C coloane, unde este suficient să se calculeze primele (L-1) x (C-1) frecvenţe teoretice celelalte obţinându-se prin diferenţe. Se va vedea că produsul (L-1) x (C-1) defineşte numărul de grade de libertate al lui Hi-patrat.

ETAPELE TESTULUI

In continuare se vor prezenta cele şase etape ale testului 2 utilizat pentru

testarea independeţei a două caractere.

Cazul general Ilustrarea printr-un exemplu

Problema Se încearcă să se determine, cu

ajutorul unui eşantion de n

subiecţi, dacă două caractere A

şi B având L şi respectiv C

modalităţi de realizare sunt sau

nu independente.

Fumatul (F) şi o maladie (M)

sunt independente? In acest

caz, L=C=2, iar eşantionul

observat are n=400 subiecţi

repartizaţi în tabelul de

contingenţă prezentat mai sus.

Etapa 1.

Definirea ipotezei

nule H0

H0: caracterele A şi B sunt

independente.

H0: fumatul nu are influenţă

asupra apariţiei maladiei M.

ETAPELE TESTULUI

Etapa 2.

Definirea unui

parametru

X2

( )f f

fi i

t

i

ti

L C 0 2

1

urmează o lege 2 cu (L-1) x

(C-1) grade de libertate

X2

( )f f

fi i

t

i

ti

L C 0 2

1

urmează o lege 2 cu 1 grad

de libertate.

Etapa 3.

Alegerea unui

prag de

semnificaţie

Fie pragul de semnificaţie al

testului.

S-a ales pragul de semnificaţie

= 0.05

Etapa 4.

Definirea regiunii

critice

Tinând seama de faptul că X2

urmează legea 2 cu (L-1) x

(C-1) grade de libertate se

determină valoarea

2 încât

P( 2

2 ) = . Regiunea

critică este [

2 ,).

Pentru pragul =0.05 şi 2 cu

1 grad de libertate valoarea

2

= 3.84, astfel că în acest caz

regiunea critică este intervalul

[3.84 , ).

ETAPELE TESTULUI

Etapa 5.

Calcularea valorii

observate a

parametrului

- Se calculează frecvenţele

teoretice

fit=

total linie total coloana

n

- Se calculează

X2

( )f f

fi i

t

i

ti

L C 0 2

1

Se calculează X2=

( )80 52

52

2

+( )50 78

78

2+

( )80 108

108

2+

+( )190 162

162

2=37.2

Etapa 6.

Decizia

Dacă X2[3.84, ) se

respinge H0 cu un risc de

eroare de prima spetă .

Dacă X2[3.84, ) atunci

H0 nu se respinge,

acceptându-se H0 cu un risc

de eroare de speţa a doua

X2 >> 3.84 aşa că ipoteza nulă

H0 se respinge cu un risc

inferior lui 5%.

In concluzie, fumatul are

influenţă asupra maladiei M

favorizând-o.

- Toate frecvențele >5 – testul Chi pătrat

- O fecvență între 2 și 5 –testul Chi pătrat cu corecția Yates

- O frecvență <2 – testul Fisher exact

OBSERVAŢIE

Tabelul de contingență TEORETIC

testul hi pătrat

Documents