distribuţia binomială teste statistice neparametrice nominale · 2013-01-28 · valorilor) •...

Distribuţia binomială

Teste statistice neparametrice nominale

M. Popa

Teste statistice

a) parametrice

• inferenţele sunt probate prin utilizarea

“parametrilor” populaţiei (indicatori care

descriu tendinţa centrală şi împrăştierea

valorilor)

• testele t, corelaţia, ANOVA

b) neparametrice

• inferenţele sunt probate prin raportare la

probabilitatea evenimentelor aleatoare

• în final, rezultatul eşantionului se raportează

tot la un model teoretic (distribuţie de nul)

exemplu

• evaluarea eficienţei unei proceduri terapeutice

anxiolitice:

a) măsurarea cantitativă a anxietăţii, “înainte-după”

• aplicarea testului t pentru eşantioane dependente

b) chestionarea la sfârşitul terapiei

• ameliorat (80%)

• fără efect (20%)

Când se utilizează teste

neparametrice?

• variabila dependentă este măsurată pe scale calitative (nominală, ordinală)

• variabila dependentă este măsurată pe scală parametrică, dar...

– nu respectă condiţiile pentru test parametric (normalitate, omogenitatea împrăştierii)

• transformare calitativă (grupare de frecvenţe, ordonare după rang)

– volum foarte mic al eşantionului

avantaje ale testelor neparametrice

• nu presupun condiţii la fel de restictive (normalitatea distribuţiei, omogenitatea varianţei, etc.) ceea ce reduce mult situaţiile în care nu sunt aplicabile;

• calcule sunt relativ simple şi uşor de efectuat manual

• concepte şi metode mai uşor de înţeles;

• se pot utiliza pe scale ale căror calităţi de măsurare sunt „slabe” (ordinale, nominale);

• pot fi utilizate în cazul variabilelor afectate de valori extreme care nu pot fi eliminate.

dezavantaje ale testelor

neparametrice

• se bazează pe măsurări nominale şi ordinale, prin

natura lor, mai puţin precise decât cele cantitative

(de interval sau de raport)

• au o „putere” mai redusă decât testele parametrice

de a proba că ipoteza cercetării este adevărată;

• tind sa fie utilizate şi în situaţii în care se pot

utiliza teste parametrice

• deşi se bazează pe calcule elementare, adesea

acestea pot fi destul de complexe şi de laborioase.


• Concepte:

– “evenimente” dihotomice

• sexul la naştere (M/F)

• răspunsul la o întrebare (Corect/Eronat)

• starea după tratament (Vindecat/Nevindecat)

– “încercare” (observaţie)

• fiecare naştere; fiecare întrebare; fiecare tratament


• Distribuţia binomială descrie frecvenţa de apariţie ale unui anumit eveniment de tip dihotomic...

– sexul M/F, corect-greşit, ameliorat-neschimbat, etc...

– P=evenimentul vizat (feminin, corect, ameliorat...)

– Q=evenimentul complementar (Q=1-P) (masculin, greşit, )

• ...în contextul unei serii de observaţii (încercări)

– un număr de naşteri, mai multe întrebări, mai mulţi subiecţi trataţi

– numărul “observaţiilor” (încercărilor) este simbolizat cu N

• distribuţia binomială diferă în funcţie de

– nr. încercărilor „observaţiilor” (N)

– probabilitatea de apariţie a „evenimentului” (P)

• şansă teoretică de apariţie a evenimentului

• la aruncarea unei monede, o singură dată, probabilitatea teoretică de apariţie a „mărcii” este P=1/2=0.5 iar Q=P=0.5

Abraham De Moivre

(1667-1754)

- teoria probabilităţilor

Jakob Bernoulli

(1654-1705)

- distribuţia evenimentelor

dihotomice

un exemplu practic...

• patru întrebări de statistică

• răspuns dihotomic “corect”/”greşit”

• un student dă 4 răspunsuri corecte!

• răspunsurile sunt bazate pe “învăţare” sau

pe “şansa” de a le fi ghicit pe toate?

C

E

C

C

CE

E

E

P(C)

individuală

0.5

0.5

0.5

0.5

P(C) cumulată

(multiplicare)

0.5

0.5*0.5=0.25

0.5*0.5*0.5=0.125

0.5*0.5*0.5*0.5=0.0625

eveniment

1

2

3

4

P=0.0625 > alfa=0.054 răspunsuri corecte nu indică

suficient de sigur “cunoştinţe”

C

E

E

E

E

E

E

C C C

C C C

C C C

C C

C CC

C C E

EC CE

EC EE

E CC C

E ECC

E E CC

E C EE

E E C C

E E C E

E CEE

EE EE

Dis tr ibu ţia b in om ia lă (N= 4 )

0 ,0 6 2 5

0 ,2 5

0 ,3 75

0 ,2 5

0 ,0 6 25

0

0 ,1

0 ,2

0 ,3

0 ,4

0 1 2 3 4

Nr. răsp. corecte 0 1 2 3 4

Frecvenţa 1 4 6 4 1

P(C) 1/16=0.0625 4/16=0.25 6/16=0.375 4/16=0.25 1/16=0.0625

distributia binomială

N=2

1 20

0.25

0.5

distribuţia binomială

N=4

1 20

0.125

0.25

3 4

0.375


N=6

1 20

0.125

0.25

3 4 5 6

0,0002 0,0029

0,0161

0,0537

0,1208

0,1934

0,2256

0,1934

0,1208

0,0537

0,0161

0,0029 0,0002

0

0,05

0,1

0,15

0,2

0,25

0 1 2 3 4 5 6 7 8 9 10 11 12


(N=12)

Pentru P≠Q?

• Exemplu:

– patru variante de răspuns la fiecare întrebare

– numai una este corectă

– probabilitatea răspunsului corect (P) este ¼=0.25

• distribuţia binomială nu este simetrică la valori mici ale lui N, dar tinde să devină simetrică pe măsură ce N creşte.

• nu există un răspuns exact cu privire la valoarea lui N pentru care distribuţia binomială este aproximată suficient de bine de cea normală.

• se acceptă faptul că

– pentru P=0.5, N nu trebuie să fie mai mare de 20-25

– pentru P apropiat de 0 sau 1 se impune o valoare pentru N de cel puţin 100.

• se poate lua în considerare aproximarea

distribuţiei binomiale cu o distribuţie

normală

• putem exprima valorile z în termeni de N, P

şi Q

σµ−

=X

zQPN

PNXz

**

*−=

• pentru 8 răspunsuri corecte la un chestionar

cu 10 întrebări

• sub curba normală... p(z=1.897) = 0.0294

• pentru alfa=0.05, unilateral

– putem respinge ipoteza de nul

– admitem că studentul nu a răspuns la întâmplare

• pentru alfa=0.05, bilateral

– admitem ipoteza de nul (z=2.56)

897.1581.1

3

5.2

58

5.05.010

5.0108==

−=

∗∗

∗−=

∗∗

∗−=

QPN

PNXz

Pentru 4 variante de răspuns la fiecare întrebare, din

care una este corectă (8 răspunsuri corecte din 10

întrebări):

P=1/4=0.25 iar Q=3/4=0.75

01.4369.1

5.5

875.1

5.28

75.0*25.0*10

25.0*108==

−=

−=z

z calculat (4.01) > z critic; alfa=0.05, bilateral (1.96)

QPN

PNXz

**

*−=

Teste z pentru proporţii, bazate pe


1. Testul z pentru proporţia unui eşantion

în raport cu populaţia

2. Testul z pentru diferenţa dintre

proporţiile a două eşantioane

independente

3. Testul semnului (pentru eşantioane

dependente)

1. Testul z pentru proporţia unui

eşantion în raport cu populaţia

• echivalentul pentru date nominale al testului z

parametric pentru un singur eşantion

• Exemplu:

– pe un eşantion aleator de 100 de subiecţi dintr-

o anumită comunitate, procentul stângacilor

este de 20%, în timp ce studiile la nivelul

populaţiei generale indică un procent de

stângaci de numai 15% .

– există o „anomalie” a lateralităţii?

QPN

PNXz

**

*−=

N

PQ

Ppz

−=

prin împărţirea simultană

a numărătorului şi numitorului cu N

� p (mic) =probabilitatea măsurată a

evenimentului cercetat,

� P (mare) = probabilitatea aceluiaşi

eveniment la nivelul populaţiei,

� Q = probabilitatea complementară a lui P,

� N = volumul eşantionului.

� p (z=1.42) pe curba normală=0.0778 (mai mare decât alfa=0.05)

� acceptăm ipoteza de nul

� proporţia stângacilor nu depăşeşte semnificativ proporţia la nivelul

populaţiei generale.

42.1

100

127.0

05.0

100

85.015.0

15.020.0==

∗

−=z

• Testul z pentru proporţii implică testarea semnificaţiei unui procent observat în raport procentul populaţiei (atunci când este cunoscut), pentru evenimente de tip dihotomic.

• Exemplu

– se poate răspunde la întrebarea dacă un procent 55% de nou născuţi băieţi este neobişnuit de mare, ştiind care este procentul general al noilor născuţi băieţi

• Pentru situaţiile în care evenimentele cercetate nu sunt de tip dihotomic, se aplică alte teste statistice, despre care vom vorbi mai târziu.

2. Testul z pentru diferenţa dintre

proporţiile a două eşantioane independente

• două eşantioane din două ţări diferite

– (n1=100)

– stângaci (P1=0.15)

– (n2=90)

– stângaci (P2=0.25)

• este numărul stângacilor din ţara 2 mai mare decât cel din ţara 1?

• ipoteza cercetării: P1≠P2

• ipoteza de nul: P1=P2 (P1-P2=0)

• P1 şi P2 → probabilităţile unui eveniment aleator de tip binomial,

• evenimentul complementar (Q1, respectiv Q2) este caracteristica de a fi „dreptaci” (vom ignora acum faptul că pot exista şi „ambidextri”).

• p1 şi p2 sunt proporţiile evenimentului la nivelul eşantioanelor

• P1 şi P2 sunt proporţiile evenimentului la nivelul populaţiei (ipoteza de nul)

• σ(p1-p2) este eroarea standard a distribuţiei de eşantionare

( )( )21

)( 2121

pp

PPppz

−

−−−=

σ

( )2

22

1

11 **21 n

qp

n

qppp +=−σ

• q1=1-p1

• q2=1-p2

• n1 şi n2 sunt volumele celor două eşantioane

2

22

1

11

21

**

n

qp

n

qp

ppz

+

−=

2

22

1

11

2

2

1

1

**

*2

1

*2

1

n

qp

n

qp

np

np

z

+

−−

−

=pt. eşant. mici

(N<30)

85.1054.0

10.0

002.0001.0

10.0

90

75.0*25.0

100

85.0*15.0

25.015.0−=

−=

+

−=

+

−=z

• pt. alfa=0.05, bilateral

• se admite ipoteza de nul

3. Testul semnului• 1710 - John Arbuthnot

• se utilizează pentru compararea proporţiilor obţinute pe un eşantion evaluat în două situaţii diferite

• echivalentul neparametric al testului t pentru eşantioane dependente

• Exemplu:– Un psiholog clinician aplică o metodă de reducere a

manifestărilor de tip fobic la un grup de 8 de subiecţi.

– După un număr de şedinţe îi întreabă pe cei 8 subiecţi dacă se simt mai bine decât la începutul tratamentului.

• 6 afirmă că se simt mai bine

• 2 afirmă că nu simt nici o modificare (să admitem că nimeni nu răspuns că “se simte mai rău”)

– se poate decide că metoda este eficientă?

John Arbuthnot

(1667-1735)

• ipoteza cercetării:

– metoda are efect

– procentul de ameliorare este semnificativ mai mare

decât cel al absenţei oricărui efect al terapiei

• Ipoteza de nul

– metoda nu are efect

– eficienţa/ineficienţa terapiei sunt echivalente (P=Q=0.5)

• P(ameliorare) = 6/8=0.75

• Este P(ameliorare) semnificativ diferit de cel al

ipotezei de nul (0.5)?

• pentru datele noastre...

QPN

PNXz

**

*−=

QPN

PNXz

**

5.0* −−=corecţia Yeates

40.022.1

5.0

25.0*75.0*8

5.075.0*86−=

−=

−−=z

• p (z=-0.4)=0.844 (mai mare decât alfa=0.05)

• acceptăm ipoteza de nul

• datele nu susţin efectul terapiei

distribuţia binomială teste statistice neparametrice nominale · 2013-01-28 · valorilor) •...

Documents