distribuţia binomială teste statistice neparametrice nominale · 2013-01-28 · valorilor) •...
TRANSCRIPT
Distribuţia binomială
Teste statistice neparametrice nominale
M. Popa
Teste statistice
a) parametrice
• inferenţele sunt probate prin utilizarea
“parametrilor” populaţiei (indicatori care
descriu tendinţa centrală şi împrăştierea
valorilor)
• testele t, corelaţia, ANOVA
b) neparametrice
• inferenţele sunt probate prin raportare la
probabilitatea evenimentelor aleatoare
• în final, rezultatul eşantionului se raportează
tot la un model teoretic (distribuţie de nul)
exemplu
• evaluarea eficienţei unei proceduri terapeutice
anxiolitice:
a) măsurarea cantitativă a anxietăţii, “înainte-după”
• aplicarea testului t pentru eşantioane dependente
b) chestionarea la sfârşitul terapiei
• ameliorat (80%)
• fără efect (20%)
Când se utilizează teste
neparametrice?
• variabila dependentă este măsurată pe scale calitative (nominală, ordinală)
• variabila dependentă este măsurată pe scală parametrică, dar...
– nu respectă condiţiile pentru test parametric (normalitate, omogenitatea împrăştierii)
• transformare calitativă (grupare de frecvenţe, ordonare după rang)
– volum foarte mic al eşantionului
avantaje ale testelor neparametrice
• nu presupun condiţii la fel de restictive (normalitatea distribuţiei, omogenitatea varianţei, etc.) ceea ce reduce mult situaţiile în care nu sunt aplicabile;
• calcule sunt relativ simple şi uşor de efectuat manual
• concepte şi metode mai uşor de înţeles;
• se pot utiliza pe scale ale căror calităţi de măsurare sunt „slabe” (ordinale, nominale);
• pot fi utilizate în cazul variabilelor afectate de valori extreme care nu pot fi eliminate.
dezavantaje ale testelor
neparametrice
• se bazează pe măsurări nominale şi ordinale, prin
natura lor, mai puţin precise decât cele cantitative
(de interval sau de raport)
• au o „putere” mai redusă decât testele parametrice
de a proba că ipoteza cercetării este adevărată;
• tind sa fie utilizate şi în situaţii în care se pot
utiliza teste parametrice
• deşi se bazează pe calcule elementare, adesea
acestea pot fi destul de complexe şi de laborioase.
Distribuţia binomială
• Concepte:
– “evenimente” dihotomice
• sexul la naştere (M/F)
• răspunsul la o întrebare (Corect/Eronat)
• starea după tratament (Vindecat/Nevindecat)
– “încercare” (observaţie)
• fiecare naştere; fiecare întrebare; fiecare tratament
Distribuţia binomială
• Distribuţia binomială descrie frecvenţa de apariţie ale unui anumit eveniment de tip dihotomic...
– sexul M/F, corect-greşit, ameliorat-neschimbat, etc...
– P=evenimentul vizat (feminin, corect, ameliorat...)
– Q=evenimentul complementar (Q=1-P) (masculin, greşit, )
• ...în contextul unei serii de observaţii (încercări)
– un număr de naşteri, mai multe întrebări, mai mulţi subiecţi trataţi
– numărul “observaţiilor” (încercărilor) este simbolizat cu N
• distribuţia binomială diferă în funcţie de
– nr. încercărilor „observaţiilor” (N)
– probabilitatea de apariţie a „evenimentului” (P)
• şansă teoretică de apariţie a evenimentului
• la aruncarea unei monede, o singură dată, probabilitatea teoretică de apariţie a „mărcii” este P=1/2=0.5 iar Q=P=0.5
Abraham De Moivre
(1667-1754)
- teoria probabilităţilor
Jakob Bernoulli
(1654-1705)
- distribuţia evenimentelor
dihotomice
un exemplu practic...
• patru întrebări de statistică
• răspuns dihotomic “corect”/”greşit”
• un student dă 4 răspunsuri corecte!
• răspunsurile sunt bazate pe “învăţare” sau
pe “şansa” de a le fi ghicit pe toate?
C
E
C
C
CE
E
E
P(C)
individuală
0.5
0.5
0.5
0.5
P(C) cumulată
(multiplicare)
0.5
0.5*0.5=0.25
0.5*0.5*0.5=0.125
0.5*0.5*0.5*0.5=0.0625
eveniment
1
2
3
4
P=0.0625 > alfa=0.054 răspunsuri corecte nu indică
suficient de sigur “cunoştinţe”
C
E
E
E
E
E
E
C C C
C C C
C C C
C C
C CC
C C E
EC CE
EC EE
E CC C
E ECC
E E CC
E C EE
E E C C
E E C E
E CEE
EE EE
Dis tr ibu ţia b in om ia lă (N= 4 )
0 ,0 6 2 5
0 ,2 5
0 ,3 75
0 ,2 5
0 ,0 6 25
0
0 ,1
0 ,2
0 ,3
0 ,4
0 1 2 3 4
Nr. răsp. corecte 0 1 2 3 4
Frecvenţa 1 4 6 4 1
P(C) 1/16=0.0625 4/16=0.25 6/16=0.375 4/16=0.25 1/16=0.0625
distributia binomială
N=2
1 20
0.25
0.5
distribuţia binomială
N=4
1 20
0.125
0.25
3 4
0.375
distribuţia binomială
N=6
1 20
0.125
0.25
3 4 5 6
0,0002 0,0029
0,0161
0,0537
0,1208
0,1934
0,2256
0,1934
0,1208
0,0537
0,0161
0,0029 0,0002
0
0,05
0,1
0,15
0,2
0,25
0 1 2 3 4 5 6 7 8 9 10 11 12
distribuţia binomială
(N=12)
Pentru P≠Q?
• Exemplu:
– patru variante de răspuns la fiecare întrebare
– numai una este corectă
– probabilitatea răspunsului corect (P) este ¼=0.25
• distribuţia binomială nu este simetrică la valori mici ale lui N, dar tinde să devină simetrică pe măsură ce N creşte.
• nu există un răspuns exact cu privire la valoarea lui N pentru care distribuţia binomială este aproximată suficient de bine de cea normală.
• se acceptă faptul că
– pentru P=0.5, N nu trebuie să fie mai mare de 20-25
– pentru P apropiat de 0 sau 1 se impune o valoare pentru N de cel puţin 100.
• se poate lua în considerare aproximarea
distribuţiei binomiale cu o distribuţie
normală
• putem exprima valorile z în termeni de N, P
şi Q
σµ−
=X
zQPN
PNXz
**
*−=
• pentru 8 răspunsuri corecte la un chestionar
cu 10 întrebări
• sub curba normală... p(z=1.897) = 0.0294
• pentru alfa=0.05, unilateral
– putem respinge ipoteza de nul
– admitem că studentul nu a răspuns la întâmplare
• pentru alfa=0.05, bilateral
– admitem ipoteza de nul (z=2.56)
897.1581.1
3
5.2
58
5.05.010
5.0108==
−=
∗∗
∗−=
∗∗
∗−=
QPN
PNXz
Pentru 4 variante de răspuns la fiecare întrebare, din
care una este corectă (8 răspunsuri corecte din 10
întrebări):
P=1/4=0.25 iar Q=3/4=0.75
01.4369.1
5.5
875.1
5.28
75.0*25.0*10
25.0*108==
−=
−=z
z calculat (4.01) > z critic; alfa=0.05, bilateral (1.96)
QPN
PNXz
**
*−=
Teste z pentru proporţii, bazate pe
distribuţia binomială
1. Testul z pentru proporţia unui eşantion
în raport cu populaţia
2. Testul z pentru diferenţa dintre
proporţiile a două eşantioane
independente
3. Testul semnului (pentru eşantioane
dependente)
1. Testul z pentru proporţia unui
eşantion în raport cu populaţia
• echivalentul pentru date nominale al testului z
parametric pentru un singur eşantion
• Exemplu:
– pe un eşantion aleator de 100 de subiecţi dintr-
o anumită comunitate, procentul stângacilor
este de 20%, în timp ce studiile la nivelul
populaţiei generale indică un procent de
stângaci de numai 15% .
– există o „anomalie” a lateralităţii?
QPN
PNXz
**
*−=
N
PQ
Ppz
−=
prin împărţirea simultană
a numărătorului şi numitorului cu N
� p (mic) =probabilitatea măsurată a
evenimentului cercetat,
� P (mare) = probabilitatea aceluiaşi
eveniment la nivelul populaţiei,
� Q = probabilitatea complementară a lui P,
� N = volumul eşantionului.
� p (z=1.42) pe curba normală=0.0778 (mai mare decât alfa=0.05)
� acceptăm ipoteza de nul
� proporţia stângacilor nu depăşeşte semnificativ proporţia la nivelul
populaţiei generale.
42.1
100
127.0
05.0
100
85.015.0
15.020.0==
∗
−=z
• Testul z pentru proporţii implică testarea semnificaţiei unui procent observat în raport procentul populaţiei (atunci când este cunoscut), pentru evenimente de tip dihotomic.
• Exemplu
– se poate răspunde la întrebarea dacă un procent 55% de nou născuţi băieţi este neobişnuit de mare, ştiind care este procentul general al noilor născuţi băieţi
• Pentru situaţiile în care evenimentele cercetate nu sunt de tip dihotomic, se aplică alte teste statistice, despre care vom vorbi mai târziu.
2. Testul z pentru diferenţa dintre
proporţiile a două eşantioane independente
• două eşantioane din două ţări diferite
– (n1=100)
– stângaci (P1=0.15)
– (n2=90)
– stângaci (P2=0.25)
• este numărul stângacilor din ţara 2 mai mare decât cel din ţara 1?
• ipoteza cercetării: P1≠P2
• ipoteza de nul: P1=P2 (P1-P2=0)
• P1 şi P2 → probabilităţile unui eveniment aleator de tip binomial,
• evenimentul complementar (Q1, respectiv Q2) este caracteristica de a fi „dreptaci” (vom ignora acum faptul că pot exista şi „ambidextri”).
• p1 şi p2 sunt proporţiile evenimentului la nivelul eşantioanelor
• P1 şi P2 sunt proporţiile evenimentului la nivelul populaţiei (ipoteza de nul)
• σ(p1-p2) este eroarea standard a distribuţiei de eşantionare
( )( )21
)( 2121
pp
PPppz
−
−−−=
σ
( )2
22
1
11 **21 n
qp
n
qppp +=−σ
• q1=1-p1
• q2=1-p2
• n1 şi n2 sunt volumele celor două eşantioane
2
22
1
11
21
**
n
qp
n
qp
ppz
+
−=
2
22
1
11
2
2
1
1
**
*2
1
*2
1
n
qp
n
qp
np
np
z
+
−−
−
=pt. eşant. mici
(N<30)
85.1054.0
10.0
002.0001.0
10.0
90
75.0*25.0
100
85.0*15.0
25.015.0−=
−=
+
−=
+
−=z
• pt. alfa=0.05, bilateral
• se admite ipoteza de nul
3. Testul semnului• 1710 - John Arbuthnot
• se utilizează pentru compararea proporţiilor obţinute pe un eşantion evaluat în două situaţii diferite
• echivalentul neparametric al testului t pentru eşantioane dependente
• Exemplu:– Un psiholog clinician aplică o metodă de reducere a
manifestărilor de tip fobic la un grup de 8 de subiecţi.
– După un număr de şedinţe îi întreabă pe cei 8 subiecţi dacă se simt mai bine decât la începutul tratamentului.
• 6 afirmă că se simt mai bine
• 2 afirmă că nu simt nici o modificare (să admitem că nimeni nu răspuns că “se simte mai rău”)
– se poate decide că metoda este eficientă?
John Arbuthnot
(1667-1735)
• ipoteza cercetării:
– metoda are efect
– procentul de ameliorare este semnificativ mai mare
decât cel al absenţei oricărui efect al terapiei
• Ipoteza de nul
– metoda nu are efect
– eficienţa/ineficienţa terapiei sunt echivalente (P=Q=0.5)
• P(ameliorare) = 6/8=0.75
• Este P(ameliorare) semnificativ diferit de cel al
ipotezei de nul (0.5)?
• pentru datele noastre...
QPN
PNXz
**
*−=
QPN
PNXz
**
5.0* −−=corecţia Yeates
40.022.1
5.0
25.0*75.0*8
5.075.0*86−=
−=
−−=z
• p (z=-0.4)=0.844 (mai mare decât alfa=0.05)
• acceptăm ipoteza de nul
• datele nu susţin efectul terapiei