curs02_2011
TRANSCRIPT
BIOSTATISTICĂ Elemente de biostatistică
Cursul 2
IM&Bs UMF "C. Davila" 1 Biostatistică - cursul 2 - 2011
Conținutul acestui curs:
Populaţii şi eşantioane, caracteristici şi variabile
Reprezentări grafice
Statistici descriptive: Centrarea unei variabile numerice
Statistici descriptive: Deviaţia în jurul centrului
Statistici descriptive pentru variabile calitative şi ordinale
Covarianţa și corelaţia
Regresia
Alte distribuţii: hi-pătrat, Student, Fisher-Snedecor
IM&Bs UMF "C. Davila" 2 Biostatistică - cursul 2 - 2011
Populaţii şi eşantioane, caracteristici şi variabile
Statistica = ştiinţa care se ocupă cu tratamentul
datelor obţinute din grupuri „mici” de indivizi şi
extinderea rezultatelor la populaţii „mari”.
Variabilitatea Incertitudine
Biostatistica = domeniu particular al statisticii
IM&Bs UMF "C. Davila" 3 Biostatistică - cursul 2 - 2011
Populaţii şi eşantioane, caracteristici şi variabile
TERMENI:
Populaţie
Eşantion
Variabilă
Frecvenţă
IM&Bs UMF "C. Davila" 4 Biostatistică - cursul 2 - 2011
Populaţii şi eşantioane, caracteristici şi variabile
Variabile Variabile
numerice ordinale (calitative)
clase
k = nr de clase
! Nu există un algoritm pentru stabilirea numărului
de clase
k “prea mic” ascunde particularităţile claselor
“prea mare” se îngreunează reprezentarea
claselor
Recomandare: k[8,20]
IM&Bs UMF "C. Davila" 5 Biostatistică - cursul 2 - 2011
Reprezentări grafice Tipuri de diagrame (clasice):
- diagrama cu bare verticale sau orizontale (bar,
rotated bar)
- rozeta (pie)
- histograma (histogram)
Alte diagrame:
- box-and-whiskers plot- - diagrama de corelaţie (scatter plot) - diagrama „Stem-and-Leaf” (Trunchi-şi-Frunză) - diagrama pentru proporţia cumulativă etc.
IM&Bs UMF "C. Davila" 6 Biostatistică - cursul 2 - 2011
Reprezentări grafice
IM&Bs UMF "C. Davila" 7 Biostatistică - cursul 2 - 2011
Reprezentări grafice
IM&Bs UMF "C. Davila"
Diagrama de corelaţie
-10
-9
-8
-7
-6
-5
-4
-3
-2
-1
-0
+0
+1
+2
+3
+4
+5
+6
7
1
4 2 9 3 6 0
0 4 4 3 8 0 8
4 9 9 7 4 1 9 7
2 1 1 4 4 9 7 9 4 8 9 1 0 7 2
2 5 5 2 1 7 2 4 3 2 7 0 9 7 8 6 7
9 0 3 2 2 2 7 1 5 1 1 3 4 0 8 1 8 9 9 6 7 7 5
6 7 9 6 6 3 5 2 8 3 1 4 3 8 9 8
0 4 0 9 0 9 2 5 1 1 8 0 2 5 5 6 5 6 6 2 9 1
7 7 0 7 4 2 6 6 4 1 0 1 9 2 6 4 3 7 6 9 4
4 7 4 3 5 1 0 1 0
8 9 9 5 4 3 4
6 0
5
Diagrama Stem-and-Leaf
8 Biostatistică - cursul 2 - 2011
Centrarea unei variabile numerice n indivizi (eşantion) şi x1, x2,..., xn (măsurători)
Media aritmetică statistică (nr sau valoare
obţinută pe baza datelor
din eşantion)
tratează toate velorile
echitabil
Mediana = “punctul” care împarte datele în două părţi egale
x1 x2 ... xn datele sunt ordonate (distincte?!) n=2m+1 Me=xm+1 sau n=2m Me=(xm+xm+1)/2
Modulul: - valoarea cu frecvenţa maximă (date categoriale)
- Mo=3Me-2m (date numerice)
IM&Bs UMF "C. Davila"
n
xxxm n
...21
9 Biostatistică - cursul 2 - 2011
Deviația în jurul centrului Deviaţia (abaterea) =împrăştierea în jurul centrului
Amplitudinea A= xmax- xmin (lungimea intervalului)
Deviaţia medie (abatere medie)
media
pătratică
Deviaţia standard
Estimarea lui se face cu deviaţia standard:
IM&Bs UMF "C. Davila"
n
mxE
n
kk
1
||
n
mxQ
n
kk
1
2)(
10 Biostatistică - cursul 2 - 2011
1
)(1
2
n
mxs
n
kk
Statistici descriptive pentru variabile calitative şi ordinale
IM&Bs UMF "C. Davila"
Variabile calitative
• Frecvenţa relativă (media aritmetică) .
• Varianţa
• Abatere standard .
• Modulul
Variabile ordinale
• Mediana
• Dispersia
n
af
)1( ffV
)1( ffs
1
1
)1(K
kkk
FFD
4/)1(
K
Dd
lormodalitati ale
relative frecvente
modalitati denr
kF
K
11 Biostatistică - cursul 2 - 2011
Covarianța şi corelația
Covarianţa arată cât de mult se schimbă împreună două variabile
X=Y:
Coeficientul de corelaţie Pearson
X, Y independente
Y=a+bX, b>0 (b<0)
IM&Bs UMF "C. Davila"
)()()(),( YEXEYXEYXCov
)()()(),( 22 XVarXEXEXXCov
)))(())(((),( YEYXEXEYXCov
)()(),( 2 YVarXVarYXCov
),(2)()()( YXCovYVarXVarYXVar
]1,1[)()(
),(),(ρ
YVarXVar
YXCovYX
0),(ρ YX
1-sau 1),(ρ YX
12 Biostatistică - cursul 2 - 2011
Medie!
Covarianța și corelația
IM&Bs UMF "C. Davila" 13 Biostatistică - cursul 2 - 2011
Covarianța şi corelația Practic: mX, mY mediile seriilor de date
Covarianţa în esantion
Coeficientul de corelaţie Pearson
sau
Funcţii EXCEL: CORREL(), PEARSON()
Coeficientul de corelaţie Spearman
X, Y ordinale, dk – diferenţa rangurilor
IM&Bs UMF "C. Davila"
YkXk
mymxn
C1
1
22,
YkXk
YkXk
YX
mymx
mymxr
YX
YXss
Cr
,
)1(
61
2
nn
dro k
)))(())(((),( YEYXEXEYXCov
14 Biostatistică - cursul 2 - 2011
IM&Bs UMF "C. Davila"
Regresia
Întrebare: există o legătură (asociere) între variabilele X şi Y? Dată o valoare x a variabilei X, putem “previziona” valoarea corespunzătoare a variabilei Y? Legătură liniară? Permitem ca valorile lui Y să aibă o mică “abatere aleatoare”
ε este “eroarea”
X
Y
y
x
X
Y
x
y
XY
XY
15 Biostatistică - cursul 2 - 2011
IM&Bs UMF "C. Davila"
Regresia
În practică dispunem de eşantioane de valori “perechi”?
X
Y
xi
yi
),( ii yx
Estimăm şi din datele eşantionului (metoda celor mai mici pătrate)
Obţinem dreapta de regresie
bXaY x1 x2
y1
y2
Eroarea εi
16 Biostatistică - cursul 2 - 2011
IM&Bs UMF "C. Davila"
Regresia
Întrebare: există o legătură (asociere) liniară între variabilele X şi Y?
Răspuns “corect”: DA (coeficient de corelaţie = r)
r apropiat de 1 (formula corectă)
r apropiat de 0
17 Biostatistică - cursul 2 - 2011
IM&Bs UMF "C. Davila"
Distribuția normală standard Z = N(0, 1)
Dacă Z1=N(0, 1), Z2=N(0, 1),…, Zn=N(0, 1)
sunt independente, atunci:
Z1+Z2+…+ Zn=N(0, n)
(suma este încă normală), iar
Reprezintă erori de măsurare (vezi
formula de regresie)
nnn 1
,0N...21 ZZZ
M
18 Biostatistică - cursul 2 - 2011
IM&Bs UMF "C. Davila"
Distribuția hi-pătrat χ2(ν)
Mai precis, (Definiție)
unde Z1=N(0, 1), Z2=N(0, 1),…, Zn=N(0, 1) sunt
independente.
Este caracterizată de nr de “grade de libertate” n Calcule în Excel: CHIDIST(x, n)
Reprezintă eroarea “de ansamblu” 22
221
2 ...)( nn ZZZ
19 Biostatistică - cursul 2 - 2011
IM&Bs UMF "C. Davila"
Date importante:
Distribuția hi-pătrat χ2(ν)
Asimetrică
Vârful în
ν - 2
Media
E(χ2(ν))=ν
Varianța
Var(χ2(ν))=2ν
CHIDIST(x, n) =
aria haşurată
20 Biostatistică - cursul 2 - 2011
IM&Bs UMF "C. Davila"
Definiţie
Date importante:
Distribuția Student t(ν)
Simetrică
Vârful în 0
Parametru n
Densitatea lui t(10)
Pentru n>30 practic
t(n) şi Z coincid
nnn
)()(t
2
Z William Gosset 1908
”Student”
21 Biostatistică - cursul 2 - 2011
IM&Bs UMF "C. Davila"
Distribuţia Student t(ν)
Calcul direct în Excel cu funcţia
TDIST(x, n, TAILS)
TDIST(x, n, 1) =
aria haşurată TDIST(x, n, 2) =
aria haşurată
(Doar pentru valori x pozitive!)
22 Biostatistică - cursul 2 - 2011
IM&Bs UMF "C. Davila"
Distribuţia Fisher-Snedecor F(ν1, ν2)
Definiție
Să presupunem ca avem 2 eșantioane (n1, s1 și respectiv n2,s2) extrase din 2 populaţii (1, 2)
2
22
1
12
)2,1)(
)(
(
nn
nn
nn F
Calcul direct în Excel cu funcţia FDIST(x, ν1, ν2) (Importanţa în “confirmarea”
faptului că eşantioane distincte
fac parte din aceeaşi populaţie!)
)1,1(~ 212
2
2
1 nnFs
s
23 Biostatistică - cursul 2 - 2011