curs informatica

23
BIOSTATISTICA BIOSTATISTICA CURS Tipuri de variabile, indicatori statistici, distributia Gauss- Laplace, interval de confidență Conf.dr. Lucian Boiculese

Upload: ipaperrr

Post on 07-Aug-2015

61 views

Category:

Documents


1 download

DESCRIPTION

info curs

TRANSCRIPT

Page 1: curs informatica

BIOSTATISTICABIOSTATISTICA

CURS Tipuri de variabile, indicatori statistici, distributia Gauss-Laplace, interval de

confidență

Conf.dr. Lucian Boiculese

Page 2: curs informatica

Statistica motivaţieStatistica – analiza probabilităţii: 1 – variaţia intrinsecă (imanentă) a datelor,2 – studiul eşantionului => concluzii aplicate pe întreaga populaţie.

Tipuri de dateDatele culese experimental urmează a fi analizate conform metodelor statistice. Datele se culeg în general dintr-o populaţie statistică sau colectivitate statistică. Elementele populaţiei sunt unităţi statistice sau indivizi. La un anumit moment ne interesează o trăsătură comună a indivizilor, numită variabilă sau caracteristică. Variabilele pot fi cantitative (şi se exprimă numeric prin valoarea măsurată sau dedusă experimental) sau calitative (categoriale,atributive). Acestea din urmă se pot exprima prin aprecieri ca stadiul1, stadiul2, de exemplu şi nu li se pot echivala valori numerice (în sens propriu valorile numerice pot fi ordonate). Variabilele cantitative pot fi împărţite în continuare în variabile discrete şi continue. Un exemplu de variabilă discretă ar fi numărul de nou născuţi pe zi la o anumită maternitate. Un exemplu de variabilă continuă este înălţimea persoanelor. În general informaţiile ce se culeg sunt numai de la o parte din indivizi, nu din întreaga populaţie. Aceasta este o cercetare selectivă. Aceşti indivizi formează eşantionul sau selecţia de lucru.

Page 3: curs informatica

SCALE DE MĂSURĂ

Pentru a măsura o variabilă de tip categorial se folosesc scale nominale. Acestea vor defini grupurile sau categoriile existente prin asignarea unor nume. Nefiind informaţie de tip cantitativ este imposibil de realizat ordonarea acestora. De interes practic şi posibil de studiat sunt frecvenţele de apariţie a categoriilor definite (anticipăm aici şi menţionăm că modul sau indicatorul statistic valoare modală poate prezenta interes în acest caz).Exemple: afilierea politică, preferinţa religioasă, culoarea ochilor, starea civilă etc. Datele sau variabilele de tip cantitativ se caracterizează prin variaţie în magnitudine, de la element la element. Astfel, acestea pot fi ordonate, încât relaţii de genul mai mic sau mai mare au sens în acest context. După fineţea pasului de evaluare a relaţiei mai mare sau mai mic, putem împărţi variabilele cantitative în discrete şi continue. O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi: numărul de note de 10 la examenul de admitere, sau numărul de nou născuţi într-o zi la o maternitate. O variabilă de tip continuu poate lua orice valoare dintr-un interval definit. Spre exemplu temperatura, valoarea presiunii arteriale, sau înălţimea unei persoane au valori de tip continuu. Evident, precizia de măsurare depinde de utilitatea informaţiei, astfel încât putem afirma că valoarea măsurată cu o exactitate de o zecimală este suficientă în exprimarea temperaturii, folosind scara Celsius de măsură.

Page 4: curs informatica

Variabilele de tip cantitativ folosesc trei scale (scări) de măsură: ordinală, interval şi raport.

Scala de tip ordinal prezintă în plus faţă de scala nominală caracteristica de ordonare a claselor de grupare a datelor. Cu toate acestea, este greu sau imposibil de specificat dimensiunea distanţei sau diferenţei dintre clase. De exemplu, este imposibil de cuantificat diferenţa dintre clasele (depinde de cel ce apreciază): foarte frumos, frumos, acceptabil, inacceptabil. Dar logic ordinea lor este clară. Scala de tip interval conţine trăsăturile unei scale ordinale şi în plus, diferenţele dintre clasele scalei pot fi specificate. O unitate a intervalului scalei are aceeaşi interpretare, indiferent de clasa căreia îi aparţine. Cu toate acestea, raportul este imposibil de interpretat. Nu există punctul de referinţă 0 în cadrul acestei scale de măsură. Acesta a fost ales doar arbitrar, după o anumită logică empirică. De exemplu, în scala Celsius de temperatură, nivelul de 0 a fost definit empiric, ca punctul de îngheţ al apei pure. Şi scala Fahrenheit de măsură este un bun exemplu. Dacă temperaturile măsurate sunt 300C, respectiv 600C nu putem afirma că temperatura de 60 este dublul celei de 30. Raportul nu poate fi corect interpretat. Iată, 300C înseamnă 860F, iar 600C înseamnă 1400F (F=C*9/5+32, Kelvin = Celsius + 273.15). Raportul de nu se menţine şi în scara Fahrenheit, cu toate că temperaturile sunt aceleaşi. Scala de tip raport are în plus faţă de scala interval, definirea concretă a originii sistemului de măsură, astfel încât raportul are sens şi se poate interpreta. Scara Kelvin este un exemplu corect în acest sens.

Page 5: curs informatica

Scala nominală

Scala ordinală

Scala interval

Scala raport

Interpretarea este în sensul următor: oricând o variabilă ce poate fi măsurată pe o scală ordinală poate fi tratată ca o variabilă de scală nominală, dar informaţia va fi pierdută şi astfel avem şanse să fim deficitari în concluziile obţinute.

După legătura existentă între variabile, acestea se împart în dependente, respectiv independente.

Variabile independente (sau factori) sunt de obicei în cadrul experimentului manipulate de cercetător. Prin modificarea valorilor acestora, ca urmare a legăturilor existente, se modifică şi variabilele dependente .

Y = f(X) , Y este variabila dependentă, X variabila independentă.

Page 6: curs informatica

Numărul indivizilor ce aparţin unui anumit interval (sau clasă) formează frecvenţa absolută notată a1, a2, …am (m numărul de clase ce este de obicei mai mic ca n numărul de indivizi). Avem relaţia: , unde :

aj – frecvenţa absolută a clasei j.m – numărul de clase.n – numărul de indivizi.Frecvenţa relativă fi se obţine raportând frecvenţa absolută aj la numărul de indivizi. şi avem relaţia: Frecvenţa cumulată este numărul de indivizi cumulaţi până la o anumită valoare a variabilei de studiu.La rândul ei frecvenţa cumulată poate fi absolută şi relativă. Pentru frecvenţele cumulate se folosesc de obicei la notaţie literele mari.

FRECVENŢEFRECVENŢE

m

j

naj1

n

ajfj 1

11

n

n

n

ajfj

m

j

m

j

Pentru eşantioane “mari” frecvenţa relativă tinde către probabilitatea evenimentului studiat – LEGEA NUMERELOR MARI.

Reprezentarea datelor statistice Grupa de vârstă

Frecvenţa absolută (ai)

Frecvenţa relativă (fi)

Frecvenţa absolută cumulată (Ai)

Frecvenţa relativă cumulată (Fi)

0 - 4 15 0.1163 15 0.11635 - 9 17 0.1318 32 0.248110 - 14 20 0.1550 52 0.403115 - 19 25 0.1938 77 0.596920 - 24 19 0.1473 96 0.744225 - 29 18 0.1395 114 0.883730 - 34 15 0.1163 129 1Total 129 1

Page 7: curs informatica

HISTOGRAMAHISTOGRAMA

Histograma - Este reprezentarea sub formă grafică folosind dreptunghiuri a frecvenţelor relative.Putem reprezenta grafic frecvenţele absolute, relative şi cumulate.

Forma graficului ce reprezintă frecvenţa absolută seamană cu cel ce reprezintă frecvenţa relativă ?

Eşantionul este finit ca dimensiune şi poate exprima o variabilă cu domeniu finit. Aceasta este apoi interpretată folosind curba Gauss-Laplace ce se defneşte pe un domeniu infinit, cum este posibil acest lucru ?

Page 8: curs informatica

Indicatori statistici În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se observă tendinţe ce prezintă două aspecte: 1 – de localizare (de poziţie)

2 – de împrăştiere (de variaţie).Analiza cantitativă care să permită evaluări şi comparaţii din punct de vedere al localizării sau al împrăştierii datelor se poate efectua numai cu ajutorul indicatorilor statistici. Aceştia exprimă numeric, pe baza valorilor de studiu fie localizarea fie variaţia datelor.

Media aritmetică

Media geometrică

Media armonică

Media pătratică

n

xi

n

xnxxx

n

i

1...21

Mediana

Modul Fie şirul format din elementele x1, x2, x3, … ,xn. Valoarea xi corespunzătoare frecvenţei celei mai mari poartă numele de modul.

Valoarea centrală

nn

i

nG xixnxxxM

1

...321

n

i

H

xi

n

nxnxx

M

1

11...

2

1

1

11

21

2

xn

xi

M

n

iP

2

11 nk xxMe

22

2/22/1

nnkk xxxx

Me

2

minmax XXXc

Page 9: curs informatica

Proprietăţile caracteristicilor de localizare•Mediile aritmetică şi pătratică sunt influenţate de valorile mari ale şirului.•Mediile geometrică şi armonică sunt mai puternic influenţate de valorile mici ale şirului.•Mediana nu este influenţată de valorile extreme.•Valoarea centrală nu depinde de toate valorile şirului de date ci numai de cele extreme.•Relaţie existentă între medii:•Cel mai des indicator de localizare folosit este media aritmetică.

PGH MXMM

2 - Indicatori de variaţieAceştia reprezintă o evaluare numerică a împrăştierii datelor.

Dispersia

Abaterea pătratică medie

AmplitudineaEste definită ca diferenţa valorilor extreme şi se notează cu W sau A (în majoritatea cazurilor).

W = A = Xmax - XminIntervalul intercuartilicCuartilele împart datele în 4 clase de frecvenţe egale cu 25%. Astfel sunt necesare 3 valori Q1, Q2, Q3 ce reprezintă cuartilele. Presupunem că avem o distribuţie a frecvenţelor parametrului x (discret) conform graficului de mai jos:

n

xxi

n

xxnxxxx

n

i

1

2222

2 .....21

n

xxi

xD

n

i

1

2

][

Page 10: curs informatica

Coeficientul de variaţieAbaterea pătratică medie se interpretează prin compararea cu media valorilor de studiat. Dacă avem o medie de 100 şi o abatere pătratică standard de valoare 5, atunci avem mici variaţii, dar dacă avem aceeaşi abatere la o medie de 10, atunci variaţia este foarte mare. În concluzie se defineşte coeficientul de variaţie:

xCx

xCx

Page 11: curs informatica

UnimodalăBimodală Multimodală

Asimetrie - Skewness

1 – Dacă Sk>0 , avem asimetrie pozitivă sau la dreapta.2 – Dacă Sk<0 , avem asimetrie negativă sau la stânga.3 – Dacă Sk=0 , avem simetrie (distribuţia normală are asimetria 0).În general o distribuţie ce are valoarea Sk diferită de 0 cu mai mult de un punct, denotă o diferenţă semnificativă faţă de distribuţia normală.

Page 12: curs informatica

32 32 32

Boltirea (Excesul, Kurtosis)

0,3 22

0,3 22

Avem următoarele modalităţi de caracterizare a distribuţiilor:

Mezocurtică

Leptocurtică

Platicurtică 0,3 22

Page 13: curs informatica

Graficul de tip Box-and-Whiskers (sau Box-Plot)Este o metodă ce prezintă compact forma distribuţiei unui set de date. Se foloseşte cu succes în

compararea şi determinarea simetriei repartiţiei determinate de un lot de date (box – cutie, whiskers – mustăţi , se referă la extremităţi).

Lot 1 Lot 2 Lot 3

Variabila studiata

Pentru realizarea graficului se calculează anumiţi indicatori statistici ce reprezintă cele 5 limite. Mediana este valoarea din cadrul şirului ordonat care se află la jumătatea acestuia. Aceasta împarte setul de date in două grupe egale şi este reprezentată în grafic de linia notată cu valoarea 3. Limitele 2 respectiv 4 reprezintă valorile cuartilelor. Acestea împart distribuţia de frecvenţă în patru părţi egale. Astfel în total sunt 3 ca număr. Cuartila a doua este chiar mediana (notată cu 3). Diferenţa dintre cuartila numită Q3 (notată cu 2 în grafic) şi numită Q1(notată cu 4) reprezintă intervalul intercuartilic. Acesta defineşte lungimea a 50% din setul de date, procent centrat pe mediană. Extremele 1 respectiv 5 sunt determinate de – cuantile. Astfel nivelul 5 din grafic va prezenta cuantila pentru care 10% din date sunt sub această valoare, iar nivelul 1 din grafic va reprezenta valoarea pentru care 90% din date sunt sub acesta.Graficul este relevant prin faptul că scoate în evidenţă nivelul de simetrie al distribuţiei. Dacă distribuţia nu este simetrică mediana nu se va afla la mijlocul dreptunghiului (în cele mai multe cazuri). Mai mult laturile din afara dreptunghiului nu vor fi de dimensiuni egale. Simetria este o caracteristică importantă care poate să ne ajute în determinarea tipului de distribuţie.

1

23

45

Page 14: curs informatica

Repartiţia Gauss-LaplaceEste cunoscut faptul că în cadrul unui experiment oricâte precauţii s-ar lua pentru a controla diferiţi factori, rezultatele obţinute vor prezenta o anumită variabilitate. Această variabilitate este cuprinsă în aproape toate domeniile de lucru, obligându-ne să lucrăm cu intervale ale parametrilor de studiu în loc de valori fixe. Variabila aleatoare este o noţiune fundamentală din domeniul statisticii, reprezentând acea mărime de interes ce poate lua în cadrul realizării experimentului o valoare oarecare necunoscută aprioric.

,2

1)(

2

2

2 ateprobabilitdedensitateexfx

,x

Se notează simbolic N(, ) , sau N(x, , ).

Repartiţia Normală (Gauss-Laplace)

x

dxxfxF )()(

dxedxxfxF

x xx

2

2

2

2

1)()(

Page 15: curs informatica

Funcţia densitate de probabilitate Funcţia de probabilitate Proprietăţile repartiţiei normale 1. Distribuţia admite un singur maxim fiind astfel unimodală. Maximul se atinge în

punctul x= şi are valoarea

*2*

1)( f (în acest punct derivata este zero

df/dx=0). 2. Este simetrică în raport cu dreapta x=. În orice repartiţie normală mediana şi

modul coincid cu media aritmetică. Datorită simetriei suprafaţa cuprinsă între curba densităţii de probabilitate şi axa xx’ pe intervalul , este egală cu cea

din intervalul , şi are valoarea 1/2. Evident suprafa’a total[ are valoarea 1 reprezentând probabilitatea evenimentului sigur. Suprafaţa cuprinsă între dreptele x=- , x=+ , x=0 şi curba densităţii de probabilitate este egală cu 0,682. Conform calculelor şi reprezentării grafice majoritatea cazurilor în proporţie de peste 95% se află în intervalul (-2 , +2 )

Page 16: curs informatica

1. Punctele de pe abscisă de valoare + respectiv de valoare - sunt puncte de inflexiune. În acestea curba densităţii de probabilitate îşi modifică convexitatea.

Astfel derivata a doua este zero. 0)(

2

2

xxd

xfd.

În punctele x şi x funcţia f(x) tinde la zero. Are formă de clopot de unde şi denumirea de clopotul lui Gauss.

2. Asimetria şi aplatisarea pentru o repartiţie normală au valoarea 0. De asemenea momentele centrate de ordin impar sunt nule pentru o astfel de repartiţie (diferenţele între xi şi medie îşi păstrează semnul).

3. Modificarea mediei duce la o translare a curbei pe direcţia axei xx’. Iată un exemplu realizat în graficul următor. Avem relaţia între medii: 321 Dispersiile sunt egale: 321

boltirea

Page 17: curs informatica

Exemplu de calcul al probabilităţii pe intervalSă presupunem că ne interesează să caracterizăm calitatea studenţilor din anul 6 de studiu la facultatea de

medicină, prin determinarea probabilităţii pe grupele de calificative folosite. Probabilitatea va reflecta practic frecvenţa de apariţie a unei grupe din cadrul calificativelor. Tabelul următor defineşte legătura între aprecierea calitativă şi notele obţinute în sistem zecimal:

Notă obţinută Calificativ8.5 - 10 A6.5 – 8.4 B5.5 – 6.4 C5 – 5.4 DSub 5 EPentru determinarea probabilităţii vom folosi

funcţia NORMDIST(x,mean,st_dev,cumulative) din Microsoft Excel. Acasta ne ajută să calculăm densitatea de probabilitate sau probabilitatea cumulată pentru o distribuţie normală. Parametrul cumulative al funcţiei poate lua 2 valori: TRUE sau FALSE (sau 1 respectiv 0).

TRUE (sau 1) implică calculul probabilităţii cumulate (suprafaţa deci F(x)), FALSE (sau 0) implică calculul densităţii de probabilitate (f(x)).

Pentru cazul x=8.5 avem (deci descriem calificativul A): NORMDIST(8.5,7.8,0.8,1)=0.809. Astfel probabilitatea de a obţine un calificativ A este de 1-0.809 = 0.191.

Pentru a obţine calificativul B probabilitatea este: NORMDIST(8.5,7.8,0.8,1)-

NORMDIST(6.5,7.8,0.8,1)=0.809-0.052=0.757

Se presupune că distribuţia respectă legea Gauss – Laplace. Se cunoaşte media pe lotul de studiu μ=7.8 şi de asemenea, deviaţia standard σ=0.8

Probabilitatea de a obţine calificativul A este 1-0.809= 0.191

2

2

2

2

1)(

x

exf

Densitatea de probabilitate f(x)

Page 18: curs informatica

Nr. Indicator statistic Funcţie Excel Descriere / formula 1. Media aritmetică Average()

Averageif() Averageifs()

Media setului selectat Media selecţiei pentru celulele ce indeplinesc o singură condiţie. Media selecţiei pentru condiţii multiple.

2. Media aritmetică ajustată. Trimmean(domeniu,procent) Se calculează media aritmetică eliminând din setul de date procentul specificat din valorile extreme atât minimă cât şi maximă. Vor rămâne : ሺ100%− 2∙𝑝𝑟𝑜𝑐𝑒𝑛𝑡ሻ∙𝑁𝑟.𝑑𝑎𝑡𝑒.𝑖𝑛𝑖𝑡

3. Media armonică Harmean()

n

i i

H

x

nM

1

1

4. Media cronologică Veţi propune o metodă de calcul.

12...2 12

1

n

XXXX

Mn

n

C

5. Media geometrică Geomean() n

i

n

iG xM

1

6. Media pătratică Veţi propune o metodă de calcul.

21

2

xn

xM

n

ii

P

7. Mediana Median() Valoarea de mijloc a şirului ordonat

n

xxm

ii

1

2

2

11

2

2

n

xxm

ii

n

xxm

ii

1

2

11

2

n

xxm

ii

Page 19: curs informatica

n

i i

H

x

nM

1

1

12...2 12

1

n

XXXX

Mn

n

C

ni

n

iG xM

1

21

2

xn

xM

n

ii

P

7. Mediana Median() Valoarea de mijloc a şirului ordonat 8. Valoarea modală (modul) Mode() Valoarea de frecvenţă maximă 9. Dispersia (pt. populaţie) Varp()

n

xxm

ii

1

2

2

10. Dispersia (pt. eşantion) Var()

11

2

2

n

xxm

ii

11. Deviaţia standard (pt. populaţie)

Stdevp()

n

xxm

ii

1

2

12. Deviaţia standard (pt. eşantion)

Stdev()

11

2

n

xxm

ii

13. Calcul cuartile Quartile(domeniu,valoare) Valoarea indică numărul cuartilei calculate: 0 – minimul ; 1 – Q1 ; 2 – Q2 ; 3 – Q3 ; 4 - maximul

14. Intervalul cuartilic Veţi calcula diferenţa. IQ = Q3 – Q1

Page 20: curs informatica

Intervale de Încredere În cadrul realizării experimentelor de un număr repetat de ori se obţine un număr finit

de evenimente. Observaţiile ce se fac asupra populaţiei pot fi totale (dacă se studiază toate evenimentele) şi parţiale (dacă se studiază doar un eşantion din total).

Cercetarea unitară a întregii populaţii în multe situaţii este greu de realizat poate chiar impracticabilă. Sunt cazuri în care chiar numărul datelor medicale este mic şi bazat pe aceasta trebuie deduse caracteristici generale asupra fenomenului sau obiectivului de studiu.

Eşantionul este considerat mic dacă volumul său are un număr de elemente mai mic de 30 şi mare dacă numărul numărul de elemente depăşeşte valoarea de 30. Astfel funcţie de numărul de valori disponibile se aplică diferite teste şi precizia estrimărilor este cu atât mai bună cu cât avem mai multe date de studiu.

Scopul principal în cadrul culegerii datelor constă în a obţine cu un effort minim (volum minim de date) un volum maxim de informaţii.

Estimarea constă în operaţia de determinare a parametrilor populaţiei pe baza eşantionului studiat. Datorită lipsei de informaţie existentă prin cercetarea neunitară cât şi datorită dispersiei parametrilor doriţi, se poate deduce pe baza unei anumite probabilităţi (de obicei acceptată la valoarea de 95% în domeniul medical) un anumit interval de încredere a parametrului de studiat.

Obiectivul final al unui experiment constă în majoritatea cazurilor în a măsura valoarea unui parametru. Valoarea măsurată (izolată de altfel) nu poate fi considerată satisfăcătoare sau ca valoare de referinţă dacă nu se fac precizări la domeniul de variaţie şi la probabilitatea corespunzătoare.

În cadrul estimării parametrilor unei populaţii valoarea estimată este de fapt o variabilă aleatoare determinată de eşantionul studiat. Cu cât avem maio multe eşantioane cu atât avem mai multe valori ale parametrului dorit de a fi calculat.

Intervalul de estimare a parametrului respectiv se deduce din formula de calcul a probabilităţii.

Page 21: curs informatica

2

1

)()21(Prx

x

dxxfxXxeaobabilitatP

f(x) reprezintă densitatea de probabilitate. x1 , x2 reprezintă limitele intervalului ca variabila aleatoare X să aibă o

anumită probabilitate P de a aparţine acestui interval. Reprezentând grafic funcţia densitate de probabilitate obţinem intervalul de încredere

cu nivelul de semnificaţie , desenat mai jos.

- reprezintă nivelul de încredere. - reprezintă riscul sau nivelul de semnificaţie. Pentru interval simetric bilateral

avem = /2 + /2, riscul se împarte simetric. În caz general putem avea un risc stânga 1 respectiv dreapta 2 cu suma egală cu .

În concluzie riscul poate fi plasat simetric sau asimetric faţă de media dorită spre a fi estimată.

0

0.2

0.4

0.6

0.8

1

1.2f(x)

M[x]x1 x2

interval de incredere

Page 22: curs informatica

Din formula de calcul a probabilităţii avem: 195,096,196,1 ZP (1) Se poate demonstra că dacă avem mai multe eşantioane dintr-o populaţie normală,

media de selecţie este o variabilă aleatoare repartizată normal N(,2/2). Pentru a o centra şi

normaliza vom aplica formula: n

xz

/

(2).

Din prima şi a doua formulă putem scrie: 96,1/

96,1

n

x

(3)

Dezvoltând în continuare formula 3 obţinem: n

xn

x

96,196,1

n

x 96,1 (4)

În caz general pentru un risc simetric formula 4 devine:

n

zx 2/ (5)

Unde Z/2 este abscisa densităţii de probabilitate f(x) pentru un nivel de semnificaţie /2 (valori tabelate în anexe). Dacă riscul este bilateral dar nu simetric avem următoarea formulă dedusă din (1):

2121 1 Z

n

xZZZZP

n

Zxn

Zx

21 (6)

Exemplu de calcul - Interval de încredere pentru media unei variabile aleatoare repartizată normal.

Page 23: curs informatica

Data + Data Analysis + Descriptive statistics

Eroarea standard (Standard Error) este :

Nivelul de confidenţă (Confidence level) este : din formula (5).

Pentru eșantioane mici se folosește distribuţia t(student) în loc de Z.