statistica descriptivă 2

Post on 03-Oct-2021

5 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Curs 4 –Statistica descriptivă 2

1

STATISTICA DESCRIPTIVĂ - OBIECTIVE

• Date de tip calitativ: Proporții, Rate, Rapoarte

• Date de tip cantitativ: Media aritmetica, Mediana,

Modul, Media geometrica, Media armonica,

Valoarea centrala

• Cvartile, Percentile

• Dispersia, Abaterea standard, Coeficientul de

variatie, Eroarea standard, Amplitudinea

• Asimetria

• Boltirea

MĂSURI DE TENDINŢĂ CENTRALĂ

Proprietăţi

Dacă datele au o distribuţie simetrică, media,

mediana si modulul sunt egale.

MedianaMedia

Mediana MediaModul Modul

Distribuţie simetricăDistribuţie asimetrică (skew)

MĂSURI DE TENDINŢĂ CENTRALĂ

Proprietăţi

• Asimetrie spre dreapta= asimetrie (Skew) pozitivăo Modul < Mediana < Media

MĂSURI DE TENDINŢĂ CENTRALĂ

Proprietăţi

• Asimetrie spre stânga= asimetrie (Skew) negativăo Media < Mediana < Modul

MĂSURI DE DE DISPERSIE - aplicatii

intervalul SX 1 conţine aprox. 68.3 % din

valori

intervalul SX 2 conţine aprox. 95.5 % din

valori

intervalul SX 3 conţine aprox. 99.7 % din

valori

Observatie: Valorile care nu sunt in acest interval se numesc

valori aberante.

Pentru o variabilă cu distribuție simetrică (normală), avem

proprietățile:

Distribuţia normală (Gauss)

MĂSURI DE DISPERSIE• -descriu variabilitatea (fluctuaţia) sau dispersia datelor

seriei

• Importanța:

o informaţii privind extinderea împrăştierii datelor sau, reciproc, a gradului lor de aglomerare.

o stabilirea reprezentativităţii măsurilor de centralitate.

• Semnificaţia unei medii ca şi valoare reprezentativă pentru un set de date depinde de gradul de dispersie a valorilor individuale în jurul ei.

o estimarea parametrilor statistici

o inferenţa statistică.

8

Comparația directă

9

Dacă știu precizia metodei și doi

studenți îmi aduc datele din grafic cum

interpretez?

Care din cele două metode este mai

precisă?

Comparaţie între valorile unei

enzime determinate prin două metode

AMPLITUDINEA• =diferenţa între valoarea maximă şi valoarea minimă a datelor:

A = Xmax - Xmin.

• Xmax=max{X1,…,Xn}

• Xmin= min {X1,…,Xn}

10

Comparaţie între valorile unei

enzime determinate prin

două metode

Care din cele două metode este mai

precisă?

EXEMPLU• 177, 193, 195, 209, 226

o amplitudinea= 226-177=49mg/dL

• 192, 197, 200, 202, 209o amplitudinea= 209-192=17mg/dL

11

AMPLITUDINEA• Dezavantajul major al amplitudinii ca măsură

de dispersie este că se bazează doar pe

valorile extreme ale seriei.

• Nu oferă nici o informaţie despre cât de

aglomerate sunt datele distribuite între

extreme.

12

MEDIA DEVIAŢIEI• -Reprezintă un indicator de dispersie ameliorat în raport cu

amplitudinea, în sensul că sunt luate în considerare toate valorile seriei.

• -Determinarea ei constă în calcularea mediei valorilor absolute a abaterilor fiecărei date a seriei de la medie (sau mediană).

• media deviaţiei de la medie

• media deviaţiei de la mediana

13

n

XXn

i

i

1

n

MeXn

i

i

1

VARIAŢIA cel mai utilizat mod de exprimare a dispersiei datelor în jurul mediei

aritmetice.

variaţia este media aritmetică a pătratelor abaterilor de la media seriei, adică:

se exprimă în pătratul unităţilor de măsură ale valorilor observate.

14

n

XX

s

n

i

i

1

2

2

)(

VARIANŢA• In inferenţa statistică se utilizează variaţia de

eşantionare sau varianţa

15

2 2

1

nS s

n

Ajustează tendinţa de subestimare a variaţiei

populaţiei faţă de variaţia eşantionului (varianța)

VARIANŢA-exemplu

DEVIAŢIA SAU ABATEREA STANDARD (s)

• sau ecartul tip este rădăcina pătrată a variaţiei:

𝑠 = 𝑠2

• Spre deosebire de variaţie, ecartul tip are aceeaşi unitate de măsură ca şi media şi datele seriei.

• In inferenţa statistică abaterea standard sau deviaţia standard (de eşantionare) se defineşte analog:

𝑆 = 𝑆2

• Din punct de vedere geometric, abaterea standard sau ecartul tip poate fi interpretat ca o “distanţă euclidiană” a seriei la media ei aritmetică.

17

ABATEREA STANDARD-exemplu

Pacient Greutate

(kg)

1

2

3

4

5

6

7

8

9

10

7.0

11.7

12.6

15.7

15.9

16.0

16.0

17.0

17.5

17.7

49.00

136.89

158.76

246.49

252.81

256.00

256.00

289.00

306.25

313.29

Total 147.1 2264.49

2

ix

10

1i

ix

10

1

2

i

ix

110

10

210

110

1

2

2

i

i

i

i

x

x

s

22

2

2

18.11

110

10

)1.147(49.2264

kgs

s

MASURI DE DISPERSIE

VARIATIA - EXEMPLU

COEFICIENTUL DE VARIAŢIE (cv)

este, pentru datele de tip raţie, o măsură relativă a dispersiei

datelor.

este egal cu raportul dintre ecartul tip şi media seriei (%):

este un indicator independent de unităţile de măsură

20

𝐶𝑉 =𝑠

ത𝑋(%)

COEFICIENTUL DE VARIAŢIE

exprimă procentul reprezentat de valoarea abaterii standard din valoarea mediei aritmetice a seriei de date.

compara dispersiile relative pentru distribuţii de frecvenţe ale unor fenomene diferite.

Astfel se poate compara dispersia relativă a unui tip de date cu dispersia relativă a altui tip de date.

21

INTERPRETAREA COEFICIENTULUI

DE VARIAŢIE

• In utilizarea coeficientului de variaţie la studiul omogenităţii

unor populaţii se pot utiliza următoarele reguli empirice:

o dacă CV este sub 10% atunci populaţia poate fi considerată omogenă;

o dacă CV este între 10%-20% atunci populaţia poate fi

considerată relativ omogenă;

o dacă CV este între 20%-30% atunci populaţia poate fi

considerată relativ heterogenă;

o dacă CV este peste 30% atunci populaţia poate fi

considerată heterogenă.

22

EXEMPLU In exemplul următor datele care se compară sunt

exprimate cu unităţi de măsură diferite. In grupul A

media greutăţii a fost de 65.7 kg cu o deviaţie

standard de 3.2 kg. In grupul B media înălţimii a fost

de 1.70 m cu o deviaţie standard de 0.13 m. Să se

compare variabilitatea înălţimii cu cea a greutăţii.

CV greutate

CV inaltime

23

%9.47.65

2.3

kg

kg

%7.770.1

13.0

m

m

VARIAȚIE, VARIANȚĂ, ABATERI, DEVIERI…

Statistică descriptivă (eșantion sau întreaga

populație)

Statistică inferențială (aproximare pentru întreaga populație pe baza eșantionului)

• variația

n

XX

s

n

i

i

1

2

2

)(

• Varianţa

• variaţia de eşantionare

2 2

1

nS s

n

• Ecartul tip

• Abaterea (deviația) standard a populației

𝑠 = 𝑠2

• Abaterea (deviația) standard

𝑆 = 𝑆2

• Coeficientul de variație al populației

𝐶𝑉 =𝑠

ത𝑋(%)

• Coeficientul de variație

𝐶𝑉 =𝑆

ത𝑋(%)

EROAREA STANDARD• In inferenţa statistică se utilizează un indicator

al dispersiei datelor numit eroarea standard:

• Eroarea standard intervine în estimarea

statistică în determinarea intervalelor de

încredere pentru medie.

25

n

sES

ASIMETRIA (SKEWNESS)• Măsura de asimetrie (sau skewness) este destinată

să indice pentru o serie sau distribuţie de date:

o extinderea asimetriei adică abaterea de la aspectul

simetric

o direcţia asimetriei (pozitivă sau negativă).

• Ca o măsură a asimetriei unei distribuţii este utilizat

momentul de ordinul trei al abaterii de la medie

reprezentat prin media aritmetică a cuburilor

abaterilor valorilor distribuţiei de la media

aritmetică, adică:

26n

SXXn

i

i

3

1

3

]/)[(

BOLTIREA (KURTOSIS)• Excesul sau boltirea (în engleză kurtosis) este o măsură a

formei unei serii sau distribuţii de date, care măsoară înălţimea

aplatizării/boltirii unei distribuţii în comparaţie cu o distribuţie

normală. Această măsură este definită prin:

28

4

14 4

1( )

3

n

i

i

X Xn

S

BOLTIREA (KURTOSIS)

Excesul 4 este zero pentru o serie de date având o distribuţie

normală,

este pozitiv pentru o serie de date având trena mai înaltă

decât cea a unei distribuţii normale (cu media şi variaţia S2)

este negativ pentru o serie de date a cărei trenă este mai

coborâtă decât cea a unei distribuţii normale

trena se apropie mai încet (4 >0) sau mai rapid (4 <0) de

zero decât cea a distribuţiei normale).

29

ASIMETRIE SI EXCES

(SKEWNESS, KURTOSIS)- proprietăţi

• Pentru o distribuție normală:

- asimetria si excesul au valori

apropiate de 0 (se acceptă în

intervalul [-1; 1].

- media, mediana și modulul sunt

aproximativ egale.

Exemplu:

Varsta pacientilor sositi la cabinetul

stomatologic in regim de urgenta in

data de 2 martie: 19, 21, 21, 24, 30, 20

Media varstei:

= 19 + 21 + 21 + 24 + 30 + 20 / 6

= 22.5

Variaţia:

s2 = 81.5 / 5

s2 = 16.3

Deviatia standard:

S = 16.3

S = 4.04

Eroarea standard:

SE = 4.04 / 2.45

SE = 1.65

Talie esantion:

n = 6

x n media(x–

media)

(x-

media)2

19 6 22.5 -3.5 12.25

21 6 22.5 -1.5 2.25

21 6 22.5 -1.5 2.25

24 6 22.5 1.5 2.25

30 6 22.5 7.5 56.25

20 6 22.5 -2.5 6.25

81.5

df = 5

n = 2.45

1

2

3

4

Coeficientul de variaţie:

CV = 4.04 / 22.5

CV = 0.18 or 18%

5

Problemă

• Pentru un eşantion de n = 36 pacienti care s-au prezentatla cabinetul stomatologic, s-a gasit media indexului facialde 80mm cu o deviatie standard de 5mm. Presupunând că indexul facial o distribuție normală, să se determine:

• a) In ce interval sunt situate aproximativ 68% din valorileindexului facial ai pacientilor?

• b) In ce interval sunt situate aproximativ 95% din valorileindexului facial ?

• c) Cati pacienti (in %) au indexul facial peste 90 mm?

TEMĂ

top related