001 stat-descriptiva-2014-pdf

24
1 TEMATICA CURSULUI 1. Statistica descriptivă 2. Tabele de contingență 3. Testarea neparametrică 4. Testarea parametrică 5. Eșantionarea 6. Analiza varianței (ANOVA) 7. Corelarea și regresia 8. Analiza discriminantă TEMA 1: Statistica descriptivă 1. Tipurile de scale 2. Organizarea datelor 3. Tendința centrală 4. Variația (împrăștierea) datelor 5. Asimetria și boltirea distribuției

Upload: nina-timotin

Post on 12-Apr-2017

259 views

Category:

Marketing


0 download

TRANSCRIPT

Page 1: 001 stat-descriptiva-2014-pdf

1

TEMATICA CURSULUI

1. Statistica descriptivă

2. Tabele de contingență

3. Testarea neparametrică

4. Testarea parametrică

5. Eșantionarea

6. Analiza varianței (ANOVA)

7. Corelarea și regresia

8. Analiza discriminantă

TEMA 1: Statistica descriptivă

1. Tipurile de scale

2. Organizarea datelor

3. Tendința centrală

4. Variația (împrăștierea) datelor

5. Asimetria și boltirea distribuției

Page 2: 001 stat-descriptiva-2014-pdf

2

I. Patru tipuri de scale

Tip scală

Caracteristici

Clasificări Ordonări Intervale egale

Intervale proporționale

Nominală X – – –

Ordinală X X – –

Interval X X X –

Proporțională X X X X

Exemple de întrebări din chestionar

Care este ocupația Dvs.? (nominală)

Ce apreciați la un calculator în primul, al doilea și al treilea rând? (ordinală)

Aveți vârsta de:

□ 20-29

□ 30- 39 (interval)

□ 40-49

Care este venitul Dvs. lunar (lei)? (proporțională)

Page 3: 001 stat-descriptiva-2014-pdf

3

II. Organizarea Datelor2.1. Frecvența distribuției

În cadrul unei cercetări au fost obținute următoarelevalori ale variabilei studiate:

X = (7, 5, 7, 8, 4, 9, 8, 10, 5, 3, 8, 10, 8, 7, 9, 6, 4, 7, 6, 1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7).

În total sunt 35 de date colectate.

2.1. …

În cazul unei distributii simple a frecventei suntnecesari urmatorii pasi:

Se cauta valorile extreme din șirul de date (valoarea cea maimare și cea mai mica);

Se scriu toate valorile cuprinse între cele doua extreme într-o ordine ascendentă (crescătoare) pe o coloană;

Se numără de câte ori apare fiecare valoare în șirul de date;

Se trec apoi în tabel, frecvențele de apariție a fiecărei valori.

Page 4: 001 stat-descriptiva-2014-pdf

4

2.1. …Tabelul de frecvențe

Obținem:

(N=35)

Valoarea, X Frecvența, f1 2

2 0

3 1

4 3

5 4

6 4

7 9

8 7

9 3

10 2

În cazul datelor nominale în prima coloană sunt incluse valorile calitative ale acestora (cuvinte, nu cifre)

Exemplu:

De ordonat pe intervale, rezultatele intervievării a 48 de subiecți.

X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7, 10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10, 24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).

2.2. Gruparea datelor pe intervale

Page 5: 001 stat-descriptiva-2014-pdf

5

1. Ordonăm datele (în ordine ascendentă  sau descendentă)

X = (4, 5, 6, 7, 8, 10, 10, 10, 11, 12, 12, 12, 14, 14, 14, 14, 14, 15, 15, 15, 16,16, 16, 17,17, 17, 17,17, 18, 18, 18, 18, 19, 19, 19, 19, 20, 21, 21, 22, 22, 23, 23, 24, 25, 27, 29, 31). 

2. Notam valorile extreme (4 si 31) 

3. Calculam diferenta dintre cele doua valori = 27 

4. Stabilim marimea intervalului (h) și numărul de intervale (i), 

astfel că h•i =27+1 .

Rezolvare:

De exemplu,        h=2 ne va oferi 28/2=14 intervale  

h=3 ‐ respectiv 28/3=9 intervale și 1 rest (neacoperit)

h=4 – respectiv 28/4=7 intervale

h=5 – respectiv 28/5 = 5 intervale și 3 rest (neacoperit)  

Dacă există resturi ‐ se adaugă un interval și calculăm supraacoperirea:

h=3, deci 3‐restul =2, deci 2  puncte le repartizăm la extreme, conform următoarelor opțiuni ale extremelor intervalelor: [2;31] sau [3;32] sau [4;33]

h=5, deci 5 minus‐restul =2, deci iarăși 2  puncte le repartizăm la extreme și obținem: [2;31] sau [3;32] sau [4;33]

Rezolvare:

Page 6: 001 stat-descriptiva-2014-pdf

6

Rezolvare:

Opțiuni de intervale pentru h=3

Extremități

Intervale [2;31] [3;32] [4;33]

1 2‐4 3‐5 4‐6

2 5‐7 6‐8 7‐9

3 8‐10 9‐11 10‐12

4 11‐13 12‐14 13‐15

5 14‐16 15‐17 16‐18

6 17‐19 18‐20 19‐21

7 20‐22 21‐23 22‐24

8 23‐25 24‐26 25‐27

9 26‐28 27‐29 28‐30

10 29‐31 30‐32 31‐33

Trei, cinci și zece constitue marimea cea mai des întâlnită a intervalelor.

Dacă pentru analiză sunt necesare date ”scale”, putem transforma intervalele înlocuind categoriile - cu cifre care reprezintă media intervalului.

Este bine dacă primul interval începe, cu o valoare multiplu de hales. De exemplu, daca 22 este cel mai mic număr, iar marimeaintervalului este 3, atunci vom începe cu valoarea 21 deoarece estemultiplu de trei (în exemplul nostru - opțiunea din coloana 2).

Pentru h= 5 în afară de intervalul {1-5, 6-10, etc.} se mai recomandă și {3-7, 8-12, etc.} care asigură mijlocul intervalului multiplu de 5.

Intervale: concluzii și sugestii finale

Page 7: 001 stat-descriptiva-2014-pdf

7

Exemplu: soluția – coloana 2

Intervalul (I) Mijlocul clasei Frecventa (f)30-32 31 127-29 28 224-26 25 221-23 22 618-20 19 915-17 16 1112-14 13 89-11 10 46-8 7 33-5 4 2

III. Indicatori ai tendinței centrale

• Media

• Mediana

• Modul

Page 8: 001 stat-descriptiva-2014-pdf

8

Media

Media este un indicator care caracterizeaza un esantion (o populatie) din punctul de vedere al unei caracteristici studiate. Exista mai multenotări pentru medie: M si X reprezinta media unui eșantion, iar µ (miu) este media unei colectivități generale (populații). 

Media aritmetică a unui sir de date se calculează astfel: 

X = ∑ X / N 

Pentru sirul de date: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7) 

Media X = (4+8+6+7+9+11+9+9+12+7) / 10 = 82 / 10 = 8,2. 

În cazul în care sirul de date este prezentat într‐un tabel de frecvențe se aplică formula mediei ponderate: 

∑fi * XiX =   ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐

∑fi

Unde: fi reprezinta frecvența grupată, iar Xi ‐ centrul intervalului (exemplu – slide‐ul următor). 

Page 9: 001 stat-descriptiva-2014-pdf

9

∑fi = 48 ∑ =Xi*fi= 789 X = 789 / 48 = 16,4

… exemplu (cazul unui tabel de frecvențe)

Intervalul (i) Centrul (Xi) Frecventa (fi) Xi * fi

30‐32 31 1 31

27‐29 28 2 56

24‐26 25 2 50

21‐23 22 6 132

18‐20 19 9 171

15‐17 16 11 176

12‐14 13 8 104

9‐11 10 4 40

6‐8 7 3 21

3‐5 4 2 8

∑ = 48 ∑ = 789

Mediana

Mediana este acel parametru care prin pozitia sa, se afla în mijlocul serieide date. Ea reprezinta punctul central al seriei, deoarece la stânga si la dreapta ei se situeaza câte 50% din totalitatea datelor. Mediana coincide cu media în cazul unei distributii teoretice normale si se îndeparteaza multde aceasta daca distributia este asimetrica. 

Pentru a calcula mediana în cazul distributiei simple a datelor exista douasituatii: 

1. Când n este impar locul medianei se stabileste astfel: 

Loc mediana = (n+1) / 2

2. Când n este par sunt adunate valorile din centrul seriei si se împart la doi. 

Page 10: 001 stat-descriptiva-2014-pdf

10

Mediana- cazul unui șir simplu

De exemplu, șirul X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7) 

Mai întâi datele sunt aranjate în ordine crescatoare sau descrescatoare.

Astfel, X devine: (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). Înacest caz vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorbade locurile 5 si 6. Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9. Pentru a calcula mediana adunam cele doua valori gasite si împartim rezultatul la doi. Astfel, Me = (8+9) / 2 = 8,5 

Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de noua numere (4, 6, 7, 7, 8, 9, 9, 9, 11). În acest caz, locul medianei este stabilitdupa formula: (n+1) / 2, (deci, poziţia cinci). Respectiv, mediana

Me = 8.

Mediana – cazul șirului de date sub formă de tabel de frecvențe

unde: 

x0 ‐ limita inferioară a intervalului median (sau media între limita  inferioară a intervalului median și limita superioară a intervalului precedent)

h ‐mărimea intervalului median

N ‐ numarul total al cazurilor

nm ‐ frecvența intervalului median

ncpm ‐ frecvențele cumulative până la intervalul median

m

cpm

n

nN

hxMe

21

0

Page 11: 001 stat-descriptiva-2014-pdf

11

… exemplu

Intervalul Centrul i Frecventa (fi) Frecventa cumulata

30-32 31 1 4827-29 28 2 4724-26 25 2 4521-23 22 6 4318-20 19 9 3715-17 16 11 2812-14 13 8 179-11 10 4 96-8 7 3 53-5 4 2 2

6,1611

172

148

35,14

Me

… etapele procesului de calcul

Stabilirea punctului mai jos și mai sus de care se situeaza câte 50% din cazuri(N+1)/2. În cazul dat vom avea (48+1)/2=24,5; 

Stabilirea intervalului care contine mediana. Se cauta în coloana frecventelorcumulate intervalul care corespunde locului medianei (28). Pozitia 24 din sirul de date este ocupată de o valoare cuprinsa în intervalul 15‐17; 

Se stabileste limita inferioara a intervalului care cuprinde mediana (15+14)/2 =14,5 cât si frecventa datelor sale (11); 

Se calculeaza frecventele cumulate, care preced clasa care contine mediana ‐ 17; 

Se calculeaza marimea intervalului (h=3) ‐ care cuprinde valorile 15,16 si 17 sau altfel ‐ diferenta dintre limita maxima ((16+19)/2 =17,5) si cea minima a intervalului ce contine mediana este 3 (17,5 ‐14,5). 

Page 12: 001 stat-descriptiva-2014-pdf

12

Cuartilele și decilele

Cuartilele sunt acele valori ale caracteristicii, care separă seria în patru părţi egale:

cuartila inferioară, notată cu Q1, este mai mare sau egală de 25% din termenii seriei şi mai mică sau egală de 75% dintre ei;

cuartila a doua Q2   și decila a cincea D5  coincide cu Me şi separă seria în două părţi egale; 

cuartila superioară Q3  este mai mare sau egală de 75% din numărul termenilor şi mai mică sau egală de 25% din numărul lor.

În cazul în care se calculează decilele, seria se divide în zece părţi egale folosind înacest scop nouă decile (D1, D2 … D9).

Cuartilele și decilele

unde: 

Q1, Q3 – cuartila 1 (25%) și 3 (75%)

x0 este limita inferioară a intervalului cuartilei, decilei

h este mărimea intervalului cuartilei, decilei

N este numarul total al cazurilor

nq și nd frecvența intervalului cuartilei, decilei

ncpq și ncpd  ‐ frecvențele cumulative până la intervalul cuartilei, decilei

q

cpq

n

nN

hxQ

41

01

q

cpq

n

nN

hxQ

4)1(

3

03

d

cpd

n

nN

hxD

10)1(

1

01

Page 13: 001 stat-descriptiva-2014-pdf

13

… exemplu

Intervalul Centrul i Frecventa (fi) Frecventa cumulata30-32 31 1 4827-29 28 2 4724-26 25 2 4521-23 22 6 4318-20 19 9 3715-17 16 11 2812-14 13 8 179-11 10 4 96-8 7 3 53-5 4 2 2

4,209

284

1483

35,173

Q

Modul

Modul este parametrul care corespunde celei mai mari frecvente, adica este valoareacea mai frecvent întâlnita. 

De exemplu, X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7). 

Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa cavaloarea cea mai întâlnita este 9 (apare de trei ori). 

Ca urmare modul pentru acest sir este: Mo = 9 

Page 14: 001 stat-descriptiva-2014-pdf

14

Modul - cazul sirului de date sub formă de tabel de frecvente

Pentru date grupate, se cauta intervalul care are cea mai mare frecvență. Încazul de mai jos, acest interval este 15‐17,  în interiorul caruia se afla 11valori. 

Valoarea modala este egala cu valoarea plasată în centrul acestui interval, adică Mo = 16. 

Intervalul (i) Frecventa (f) Intervalul (i) Frecventa (f)

30-32 (31) 1 15-17 (16) 11

27-29 (28) 2 12-14 (13) 8

24-26 (25) 2 9-11 (10) 4

21-23 (22) 6 6-8 (9) 3

18-20 (19) 9 3-5 (4) 2

IV. Indicatori ai variației (dispersiei)

Principalii indicatori ai variaţiei sunt: 

1. Amplitudinea A

2. Abaterea medie pătratică (σ pentru populație și S pentru eșantion)

3. Dispersia (σ2 pentru populație și S 2 pentru eșantion) 

4. Coeficientul de variaţie V.

1. AMPLITUDINEA:   A = (Xmax – Xmin) 

Pentru a calcula amplitudinea sirului de date: 

X = (7, 5, 10, 4, 8, 5, 8, 9, 7) vom avea: A =10 ‐ 4 = 6. 

Page 15: 001 stat-descriptiva-2014-pdf

15

Abaterea medie patratică: cazul unui șir simplu

Unde: 

Xi sunt valorile individuale; 

X este media esantionului; 

µ este media populatiei

N, n este numarul de subiecti observati

(mărimea populației și respectiv, a eșantionului)

N

xN

ii

1

2)µ(

n

xxS

n

ii

1

2)(

Exemplu

De calculat S pentru urmatorul sir de date: 

X = (4, 6, 7, 9, 8, 5, 8, 3, 10, 6) X= 66/10 = 6,6 

X X-X (X-X) 2

4 -2,6 6,76

6 -0,6 0,36

7 0,4 0,16

9 2,4 5,76

8 1,4 1,96

5 -1,6 2,56

8 1,4 1,96

3 -3,6 12,96

10 3,4 11,56

6 -0,6 0,36

∑ (X‐X)2 = 44,40 

10,210

40,44S

Page 16: 001 stat-descriptiva-2014-pdf

16

Abaterea medie patratică: cazul seriilor cu frecvente

Unde: Xi sunt valorile individuale; 

X este media esantionului; 

µ este media populatiei

n reprezintă frecvențele observate

k

ii

ii

i

n

nk

xxS

1

1

2)(

k

ii

i

k

ii

n

nx

1

1

2)µ(

Exemplu

De calculat S pentru urmatoarele date: 

X = 16,4∑ ni = 48∑ ni *(X‐X)2 = 1709,9

97,548

9,1709S

(i) Xi ni (Xi-X) (Xi-X)2 ni * (Xi-X)2

30-32 31 1 14,6 213,2 213,2

27-29 28 2 11,6 134,6 269,1

24-26 25 2 8,6 73,96 147,9

21-23 22 6 5,6 31,36 188,2

18-20 19 9 2,6 6,76 60,84

15-17 16 11 -0,4 0,16 1,76

12-14 13 8 -3,4 11,56 92,48

9-11 10 4 -6,4 40,96 163,8

6-8 7 3 -9,4 88,36 265,1

3-5 4 2 -12,4 153,8 307,5

Page 17: 001 stat-descriptiva-2014-pdf

17

Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion

Unde: S este abaterea standard a esantionului studiat; X este mediaeșantionului. 

Spre exemplu, daca X = 11,40, iar S = 2,7, vom avea: 

V = (2,7/11,4)*100 = 23,68% 

Pentru cazul de mai sus V = (5,97/16,4)*100 = 36,4% 

Coeficientul de variație

100x

SV

Interpretarea coeficientului de variație

daca V este cuprins între 0 si 15%, atunci  împrastierea datelor (variația) estefoarte mica, iar media este reprezentativă, deoarece eșantionul măsurat esteomogen; 

daca valoarea lui este între 15 si 30%, variația datelor este mijlocie, media fiindînca suficient de reprezentativa; 

daca V depășește 30%, media nu este reprezentativă pentru eșantionul în cauză, fiind recomandata utilizarea medianei din cauza lipsei de omogenitate a grupului. 

Page 18: 001 stat-descriptiva-2014-pdf

18

V. Indicatori de asimetrie si boltire

Exista situatii destul de frecvente când media nu corespunde cu mediana. Daca elear coincide am vorbi despre o distributie complet simetrica, specifica uneidistributii normale teoretice. 

Indicele de asimetrie (de oblicitate) ne arata în ce masura media se îndeparteazade mediana, si implicit, în ce masura curba de distributie normala a datelor se departeaza de mijloc, deplasându‐se spre stânga sau spre dreapta. Suntconsiderate distributii relativ normale cazurile în care acesti indicatori nu depasesc±1,96 abateri medii patratice. 

Vorbim despre o asimetrie pozitiva în situatia în care media este mai mare decâtmediana, caz în care indicele de asimetrie ia valori pozitive si apare o deplasare a datelor spre stânga. 

Vorbim despre o asimetrie negativă în situatia în care media este mai mică decâtmediana, caz în care indicele de asimetrie ia valori negative si apare o deplasare a datelor spre dreapta. 

Reprezentarea grafică

fi fi fi

fmax fmax fmax

xi xi xi

x =Me=Mo Mo Me x x Me Mo

serie perfect simetrică asimetrie pozitivă asimetrie negativă

Page 19: 001 stat-descriptiva-2014-pdf

19

Asimetrie (skewness)

Formula de calcul a coeficientului de asimetrie Ca:

unde σ este abaterea medie patratică de sondaj

Dacă Ca =0 serie simetrică.

Dacă Ca>0 serie cu asimetrie pozitivă (deplasare spre stânga).

Dacă Ca<0 serie cu asimetrie negativă (deplasare spre dreapta).

3

3)(

n

xxC i

a

Asimetrie (skewness): 3 cazuri

a d e

1 0 2

2 0 2

2 0 2

3 0 2

3 0 2

3 0 2

4 0 2

4 0 2

4 0 2

4 0 2

5 0 2

5 0 2

5 0 2

6 1 1

6 2 0

7 3 0

Page 20: 001 stat-descriptiva-2014-pdf

20

Asimetrie – lipsa (cazul a)

Ca = 0,000

Asimetrie pozitiva – spre stanga (cazul d)(produse de lux)

Ca = 2,411

Page 21: 001 stat-descriptiva-2014-pdf

21

Asimetrie negativa – spre dreapta (cazul e)(produse de larg consum consum – zaharul)

Ca = -2,082

Boltire (kurtosis)

Un indice de aplatizare mare arată o repartiţie cu “cozi” mari(sunt prezente categorii depărtate de medie), în timp ce un indice de aplatizare mic arată o repartiţie “ascuţită” sau “boltită”în care sunt prezente mai puţine categorii depărtate de medie.

Formula de calcul este :

unde σ este abaterea medie patratică de sondaj.

În cazul unei repartiţii apropiate de repartiţia normală, coeficientul de aplatizare este în jurul valorii 0.

Cb >0, atunci distribuția are forma ascuțită iar dacă Cb <0 -aplatizată

3)(

4

4

n

xxC i

b

Page 22: 001 stat-descriptiva-2014-pdf

22

Boltire: 2 cazuri

b c1 11 2

1 31 31 31 3

1 35 36 39 3

9 39 39 39 3

9 49 5

Boltire: cazul a 2 segmente distincte

Cb = - 2,118

Page 23: 001 stat-descriptiva-2014-pdf

23

Boltire: cazul omogenitatii excesive

Cb = 3,913

Exemplu de calcul pentru tabele de frecvențe

Vânzări lunare

(mii lei) Nr. comis voiajori

41 – 50 10

51 – 60 30

61 – 70 50

71 – 80 50

81 – 90 70

91 – 100 60

101 – 110 30

Total 300

O mare companie de cosmetică are o rețea dezvoltată de distribuție prin comis voiajori. A fost extras un eșantion de 300 de persoane din rândurile acestora. Datele cu privire la vânzările lunare sunt prezentate în tabel. Caracterizaţi şi măsuraţi asimetria și boltirea distribuţiei comis voiajorilor.

Me = 86,67 mii lei

x = 80,17 mii lei

= 16,10

Page 24: 001 stat-descriptiva-2014-pdf

24

Coeficientul de asimetrie se calculează în baza formulei:

Eroarea standard pentru asimetrie este

În SPSS în calitate de test de normalitate a asimetrie este considerat raportul

Adică în cazul nostru:

… asimetrie

254,007,16300

315797)(33

3

n

nxxC

iias

141,0300/6/6 nE a

2;2/6/ nC as

2;280,1141,0/254,0

Coeficientul de boltire se calculează conform formulei:

Eroarea standard pentru boltire este

În SPSS în calitate de test de normalitate a boltirii este considerat raportul

Adică în cazul nostru:

Adică putem vorbi despre un nivel de aplatizare excesiv

… boltire

283,0300/24/24 nE b

2;2/24/ nC b

2;289,2283,0/819,0

819,031806,207,16300

436200283

)(44

4

n

nxxC

iib