forma distributiei statistica

12
Indicatori ai formei distribuţiei Cei trei indicatori medii (de calcul şi de poziţie) oferă informaţii pertinente privind forma distribuţiei într-o serie de date statistice: pentru o distribuţie simetrică, media, mediana şi modul coincid (figura 3.2 a). dacă distribuţia este cu tendinţă de normalitate, dar asimetrică spre dreapta, adică spre valori mari (cu coada mai lungă a distribuţiei spre valorile mari), atunci (figura 3.2 b); dacă distribuţia este cu tendinţă de normalitate, dar asimetrică spre stânga, adică spre valori mici (cu coada mai lungă a distribuţiei spre valorile mici), atunci (figura nr. 3.2 c). În general, pentru repartiţii moderat asimetrice, există o relaţie empirică între cele trei valori şi anume: Figura 3.2 a) distribuţie simetrică; b) distribuţie cu asimetrie pozitivă; c) distribuţie cu asimetrie negativă În cazul variabilelor numerice, pe lângă determinarea indicato- rilor tendinţei centrale şi variabilităţii, ne punem problema să studiem şi modul în care valorile individuale sunt deplasate şi concentrate comparativ cu tendinţa centrală, să analizăm, cu alte cuvinte, forma distribuţiei. Distribuţiile empirice se raportează, în general, la distribuţia normală teoretică şi se încearcă analiza a două aspecte: Măsura în care distribuţia se abate de la forma perfectă de simetrie a valorilor în jurul tendinţei centrale, analizându-se în acest caz oblicitatea; Măsura în care distribuţia este mai plată sau mai boltită în raport cu distribuţia normală teoretică, analizându-se în acest caz boltirea sau aplatizarea. 1. Analiza asimetriei (oblicităţii) Asimetria (skewness, în engl.) unei serii de distribuţie de frecvenţe se observă din reprezentarea grafică prin histogramă sau Page | 1

Upload: roxana-raducu

Post on 26-Nov-2015

255 views

Category:

Documents


2 download

DESCRIPTION

e

TRANSCRIPT

Indicatori ai formei distribuiei

Indicatori ai formei distribuieiCei trei indicatori medii (de calcul i de poziie) ofer informaii pertinente privind forma distribuiei ntr-o serie de date statistice:

pentru o distribuie simetric, media, mediana i modul coincid (figura 3.2 a).

dac distribuia este cu tendin de normalitate, dar asimetric spre dreapta, adic spre valori mari (cu coada mai lung a distribuiei spre valorile mari), atunci (figura 3.2 b);

dac distribuia este cu tendin de normalitate, dar asimetric spre stnga, adic spre valori mici (cu coada mai lung a distribuiei spre valorile mici), atunci (figura nr. 3.2 c).

n general, pentru repartiii moderat asimetrice, exist o relaie empiric ntre cele trei valori i anume:

Figura 3.2

a) distribuie simetric; b) distribuie cu asimetrie pozitiv; c) distribuie cu asimetrie negativ

n cazul variabilelor numerice, pe lng determinarea indicatorilor tendinei centrale i variabilitii, ne punem problema s studiem i modul n care valorile individuale sunt deplasate i concentrate comparativ cu tendina central, s analizm, cu alte cuvinte, forma distribuiei.

Distribuiile empirice se raporteaz, n general, la distribuia normal teoretic i se ncearc analiza a dou aspecte:

Msura n care distribuia se abate de la forma perfect de simetrie a valorilor n jurul tendinei centrale, analizndu-se n acest caz oblicitatea;

Msura n care distribuia este mai plat sau mai boltit n raport cu distribuia normal teoretic, analizndu-se n acest caz boltirea sau aplatizarea.

1. Analiza asimetriei (oblicitii)

Asimetria (skewness, n engl.) unei serii de distribuie de frecvene se observ din reprezentarea grafic prin histogram sau poligonul frecvenelor, prin modalitatea n care sunt situai, unul fa de cellalt, indicatorii tendinei centrale.

Tipul de asimetrie prezent n serie poate s fie descris doar prin simpla vizualizare a graficului (figura 3.2), dar ea poate s fie i msurat, prin indicatori specifici.Distribuiile de frecvene pot fi perfect simetrice, i n acest caz .

Distribuiile de frecvene pot fi asimetrice, cu asimetrie pozitiv, caz n care .

Distribuiile de frecvene pot fi asimetrice, cu asimetrie negativ, caz n care .

Coeficientul de asimetrie (skewness) exprim gradul de asimetrie al unei distribuii, n raport cu distribuia normal teoretic i se determin, n eantion, cu formula:

, unde .

Definiia este bazat pe momentul centrat de ordinul 3.Dac , avem asimetrie pozitiv, coada distribuiei este mai alungit la dreapta, n serie predominnd valorile mici (media > mediana)Dac , avem asimetrie negativ, coada distribuiei este mai alungit la stnga, n serie predominnd valorile mari (media < mediana)

Dac , avem serie perfect simetric

Dac distribuia empiric difer semnificativ de distribuia normal i se recomand tranformarea datelor (se logaritmeaz valorile variabilei, obinndu-se astfel o distribuie aproximativ normal)

n EXCEL se utilizeaz funcia:

SKEW pentru determinarea coeficientului de asimetrie n eantion.

Programul SPSS permite determinarea coeficientului de asimetrie (CAS) folosind urmtoarea secven de comenzi:

Analyze

Descriptive Statistics

Frequencies

Statistics

Skewness

2. Analiza boltirii/aplatizrii

Boltirea (kurtosis, n engl.) exprim nlimea curbei (cocoaei) comparativ cu distribuia normal teoretic. ntlnim, astfel distribuii leptocurtice, ascuite (cu cocoaa nalt) i distribuii platicurtice, aplatizate.

Distribuia leptocurtic, respectiv platicurticCoeficientul de boltire sau aplatizare (kurtosis) este o msur a mprtierii fiecrei observaii n jurul unei valori centrale i se determin, pe eantion, cu formula:

, unde .Definiia este bazat pe momentul centrat de ordinul 4.Dac , avem distribuie leptocurtic, valorile varibilei fiind concentrate n jurul indicatorilor tendinei centraleDac , avem distribuii platicurtice valorile varibilei fiind dispersate n raport cu indicatorii tendinei centraleDac , avem distribuie mezocurtic, adic distribuia normal.

n EXCEL se utilizeaz funcia KURT pentru determinarea coeficientului de boltire (CBA) n eantion.

Programul SPSS permite determinarea coeficientului de aplatizare (CBA) folosind urmtoarea secven de comenzi:

Analyze

Descriptive Statistics

Frequencies

Statistics

Kurtosis

Transformarea datelor n cazul distribuiilor profund asimetrice

O distribuie profund asimetric nu este normal sau cu tendin de normalitate, deoarece valorile sunt concentrate fie n zona valorilor mici, fie n zona valorilor mari ale distribuiei.

Un exemplu de distribuie profund asimetric este distribuia statelor Europei dup numrul populaiei. Asimetria reflect faptul c cele mai multe state au un numr mic (sau relativ redus) al populaiei i doar cteva state au populaia numeroas.

Distribuia statelor Europei dup numrul locuitorilor n anul 2008Indicatorii statistici descriptivi prezentai (ai tendinei centrale, variabilitii i formei distribuiei) se utilizeaz pentru caracterizarea distribuiilor normale sau cu tendin de normalitate. Dac aceti indicatori sunt utilizai pentru distribuii profund asimetrice rezultatele pot fi deformate sau chiar complet greite.

O soluie pentru aceast problem a asimetriei este utilizarea transformrii datelor, pentru a nlocui distribuiile asimetrice cu unele cu tendin de normalitate.

Transformarea nseamn nlocuirea fiecrei valori observate cu o nou valoare obinut prin aplicarea unei anumite funcii.

Transformarea recomandat n cazul distribuiilor asimetrice cu valori pozitive (majoritatea variabilelor economico-sociale au valori pozitive) este logaritmarea.

Prin logaritmare, scala se lrgete lng valoarea zero, permind rspndirea valorilor mici, care erau aglomerate n primele intervale. De asemenea, valorile mari, prin logaritmare, se condenseaz i se apropie. n interpretarea ulterioar a datelor va trebui ns s inem seama de aceste transformri.

Aplicaie

Pentru a fundamenta decizia de lansare a unui nou pachet de servicii, managemetul companiei Romtelecom dorete s cunoasc, pe lng ale variabile, costul serviciilor oferite n prezent prin intermediul valorilor facturilor pltite de clieni. Astfel, a fost selectat aleator un eantion de 296 de abonai i nregistrate valorile facturilor pltite n luna precedent (n Eur):

35,7064,9061,0538,3018,7051,4037,4049,9555,2554,8541,6548,5038,80

32,0566,5524,7545,1028,8563,0035,9047,8539,5060,1555,5026,1532,55

23,5045,8547,3027,4030,8031,1546,7037,4533,2043,9551,0043,5042,65

47,8544,6047,0055,5546,2040,4028,5536,4033,5527,7033,6028,9546,70

47,8022,6526,6038,8055,9041,2550,6048,8520,2523,4019,0529,4043,05

33,9034,1066,0024,6529,1531,8037,8557,0029,1559,5523,5028,5540,30

40,3530,9024,1538,2521,6524,7045,4534,3058,4039,6026,7558,2528,00

47,9080,3536,7035,1519,6554,4024,6521,4048,3044,7523,9530,7535,75

26,1032,0041,2056,4534,1531,25111,9525,7536,8033,0528,3058,8536,70

20,8026,9027,0528,4038,8024,4536,3042,0560,3036,9526,9039,3036,85

34,5030,0027,1535,5534,2064,2027,1026,4031,7534,5543,3525,1533,95

57,0523,6560,3523,2050,6525,1550,4541,4019,3050,2048,6537,7025,90

26,7530,0527,5061,1030,0517,9520,6529,6543,7533,2535,7535,9540,75

50,6033,4022,8096,2585,8559,1550,7023,3530,1537,9041,8541,1516,85

17,4530,6057,8046,4025,4034,3023,3042,7050,8540,0536,4074,8064,00

35,4079,2021,7029,7521,9047,4051,3530,9530,4022,5026,4031,3019,2

47,7069,5539,5555,3032,5033,8538,3541,0061,6042,8553,0042,9044,1

62,8024,9536,6537,4039,5042,8547,5044,9030,2021,8037,7027,0539,25

31,6524,1528,3535,3531,0066,9050,7528,0525,3028,8062,4536,0033,1

27,9023,2021,5027,7041,3027,9041,3552,4068,1052,9072,6019,8565,8

19,4515,1036,6050,9523,4031,9035,2539,8038,4540,8548,0546,5517,70

14,9032,0021,9537,1528,1528,0523,0083,7050,9056,5530,3033,7529,40

21,3539,8037,2528,0568,3022,0067,00109,7048,8021,50

Caracterizm, n continuare, distribuia abonailor n funcie de valoarea facturilor pltite folosind metodele cunoscute de descriere i analiz a datelor.

Reprezentarea grafic i determinarea i interpretarea indicatorilor tendinei centrale, variabilitii i formei distribuiei folosind:

1. Programul EXCEL

Folosind secvena de comenzi:

Tools

Data analysis

Descriptive Statistics

Se obine urmtorul output:

2. Programul SPSS

Folosind secvena de comenzi:

Analyze

Descriptive Statistics

Frequencies

Statistics, Charts

Rezultatele din output-urile prezentate permit formularea urmtoarelor concluzii:

Valoarea medie a unei facturi este de aproximativ 39 Eur, facturile celor 296 de abonai, fiind, n medie, mai mari sau mai mici cu aproximativ 15,3 Eur;

Jumtate dintre facturi au o valoare mai mare de 36,4 Eur sau, altfel spus probabilitatea ca o factur s fie mai mare de 36,4 Eur este de 50%;

Seria prezint mai multe valori modale, iar cea mai mic valoare modal este 28 Eur;

Dac analizm comparativ indicatorii tendinei centrale, n special media i mediana (seria fiind multimodal) observm c acestea difer destul de mult;

Coeficientul de asimetrie este pozitiv i mai mare dect unu, situaie ce arat c distribuia este profund asimetric la dreapta (cele mai multe facturi au valori mici), indicatorii tendinei centrale calculai pentru aceste date ofer informaii eronate i se impune transformarea datelor prin logaritmare;

Valoarea coeficientului de boltire/aplatizare este pozitiv (distribuie leptocurtic) i mare indicnd faptul c distribuia datelor nu este normal sau cu tendin de normalitate;

Cuantilele distribuiei se pot determina folosind urmtoarea secven de comenzi:

Analyze

Descriptive Statistics

Frequencies

Percentile Values

Putem determina cuartilele sau percentilele de un anumit ordin k. Considerm c managerul este interesat de determinarea valorii facturii sub care se situeaz 5%, respectiv 95% dintre abonai.

Output-ul obinut este:

Putem formula urmtoarele concluzii:

25% dintre abonai pltec facturi mai mici de 28 Eur;

50% dintre abonai pltesc facturi cu o valoare cuprins ntre 28 i 47,65 Eur;

Doar 5% dintre facturi au o valoare mai mare de 66,6 Eur sau, altfel spus, probabilitatea ca o factur s aib o valoare mai mare de 66,6 Eur este de 5%;

Probabilitatea ca o factur s aib o valoare mai mare de 20,59 Eur este de 95%.

Construim diagrama Boxplot i determinm indicatori statistici afereni utiliznd urmtoarea secven de comenzi SPSS:

Analyze

Descriptive Statistics

Explore

Statistics, Descriptives

Plots

n diagrama Boxplot sunt fixate:

Valorile considerate a fi valori extreme

IQR se numete abatere intercuartilic (InterQuartile Range)

valorile considerate a fi valori aberante (outliers)

Valori aberante sunt considerate valorile mai mari dect sau mai mici dect .

Cuartilele ()

Deoarece valoarea coeficienilor de asimetrie i de boltire/aplatizare recomand transformarea datelor prin logaritmare prezentm n continuare histograma i indicatorii statistici descriptivi pe baza valorilor variabilei factura logaritmate n baza 10:

Pe baza rezultatelor obinute se pot formula urmtoarele concluzii:

Se observ, pe histograma obinut pe baza datelor logaritmate, o distribuie cu tendin de normalitate;

Valorile coeficienilor ce caracterizeaz forma distribuiei sunt aproiate de zero i indic o distribuie uor asimetric la dreapta i platicurtic (aplatizat);

Prin antilogaritmare se obine c media este egal cu 36,56, iar mediana este egal cu 36,4, valori mult mai apropiate dect n cazul datelor iniiale:

, iar ;

Observm c pentru median se obine tot valoarea de 36,4, similar cazului datelor nelogaritmate. n schimb, media obinut prin transformarea datelor este mai mic dect cea iniial i mult mai apropiat de valoarea median. Indicatorii tendinei centrale determinai astfel sunt mai potrivii pentru caracterizarea datelor.

EMBED CorelDRAW.Graphic.10Simetrie (asimetrie zero);

media (7) = mediana (7).

EMBED CorelDRAW.Graphic.10 Asimetrie pozitiv (de dreapta);

media (6) > mediana (5).

EMBED CorelDRAW.Graphic.10Asimetrie negativ (de stnga);

media (8) < mediana (9).

Factura

Mean

39,1347973

Standard Error

0,890989478

Median

36,4

Mode

38,8

Standard

Deviation

15,32916259

Sample Variance

234,9832257

Kurtosis

3,078697599

Skewness

1,359497254

Range

97,05

Minimum

14,9

Maximum

111,95

Sum

11583,9

Count

296

Page | 1

_1385459109.unknown

_1385459113.unknown

_1385459115.unknown

_1385459116.unknown

_1385459114.unknown

_1385459111.unknown

_1385459112.unknown

_1385459110.unknown

_1385459101.unknown

_1385459105.unknown

_1385459107.unknown

_1385459108.unknown

_1385459106.unknown

_1385459103.unknown

_1385459104.unknown

_1385459102.unknown

_1385459097.unknown

_1385459100.unknown

_1385459098.unknown

_1385459093.unknown

_1385459095.unknown

_1385459096.unknown

_1385459094.unknown

_1385459036.unknown

_1385459092.unknown

_1385459040.unknown

_1385459033.unknown