c1.introd.grupare.prezentarea datelor

Post on 24-Apr-2015

49 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

DESCRIPTION

statistica

TRANSCRIPT

StatisticStatisticăăStatisticStatisticăăProfProf..drdr.. Zizi Goschin Zizi Goschin

DepartamentulDepartamentul de de Statistic Statistică şi ă şi eeconometriconometriee

Cam.2610Cam.2610zizigoschin@hotmail.com

Noţiuni introductive1. Definirea statisticii2. Concepte de bază3. Gruparea datelor

I.Ce este statistica?

Accepţiuni: • Date ex.: statistici ale cursului valutar, şomajului,

ratei inflaţiei etc.• Ştiinţa care studiază aspectele cantitative ale

fenomenelor de masă.

Caracteristici:•Colectivităţi mari•Variabilitatea formelor de manifestare•Incertitudine

1. Colectivitate (populaţie)= un ansamblu de elemente de aceeaşi natură (cel

puțin o trăsătură comună)

• Un grup de persoane/ obiecte /evenimente • Are caracter obiectiv, finit• Delimitată după conţinut, spaţiu şi timp.

Ex. agenţii economici privaţi din Bucureşti în 2009; falimentele din industria turismului în 2008, în jud. Constanţa

II. Concepte de bază

• 1.Colectivitate statică: un stoc existent la un moment dat.

Ex. Populaţia României la 1 iulie 2009,

stocul de produse finite al unui agent economic la 1.02.2012

• 2. Colectivitate dinamică: un proces, o evolutie pe o perioadă de timp.

Ex. Cheltuielile de consum ale populaţiei României în anul 2009, produse

fabricate de un agent economic în luna februarie 2012.

2. Unitate statistică

= elementul de bază al populatiei investigate

A. simplă: o persoană/ obiect

B. complexă: un grup de unităţi simple (subansamblu independent) familia, echipa, firma

Datele sunt înregistrate pentru fiecare unitate statistică.

3.Caracteristica (variabila)= o proprietate, un atribut al unităţilor statistice

Ex. Vârsta persoanei, cifra de afaceri a agentului economic, preţul bunului

Variază de la o unitate statistică la alta

• Variante= mărimi distincte ale unei variabile într-o colectivitate

• Frecvenţa= numărul unităţilor statistice cu aceeaşi variantă (valoare a caracteristicii)

1. Variabilă cronologică (timp)

2. Variabilă teritorială (spaţiu)

3. Variabilă atributivă:

3.1. Calitativă= exprimată în cuvinte (profesia, ramura economică)

3.1.1.Alternativă (binară)= doua forme de manifestare (urban/rural, admis/respins)

3.1.2.Nealternativă

3.2. Cantitativă= numerică

3.2.1.Discretă= se obține prin numărare; valori întregi (nr. copii pe familie, nr. de falimente/an)

3.2.2.Continuă = se obține prin măsurare; orice valoare într-un interval de variaţie (greutatea, profitul)

III. Gruparea datelor= separarea unităţilor colectivităţii în subansambluri

omogene, după o caracteristică de grupare

-Variabile calitative clasificate pe variante

-Variabile cantitative

grupate pe variante (când sunt puţine valori distincte)

grupate pe intervale de variaţie egale (A moderat, variaţie uniformă)

grupate pe intervale de variaţie neegale (A mare, variaţie neuniformă).

Amplitudinea variației:

A=Xmax – Xmin

Grupare pe intervale egale de variaţie:

1.Amplitudinea variaţiei: A=Xmax-Xmin

2.Nr. de grupe k:

a. Ales după mărimea colectivităţii, scopul analizei; în general: 5-20 grupe

b. Calculat (formula Sturges): k=1+3.322 lg n,

unde n=volumul colectivităţii.

2.Mărimea unui interval de grupare:

h = A/k (rotunjire în plus !).

3.Definirea intervalelor (pornind de la Xmin şi adunând repetat h până se ajunge la Xmax):

xmin - xmin+h ; xmin+h - xmin+2h ; xmin+2h – xmin+3h etc.

4.Numărarea unităţilor care aparţin fiecărui interval (frecvenţe absolute)

Ex. Gruparea salariaţilor unei firme după vârstăVârsta: 22, 25, 29, 30, 30, 31, 32, 34, 45, 61.

1.Amplitudinea variațieiA=61-22=39

2.Nr. grupe alesk=4

3.Mărimea intervalului de grupare

h=A/k=9.75≈104.Intervalele de variație

(col.1) și frecvențele absolute (col.2)

Grupe după vârstă*

(ani)

Număr de persoane(frecvenţă absolută)

22-3232-4242-5252-62

6211

Total 10

*Limita inferioară inclusă în interval

Gruparea pe intervale neegale de variaţie: când A este mare şi variaţia neuniformă.

Ex. Firme de construcţii pe clase de mărime, după nr.de salariaţi, în 2006

Clasa de mărime(persoane)

Nr de firme

0-910-49

50-249250 şi peste

2479942111194

168

Total 30372

Sursa: Anuarul statistic al României, 2007

Prezentarea datelor1.Serii statistice

2.Tabele3.Grafice

1. SERII STATISTICE=şiruri de date ordonate rezultate din grupare

1.1. Serii cronologice (de timp) : prezintă valorile unei caracteristici în unităţi de timp succesive.

Exemplu. Producţia lunară a unui bun în 2011

Luna Mar Apr Mai Jun Jul Aug Sept ...

Producţia (mii Euro) 35 51 60 59 62 63 63 ...

1.2.Serii teritoriale: prezintă variaţia în spaţiu a valorilor unei caracteristici statistice.

Exemplu. Vânzarea automobilelor pe regiuni in 2009

Regiunea Nord Sud Est Vest Total

Nr. automobile 860 750 300 90 2000

1.3.Serii (distribuţii) de frecvenţe

- rezultă din gruparea datelor în funcţie de o variabilă: -cantitativă (ex.distribuţia salariaţilor după venit) sau -calitativă (ex. distribuţia salariaţilor după profesie).

- sunt formate din două şiruri corelate:1. variantele/ intervalele de variaţie2. frecvenţele (absolute/relative).

• Frecvenţele absolute ni = numărul de observaţii incluse într-un interval de variaţie.

• Frecvenţele relative ni* = ponderea frecvenţelor absolute corespunzătoare grupelor în total (în suma tuturor frecvenţelor).

100*

%

i

i

i n

nn

i

i

i n

nn*

Distribuţii de frecvenţe absolute şi relative

Exemplu: distribuţia muncitorilor după salariu

Salariu(RON)

765-810

810-855

855-900

900-945

945-990

Total

Număr de muncitori

(ni)7 14 7 5 3 40

Pondereamuncitorilor

(n*i%)17,5 35,0 17,5 12,5 7,5 100

2.TABELE

• Toate seriile statice sunt prezentate în tabele.

Elemente:

titlul general, titlurile interne, unităţile de măsură a datelor, sursa datelor, note explicative.

Tipuri:– Tabele simple – pentru date grupate după o

singură variabilă– Tabele bidimensionale (cu dublă intrare) -

pentru date grupate după două variabile simultan.

Vechimea în muncă

(ani)

Salariu (RON) Total după

vechime720-765

765-810

810-855

855-900

900-945

945-990

2-8 4 2 - - - - 6

8-14 - 2 3 - - 5

14-20 - 3 5 - - - 8

20-26 - - 5 5 4 - 14

26-32 - - 1 1 1 1 4

32-38 - - - 1 - 2 3

Total după

salariu4 7 14 7 5 3 40

Distribuţia salariaţilor după vechimea în muncă şi salariu

3.GRAFICE

• Evidenţiază într-o formă sugestivă distribuţia valorilor, tendiţele de evoluţie, legăturile dintre variabile sau structura colectivităţii.

• Elemente:

titlul, coordonatele (X şi Y), scara de reprezentare, legenda, sursa datelor,

note explicative.

• Fiecare punct al graficului este definit în funcţie de coordonatele sale.

a) Pictogramă cu simboluri multiplicate

3.1.Pictograma foloseşte simboluri pentru a reprezenta informaţia statistică.

• Variante: a) simboluri multiplicate

b) simboluri proportionale• sugestive, uşor de înţeles, dar cu nivel mai redus de

precizie

b) pictogramă cu simboluri proporţionale

3.2. Grafice prin coloane = valorile variabilei sunt reprezentate grafic prin coloane cu baze egale şi înălţimea proporţională cu mărimea variabilei.

Coloane simple – una pentru fiecare grupă

Coloane multiple (grupate) –compară variabile diferite pentru aceleaşi grupe.

Coloane de structură - compară structura grupelor

3.3.Benzi •Simple •Grupate•De structură

Ex.Distribuţia elevilor unei şcoli după desertul preferat(benzi grupate)

Piramida vârstelor

3.4.Cercuri de structură

• sectoarele cercului reprezintă proporţiile grupelor colectivităţii

• Etape:

1.Se calculează frecvenţa relativă a fiecărei grupe.

2.Se înmulţesc frecvenţele cu 360 pentru a obţine dimensiunile sectoarelor în grade.

3.Se delimitează sectoarele cercului şi se colorează/haşurează diferit.

Student response to the poll 'Should the college adopt student uniforms?'

Cercurile proporţionale arată simultan dimensiunea şi structura.

Ex. Evoluţia costurilor de producţie (aceleaşi date, scări de reprezentare diferite)

originea diferită de zero

3.5. Cronograma –> pentru serii cronologice- Valorile variabilei sunt măsurate pe OY, iar pe OX se trec

unităţile de timp- arată variaţia în timp şi tendinţa de evoluţie, dar imaginea

poate fi distorsionată de alegerea scării de reprezentare.

3.6.Corelograma (scatterplot)

• identifică legăturile dintre variabile: variabila independentă pe axa OX, variabila dependentă pe axa OY

• originea graficului este întotdeauna zero (0,0). • fiecare unitate statistică e reprezentată printr-un punct; punctele

nu sunt unite

Cartogramă:

PIB/locuitor in 2004 (% din media UE 27) pe regiuni

Source: Eurostat Regional Yearbook 2007

3.7. Grafice pentru distribuţii de frecvenţe

Histograma

- fiecare grupă e reprezentată printr-o coloană cu suprafaţa proporţională cu frecvenţa absolută a grupei respective

- atunci când caracteristica reprezentată grafic are variaţie continuă, coloanele sunt lipite

- când variaţia e discretă, există spaţii între coloane

Ex. Distributia muncitorilor după producţia zilnică (histogramă)

producţie (buc)

nr.

mun

cito

ri

Poligonul frecvenţelor se obţine unind vârfurile coloanelor histogramei.

Ex. Distributia muncitorilor după producţia zilnică (histogramă şi poligonul frecvenţelor)

producţie (buc)

nr.

mun

cito

ri

Curbele frecvenţelor cumulate (crescător/ descrescător)

• Frecvenţa cumulată crescător a unei grupe este numărul de unităţi statistice cu valori sub limita superioară a intervalului de variaţie.

-> pentru reprezentarea grafică se folosesc limitele superioare ale intervalelor de grupare.

• Frecvenţa cumulată descrescător a unei grupe este numărul de unităţi statistice cu valori peste limita inferioară a intervalului de variaţie.

-> pentru reprezentarea grafică se folosesc limitele inferioare ale intervalelor de grupare

Productia (buc)

Număr de muncitori

(ni)

Frecvenţe cumulate

Crescător Descrescător

0 1 3 4

sub 120 10 10 200

120-140 18 28 190

140-160 23 51 172

160-180 38 89 149

180-200 51 140 111

200-220 40 180 60

220-240 15 195 20

240 şi peste 5 200 5

Total 200 - -

0

25

50

75

100

125

150

175

200

225

100 120 140 160 180 200 220 240 260producţia (buc.)

nr. m

unci

tori

Ex. Curbele frecvenţelor cumulate

Selectarea tipului de grafic– cerc sau coloană de structură pentru descrierea

componentelor colectivităţii (structura) – coloane/ benzi pentru compararea unor variabile

diferite pentru aceleaşi grupe, pt serii de timp şi teritoriale

– cronograma pentru serii de timp– corelogramă pentru evidenţierea legăturii dintre

două variabile– histogramă, poligonul frecvenţelor şi curbele

frecvenţelor cumulate pentru distribuţii de frecvenţe

Erori de reprezentare grafică

Prea multe

variabile

Variatie nesemnificativă:

Fig. Numărul adulţilor tineri care fac drumeţii săptămânale, după vârstă, 1996 - 2002

origine incorectă a graficului

lipsă

Corect:Incorect:

1.Cheltuieli guvernamentale, 1930-1980

2.Ponderea cheltuielilor guvernamentaleîn PIB, 1930-1980

Valori absolute, nedeflaţionate (fig.1) în locul mărimilor relative (fig.2)

“În timpurile străvechi nu exista

statistica, aşa că oamenii erau nevoiţi să recurgă la poveşti. De aici

exagerările grosolane ale literaturii primitive: giganţi, minuni, miracole...

Ceea ce ei obţineau cu minciuni, noi realizăm cu statistica.

În fond e acelaşi lucru!”

Anonim

top related