2.1. prezentarea primară a datelor · pdf fileînainte de a trece la prelucrarea datelor...

14
2. SISTEMATIZAREA ŞI PREZENTAREA DATELOR STATISTICE 2.1. Prezentarea primară a datelor După ce, relativ la o populaţie statistică, s-au obţinut datele statistice de masă şi pe baza unui control s-a constatat că ele sunt suficient de sigure se trece la prelucrarea lor. Omul nu poate să perceapă la prima vedere semnificaţia unui număr foarte mare de date individuale culese în raport cu populaţia statistică cercetată. De aceea este necesară o operaţie de grupare a datelor în scopul extragerii mai uşor a unor idei clare asupra populaţiei cercetare. Prin acest proces de grupare se pierd o parte din informaţiile individuale, în schimb se câştigă în claritatea informaţiilor extrase şi în adaptabilitatea la diferite operaţii de prelucrare. Cerinţele luării deciziilor la niveluri superioare de organizare economică, socială etc. impun cunoaşterea datelor sintetizate în mod corespunzător. Să considerăm o populaţie statistică P formată din unităţile statistice u 1 , u 2 , ..., u n asupra căreia se cercetează caracteristicile X 1 , X 2 , ..., X r . Datele obţinute prin înregistrarea variantelor caracteristicilor se prezintă sistematizat sub forma unei matrici X=(x ij ) n , 1 i = , r , 1 j = . Pe o linie ) n , 1 i ( = se află valorile înregistrate pentru cele r caracteristici corespunzătoare unităţii u i ) n , 1 i ( = . Pe o coloană ) r , 1 j ( = se află valorile înregistrate pentru o caracteristică X j corespunzător tuturor unităţilor u i . Operaţiile de calcul ale caracteristicilor secundare, derivate, de grupare, cla- sificare, centralizare a datelor individuale, de prezentare a datelor sub formă de tabele, serii, grafice, de comparaţie şi determinare a indicatorilor sintetici absoluţi şi derivaţi constituie prelucrarea primară a datelor statistice. Operaţiile de transformare a datelor statistice prin metode mai evoluate, modele de repartiţie, de tendinţă a evoluţiei continuă prelucrarea primară şi formează împreună cu aceasta prelucrarea în sens larg. Prin calcule, ce reflectă unele legături între caracteristicile primare, se obţin caracteristicile secundare. De exemplu, dacă pentru un produs u i s-au înregistrat costurile de fabricaţie x ij , k , 1 j = , atunci prin însumare se obţine costul de producţie = = k 1 j ij i x c al produsului u i . Scăzând pe c i din cifra de afaceri y i se obţine profitul

Upload: lamthien

Post on 06-Feb-2018

214 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

2. SISTEMATIZAREA ŞI PREZENTAREA DATELOR STATISTICE

2.1. Prezentarea primară a datelor

După ce, relativ la o populaţie statistică, s-au obţinut datele statistice de masă şi pe baza unui control s-a constatat că ele sunt suficient de sigure se trece la prelucrarea lor.

Omul nu poate să perceapă la prima vedere semnificaţia unui număr foarte mare de date individuale culese în raport cu populaţia statistică cercetată. De aceea este necesară o operaţie de grupare a datelor în scopul extragerii mai uşor a unor idei clare asupra populaţiei cercetare. Prin acest proces de grupare se pierd o parte din informaţiile individuale, în schimb se câştigă în claritatea informaţiilor extrase şi în adaptabilitatea la diferite operaţii de prelucrare.

Cerinţele luării deciziilor la niveluri superioare de organizare economică, socială etc. impun cunoaşterea datelor sintetizate în mod corespunzător.

Să considerăm o populaţie statistică P formată din unităţile statistice u1, u2, ..., un asupra căreia se cercetează caracteristicile X1, X2, ..., Xr. Datele obţinute prin înregistrarea variantelor caracteristicilor se prezintă sistematizat sub forma unei

matrici X=(xij) n,1i = , r,1j = . Pe o linie )n,1i( = se află valorile înregistrate pentru

cele r caracteristici corespunzătoare unităţii ui )n,1i( = . Pe o coloană )r,1j( = se află valorile înregistrate pentru o caracteristică Xj corespunzător tuturor unităţilor ui.

Operaţiile de calcul ale caracteristicilor secundare, derivate, de grupare, cla-sificare, centralizare a datelor individuale, de prezentare a datelor sub formă de tabele, serii, grafice, de comparaţie şi determinare a indicatorilor sintetici absoluţi şi derivaţi constituie prelucrarea primară a datelor statistice. Operaţiile de transformare a datelor statistice prin metode mai evoluate, modele de repartiţie, de tendinţă a evoluţiei continuă prelucrarea primară şi formează împreună cu aceasta prelucrarea în sens larg.

Prin calcule, ce reflectă unele legături între caracteristicile primare, se obţin caracteristicile secundare. De exemplu, dacă pentru un produs ui s-au înregistrat

costurile de fabricaţie xij, k,1j = , atunci prin însumare se obţine costul de producţie

∑=

=k

1jiji xc al produsului ui. Scăzând pe ci din cifra de afaceri yi se obţine profitul

Page 2: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

Sistematizarea şi prezentarea datelor statistice - 2 28

corespunzător produsului ui. bi = yi-ci. Prin raportul i

ii c

br = se obţine rata rentabilităţii

corespunzătoare produsului ui. Există numeroase cazuri când o caracteristică secundară se deduce ca raport a

valorilor a două caracteristici primare ce are sens în ambele direcţii. De exemplu, din unitatea de producţie fizică executată Qi şi timpul total de muncă consumat pentru

fabricarea ei Ti, se pot calcula i

ii T

QW = - ce reprezintă numărul de produse obţinute

într-o unitate de timp de muncă şi i

ii Q

Tt = - ce reprezintă timpul de muncă consumat

pe unitatea de produs. Unităţile de măsură ale caracteristicilor secundare obţinute prin raportare se exprimă prin unitatea de măsură rezultată ca raport dintre unităţile de măsură ale caracteristicilor primare respective (produse fizice pe unitatea de timp, respectiv timp consumat pe unitatea de produs).

În general, caracteristicile secundare se deduc prin operaţii ce respectă cerinţa semnificaţiei economice, sociale, tehnice etc., în paşi succesivi. Astfel, din date primare se pot obţine ca date secundare de rangul întâi niveluri de productivitate a muncii, din două niveluri ale productivităţii muncii se poate obţine indicele productivităţii muncii (ca derivată de rangul al doilea). Raportul dintre indicele productivităţii muncii şi indicele salariului mediu este un indice de devansare, cu grad de derivare de ordinul al treilea.

Important pentru studiul caracteristicilor cantitative este scala de măsurare, cu ajutorul căreia se stabilesc valorile observate. Legat de aceasta s-a dezvoltat teoria măsurării statistice.

Scala nominală atribuie unităţilor statistice însuşiri corespunzătoare variantei în cauză a caracteristicii calitative (profesie, ocupaţie, ramură de apartenenţă).

Scala ordinală se aplică atunci când manifestările concrete ale caracteristicii nu se pot măsura, dar se pot ordona (crescător, descrescător).

Scala de interval atribuie caracteristicii măsurate intervale de valori în funcţie de distanţa dintre valori, fără să aibă importanţă punctul nul al scalei şi unitatea de măsură. Într-o asemenea scală se măsoară timpul, temperatura măsurată în grade Celsius etc.

Scala de raport sau scala de variaţie relativă asigură conţinutul cel mai înalt de informaţie. Pe o asemenea scală se introduc atât relaţia de ordine, precum şi operatorii de diferenţă şi de raport. Într-o asemenea scală se măsoară vârsta exprimată numeric, greutatea, înălţimea, presiunea, capacitatea unui recipient etc.

Înainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ, datele de masă disponibile se supun unei analize prealabile. În acest scop se face apel la cunoştinţele profesionale, ştiinţifice, practice şi de altă natură pentru a face cunoştinţă globală, nediferenţiată cu conţinutul informaţional al masei de

Page 3: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

2.1.Prelucrarea primară a datelor 29

date acumulate. S-a constituit o ramură aparte a statisticii care are ca scop crearea de modele statistico-matematice evoluate de analiză a datelor statistice. Analiza datelor realizează o investigaţie multidimensională (în raport cu ansamblul caracteristicilor) a trăsăturilor generale ale datelor, de aceea se şi numeşte analiză multidimensională. Ea stă la baza procedeelor de prelucrare ulterioară şi a elaborării modelelor statistice.

Dacă analiza datelor se referă la valorile înregistrate pentru o singură caracteristică, ea constituie obiectul analizei unidimensionale.

În cazul analizei unidimensionale este adesea utilă ordonarea crescătoare sau descrescătoare a datelor înregistrate şi reprezentarea lor grafică.

Dacă datele sunt reprezentate sau înregistrare în ordinea producerii lor în timp se obţine aşa numitul grafic de timp, iar seria de date obţinută se mai numeşte serie cronologică (de timp). Proiectând punctele ce reprezintă valorile aflate pe aceeaşi linie orizontală se obţine, la capătul din dreapta al graficului seriei de timp, imaginea grafică a seriei de repartiţie (distribuţie) a frecvenţelor (fig.2.1.).

Fig.2.1.

Seria de distribuţie a frecvenţelor unei caracteristici se reprezintă printr-un tablou de forma:

⎟⎟⎠

⎞⎜⎜⎝

k21

k21nnnxxx

:XK

K,

unde prima linie cuprinde valorile, grupele de valori sau intervalele de valori distincte înregistrate pentru caracteristica X. Numărul acestora este, în general, mult mai mic decât numărul măsurătorilor efectuate. Linia a doua a distribuţiei de frecvenţă

reprezintă frecvenţele absolute ni sau relative

∑=

=k

1ii

ii

n

nf , care sunt înregistrate

pentru modalităţile (grupele, intervalele) xi, k,1i = . De obicei, unei serii de frecvenţe i se asociază o reprezentare grafică adecvată,

iar datele în urma unei observări empirice se înregistrează şi se prezintă sub forma unor tabele.

Page 4: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

Sistematizarea şi prezentarea datelor statistice - 2 30

Exemplul 1. Pentru o grupă de studenţi, în urma susţinerii unui examen s-au înregistrat rezultatele conţinute în tabelul 2.1:

Tabelul 2.1.

Nota 4 5 6 7 8 9 10 Total Număr de studenţi 5 3 2 6 5 6 3 30

Variabila statistică de frecvenţe absolute corespunzătoare tabelului este:

⎟⎟⎠

⎞⎜⎜⎝

⎛3656235

10987654:X

Corespunzător caracteristicii (variabilei de distribuţie de frecvenţe absolute) îi putem asocia graficul în batoane sau orgi (fig.2.2.):

0123

4567

4 5 6 7 8 9 10

Fig.2.2.

Exemplul 2. În sprijinul unor precizări teoretice şi chiar în locul altora, vom

considera următoarea aplicaţie. Un venit personal ridicat indică o înaltă abilitate de câştig şi o mare putere de

cumpărare. Când veniturile personale ale indivizilor sunt calculate ca venit pe cap de locuitor, acesta indică puterea de cumpărare şi de câştig (investiţie, construcţie, turism etc.) a ţării, judeţului, regiunii locale la care se referă.

Tabelul 2.2 conţine veniturile anuale (1997) pe cap de locuitor în unităţi băneşti convenţional alese (mil. lei) pentru 50 de unităţi teritoriale studiate statistic.

Nota obţinută

Num

ăr d

e st

udenţi

Page 5: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

2.1.Prelucrarea primară a datelor 31

Tabelul.2.2

Unitate

teritorială

Venit Unitate

teritorială

Venit Unitate

teritorială

Venit Unitate

teritorială

Venit

u1 u2 u3 u4 u5 u6 u7 u8 u9 u10 ull u12 u13

9,2 17,2 10,7

9,0 13,3 12,8 14,9 12,7 11,6 10,4 12,1

9,6 12,4

u14 u15 u16 u17 u18 u19 u20 u21 u22 u23 u24 u25 u26

10,5 10,7 12,2 9,4

10,3 9,8

13,0 13,3 11,5 11,9 8,1

11,0 9,9

u27 u28 u29 u30 u31 u32 u33 u34 u35 u36 u37 u38 u39

11,2 12,5 12,2 14,1

9,6 13,0

9,8 11,7 11,2 11,0 10,7 11,5 11,7

u40 u41 u42 u43 u44 u45 u46 u47 u48 u49 u50

9,2 9,8 9,5

11,7 9,0

10,0 12,1 12,2

9,2 11,4 11,9

Fiind dat un volum de date se pune problema aşezării lor într-o formă

convenabilă evidenţierii informaţiilor conţinute în astfel de mulţimi de date. Se observă că datele sunt compuse dintr-o parte întreagă şi una zecimală. Deoarece se observă o repetare cu o anumită frecvenţă a părţilor întregi ale datelor înregistrate, acestea pot fi considerate ca baze ale unei grupări de date. Părţile întregi sunt cuprinse între 8 şi 17. Putem stabili atunci grupele: 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, care, de fapt, corespund intervalelor [8, 9), [9, 10), [10, 11), [11, 12), [12, 13), [13, 14), [14, 15), [15, 16), [16, 17), [17, 18).

Să aşezăm părţile întregi într-o coloană verticală şi părţile zecimale corespunzătoare într-o linie orizontală asociată părţii întregi respective (tabelul 2.3):

Tabelul 2.3.

8 9 10 11 12 13 14 15 16 17

1 2 0 6 4 8 9 6 8 2 5 0 2 7 4 5 7 3 7 0 6 5 9 0 2 7 2 0 5 7 7 4 9 8 7 1 4 2 5 2 1 2 3 0 3 0 9 1 2

Aşezarea ca mai sus a datelor evidenţiază câteva caracteristici importante ale

datelor prezentate.

Page 6: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

Sistematizarea şi prezentarea datelor statistice - 2 32

Imediat se observă că venitul pe locuitor este cuprins între 8, 1 şi 17, 2 milioane lei. Exact în 13 unităţi teritoriale (judeţe) venitul este cuprins între 9,0 şi 9,9 mil.lei.

Se observă că fiecare parte întreagă defineşte o clasă (grupă) de venituri, iar părţile zecimale corespunzătoare unei grupe definesc frecvenţa grupei (intervalului) respective. De exemplu, clasa lui 9,00 conţine veniturile cuprinse între 9,0 şi 9,9 mil.lei. De fapt tabelul de mai sus indică repartiţia frecvenţelor datelor în grupele de valori. Dacă notăm cu X seria frecvenţelor pe aceste grupe avem:

⎟⎟⎠

⎞⎜⎜⎝

⎛ −−−−−−−−1249137131

18171514141313121211111010998:X

Reprezentând prin coloane verticale (fig.2.3.) repartiţia frecvenţelor absolute obţinem histograma datelor de venituri.

0

2

4

6

8

10

12

14

8.5 9.5 10.5 11.5 12.5 13.5 14.5 15.5 16.5 17.5

Fig.2.3.

Considerând pentru fiecare coloană ca reprezentativ punctul din mijlocul

laturii superioare şi unind aceste puncte printr-o linie poligonală se obţine graficul

Frec

venţ

e

Venit/loc. (mil.lei)

Page 7: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

2.2. Gruparea datelor statistice 33

distribuţiei de frecvenţe pentru o serie univariată. Pentru exemplul nostru avem graficul (fig.2.4.):

0

2

4

6

8

10

12

14

8.5 9.5 10.5 11.5 12.5 13.5 14.5 15.5 16.5 17.5

Fig.2.4.

În mod analog se construieşte un grafic al frecvenţelor cumulate, care va fi unul ascendent şi respectiv al frecvenţelor relative care vor fi situate pe axa frecvenţelor între 0 şi 1. Histograma, respectiv graficul frecvenţelor absolute se mai numesc şi reprezentări ale efectivelor, deoarece suma frecvenţelor dau efectivul măsurătorilor (observaţiilor efectuate).

2.2. Gruparea datelor statistice

Datele statistice iniţiale se înregistrează sub forma unor tabele de date primare, care apoi în urma unor operaţii de prelucrare iau forma unor alte tabele sau forme de reprezentare (grafice, histograme). O operaţie importantă în prelucrarea datelor statistice primare este aceea de grupare a datelor, care, putându-se repeta, poate fi interpretat ca un proces de grupare reprezentat printr-un şir de transformări ale datelor primare înregistrate. Dacă notăm cu X mulţimea datelor primare înregistrate, cu Ti operaţia de grupare de rang i (în ordinea aplicării) şi cu G i (X) mulţimea grupelor în gruparea de rang i, atunci procesul de grupare este definit prin:

Frec

venţ

e

Venit/loc. (mil.lei)

Page 8: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

Sistematizarea şi prezentarea datelor statistice - 2 34

T1 : X → G1(X), T2 : G1(X) → G2(X), ...,Tk : Gk-1(X) → Gk(X). Pentru nivelul întâi de grupare are loc alocarea valorilor individuale pentru

grupele destinate primei grupări:

{x1, x2, ..., xn} → {G11(X), G1

2(X), ..., G1k(X)}

Privite ca mulţimi de date grupele constituite trebuie să satisfacă condiţiile:

=∩ )X(G)X(G 1j

1i ∅ , X)X(G1

ik

1i=∪

=

În al doilea nivel de agregare se obţin noi grupe din grupele nivelului unu şi procesul continuă până ce scopul urmărit în obţinerea de informaţii statistice a fost obţinut.

În operaţia de grupare se impune parcurgerea unor etape: a) Stabilirea numărului de grupe se realizează, în general, după anumite formule de

calcul existând mai multe propuneri pentru determinarea numărului de grupe. D.V.Huntsbergers propune formula:

k = 1 + 3,3 log n, unde k este numărul de grupe iar log este logaritmul zecimal.

Brooks şi Carruthers propun:

k < 5 log n Croxton şi Cowden propun ca numărul de intervale să fie cuprins între şase şi

şaisprezece. b) Fiecare grupă trebuie să fie bine precizată prin: limita inferioară inf

ix , limita

superioară supix şi amplitudinea grupei inf

isupii xxh −= , k,1i = .

Dacă gruparea se face pe intervale egale mărimea fiecărui interval va fi:

kxxh

infsup −=

c) Calcularea frecvenţelor fiecărei grupe k,1i,ni = se face prin alocarea fiecărei valori individuale unei grupe.

d) Pentru a asigura prelucrarea unei serii prezentată pe grupe, presupunând că elementele în grupă sunt repartizate uniform, vom lua drept valoare a caracteristicii mijlocul corespunzător fiecărui interval.

În urma grupării datelor statistice se obţine seria de repartiţie a frecvenţelor pe in-tervale de valori, care atunci când este alcătuită după o caracteristică numerică se mai

Page 9: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

2.2. Gruparea datelor statistice 35

numeşte serie de variaţie, care poate fi prezentată sub forma indicată în tabelul 2.4., care, evident poate fi aşezat şi invers, schimbând liniile în coloane.

Tabelul 2.4.

Intervale de grupare supii

infi xxx ≤≤

Numărul de unităţi

sup1

inf1 xx − n1

sup2

inf2 xx − n1

M M

supk

infk xx − nk

Total ∑

==

k

1iinn

Gruparea realizată simultan după două sau mai multe caracteristici se numeşte

grupare combinată. În cazul grupării combinate grupele delimitate după o primă caracteristică se divid în subgrupe după a doua caracteristică, acestea la rândul lor după a treia caracteristică ş.a.m.d.

Gruparea combinată după două caracteristici de grupare este prezentată în tabelul 2.5.

Grupările şi tabelele combinate furnizează metode de analiză multidimensională, deoarece prin crearea de subgrupe se obţin informaţii mai concrete, mai detaliate şi ca atare mai bogate în conţinut, mai valoroase pentru procesul de cunoaştere şi conducere.

Rolul grupărilor şi tabelelor combinate este deosebit de mare în studiul legăturilor, conexiunilor, independenţelor şi dependenţelor din economie, tehnică, societate etc.

Spre deosebire de metodele de corelaţie şi de regresie care au la bază ipoteze mai rigide, grupările şi tabelele de corelaţie neavând o fundamentare riguroasă au capacitatea să sesizeze descriptiv existenţa, direcţia şi caracterul unor legături fără a oferi însă indicatori sintetici de măsurare directă a lor.

În studiul legăturilor dintre variabile se utilizează tabelul de corelaţie (asociere). În rubricile unui astfel de tabel apar frecvenţe de asociere a variantelor celor două variabile (caracteristici) X, Y. Un astfel de model de corelaţie este prezentat în tabelul 2.6.

Dacă ambele caracteristici de grupare sunt numerice, atunci tabelul se numeşte de corelaţie. Dacă cel puţin una este numerică, atunci spunem că avem tabel de asociere.

Page 10: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

Sistematizarea şi prezentarea datelor statistice - 2 36

Tabelul combinat de corelaţie (asociere) prezintă o repartiţie bidimensională empirică. Tabelul de asociere prezintă un interes deosebit când ambele caracteristici sunt alternative (binare). Dacă însă numărul subgrupelor pentru fiecare caracteristică este mare, forma tabelară a repartiţiilor multidimensionale devine greoaie.

Tabelul 2.5

Prima caracteristică de grupare

A doua caracteristică de grupare

Frecvenţele corespunzătoare combinaţiilor de valori

A B 1

x1

y11

M y1j

M

1m1y

n11

M n1j

M

1m1n

Totalul grupei 1 ∑=

=1m

1jj11 nn

M M M

xk

1iy

M

ijy

M

kimy

ni1

M nij

M

km1n

Totalul grupei k ∑=

=km

1jijk nn

Total general ∑ ∑∑= = =

==k

1r

k

1i

m

1jijr

innn

Apariţia calculatoarelor electronice şi dezvoltarea tehnicii de calcul a făcut

posibilă realizarea grupării automate a datelor. Această metodă de grupare poartă numele de metoda cluster (a forma un grup). Pentru a putea efectua o grupare, calculatorului trebuie să i se “spună” (programeze) metode clare de grupare, care să poată fi riguros formalizate.

La fundamentarea acestor metode programabile de grupare stă conceptul matematic de distanţă.

Page 11: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

2.2. Gruparea datelor statistice 37

Tabelul 2.6 Valorile varia-

bilei Y: yi Valorile variabilei X: xi

mj1 yyy KK

Total ∑=

m

1jijn

k

i

1

x

x

x

M

M

kmkj1k

imij1i

m1j111

nnn

nnn

nnn

KK

MM

MMKK

=

=

=

=

=

=

m

1jkjk

m

1jiji

m

1jj11

nn

nn

nn

M

M

Total ∑=

k

1iijn

∑∑∑===

===k

1iimm

k

1iijj

k

1i1i1 nnnnnn LL

∑∑

∑∑

= =

==

=

===

k

1i

m

1jij

m

1jj

k

1ii

n

nnn

Fiecare unitate statistică a populaţiei statistice P poate fi identificată cu un

punct definit de cele r coordonate corespunzătoare caracteristicilor:

X1, X2, ..., Xr, u ↔ (X1(u), X2(u),..., Xr(u)) Printr-o distanţă definită între elementele populaţiei P, înţelegem o aplicaţie de

două variabile d: PxP → 3 astfel că: (1) d(u,v) ≥ 0, ∀ u,v∈P, d(u,v) = 0 ⇔ u=v (2) d(u,v) = d(v,u) (∀) u,v∈P (3) d(u,v) ≤ d(u, w) + d(w,u) (∀) u,v,w∈P Pe baza matricei datelor primare înregistrate X = (xij) n,1i = , r,1j = se

construieşte matricea distanţelor taxonomice dintre elemente. Indicatorul de distanţă sau indicatorul de similitudine se definesc în funcţie de scala de măsurare a variabilelor. Cele mai utilizate metrici (distanţe) sunt: metrica euclidiană:

( )2/1

r

1j

2jje yx)v,u(d

⎥⎥⎦

⎢⎢⎣

⎡−= ∑

=

Page 12: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

Sistematizarea şi prezentarea datelor statistice - 2 38

şi metrica sumă a abaterilor absolute:

∑=

−=r

1jjja yx)v,u(d ,

unde u ↔ (x1, x2,...,xr), v ↔ (y1, y2,..., yr). Distanţa şi similitudinea se completează reciproc.

Cei mai simpli indicatori de similitudine sunt: coeficientul de corelaţie şi cosinusul unghiului dintre cei doi vectori, la distanţă minimă corespunde similitudine maximă şi invers.

La fel ca şi gruparea clasică gruparea automată a datelor trebuie să satisfacă la cerinţele de: obiectivitate, stabilitate şi predictibilitate.

Metodele de grupare automată se realizează cu ajutorul calculatorului electronic, deoarece ele au la bază un volum mare de calcule. Pentru fiecare variantă de grupare există pachete de programe incluse în bibliotecile de programe de statistică.

O nouă metodă de grupare automată a datelor statistice bazată pe o distanţă între trei puncte este dată în [11].

2.3. Centralizarea, agregarea şi prezentarea datelor statistice

După grupare şi clasificare, prelucrarea datelor statistice continuă cu centralizarea şi agregarea acestora. Prin aceste operaţii se obţin totalurile pe grupe şi pe întreaga colectivitate, se obţin astfel indicatorii sintetici absoluţi. În vederea acestor operaţii datele individuale trebuie să aibă acelaşi conţinut, un caracter extensiv, de volum şi să fie exprimate în aceleaşi unităţi de măsură.

Agregarea datelor nu se reduce la o simplă însumare, deoarece presupune utilizarea unor metodologii care conduc la obţinerea indicatorilor pe întreaga populaţie cercetată statistic, pornind de la elementele de bază. Astfel, indicatorii societăţilor comerciale se agregă în indicatori ai departamentelor, ai ministerelor, ai economiei naţionale şi uneori pe plan mondial.

Prezentarea şi reprezentarea datelor statistice utilizează metode de lucru prin care se sistematizează şi ordonează datele, se identifică paşii algoritmilor de calcul statistic, se prezintă datele finale. Prin aceste metode se obţine o mai bună înţelegere a informaţiilor statistice.

Reprezentarea grafică se utilizează în scopul vizualizării mărimii şi variaţiei datelor privite independent şi (sau) în interdependenţa lor, atât în scopul vizualizării lor, dar şi pentru a facilita unele operaţii de prelucrare, previziune, planificare etc. Pentru a vizualiza datele în sine, dar şi proprietăţile şi rapoartele dintre ele, se apelează la lungimi, suprafeţe şi volume, figuri geometrice, sisteme de coordonate, hărţi, desene figurale etc.

Page 13: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

2.3. Centralizarea, agregarea şi prezentarea datelor statistice 39

Întocmirea corectă a unui grafic presupune existenţa în toate cazurile a unui titlu, a scării de reprezentare, a notelor explicative şi a sursei din care provin datele.

Cele mai frecvente tipuri de grafice sunt graficele în coloane şi benzi, cronogramele, diagramele de distribuţie. Cea mai caracteristică reprezentare este cea în sistemul de coordonate rectangular. Formele de reprezentare grafică fiind numeroase se impune alegerea cu discernământ a celor adecvate conţinutului indicatorilor, care pot sugera cu uşurinţă esenţa fenomenelor studiate. În fig.2.5, 2.6 şi 2.7 prezentăm câteva exemple de grafice.

a) Diagramă prin coloane b) Cronogramă

0100200300400500600700

1 2 3 4 5

0

200

400

600

800

1 2 3 4 5

Valoarea producţiei Dinamica producţiei

Fig.2.5.

Diagramă prin benzi

Produsul A

0 2 4 6 8 10

Produsul B

0 2 4 6 8 10

Val

oare

a pr

oducţie

i

Anii Anii

%

x 106

x 106

Page 14: 2.1. Prezentarea primară a datelor · PDF fileÎnainte de a trece la prelucrarea datelor culese şi omologate din punct de vedere calitativ,

Sistematizarea şi prezentarea datelor statistice - 2 40

Produsul C

0 2 4 6 8 10

- producţia din anul întâi

Fig.2.6. - producţia din anul al doilea

Diagramă de structură

0%

20%

40%

60%

80%

100%

120%

Datorii

Provizioane siregularizariCapital propriu

Structura pasivului bilanţier la S.C.”ART”

Fig.2.7.

x 106