6wdwlvwlf ghvfulswly ii iii

90
Statistică descriptivă Management II III 2019

Upload: others

Post on 15-Oct-2021

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 6WDWLVWLF GHVFULSWLY II III

Statistică descriptivă

Management

II III

2019

Page 2: 6WDWLVWLF GHVFULSWLY II III

UNIVERSITATEA ”BABES-BOLYAI” CLUJ-NAPOCAFACULTATEA DE STIINTE ECONOMICE SI GESTIUNEA AFACERILORANUL 2 IDSEMESTRUL 3

Suport de curs ID

STATISTICA DESCRIPTIVAAnul 2

Semestrul 3

Cluj-Napoca

Page 3: 6WDWLVWLF GHVFULSWLY II III

Cuprins

Informatii generale ii0.1 Date de contact ale titularilor de curs . . . . . . . . . . . . . . . . . . . . . . . . . . . ii0.2 Obiective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii0.3 Competente profesionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii0.4 Competente transversale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii0.5 Materiale bibliografice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii0.6 Elemente de deontologie academica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv0.7 Studenti cu dizabilitati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv

1 Serii statistice 11.1 Concepte de baza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Serii de distributie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Observarea statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.4 Reprezentari grafice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.5 Teme de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2 Parametrii repartitiilor unidimensionale 272.1 Parametrii tendintei centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.2 Parametrii de structura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.3 Parametrii variatiei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.4 Parametrii formei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.5 Parametrii concentrarii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472.6 Teme de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3 Analiza legaturii dintre variabile statistice 493.1 Analiza legaturii dintre variabile calitative . . . . . . . . . . . . . . . . . . . . . . . . . 513.2 Analiza legaturii dintre variabile ordinale . . . . . . . . . . . . . . . . . . . . . . . . . 533.3 Analiza legaturii dintre variabile cantitative . . . . . . . . . . . . . . . . . . . . . . . . 563.4 Functii de regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.5 Teme de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4 Serii cronologice 694.1 Indici statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.2 Indicatori medii specifici seriilor cronologice . . . . . . . . . . . . . . . . . . . . . . . . 734.3 Componentele unei serii cronologice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 754.4 Teme de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

i

Page 4: 6WDWLVWLF GHVFULSWLY II III

Informatii generale

0.1 Date de contact ale titularilor de curs

� Prof. univ. dr. Anuta BUIGABirou 346, sediul Facultatii de Stiinte Economice si Gestiunea AfacerilorStr. Teodor Mihali 58-60, Telefon: 0264-418654E-mail: [email protected]

� Prof. univ. dr. Cristian DRAGOSBirou 231, sediul Facultatii de Stiinte Economice si Gestiunea AfacerilorStr. Teodor Mihali 58-60, Telefon: 0264-418654E-mail: [email protected]

� Prof. univ. dr. Dorina LAZARBirou 527, sediul Facultatii de Stiinte Economice si Gestiunea AfacerilorStr. Teodor Mihali 58-60, Telefon: 0264-418654E-mail: [email protected]

� Conf. univ. dr. Gabriela BRENDEABirou 527, sediul Facultatii de Stiinte Economice si Gestiunea AfacerilorStr. Teodor Mihali 58-60, Telefon: 0264-418654E-mail: [email protected]

� Conf. univ. dr. Cristian LITANBirou 231, sediul Facultatii de Stiinte Economice si Gestiunea AfacerilorStr. Teodor Mihali 58-60, Telefon: 0264-418654E-mail: [email protected]

� Conf. univ. dr. Codruta MAREBirou 346, sediul Facultatii de Stiinte Economice si Gestiunea AfacerilorStr. Teodor Mihali 58-60, Telefon: 0264-418654E-mail: [email protected]

� Lect. univ. dr. Darius FILIPBirou 230, sediul Facultatii de Stiinte Economice si Gestiunea AfacerilorStr. Teodor Mihali 58-60, Telefon: 0264-418654E-mail: [email protected]

ii

Page 5: 6WDWLVWLF GHVFULSWLY II III

0.2. Obiective iii

0.2 Obiective

Disciplina Statistica descriptiva ısi propune dobandirea unor cunostinte privind definirea unei populatiistatistice, a variabilelor statistice, obtinerea de informatii cu privire la fenomenul supus cercetarii, or-ganizarea datelor si prezentarea acestora sub forma de serii statistice, evidentierea structurii populatieiın raport cu variabilele observate, evidentierea evolutiei unui fenomen ın timp sau spatiu precum sireprezentarea grafica a datelor.

0.3 Competente profesionale

• Utilizarea conceptelor, teoriilor, principiilor si metodelor de investigare statistica a fenomenelorsi proceselor economice;

• Utilizarea eficienta a resurselor sistemelor de calcul;

• Utilizarea adecvata a produselor software de birotica pentru solutionarea de probleme specifice.

0.4 Competente transversale

• Executarea responsabila a sarcinilor profesionale, ın conditii de autonomie restransa si asistentacalificata;

• Constientizarea nevoii de formare continua;

• Utilizarea eficienta a resurselor si tehnicilor de ınvatare, pentru dezvoltarea personala si profe-sionala.

0.5 Materiale bibliografice

1. Anderson D.R., Sweeney D.J., Williams T.A., Statistics for business and economics, South-Western College Pub, 2008.

2. Andrei T., Stancu S., Statistica - teorie si aplicatii, Ed. ALL, Bucuresti, 1995.

3. Bailly P., Carrere C., Statistiques descriptives: Cours, Ed. PUG, Grenoble, 2007.

4. Bressoud E., Kahane J.C., Gillet R., Statistique descriptive: Applications avec Excel et la calcu-latrice, Ed. Pearson Education, Paris, 2008.

5. Buiga A., Dragos C., Lazar D., Brendea G., Litan C., Mare C., Statistica Descriptiva, Ed.Napoca Star, Cluj-Napoca, 2018;

6. Delmas B., Statistique descriptive pour l’economie et la gestion, Ed. Presses Universitaires duSeptentrion, Lille, 2009.

7. Jaba E., Statistica descriptiva. Teste grila si probleme, Ed. Sedcom Libris Iasi, 2002.

8. Lethielleux M., Statistique descriptive, Ed. Dunod, Paris, 2007.

Page 6: 6WDWLVWLF GHVFULSWLY II III

iv INTRODUCTION

0.6 Elemente de deontologie academica

Plagiatul este o problema serioasa si este pedepsita cu asprime. Orice student care este prins caplagiaza se poate astepta sa ıi fie anulata munca si sa se ıntreprinda masuri disciplinare din parteaorganismelor de conducere ale facultatii. Pentru clarificarea notiunii de plagiat, propunem urmatoareleexemple:

- realizarea proiectului de cercetare de catre o alta persoana;- copierea partiala sau totala a unui proiect de cercetare;- copierea unui proiect de cercetare de pe internet si raspandirea acestuia si ın randul altor studenti;- conspectarea unor surse bibliografice fara citirea prealabila a acestora.Studentii pot sa utilizeze surse bibliografice aferente tematicii abordate, cu conditia ca respectivele

surse sa fie identificate si prezentate ın cadrul proiectului de cercetare. Un proiect care se constituieın mare parte din compilarea unor idei ale unor autori, neavand o contributie proprie din parteastudentului va fi notat cu un calificativ inferior.

0.7 Studenti cu dizabilitati

In vederea oferirii de sanse egale studentilor afectati de dizabilitati motorii sau intelectuale, titularul decurs ısi manifesta disponibilitatea de a comunica cu studentii prin intermediul sistemelor informaticedisponibile (spre exemplu: e-mail, website, blog, etc.). Astfel, studentii cu dizabilitati vor putea adresaıntrebari legate de tematica cursului pe adresa de email a titularului de curs, mentionata la ınceputulacestui silabus, putand primi lamuririle necesare ın maxim 48 de ore de la primirea mesajului.

Page 7: 6WDWLVWLF GHVFULSWLY II III

Capitolul 1

Serii statistice

Sectiuni1.1. Concepte de baza1.2. Serii statistice1.3. Observarea statistica1.4. Reprezentari grafice1.5. Teme de control

Obiective• definirea unei populatii statistice, a variabilelor statistice• obtinerea de informatii cu privire la fenomenul supus cercetarii• organizarea datelor si prezentarea acestora sub forma de serii statistice• evidentierea structurii populatiei ın raport cu variabilele observate• evidentierea evolutiei unui fenomen ın timp

Cuvinte cheie• populatie statistica, unitate statistica, volum, esantion, variabila statistica, observare statistica,

indicator statistic, serie statistica• observare statistica, serii statistice unidimensionale si bidimensionale• reprezentarea grafica a datelor relativ la o variabila cantitativa, la o variabila calitativa si la

doua variabile

Rezultate asteptateCunoasterea si stapanirea notiunilor statistice de baza, cunoasterea tehnicilor de culegere, grupare

si prezentare a datelor. Utilizarea indicatorilor statistici cu scopul evidentierii variatiei unei marimisau a structurii populatiei supuse studiului.

1

Page 8: 6WDWLVWLF GHVFULSWLY II III

2 Capitolul 1. Serii statistice

1.1 Concepte de baza

Statistica descriptiva este stiinta care se ocupa cu studiul fenomenelor de masa, punand ın evidentaanumite particularitati ale acestor fenomene. Dintre conceptele fundamentale cu care opereaza statis-tica descriptiva, se remarca ın mod pregnant urmatoarele:

Populatia statistica - reprezinta multimea elementelor de aceeasi natura, care au una sau maimulte ınsusiri comune.

Exemple de populatii statistice: multimea studentilor unei facultati, multimea angajatilor uneisocietati, multimea bibliotecilor din Romania, etc.

Populatiile statistice le vom nota cu majusculele de la ınceputul alfabetului: A, B, C, etc.

Unitatea statistica - constituie elementul component al populatiei statistice.In exemplele de mai sus, unitatile statistice sunt: studentul, angajatul, biblioteca, etc.Unitatile statistice le vom nota cu minuscula corespunzatoare majusculei ce simbolizeaza populatia

statistica, respectiv ai, bi, ci etc.

Volumul populatiei - reprezinta numarul unitatilor statistice care alcatuiesc populatia statistica.Volumul unei populatii statistice se noteaza cu N .Daca A este o populatie statistica de volum N , atunci unitatile statistice care formeaza populatia

A sunt: a1, a2, ..., aN .

Esantion - reprezinta o submultime a unei populatii statistice, submultime obtinuta pe baza unoranumite criterii. Volumul esantionului ıl vom nota cu n.

Variabila statistica - reprezinta o ınsusire sau o trasatura comuna tuturor unitatilor unei populatii.In general, variabilele statistice se noteaza cu majusculele de la sfarsitul alfabetului: X, Y , Z, etc.

Stare (realizare) a unei variabile statistice - reprezinta valoarea ınregistrata de o variabilastatistica. Daca se noteaza cu X o variabila statistica oarecare, atunci cu x1, x2, ..., xN se vor notastarile variabilei respective.

Variabilele statistice se pot clasifica astfel:

a) Dupa natura lor, variabilele statistice pot fi atributive, de timp sau de spatiu.

• Variabila atributiva exprima un atribut sau ınsusire esentiala (alta, decat timpul sauspatiul) unitatilor populatiei;

• Variabila de timp ne arata timpul ın care au luat fiinta unitatile populatiei sau perioadade timp ın care au existat (exista);

• Variabila de spatiu ne arata spatiul ın care exista sau au luat nastere unitatile populatiei.

b) Dupa modul de exprimare al starilor, deosebim:

• Variabila cantitativa este variabila ale carei stari se exprima prin valori numerice. Se mainumeste si variabila metrica.

• Variabila calitativa este variabila ale carei stari se exprima prin cuvinte sau coduri. Se mainumeste variabila nominala (starile se exprima prin cuvinte) sau variabila ordinala (starilese exprima prin coduri).

c) Dupa modul de variatie, variabila cantitativa poate fi:

Page 9: 6WDWLVWLF GHVFULSWLY II III

1.2. Serii de distributie 3

• Variabila discreta este acea variabila care ın intervalul sau de definitie ınregistreaza cel multvalori rationale.

• Variabila continua este acea variabila care poate lua orice valoare reala din intervalul saude variatie.

Exemple de variabile statistice relativ la populatia formata din multimea consumatorilor unuiprodus:

- varsta: variabila atributiva, cantitativa, continua

X = {x1 = [15− 20), x2 = [20− 30), ...}

- frecventa de cumparare: variabila atributiva, calitativa

Y = {y1 - foarte rar; y2 - rar; ...}

- numarul de sortimente cumparate relativ la produsul analizat: variabila atributiva, cantitativa,discreta:

Z = {z1 = 1; z2 = 2, ...}

- localizarea magazinelor de unde se fac cumparaturi: variabila de spatiu, calitativa

S = {s1 - cartierul C, s2 - strada S, ...}

- data ultimei cumparari a produsului analizat: variabila de timp, cantitativa

T = {t1 = 27.01.2017; t2 = 24.02.2017, ...}

Observarea statistica - consta ın identificarea unitatilor populatiei si ınregistrarea starilor va-riabilelor ın raport cu care este studiata. Ansamblul starilor variabilelor rezultate prin observare senumesc statistici.

Dupa gradul de cuprindere al populatiei statistice, observarea statistica este de doua feluri: totalasi partiala.• Observarea totala este acel tip de observare statistica ın care are loc ınregistrarea tuturor

unitatilor care fac parte din populatia statistica supusa studiului. Recensamantul populatiei Romanieieste un exemplu de observare totala.• Observarea partiala presupune observarea si ınregistrarea unui anumit numar de unitati din

populatie, alese dupa criterii bine definite.In cercetarea statistica a unei populatii punctul de pornire ıl poate constitui fie statisticile exha-

ustive rezultate prin observarea populatiei univers, fie statisticile rezultate din observarea partiala aunui esantion A ⊆ A, ın ambele cazuri scopul final fiind acelasi, respectiv obtinerea de informatii lanivelul populatiei univers A.

Observarea statistica se realizeaza de obicei prin intermediul chestionarului.

1.2 Serii de distributie

Seria statistica este o constructie care reda fie distributia unei populatii ın raport cu una sau maimulte variabile, fie variatia unei marimi ın timp, ın spatiu sau de la o categorie la alta.

Seriile statistice se clasifica ın raport cu mai multe criterii, astfel:

1. In raport cu numarul variabilelor

Page 10: 6WDWLVWLF GHVFULSWLY II III

4 Capitolul 1. Serii statistice

• Serii statistice unidimensionale, au la baza o singura variabila;

• Serii statistice multidimensionale, care au la baza doua sau mai multe variabile.

2. Dupa natura variabilelor deosebim:

• Serii atributive, care au la baza variabile atributive;

• Serii cronologice (de timp sau istorice), care au la baza variabile de timp;

• Serii de spatiu sau teritoriale, care au la baza o variabila de spatiu.

3. Dupa modul de exprimare al starilor variabilei deosebim:

• Serii calitative, care au la baza variabile calitative;

• Serii cantitative, care au la baza variabile cantitative si care dupa modul de variatie avariabilei pot fi: discrete (cand variabila este discreta) si continue (cand variabila estecontinua).

4. In raport cu natura indicatorului din care este alcatuita seria, avem:

• Serii de frecventa sau serii de distributie (repartitie);

• Serii de variatie.

Seria statistica redand distributia populatiei ın raport cu una sau mai multe variabile constituieo descompunere a acesteia ıntr-un numar R de clase. O astfel de serie este formata ın exclusivitatedin frecvente (absolute cumulate sau necumulate, relative cumulate sau necumulate) si de aceea senumesc serii de frecventa, de distributie sau de repartitie. Prescurtat se mai foloseste si denumirea derepartitie statistica sau distributie statistica.

Seria statistica ce reda variatia unei marimi ın timp, ın spatiu sau de la o categorie la alta senumeste serie de variatie.

Prezentam ın continuare cele mai importante serii statistice:

1.2.1. Serii statistice de distributie unidimensionalaConform definitiei de mai sus, prin aceasta serie se distribuie unitatile unei populatii statistice ın

raport cu una sau mai multe variabile.Fie o serie statistica unidimensionala avand la baza variabila X, respectiv:

X :

(x1 x2 . . . xi . . . xRN1 N2 . . . Ni . . . NR

), N (1.1)

unde Ni este frecventa absoluta a clasei i, i = 1, R si reprezinta numarul de unitati ale populatieipentru care variabila X a ınregistrat valoarea xi. Remarcam faptul ca volumul populatiei se poateexprima cu ajutorul frecventelor absolute

N = N1 +N2 + . . .+NR.

Clasa (grupa) de unitati ın raport cu o variabila reuneste acele unitati din cadrul populatiei careınregistreaza aceeasi stare a variabilei sau starile variabilei apartinand unui anumit interval de variatie.

Ca urmare, ın raport cu o variabila statistica populatia poate fi structurata ıntr-un anumit numarde clase.

De asemenea, relativ la seria statistica unidimensionala avand la baza variabila X, aceasta poatefi formata cu frecvete relative, frecvente absolute cumulate sau relative cumulate.

Page 11: 6WDWLVWLF GHVFULSWLY II III

1.2. Serii de distributie 5

Fie seria X formata cu frecvente relative:

X :

(x1 x2 . . . xi . . . xRf1 f2 . . . fi . . . fR

), 100% (1.2)

unde fi ne arata ponderea unitatilor din populatie care au ınregistrat pentru variabila X starea xi:

fi =Ni

N, i = 1, R.

Pornind de la seria (1.1) se poate deduce seria formata cu frecvente absolute cumulate, respectiv:

X :

(x1 x2 . . . xi . . . xRNx1 Nx2 . . . Nxi . . . NxR

)(1.3)

unde Nxi reprezinta numarul de unitati din populatia studiata pentru care variabila ınregistreazavalori ce nu depasesc valoarea xi. Avem ca:

Nxi = N1 +N2 + . . .+Ni, i = 1, R.

Pornind de la seria (1.1) sau (1.2) se poate deduce seria formata cu frecvente relative cumulate,respectiv:

X :

(x1 x2 . . . xi . . . xRFx1 Fx2 . . . Fxi . . . FxR

)(1.4)

unde Fxi exprima ponderea unitatilor populatiei studiate pentru care variabila a ınregistrat valori cenu depasesc valoarea xi. Avem ca

Fxi = f1 + f2 + . . .+ fi sau Fxi =Nxi

N· 100%, i = 1, R.

- Aplicatie. Distributia clientilor ın raport cu sortimentele de cafea servite ıntr-o anumita zi la ocafenea a fost:

Sortiment cafea Nr. clienti

Naturala 21

Cappuccino 32

Espresso 43

a) Identificati populatia statistica, unitatea statisticasi volumul populatiei statistice;

b) Construiti seriile de distributie unidimensionale cufrecvente derivate;

c) Caracterizati variabila care sta la baza seriilor uni-dimensionale.

Rezolvare. a) Populatia statistica este reprezentata ın acest caz de multimea clientilor. Unitateastatistica este clientul. Volumul populatiei statistice este N = 21 + 32 + 43 = 96 clienti.

b) Folosind tabelul de mai sus, se pot construi urmatoarele serii:

- Seria unidimensionala cu frecvente absolute: X :

(Naturala Cappuccino Espresso

21 32 43

), 96

- Seria unidimensionala cu frecvente absolute cumulate:

X :

(Naturala Cappuccino Espresso

21 21 + 32 21 + 32 + 43

)⇔ X :

(Naturala Cappuccino Espresso

21 53 96

)

Page 12: 6WDWLVWLF GHVFULSWLY II III

6 Capitolul 1. Serii statistice

- Seria unidimensionala cu frecvente relative:

X :

(Naturala Cappuccino Espresso

21/96 32/96 43/96

)⇔ X :

(Naturala Cappuccino Espresso21, 88% 33, 33% 44, 79%

), 100%

- Seria unidimensionala cu frecvente relative cumulate:

X :

(Naturala Cappuccino Espresso21, 88% 55, 21% 100%

).

c) La baza seriilor unidimensionale de mai sus, se afla variabila statistica X ce indica sortimentulde cafea ales de clientii cafenelei. Variabila X este atributiva si calitativa. �

1.2.2. Serii statistice de distributie bidimensionalaSeria statistica de distributie bidimensionala este o constructie ce reda distributia unei populatii

ın raport cu doua variabile.Astfel, fie populatia statistica A studiata ın raport cu variabilele X si Y . Rezultatele observarii se

pot grupa ıntr-un tabel de forma urmatoare:

HHHHHHYX

x1 x2 . . . xj . . . xK Total

y1 N11 N12 . . . N1j . . . N1K N1·

y2 N21 N22 . . . N2j . . . N2K N2·...

...... . . .

... . . ....

...

yi Ni1 Ni2 . . . Nij . . . NiK Ni·...

...... . . .

... . . ....

...

yL NL1 NL2 . . . NLj . . . NLK NL·

Total N·1 N·2 . . . N·j . . . N·K N

(1.5)

unde:

Nij − reprezinta numarul de unitati pentru care, variabila X ınregistreaza starea xj si

variabila Y ınregistreaza starea yi;

Ni· − reprezinta numarul de unitati pentru care Y = yi, indiferent de nivelul ınregistrat

de variabila X;

N·j − reprezinta numarul de unitati pentru care X = xj , indiferent de nivelul ınregistrat

de variabila Y ;

N − reprezinta numarul total de unitati analizate, adica volumul populatiei statistice.

Din seria bidimensionala se pot extrage urmatoarele serii unidimensionale:• Serii de repartitie marginale ın raport cu X si Y :

X :

(x1 x2 . . . xj . . . xKN·1 N·2 . . . N·j . . . N·K

), respectiv Y :

(y1 y2 . . . yi . . . yLN1· N2· . . . Ni· . . . NL·

).

• Serii de repartitie conditionate:

Page 13: 6WDWLVWLF GHVFULSWLY II III

1.2. Serii de distributie 7

- seria de repartitie unidimensionala ın raport cu X, conditionata de Y = yi

X/Y=yi :

(x1 x2 . . . xj . . . xKNi1 Ni2 . . . Nij . . . NiK

), pentru orice i = 1, L;

- seria de repartitie unidimensionala ın raport cu Y , conditionata de X = xj

Y/X=xj :

(y1 y2 . . . yi . . . yLN1j N2j . . . Nij . . . NLj

)pentru orice j = 1,K.

De asemenea se poate elabora sau deduce seria de repartitie bidimensionala formata cu frecventerelative, unde:

fij =Nij

N, fi· =

Ni·N, f·j =

N·jN, pentru orice i = 1, L, j = 1,K.

- Aplicatie. Se considera repartitia angajatilor unei firme de IT din Cluj-Napoca ın functie devenitul lunar (e) si functia detinuta ın firma:

`````````````FunctiaVenitul lunar

[100− 500) [500− 1000) [1000− 3000)

Analist − 2 8

Programator 13 24 17

a) Precizati populatia statistica, unitatea statistica si volumul populatiei statistice;b) Extrageti toate seriile de repartitie unidimensionale cu frecvente absolute;c) Construiti seria bidimensionala cu frecvente relative;d) Care este procentul programatorilor cu venitul lunar de cel mult 1000e ?

Rezolvare. Pentru ınceput, notam variabilele statistice: X - venitul lunar si Y - functia detinuta.Rescriem tabelul de mai sus folosind notatiile convenite si totalurile aferente:

PPPPPPPPPYX

[100− 500) [500− 1000) [1000− 3000) Total

Analist − 2 8 10

Programator 13 24 17 54

Total 13 26 25 64

a) Populatia statistica analizata este reprezentata de multimea angajatilor, unitatea statistica ceformeaza populatia este angajatul, iar volumul populatiei statistice analizate este N = 64 angajati.

b) Seriile unidimensionale marginale sunt:

X :

([100 - 500) [500 - 1000) [1000 - 3000)

13 26 25

), respectiv Y :

(Analist Programator

10 54

).

Seriile conditionate ın raport cu variabila X sunt:

Page 14: 6WDWLVWLF GHVFULSWLY II III

8 Capitolul 1. Serii statistice

X/Y=Analist :

([100 - 500) [500 - 1000) [1000 - 3000)

- 2 8

)

respectiv, X/Y=Programator :

([100 - 500) [500 - 1000) [1000 - 3000)

13 24 17

).

Seriile conditionate ın raport cu variabila Y sunt:

Y/X=[100−500) :

(Analist Programator

- 13

), Y/X=[500−1000) :

(Analist Programator

2 24

)

si respectiv Y/X=[1000−3000) :

(Analist Programator

8 17

).

c) Seria bidimensionala cu frecvente relative se obtine din seria bidimensionala cu frecvente abso-

lute, aplicand formula fij =Nij

N , pentru orice i = 1, 2 si j = 1, 3. Obtinem seria bidimensionala:

PPPPPPPPPYX

[100− 500) [500− 1000) [1000− 3000) Total

Analist − 0, 03 0, 13 0, 16

Programator 0, 20 0, 38 0, 26 0, 84

Total 0, 20 0, 41 0, 39 1

sau, ın procente:

PPPPPPPPPYX

[100− 500) [500− 1000) [1000− 3000) Total

Analist − 3% 13% 16%

Programator 20% 38% 26% 84%

Total 20% 41% 39% 100%

d) Din seria bidimensionala cu frecvente relative constatam ca 58% din programatori obtin unvenit lunar de cel mult 1000e. �

1.2.3. Serii statistice de variatieConform definitiei, seria de variatie reda variatia unei marimi ın timp, ın spatiu sau de la o

categorie la alta. Ca urmare, ın continuare vom vorbi de serii cronologice (au la baza o variabila detimp), serii de spatiu (au la baza o variabila de spatiu) si serii categoriale (au la baza variabileatributive). Cele mai des ıntalnite sunt seriile cronologice si seriile de spatiu.

Seriile de variatie au la baza marimi absolute si relative. Dupa unii autori, din cadrul marimilorabsolute fac parte indicatorul de nivel si diferenta absoluta a unei marimi, iar din cadrul marimilorrelative fac parte indicatorul relativ de intensitate, indicele statistic si diferenta relativa a unei marimi.

Indicatorul de nivel (Y ) este o marime ce reflecta nivelul unui fenomen analizat. De exemplu:productia diferitelor produse, veniturile populatiei, suprafata cultivata cu principalele culturi agricole,transportul, exportul, importul, etc.

Page 15: 6WDWLVWLF GHVFULSWLY II III

1.2. Serii de distributie 9

Diferenta absoluta a unei marimi (∆Y ) exprima diferenta dintre nivelul cercetat si nivelul bazade comparatie al marimii analizate. Se exprima ın aceeasi unitate de masura ın care este cuantificatfenomenul analizat si ne arata cu cat s-a modificat acesta de la un nivel la altul.

Indicele statistic al unei marimi (IY ) exprima raportul dintre nivelul cercetat si nivelul bazade comparatie al marimii analizate. Ne arata de cate ori se modifica acea marime, de la un nivel laaltul.

Diferenta relativa a unei marimi (RY ) exprima raportul dintre diferenta absoluta a marimiirespective si nivelul baza de comparatie al acesteia. Ne arata cu cat la suta se modifica marimea dela un nivel la altul.

Indicatorul relativ de intensitate (d) se defineste ca raport ıntre doi indicatori de nivel denatura diferita si arata gradul de raspandire a fenomenului cuantificat de indicatorul de la numaratorın raport cu fenomenul cuantificat de indicatorul de la numitor. De exemplu: productia diferitelorculturi/ha, densitatea populatiei, productia principalelor produse/locuitor, rata somajului, etc.

Serii cronologiceSeria cronologica reflecta evolutia ın timp a unei marimi.Valorile variabilei ca functie de timp pot fi fixate la un anumit moment de timp sau sa se refere la

un interval de timp.Seria cronologica de momente este o serie de observatii ordonate ın timp, exprimand stocuri

[Trebici V., 1985]. De exemplu: volumul populatiei, numarul de universitati, banci, institutii, fondurifixe, numarul salariatilor, ıntreprinderile mici si mijlocii din diferite domenii de activitate, unitatilede cazare turistica, etc. Intr-o astfel de serie ınsumarea marimii analizate nu are sens din punct devedere al continutului, aceasta fiind permisa din considerente de calcul, ajustari etc.

Seria cronologica de intervale este o serie de observatii ordonate ın timp exprimand fluxuri. Deexemplu: nascutii vii, divorturile, decesele, productia diferitelor culturi sau produse, venituri, cheltu-ieli, productia industriala, agricola, exportul, importul etc. Intr-o astfel de serie are sens ınsumareamarimii analizate.

Fie o serie cronologica de momente sau de intervale ce reflecta evolutia ın timp a nivelului uneimarimi Y ,

Y :

(0 1 2 . . . t . . . Ty0 y1 y2 . . . yt . . . yT

)(1.6)

Pornind de la aceasta serie se pot deduce seriile formate cu diferente absolute, indici statistici sidiferente relative. In functie de modul de raportare a starilor variabilei timp t, marimile de mai susse pot calcula cu baza fixa (t/t0) (baza de comparatie ramane aceeasi) sau cu baza ın lant (t/t − 1)(baza de comparatie se schimba, fiind considerata cea precedenta nivelului comparat).

Fie seriile cronologice formate cu:

• diferente absolute cu baza fixa:

∆t/t0y :

(0 1 2 . . . t . . . T

0 ∆1/0y ∆

2/0y . . . ∆

t/0y . . . ∆

T/0y

)(1.7)

unde ∆t/0y = yt − y0, pentru orice t = 0, T ;

• diferente absolute cu baza ın lant:

∆t/t−1y :

(0 1 2 . . . t . . . T

− ∆1/0y ∆

2/1y . . . ∆

t/t−1y . . . ∆

T/T−1y

)(1.8)

Page 16: 6WDWLVWLF GHVFULSWLY II III

10 Capitolul 1. Serii statistice

unde ∆t/t−1y = yt − yt−1, pentru orice t = 1, T .

Intre cele doua tipuri de diferente absolute cu baza fixa si cu baza ın lant, exista relatii de legaturace ne permit exprimarea unora ın functie de celelalte. In acest context, ınsumand diferentele absolutecu baza ın lant se obtin diferentele absolute cu baza fixa:

∆t/0y = ∆1/0

y + ∆2/1y + . . .+ ∆t/t−1

y , pentru orice t = 1, T .

Scazand diferentele succesive cu baza fixa se obtin diferentele cu baza ın lant:

∆t/0y −∆t−1/0

y = yt − y0 − yt−1 + y0 = ∆t/t−1y .

Diferenta absoluta ne arata cu cat se modifica marimea analizata de la un moment la altul. Seexprima ın aceeasi unitate de masura ın care este cuantificat fenomenul studiat.

Daca fenomenul analizat se exprima valoric, atunci diferenta absoluta nu reflecta prea bine mo-dificarile ce intervin, impunandu-se utilizarea marimilor relative precum indicele statistic si diferentarelativa.

Fie seriile cronologice formate cu:

• indici statistici cu baza fixa

It/t0y :

(0 1 2 . . . t . . . T

1 I1/0y I

2/0y . . . I

t/0y . . . I

T/0y

)(1.9)

unde It/0y =

yty0

(·100%), pentru orice t = 0, T ;

• indici statistici cu baza ın lant

It/t−1y :

(0 1 2 . . . t . . . T

− I1/0y I

2/1y . . . I

t/t−1y . . . I

T/T−1y

)(1.10)

unde It/t−1y =

ytyt−1

(·100%), pentru orice t = 1, T .

Intre cele doua tipuri de indici exista urmatoarele relatii de legatura:- Facand produsul indicilor cu baza ın lant pana la o anumita stare a variabilei t, se obtine indicele

cu baza fixa al clasei respective.

I1/0y · I2/1

y · . . . · It/t−1y =

y1

y0· y2

y1· . . . · yt

yt−1= It/0y , pentru orice t = 0, T .

- Impartind doi indici succesivi cu baza fixa se obtine un indice cu baza ın lant:

It/0y

It−1/0y

=yty0· y0

yt−1=

ytyt−1

= It/t−1y , pentru orice t = 1, T .

Indicele statistic ne arata de cate ori se modifica fenomenul analizat. Este marimea cel mai desfolosita ın caracterizarea evolutiei fenomenelor din economie.

Avand ca baza de referinta o serie cronologica de forma (1.7) se pot elabora serii formate cu:

Page 17: 6WDWLVWLF GHVFULSWLY II III

1.2. Serii de distributie 11

• diferente relative cu baza fixa

Rt/t0y :

(0 1 2 . . . t . . . T

0 R1/0y R

2/0y . . . R

t/0y . . . R

T/0y

)(1.11)

unde Rt/0y =

∆t/0y

y0=yt − y0

y0=yty0− 1 = (It/0 − 1)(·100%), pentru orice t = 0, T ;

• diferente relative cu baza ın lant

Rt/t−1y :

(0 1 2 . . . t . . . T

− R1/0y R

2/1y . . . R

t/t−1y . . . R

T/T−1y

)(1.12)

unde Rt/t−1y =

∆t/t−1y

yt−1=yt − yt−1

yt−1=

ytyt−1

− 1 = (It/t−1 − 1)(·100%), pentru orice t = 1, T .

Aceasta marime la fel ca si indicele statistic, se foloseste frecvent ın caracterizarea fenomenelor dineconomie.

- Aplicatie. Evolutia productiei de grau (mil. tone) ınregistrata ın Romania, ın perioada 2013 -2016 este redata ın seria cronologica de mai jos:

Y :

(2013 2014 2015 20167,2 7,4 7,8 8,4

)Calculati si interpretati diferentele absolute, indicii statistici si diferentele relative cu baza fixa si bazaın lant.

Rezolvare. Pentru simplificare, vom interpreta rezultatele doar pentru anul 2016. In mod analog,se pot face interpretari si pentru ceilalti ani.

Seria diferentelor absolute cu baza fixa este:

∆t/0y :

(2013 2014 2015 2016

7, 2− 7, 2 7, 4− 7, 2 7, 8− 7, 2 8, 4− 7, 2

)⇔ ∆t/0

y :

(2013 2014 2015 2016

0 0,2 0,6 1,2

)Se observa ca productia din anul 2016 a fost cu 1, 2 mil. tone mai mare decat productia din anul 2013.

Seria diferentelor absolute cu baza ın lant este:

∆t/t−1y :

(2013 2014 2015 2016

7, 2−? 7, 4− 7, 2 7, 8− 7, 4 8, 4− 7, 8

)⇔ ∆t/t−1

y :

(2013 2014 2015 2016− 0,2 0,4 0,6

)Se observa ca productia din anul 2016 a fost cu 0, 6 mil. tone mai mare decat productia din anul 2015.

Seria indicilor statistici cu baza fixa este:

It/0y :

(2013 2014 2015 2016

7,27,2

7,47,2

7,87,2

8,47,2

)⇔ It/0y :

(2013 2014 2015 2016

1 1,03 1,08 1,17

)Se observa ca productia din anul 2016 a fost de 1, 17 ori mai mare decat productia din anul 2013.

Seria indicilor statistici cu baza ın lant este:

It/t−1y :

(2013 2014 2015 2016

7,2?

7,47,2

7,87,4

8,47,8

)⇔ It/t−1

y :

(2013 2014 2015 2016− 1,028 1,054 1,077

)

Page 18: 6WDWLVWLF GHVFULSWLY II III

12 Capitolul 1. Serii statistice

Se observa ca productia din anul 2016 a fost de 1, 077 ori mai mare decat productia din anul 2015.Seria diferentelor relative cu baza fixa este:

Rt/0y :

(2013 2014 2015 20161− 1 1, 03− 1 1, 08− 1 1, 17− 1

)⇔ Rt/0y :

(2013 2014 2015 20160% 3% 8% 17%

)Se observa ca productia din anul 2016 a fost cu 17% mai mare decat productia din anul 2013.

Seria diferentelor relative cu baza ın lant este:

Rt/t−1y :

(2013 2014 2015 20161−? 1, 028− 1 1, 054− 1 1, 077− 1

)⇔ Rt/t−1

y :

(2013 2014 2015 2016− 2,8% 5,4% 7,7%

)Se observa ca productia din anul 2016 a fost cu 7, 7% mai mare decat productia din anul 2015. �

1.2.4. Serii statistice de spatiu (teritoriale)Seria statistica de spatiu este o constructie statistica ce reflecta variatia ın spatiu a unei marimi. Se-

ria de spatiu prezinta o importanta din ce ın ce mai mare, datorita dezvoltarii sistemului informational,a necesitatii comparatiilor internationale si a comparatiilor ıntre regiunile unei tari.

In cadrul Anuarului Statistic al Romaniei exista capitole distincte de Statistica teritoriala si Sta-tistica internationala. In capitolul de Statistica teritoriala sunt cuprinse informatii privind: populatia,forta de munca, conditiile de munca, veniturile populatiei, cheltuielile si consumul populatiei, locuinte,asistenta sociala, sanatate, ınvatamant, cultura, sport, conturi nationale, rezultate si performanteale ıntreprinderilor, agricultura, silvicultura, industrie, transporturi, posta, telecomunicatii, turism,finante, justitie si starea infractionala, pe cele 7 regiuni si Bucuresti.

La baza seriei de spatiu se gasesc atat marimi absolute (indicator de nivel, diferenta absoluta), catsi marimi relative (indicator relativ de intensitate, indicele statistic, diferenta relativa).

Fie seria statistica Z, de forma urmatoare:

Z :

(s0 s1 s2 . . . si . . . sKz0 z1 z2 . . . zi . . . zK

)(1.13)

unde:

si − este o stare a variabilei ce exprima spatiul, i = 0,K;

zi − exprima o marime (indicator de nivel sau relativ de intensitate), i = 0,K.

Plecand de la seria de forma (1.13) se pot deduce seriile formate cu:

• diferente absolute cu baza fixa

∆s/s0Z :

(s0 s1 s2 . . . si . . . sK

0 ∆s1/s0z ∆

s2/s0z . . . ∆

si/s0z . . . ∆

sK/s0z

)(1.14)

unde: ∆si/s0z = zi − z0, pentru orice i = 0,K.

• indicii statistici cu baza fixa

Is/s0Z :

(s0 s1 s2 . . . si . . . sK

1 Is1/s0z I

s2/s0z . . . I

si/s0z . . . I

sK/s0z

)(1.15)

unde: Isi/s0z =

ziz0

(·100%), pentru orice i = 0,K.

Page 19: 6WDWLVWLF GHVFULSWLY II III

1.3. Observarea statistica 13

• diferente relative cu baza fixa

Rs/s0Z :

(s0 s1 s2 . . . si . . . sK

0 Rs1/s0z R

s2/s0z . . . R

si/s0z . . . R

sK/s0z

)(1.16)

unde: Rsi/s0z =

∆si/s0z

z0=zi − z0

z0= (I

si/s0z − 1)(·100%), pentru orice i = 0,K.

- Aplicatie. Seria statistica de mai jos arata valorile PIB/loc (e) ın unele state membre ale UniuniiEuropene ın anul 2009.

S :

(Romania Cehia Ungaria Bulgaria Slovacia Slovenia

5900 13000 9100 4600 12600 18200

)Calculati si interpretati parametrii specifici seriilor de spatiu.

Rezolvare. Seria formata cu diferente absolute cu baza fixa este:

∆s/s0S :

(Romania Cehia Ungaria Bulgaria Slovacia Slovenia

0 7100 3200 -1300 6700 12300

)Constatam ca PIB/loc al Bulgariei a fost mai mic cu 1300e fata de PIB/loc al Romaniei.

Seria formata cu indicii statistici cu baza fixa este:

Is/s0S :

(Romania Cehia Ungaria Bulgaria Slovacia Slovenia

1 2,20 1,54 0,78 2,14 3,08

)Constatam ca PIB/loc al Sloveniei a fost de 3, 08 ori mai mare fata de PIB/loc al Romaniei.

Seria formata cu diferente relative cu baza fixa este:

Rs/s0S :

(Romania Cehia Ungaria Bulgaria Slovacia Slovenia

0% 120% 54% -22% 114% 208%

)Constatam ca PIB/loc al Sloveniei a fost cu 208% mai mare fata de PIB/loc al Romaniei. �

1.3 Observarea statistica

Observarea statistica constituie prima etapa ın cadrul studierii fenomenelor sociale, economice saude alta natura, etapa ın care se culeg datele statistice despre fenomenul supus cercetarii. Cercetareafenomenelor respective presupune cunoasterea populatiei statistice ın vederea surprinderii actiuniilegilor care actioneaza la nivelul acesteia. De calitatea acestei etape, ıntr-un proces de cercetarestatistica, depinde si calitatea rezultatelor obtinute ın celelalte faze.

Observarea statistica presupune identificarea, urmarirea si ınregistrarea, dupa reguli unitare si pre-cise, a nivelului atins de variabilele statistice studiate pentru unitatile din care este formata populatia[Florea I., 1998].

Pentru asigurarea unor date, rezultate din observare, valide si pertinente se impun cateva precizari.In primul rand, observarea statistica presupune urmarirea si ınregistrarea unui numar mare de unitatistatistice, ceea ce implica un volum mare de munca. In al doilea rand, pentru ca cercetarea populatieisa-si atinga scopul, trebuie precizate care sunt variabilele ın raport cu care este studiata populatia.Variabilele statistice ce urmeaza sa fie urmarite si ınregistrate la nivelul fiecarei unitati din populatie,

Page 20: 6WDWLVWLF GHVFULSWLY II III

14 Capitolul 1. Serii statistice

trebuie sa fie esentiale si sa prezinte interes din punct de vedere al studiului ıntreprins. In al treilearand, trebuie stabilite criterii exacte pentru delimitarea corecta a unitatilor statistice care alcatuiescpopulatia. Si nu ın ultimul rand, daca observarea si ınregistrarea datelor este facuta de mai multepersoane, este necesar ca acestea sa se alinieze unei metodologii unitare pentru a asigura corectitudineanecesara datelor rezultate.

Observarea statistica, ca prima etapa ıntr-un studiu de cercetare, presupune: specificarea unitatilorstatistice care trebuie sa fie urmarite si ınregistrate, alegerea variabilelor statistice care caracterizeazacel mai bine populatia si care raspund obiectivului urmarit, ınregistrarea starilor variabilelor statisticeconsiderate.

Atingerea scopului cercetarii statistice presupune rezolvarea urmatoarelor probleme care sa asigureo pregatire stiintifica a observarii statistice:

- delimitarea populatiei supuse observarii;- definirea unitatilor statistice de observat;- timpul si locul unde va avea loc observarea;- programul observarii;- alegerea purtatorilor de informatie;- pregatirea persoanelor ce urmeaza sa faca observarea.Fiecareia din aceste probleme trebuie sa i se acorde importanta cuvenita, fiindca fiecare dintre

ele conduce la o pregatire cat mai completa a observarii, de rezultatele careia depinde corectitudineacelorlalte etape ale cercetarii statistice.

Delimitarea populatiei supuse observarii fata de alte populatii statistice cu care aceasta se afla ınlegatura se realizeaza prin evidentierea ınsusirilor si trasaturilor comune ce caracterizeaza populatiasupusa studiului.

Definirea unitatilor statistice de observat presupune claritate si precizie pentru a nu da loc confuzi-ilor. In momentul observarii trebuie cunoscut exact care sunt unitatile statistice ce trebuie ınregistrateın raport cu variabilele de studiat.

Stabilirea timpului si a locului unde va avea loc observarea are importanta din punct de vedere acomparabilitatii datelor rezultate din observare. Notiunea de timp al observarii are ın statistica douaacceptiuni:

- momentul sau perioada la care se refera datele ınregistrate (timpul de referinta);- durata observarii.Locul observarii reprezinta punctul din spatiu ın care se deruleaza procesul supus cercetarii (incinta

unei ıntreprinderi, a unui magazin, o localitate ın cazul ın care populatia o reprezinta familiile, etc.).In cadrul programului observarii statistice trebuie stabilite variabilele statistice care urmeaza sa fie

studiate ın populatia de cercetat. Alegerea si definirea variabilelor statistice trebuie sa fie ın consenscu natura populatiei si obiectivul cercetarii statistice ıntreprinse. Variabilele statistice care fac partedin programul cercetarii trebuie sa surprinda aspectele esentiale, sa expliciteze fenomenul sau procesulstudiat, sa permita prelucrarea si generalizarea acestora la nivelul ıntregii populatii.

Alegerea purtatorilor de informatie se face ın functie de volumul datelor ce urmeaza a fi ınregistrate.Purtatorii de informatie reprezinta suportii materiali pe care se ınregistreaza datele din observareaunitatilor statistice.

Observarea statistica se poate desfasura ın diverse forme ın raport cu: natura proceselor social-economice de studiat, obiectivul cercetarii, formele de organizare cat si posibilitatile practice deurmarire si ınregistrare a unitatilor statistice din populatie.

Dupa cum se stie, ın raport cu gradul de cuprindere al populatiei considerate avem: observareatotala si observarea partiala. Observarea totala permite ınregistrarea, ın raport cu variabilele statisticea tuturor unitatilor statistice din populatie. Implicand un volum mare de munca, antreneaza, de obicei,un numar de persoane si dureaza mult timp. Ca urmare se creeaza conditii pentru aparitia de erori

Page 21: 6WDWLVWLF GHVFULSWLY II III

1.3. Observarea statistica 15

de observare, ceea ce va conduce la micsorarea eficientei observarii. Forma cea mai frecventa deobservare totala o constituie recensamantul populatiei. Observarea totala se practica si ın domeniulcontrolului tehnicii de calitate, ın cazul produselor de ınalta tehnicitate, cum ar fi: televizoare, masinide spalat, frigidere, automobile, etc. Este necesara o observare totala ın acest caz, deoarece constatareadefectiunilor de catre cumparatori ar implica cheltuieli mult mai mari cu remedierea acestora ıncomparatie cu organizarea unei observari totale a loturilor de produse ce urmeaza a fi scoase pepiata.

In cazul altor produse, unde cheltuielile legate de remedierea defectelor sunt nesemnificative, estesuficienta realizarea unor observari partiale prin care sa se asigure ca rebuturile nu depasesc un anumitprocent admis. O astfel de observare, care include doar o parte din unitatile populatiei supuse studiuluicorespunde observarii partiale. Observarea partiala constituie o alternativa la observarea totala ıncazul populatiilor infinite sau chiar daca sunt finite prin observare are loc distrugerea acestora. Avandla baza procedeul observarii partiale se pot evalua rezervele de titei, carbune sau alte minerale, sepoate evalua masa de material lemnos din fondul silvic al unei zone sau la nivelul ıntregii tari. Ingeneral, observarea partiala se recomanda ın toate cazurile ın care se considera mai avantajoasa decatobservarea totala.

Esantionul, ca rezultat al observarii partiale, presupune respectarea cu strictete a principiuluireprezentativitatii, ın conformitate cu care fiecare unitate statistica din populatia generala sa aibaaceeasi sansa de a face parte din esantion. Asigurarea respectarii principiului reprezentativitatii ınformarea esantionului de observat permite acestuia o structura foarte apropiata cu cea a populatieidin care a fost format. Aceasta ne asigura, cu o anumita probabilitate dinainte fixata, ca rezultateleobtinute la nivelul esantionului pot fi extinse la nivelul ıntregii populatii. In raport cu legea deprobabilitate urmata de variabilele urmarite ın populatia generala sunt doua tipuri de esantioane:esantioane de volum mare si esantioane de volum redus.

Observarea statistica ın raport cu procedeul folosit este de doua feluri:- observarea directa;- observarea indirecta.Observarea directa presupune o observare nemijlocita a unitatilor din populatie, care sunt prevazute

pentru cercetare. Acest mod de observare se realizeaza printr-un contact direct cu unitatile statistice,fie prin masurare, fie prin interogare, daca unitatile sunt persoane. Acest procedeu permite observato-rului perceperea nemijlocita a fenomenelor luate ın studiu ın vederea masurarii nivelelor ınregistratede variabilele considerate.

Observarea indirecta presupune un intermediar ıntre unitatile care urmeaza sa fie supuse observariisi observator. Intermediarul poate fi un document special conceput ın vederea observarii si atunciobservarea este pe baza de document sau intermediarul poate fi o alta persoana decat observatorul,caz ın care avem observare prin interogare.

Suportul pentru culegerea datelor ıl reprezinta chestionarul.

Sistematizarea si prezentarea datelor statisticeSistematizarea constituie o etapa ın cadrul prelucrarii datelor statistice ın vederea prezentarii

acestora sub forma de serii statistice (tabele statistice).Datele obtinute ca urmare a procesului de observare statistica, ın forma lor bruta, permit o ca-

racterizare amanuntita a fiecarei unitati din populatia considerata. Deoarece, datele rezultate dinobservare se prezinta sub forma dezorganizata, nu permit o caracterizare a populatiei ın ansamblu.

In vederea atingerii scopului cercetarii statistice ıntreprinse si anume acela de a da o caracterizarede ansamblu populatiei considerate, este necesar ca datele rezultate din observare sa fie supuse unoroperatii de sistematizare si prezentare ın vederea deducerii a ceea ce este esential, tipic si general ınlegatura cu populatia.

Page 22: 6WDWLVWLF GHVFULSWLY II III

16 Capitolul 1. Serii statistice

Deoarece ın prelucrarea statistica primul pas ıl constituie prezentarea datelor observate sub formade serie (tabel), pentru construirea seriilor statistice se aleg variabilele care trebuie sa fie ın stransadependenta cu scopul cercetarii si cu natura fenomenului cercetat. Odata precizate variabilele de labaza seriei, se stie care va fi continutul primului sir de date si ca urmare este elucidat criteriul ınraport cu care informatiile rezultate din observare vor fi ordonate, necunoscandu-se ınsa cum se facepropriu-zis ordonarea si cum se completeaza primul sir al seriei.

Operatia de stabilire a claselor presupune ımpartirea unitatilor unei populatii ın clase distincte ınraport cu una sau mai multe variabile si aranjarea claselor rezultate ıntr-o anumita ordine. In urmaunei asemenea operatii, fiecare unitate trebuie sa se gaseasca ın una si numai una din clasele rezultate.Aceasta operatie nu trebuie sa conduca la pierderi de unitati, regasindu-se ınsa ıntr-o alta ordine decatcea dupa care s-a realizat observarea.

Omogenitatea constituie o proprietate de baza pe care trebuie sa o aiba clasele. Se spune ca o clasaeste omogena daca, pentru unitatile care fac parte din ea, variabila de grupare ınregistreaza variatiinesemnificative.

In cele ce urmeaza se va prezenta operatia de stabilire a claselor ın cazul unei serii unidimensionale.Daca la baza seriei avem o variabila calitativa, atunci clasele se stabilesc ın raport cu starile

acesteia. Pentru fiecare stare a variabilei se va construi o clasa. Ca urmare, ın acest caz, ıntr-o clasavor intra toate unitatile care au ınregistrat aceeasi stare ın timpul observarii ın raport cu variabilaconsiderata.

In cazul unei serii care are la baza o variabila cantitativa discreta (numarul starilor nu este preamare), clasele se stabilesc ın mod asemanator ca si la variabilele calitative, respectiv:

X :

(x1 x2 . . . xRN1 N2 . . . NR

).

In conditiile ın care cercetarea populatiei presupune elaborarea unei serii care are la baza o variabilacantitativa continua sau o variabila cantitativa discreta, dar care ın populatia considerata ınregistreazaun numar prea mare de stari, clasele nu se mai pot stabili cu ajutorul starilor variabilei. Pentruasemenea cazuri, gruparea unitatilor populatiei ın clase se face cu ajutorul intervalelor de grupare(variatie), fiecare interval cuprinzand un numar oarecare de valori ale variabilei. Ca urmare, pentru oserie continua, clasele se definesc cu ajutorul intervalelor de grupare.

Doua probleme se pun ın cazul elaborarii unei serii care are la baza o variabila cantitativa continua:• determinarea lungimii intervalelor de variatie;• stabilirea formei de scriere a intervalelor de variatie.Determinarea lungimii intervalelor de variatie conduce la doua situatii:• serii construite cu intervale de lungime egala;• serii construite cu intervale de lungime diferita.Stabilirea numarului de intervale de variatie trebuie sa asigure satisfacerea urmatoarelor conditii:- informatia care se pierde ın urma operatiei de grupare sa nu fie prea mare, iar populatia sa nu

fie prea faramitata ın raport cu variabilele de grupare;- media aritmetica a fiecarei grupe (ın raport cu valorile ınregistrate) sa fie cat mai aproape de

centrul intervalului de variatie respectiv;- sa nu existe grupe vide;- reprezentarea grafica a seriei rezultate sa permita conturarea unei regularitati a fenomenului de

studiat din cadrul populatiei. Trebuie remarcat ca acest lucru nu este posibil nici ın cazul unui numarmic de intervale deoarece se pierd prea multe date, nici ın cazul unui numar prea mare de intervale,populatia faramitandu-se prea tare.

Page 23: 6WDWLVWLF GHVFULSWLY II III

1.3. Observarea statistica 17

Daca se doreste elaborarea unei serii cu intervale de lungime egala, mai ıntai se va calcula lungimeaunui interval (λ), raportand ıntregul interval de variatie ([xmin, xmax]) la numarul de intervale (R), cese doresc a fi obtinute. Mai precis,

λ =xmax − xmin

R.

Se stabilesc apoi intervalele avand ca punct de pornire valoarea minima. Se elaboreaza seria deintervale de lungime egala dupa cum urmeaza:

X :

([xmin, xmin + λ] . . . [xmin + (i− 1)λ, xmin + iλ] . . . [xmin + (R− 1)λ, xmin +Rλ]

N1 . . . Ni . . . NR

).

Nu ıntotdeauna ımpartirea domeniului de variatie al variabilei ın intervale de lungime egala esterelevanta din punct de vedere al scopului urmarit ın ceea ce priveste reliefarea tipurilor calitative dincadrul populatiei cercetate. Numeroase sunt cazurile practice ın care studiul unei populatii ın raportcu o variabila sau mai multe presupune ımpartirea domeniilor de variatie ale acestora ın intervale delungime neegala. In asemenea cazuri nu exista o relatie de calcul ın acest sens. Stabilirea intervalelorde variatie se face ın directa legatura cu variatia variabilelor si distribuirea unitatilor ın raport cuacestea.

Daca la baza seriei ın cauza stau doua sau mai multe variabile calitative sau cantitative atunciclasele se stabilesc ın raport cu fiecare din variabilele considerate prin starile acestora (vezi seria (1.5)).

Nu este recomandat ca numarul variabilelor ın raport cu care se studiaza populatia sa fie preamare, deoarece aceasta duce la o divizare exagerata a populatiei pierzandu-se din vedere aspecteleprincipale.

Dupa ce clasele au fost definite, are loc repartizarea unitatilor populatiei ın clasele respective,folosind ın acest scop un algoritm adecvat.

Pentru elaborarea si prezentarea seriilor statistice se apeleaza la pachete de programe statisticecum ar fi: S.P.S.S. (Statistical Package for the Social Sciences), STATISTICA, S.A.S. (StatisticalAnalysis System), STATGRAPHICS, etc.

- Aplicatie. Managerul unui site informatic a contorizat numarul de tranzactii online efectuate deutilizatori pentru achizitionarea unor produse. In decursul unei luni, numarul de tranzactii efectuatepe zi a fost: 31, 27, 12, 32, 34, 33, 33, 22, 27, 15, 31, 37, 43, 23, 25, 27, 41, 39, 11, 14, 21, 37, 24,19, 30, 28, 34, 20, 27, 33. Construiti o serie unidimensionala continua, cu frecvente absolute, care sagrupeze tranzactiile efectuate ın patru clase.

Rezolvare. Pentru ınceput, vom ordona crescator sirul tranzactiilor efectuate. Fie X variabilastatistica ce indica numarul de tranzactii efectuate ıntr-o zi. Starile variabilei X, ordonate crescator,sunt: 11, 12, 14, 15, 19, 20, 21, 22, 23, 24, 25, 27, 27, 27, 27, 28, 30, 31, 31, 32, 33, 33, 33, 34, 34, 37,37, 39, 41, 43.

Dorim sa construim o serie statistica formata cu R = 4 clase (intervale). Cunoastem valoareaminima xmin = 11 si valoarea maxima xmax = 43. Lungimea unui interval este:

λ =xmax − xmin

R=

43− 11

4= 8.

Obtinem seria unidimensionala continua

X :

([11, 19) [19, 27) [27, 35) [35, 43]

4 7 14 5

), 30.

Page 24: 6WDWLVWLF GHVFULSWLY II III

18 Capitolul 1. Serii statistice

1.4 Reprezentari grafice

Reprezentarea grafica a unei serii ne da o imagine geometrica (ın plan sau spatiu) cu privire la formastatica sau evolutia dinamica a fenomenului cuantificat de seria respectiva.

Graficul asociat unei serii constituie o imagine spatiala a fenomenului cercetat, permitand evidenti-erea rapida a structurii, dinamicii si tendintei de dezvoltare a acestuia. Reprezentarile grafice suntfolosite atat ın scopul cunoasterii populatiei ın cauza, cat si pentru popularizarea unor rezultate dindiverse domenii de activitate.

Elaborarea completa si corecta a unui grafic presupune elucidarea urmatoarelor elemente: titlulgraficului, scara de reprezentare, reteaua graficului, semnele conventionale si notele.

Titlul graficului trebuie sa fie scurt, clar si semnificativ pentru continutul fenomenului reliefat prinseria considerata.

Scara de reprezentare reuneste multimea tuturor punctelor cotate. In cazul ın care variabilaınregistreaza valori mici, gradarea scarii ıncepe ın principiu de la zero. Daca variabila ınregistreazavalori mari se considera o alta origine stabilita cu aproximatie. Pentru a nu ıncarca prea mult desenul,se recomanda reprezentarea pe scara doar a valorilor dispuse la un anumit interval convenabil ales.Distantele dintre doua puncte cotate consecutive se numeste intervalul graficului. Cand intervalelesunt egale atunci avem scari uniforme. In caz contrar, avem scari neuniforme.

Reteaua graficului permite identificarea cu usurinta ın plan sau ın spatiu a punctelor cores-punzatoare valorilor ınregistrate de variabilele ın cauza. Sistemul axelor rectangulare (ın plan sauspatiu) constituie cea mai uzuala retea ın reprezentarea grafica a seriilor statistice.

Semnele conventionale se pot materializa ıntr-o reprezentare grafica fie prin inscriptii, fie printr-olegenda. Inscriptia trebuie sa fie scurta si semnificativa si plasata cat mai bine ın raport cu elementuldin grafic pe care ıl expliciteaza. Legenda se foloseste pentru a explicita folosirea semnelor, culorilorsau diverselor hasuri folosite ın graficul ın cauza. Legenda se plaseaza ınafara graficului, ın coltul dinstanga sau dreapta jos.

In cazul graficelor complexe, pentru o ıntelegere mai buna, sunt necesare unele explicatii, care sedau sub forma de note. Notele generale privesc ın ansamblu graficul si se plaseaza chiar sub titlulgraficului. Notele speciale privesc portiuni din grafic si sunt legate de acestea prin diverse semne detrimitere. Notele se plaseaza ın partea de jos a diagramei, ın coltul din stanga, sub retea.

In continuare, vom prezenta principalele tehnici de construire a graficelor utilizate ın reprezentareaseriilor statistice.

HistogramaGraficul specific seriilor care au la baza o variabila continua (de intervale) este histograma. Aceasta

se construieste ıntr-un sistem de axe rectangulare dupa cum urmeaza: pe abscisa se trec intervalele devariatie, iar pe ordonata se traseaza scara frecventelor. Scara frecventelor se construieste ın confor-mitate cu respectarea principiului proportionalitatii ıntre frecvente si segmentele delimitate pe scaraordonatelor. Pentru fiecare interval de variatie al seriei [xi−1, xi) se construieste un dreptunghi a caruibaza este chiar lungimea intervalului, iar cealalta latura se determina din conditia proportionalitatiiariei dreptunghiului cu marimea indicatorului ın clasa respectiva.

Page 25: 6WDWLVWLF GHVFULSWLY II III

1.4. Reprezentari grafice 19

Figura 1.1: Histograma

Latura necunoscuta a dreptunghiului, notatacu Li se determina din urmatoarea relatie:

Li · li = k ·Ni (1.17)

unde:li = latura cunoscuta a dreptunghiului cores-punzator intervalului (xi−1, xi);Li = latura necunoscuta a dreptunghiului co-respunzator intervalului (xi−1, xi);Ni = frecventa absoluta a clasei i;k = coeficient de proportionalitate care sealege ın raport cu scara de reprezentare.

Din relatia (1.17) gasim:

Li =k ·Ni

li, i = 1, R (1.18)

unde li = xi−xi−1, adica diferenta dintre limita superioara si cea inferioara a intervalului de variatie.Multimea tuturor dreptunghiurilor astfel determinate, formeaza histograma atasata seriei.

Poligonul frecventelorEste o reprezentare grafica a seriilor statistice avand la baza o variabila atributiva cantitativa

continua si formata cu frecvente absolute sau relative, simple sau cumulate.Trasarea acesteia presupune realizarea ın prealabil a histogramei. Poligonul frecventelor se obtine

unind prin segmente de dreapta mijloacele laturilor superioare ale dreptunghiurilor din care estealcatuita histograma.

Poligonul frecventelor este un grafic important pentru aproximarea formei distributiei populatieistudiate, cat si pentru compararea a doua distributii pe aceeasi diagrama.

- Aplicatie. Se considera repartitia salariatilor unei ıntreprinderi ın raport cu vechimea ın munca:

V :

([0, 10) [10, 20) [20, 30) [30, 40) [40, 50]

10 8 14 12 6

), 50.

Construiti histograma seriei de repartitie, punand ın evidenta poligonul frecventelor.

Rezolvare. Pentru fiecare interval de variatie a vechimii ın munca, vom calcula mai ıntai lungimeaintervalului. Avem: l1 = 10 − 0 = 10; l2 = 20 − 10 = 10; l3 = 30 − 20 = 10; l4 = 40 − 30 = 10;l5 = 50− 40 = 10.

Alegem factorul de proportionalitate k = 10 si folosind formula (1.18) gasim:

Page 26: 6WDWLVWLF GHVFULSWLY II III

20 Capitolul 1. Serii statistice

Figura 1.2: Distributia salariatilor ın functiede vechimea ın munca

L1 =k ·N1

l1=

10 · 10

10= 10

L2 =k ·N2

l2=

10 · 810

= 8

L3 =k ·N3

l3=

10 · 14

10= 14

L4 =k ·N4

l4=

10 · 12

10= 12

L5 =k ·N5

l5=

10 · 610

= 6

Diagramele cu benzi sau coloane (barchart)Acest tip de grafic utilizeaza benzile (barele) sau coloanele pentru a reprezenta distributia unei

populatii ın raport cu o variabila cantitativa discreta sau calitativa. Benzile au aceeasi latime (baza),iar lungimea (ınaltimea) lor este direct proportionala cu frecventa clasei reprezentate. Numarul ben-zilor este egal cu numarul claselor ın care este ımpartita populatia studiata. De asemenea se pot luaın considerare o variabila sau doua.

In reprezentari se utilizeaza benzi simple sau benzi grupate. Pozitia benzilor poate fi orizontalasau verticala.

- Aplicatie. La un magazin alimentar, ın decursul unei luni, s-au ınregistrat urmatoarele dateprivind consumul de ciocolata: 32 clienti au cumparat ciocolata Milka, 40 clienti ciocolata Poianasi 17 clienti ciocolata Heidi. De asemenea, privind consumul de cafea, s-a constatat ca: 50 clientiau cumparat cafea Jacobs, 20 clienti cafea Tschibo, 10 clienti cafea Amaroy. Reprezentati graficdistributia clientilor ın raport cu ciocolata, respectiv cafeaua cumparata.

Rezolvare. Pentru distributia clientilor ın raport cu sortimentul de ciocolata ales vom utiliza dia-grama cu coloane, iar pentru distributia clientilor ın raport cu sortimentul de cafea ales vom utilizadiagrama cu benzi.

Page 27: 6WDWLVWLF GHVFULSWLY II III

1.4. Reprezentari grafice 21

Fie X variabila statistica ce indica sortimentulde ciocolata. Seria de distributie este:

X :

(Milka Poiana Heidi

32 40 17

), 89.

Diagrama cu coloane corespunzatoaredistributiei clientilor ın raport cu variabilacalitativa X este prezentata ın figura 1.3.

Figura 1.3: Distributia clientilor ın functie desortimentul de ciocolata cumparat

Fie Y variabila statistica ce indica sortimentulde cafea. Seria de distributie este:

Y :

(Jacobs Tschibo Amaroy

50 20 10

), 70.

Diagrama cu benzi corespunzatoaredistributiei clientilor ın raport cu varia-bila calitativa Y este prezentata ın figura1.4.

Figura 1.4: Distributia clientilor ın functie desortimentul de cafea cumparat

Cercul de structuraCercul de structura permite punerea ın evidenta sub forma grafica a structurii unei populatii

statistice.Se construieste un cerc de raza oarecare, a carui suprafata se considera ca reprezinta volumul

ıntregii populatii ın cauza (exprimat ın frecvente absolute sau relative).Fiecare clasa ın care este divizata populatia supusa studiului este reprezentata printr-un sector de

cerc de arie direct proportionala cu volumul clasei. Trasarea sectorului de cerc presupune determinareamasurii ın grade a unghiurilor la centru a fiecarui sector. Unghiul la centru de 360◦ corespundevolumului ıntregii populatii. Unghiurile sectoarelor de cerc care reprezinta clase din populatie trebuiesa fie proportionale cu volumul acestora (exprimat ın frecvente absolute sau relative). clasei respective.

Fie, de exemplu, seria de distributie unidimensionala formata cu frecvente absolute:

X :

(x1 x2 . . . xi . . . xRN1 N2 . . . Ni . . . NR

), N.

Fie αi unghiul la centru corespunzator sectorului aferent clasei i, de volum Ni. Atunci:

αi =360◦ ·Ni

N= 360◦ · fi, i = 1, R (1.19)

Page 28: 6WDWLVWLF GHVFULSWLY II III

22 Capitolul 1. Serii statistice

unde fi este frecventa relativa corespunzatoare clasei i.

- Aplicatie. In urma alegerilor parlamentare pentru Camera Deputatilor din anul 2016, partidelepolitice din Romania au obtinut urmatoarele rezultate privind voturile valabil exprimate:

PSD PNL USR UDMR ALDE PMP PRU PRM

45% 21% 10% 8% 6% 5% 3% 2%

Reprezentati grafic structura voturilor valabil exprimate pentru fiecare partid politic.

Rezolvare. Vom contrui cercul de structura folosind formula de calcul (1.19).

α1 = 360◦ · 45% = 162◦

α2 = 360◦ · 21% = 75, 6◦

α3 = 360◦ · 10% = 36◦

α4 = 360◦ · 8% = 28, 8◦

α5 = 360◦ · 6% = 21, 6◦

α6 = 360◦ · 5% = 18◦

α7 = 360◦ · 3% = 10, 8◦

α8 = 360◦ · 2% = 7, 2◦.

Cercul de structura cu sectoarele aferentefiecarui partid politic este prezentat ın figura1.5.

Figura 1.5: Structura Cemerei Deputatilor�

Cronograma (historiograma)O categorie foarte importanta de serii o constituie seriile cronologice, a caror reprezentare grafica

se realizeaza prin intermediul cronogramei. Trasarea unei cronograme se realizeaza ıntr-un sistem deaxe rectangulare.

Fie seria cronologica:

Y :

(0 1 2 . . . t . . . Ty0 y1 y2 . . . yt . . . yT

),

unde: t = 0, T , reprezinta momentele (sau perioadele) de timp care se reprezinta pe axa absciselor, iarmarimile yt se reprezinta pe axa ordonatelor. Fiecarei perechi de valori (t, yt), t = 0, T ıi corespundeun punct ın planul axelor rectangulare. Unind prin segmente de dreapta punctele consecutive astfeldeterminate, se obtine ceea ce se numeste cronograma. In acelasi sistem de axe pot fi reprezentateuna sau mai multe serii cronologice, care pot fi exprimate ın aceeasi unitate de masura sau ın unitatide masura diferite. Cronogramele asociate unor serii cronologice ne permit compararea fenomenelorsurprinse de asemenea serii si sesizarea perioadelor critice ın evolutia acestora.

- Aplicatie. Conform datelor Institutului National de Statistica (INS), evolutia productiei de titei(mii tone) din Romania, ın perioada 2010-2015, este redata ın tabelul de mai jos:

An 2010 2011 2012 2013 2014 2015

Productie titei (mii tone) 4314 4255 4010 4151 4072 4070

Page 29: 6WDWLVWLF GHVFULSWLY II III

1.4. Reprezentari grafice 23

Reprezentati grafic seria cronologica.

Rezolvare. Cronograma aferenta productiei de titei din Romania, ın perioada 2010-2015 este urmatoarea:

Figura 1.6: Cronograma productiei de titei�

Norul de puncteNorul de puncte constituie o modalitate de reprezentare grafica a seriilor atributive de distributie

bidimensionale. Se considera o serie bidimensionala de repartitie ın raport cu variabilele discrete X siY . In sistemul de axe rectangulare xOy se marcheaza toate punctele de coordonate (xi, yj), i = 1, L,j = 1,K pentru care frecventele Nij 6= 0. Marimea acestor frecvente se poate marca pe grafic ın douamoduri:

- daca frecventele sunt mici, atunci pentru fiecare punct de pe grafic (xi, yj), i = 1, L, j = 1,Kpentru care Nij 6= 0, se marcheaza atatea puncte de cate ori se repeta perechea respectiva.

- daca ınsa frecventele sunt prea mari, pentru marcarea lor pe grafic se pot utiliza diagrame arealeprin cercuri ale caror arii trebuie sa fie proportionale cu radacina patrata a frecventelor pe care lereprezinta.

In cazul ın care cele doua variabile X si Y sunt continue, ıntrucat la intersectia a doua intervalese formeaza o rubrica (casuta), frecventele diferite de zero se reprezinta ın interiorul acestei rubrici,fie prin puncte, fie prin diagrame areale cu respectarea unuia din cele doua moduri de elaborare maisus amintite.

- Aplicatie. Un produs a fost lansat simultan pe 13 piete. Pe aceste piete, produsul a fost propus lapreturi diferite (P ), veniturile consumatorilor fiind si ele diferite. Pentru fiecare piata s-a ınregistratun anumit nivel al cererii (C), rezultatele fiind sintetizate ın tabelul urmator:

Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13

C 15, 4 3, 2 4, 9 10, 5 8, 0 5, 1 7, 6 11, 3 14, 0 6, 4 13, 2 8, 8 12, 1

P 1, 4 5, 1 2, 5 1, 7 1, 8 3, 4 2, 1 1, 6 3, 6 3, 5 1, 9 1, 8 1, 9

Construiti norul de puncte ın raport cu variabilele pret si cerere.

Page 30: 6WDWLVWLF GHVFULSWLY II III

24 Capitolul 1. Serii statistice

Rezolvare. Folosind datele ınregistrate pentru pret si cerere, se poate construi urmatorul nor depuncte:

Figura 1.7: Norul de puncte ın raport cu pretul si cererea�

Cartograma si cartodiagramaAceste tipuri de grafice se folosesc frecvent pentru reprezentarea grafica a seriilor statistice de

spatiu.Realizarea unei cartograme sau a unei cartodiagrame presupune conturarea spatiului (sub forma

de harta) ın interiorul caruia se manifesta fenomenul care este cuantificat de seria de reprezentat. Ininteriorul hartii astfel realizate, prin diverse culori sau nuante ale aceleiasi culori, prin hasuri sau prindiferite diagrame, este evidentiata intensitatea dezvoltarii fenomenului cercetat precum si marimeaindicatorilor seriei.

Cartodiagrama constituie o modalitate de reprezentare grafica a seriilor de spatiu, realizandu-seca o ımbinare ıntre cartograma si diferite alte tipuri de diagrame, ca de exemplu diagrame prin benzi,cerc, patrat, dreptunghi, etc.

De exemplu, pentru a reprezentao serie de spatiu ce exprima volu-mul investitiilor straine pe judete,la noi ın tara, se procedeazaastfel: ın primul rand se dese-neaza harta Romaniei, delimitandu-se judetele; ın cadrul fiecarui judetse precizeaza volumul investitiilorstraine sau se deseneaza o fi-gura geometrica oarecare, convena-bil aleasa, a carei arie sau marimesa fie direct proportionala cu volu-mul investitiilor straine din judetulrespectiv. In figura alaturataeste reprezentata grafic cartogramainvestitiilor din judetele Romanieiın anul 2011.(Sursa: https://www.gandul.info) Figura 1.8: Investitiile din Romania ın anul 2011

Page 31: 6WDWLVWLF GHVFULSWLY II III

1.5. Teme de control 25

1.5 Teme de control

P1. Dati cinci exemple de populatii statistice a caror cercetare ar prezenta interes si pentru fiecarepopulatie selectata precizati:

− denumirea populatiei, a unitatii statistice si volumul acesteia;

− scopul cercetarii statistice;

− variabilele statistice ın raport cu care s-ar face observarea statistica a populatiei.

P2. Sa se extraga din Anuarul Statistic sau alte surse informationale o serie statistica bidimensionalace reda distributia unei populatii ın raport cu doua variabile atributive, relativ la care se cere:

1. denumirea populatiei ce a fost supusa observarii si volumul acesteia;

2. unitatea statistica;

3. caracterizarea variabilelor statistice ın raport cu care a fost studiata populatia;

4. caracterizarea seriei statistice ın raport cu toate criteriile cunoscute;

5. elaborarea seriei bidimensionale formata cu frecvente relative, interpretare;

6. extragerea repartitiilor unidimensionale marginale si a celor conditionate;

7. pornind de la o repartitie marginala deduceti celelalte serii statistice posibile, interpretare.

P3. Din Anuarul Statistic sau alte surse informationale extrageti o serie statistica de repartitie, avandla baza o variabila de spatiu, relativ la care se cere:

1. denumirea populatiei statistice si volumului ei;

2. unitatea statistica;

3. caracterizarea seriei dupa toate criteriile cunoscute;

4. deducerea seriei formata cu frecvente relative;

5. interpretare.

P4. Din Anuarul Statistic sau alte surse informationale extrageti doua serii cronologice avand la bazaindicatorul de nivel, una de momente, alta de intervale si deduceti seriile formate cu diferenteabsolute, indici statistici, diferente relative, cu baza fixa si cu baza ın lant (interpretari).

P5. Dati cinci exemple de serii cronologice avand la baza indicatorul relativ de intensitate.

P6. Din Anuarul Statistic sau alte surse informationale extrageti o serie de spatiu formata cu indica-tor de nivel sau indicator relativ de intensitate si deduceti seriile formate cu diferente absolute,indici si diferente relative, calculate cu baza fixa. Interpretare.

P7. Extrageti cinci exemple de serii de spatiu ce contin informatii importante pentru domeniuleconomic.

P8. Luand ca exemplu o populatie statistica studiata ın raport cu un anumit numar de variabile(stabilite ın raport cu obiectivul studiului), se cere:

1. elaborarea tuturor seriilor statistice de repartitie unidimensionale

2. elaborarea a trei serii statistice de repartitie bidimensionale (una care are la baza douavariabile calitative, una care are la baza o variabila calitativa si o variabila cantitativa,respectiv una care are la baza doua variabile cantitative)

Page 32: 6WDWLVWLF GHVFULSWLY II III

26 Capitolul 1. Serii statistice

3. reprezentarea grafica a: histogramei, poligonului frecventelor, cercului de structura, diagra-mei cu benzi sau coloane, norul statistic, cronograma si cartograma.

Bibliografie:

1. Buiga A., Metodologie de sondaj si analiza datelor ın studiile de piata, Ed. Presa UniversitaraClujeana, Cluj-Napoca, 2001;

2. Buiga A., Dragos C., Lazar D., Parpucea I., Todea A., Statistica I, Ed. Presa UniversitaraClujeana, Cluj-Napoca, 2003;

3. Buiga A., Dragos C., Lazar D., Brendea G., Litan C., Mare C., Statistica Descriptiva, Ed.Napoca Star, Cluj-Napoca, 2018;

4. Florea I., Parpucea I., Buiga A., Statistica descriptiva, Ed. Continental, Cluj-Napoca, 1998.

Page 33: 6WDWLVWLF GHVFULSWLY II III

Capitolul 2

Parametrii repartitiilorunidimensionale

Sectiuni2.1. Parametrii tendintei centrale2.2. Parametrii de structura2.3. Parametrii variatiei2.4. Parametrii formei2.5. Parametrii concentrarii2.6. Teme de control

Obiective• Cunoasterea si ıntelegerea modului de calcul si a semnificatiei parametrilor statistici• Ilustrarea trasaturilor esentiale care caracterizeaza fenomenele social-economice• Cunoasterea si masurarea variatiei unei marimi ın raport cu nivelul mediu al acesteia

Cuvinte cheie• valoare medie, valoare mediana, valoare modala• quantila, quartila, decila, centila• variatie, dispersie, abatere medie patratica• asimetrie, boltire• energie informationala

Rezultate asteptateCunoasterea modului de calcul si a semnificatiei parametrilor tendintei centrale, a gradului de

reprezentativitate a mediei, respectiv a medianei, analiza structurii unei populatii si formularea uneiconcluzii privind forma distributiei unei populatii.

27

Page 34: 6WDWLVWLF GHVFULSWLY II III

28 Capitolul 2. Parametrii repartitiilor unidimensionale

2.1 Parametrii tendintei centrale

Parametrii din aceasta grupa au menirea de a evidentia pozitia ın jurul careia se grupeaza ansamblulvalorilor unei variabile X de la baza unei serii. Aceasta pozitie exprimata printr-un numar se numestepozitie centrala. Ea poate fi evidentiata prin:

− valoarea medie (notata M(X) sau X);

− valoarea mediana (notata Me);

− valoarea modala (notata Mo).

v Valoarea medieValoarea medie reprezinta principalul parametru care caracterizeaza tendinta centrala a unei

repartitii statistice.In vederea definirii parametrului valoarea medie se considera o populatie statistica studiata ın

raport cu variabila cantitativa X si o functie G(x1, x2, . . . , xR) unde xi, i = 1, R , reprezinta starilevariabilei X. Functia G exprima o anumita ınsusire esentiala, un atribut al populatiei ın raport cuvariabila X. Aceasta functie se numeste functie determinanta.

Prin definitie, valoarea medie X a variabilei X este parametrul care lasa invarianta functia deter-minanta, adica:

G(x1, x2, . . . , xR) = G(X,X, . . . ,X) (2.1)

Aceasta egalitate se ıntalneste sub denumirea de relatia lui Boiarski-Kisini. In functie de formaanalitica a functiei G, din relatia (2.1) se deduce expresia analitica (indicatorul) de calcul al valoriimedii X.

Determinarea, pe aceasta cale, a valorii medii X, este destul de anevoioasa. Utilizarea acesteiapresupune stabilirea continutului (semnificatiei) si a formei analitice a functiei determinante G, pentrufiecare caz ın parte. Dar, valoarea medie X poate fi definita ca un raport a doua marimi din care sededuce aceeasi expresie pentru X ca si din (2.1).

Exista, asadar, doua modalitati echivalente de definire a valorii medii, criteriul relatiei determinantea lui Boiarski-Kisini si criteriul raportului, ultima fiind mai accesibila. Criteriul raportului presupuneraportarea volumului fenomenului cercetat la volumul populatiei. Acesta presupune cuantificareavolumului fenomenului ın functie de natura lui. Pentru a exemplifica cele prezentate mai sus, seconsidera populatia familiilor dintr-o localitate, cercetata ın raport cu numarul de copii. Datelerezultate din observare se prezinta ca o serie de repartitie de forma:

X :

(x1 x2 . . . xRN1 N2 . . . NR

)In acest caz, functia determinanta are urmatoarea forma:

G(x1, x2, . . . , xR) =R∑i=1

xi ·Ni

semnificand numarul total de copii din localitatea respectiva. Pentru a gasi numarul mediu de copiipe familie se particularizeaza relatia (2.1) dupa cum urmeaza

R∑i=1

xi ·Ni =R∑i=1

X ·Ni

Page 35: 6WDWLVWLF GHVFULSWLY II III

2.1. Parametrii tendintei centrale 29

de unde rezulta:

X =

R∑i=1

xi ·Ni

R∑i=1

Ni

La acelasi rezultat se putea ajunge pornind de la faptul ca numarul mediu de copii pe familie sepoate exprima ca un raport ıntre numarul total de copii si numarul de familii din localitatea respectiva,adica:

X =Nr. total de copii

Nr. de familii(2.2)

In acest exemplu, fenomenul fiind de natura demografica, volumul acestuia se cuantifica prinnumarul total de copii la nivelul populatiei statistice considerate. Aceasta este ın directa concordantacu natura si semnificatia variabilei ın raport cu care se face cercetarea statistica.

Cunoasterea ”naturii” parametrului valoare medie, conduce la o definitie mai completa si plina desemnificatie.

Pentru a ıntelege semnificatia valorii medii X, trebuie subliniat faptul ca, ın general, variatia unuifenomen, de orice natura, si ın particular variatia unei variabile X ın raport cu care este cercetatao populatie, este determinata de actiunea simultana a doua categorii de factori: factori esentiali sifactori neesentiali.

In categoria factorilor esentiali intra acei factori care actioneaza asupra tuturor unitatilor populatieiın mod continuu si ın acelasi sens, determinand, ın principal, nivelul de dezvoltare a variabilei pentrufiecare unitate componenta din populatie.

Factorii esentiali se conjuga ın actiunea lor cu factorii neesentiali, care, ın general, au un caracteraleator, sunt numerosi si neuniform raspanditi printre unitatile populatiei.

Fiecare din factorii considerati neesentiali actioneaza numai asupra unui anumit numar de unitatidin populatie. Ca urmare, acestia pot contribui fie la cresterea nivelului variabilei (pentru unele unitatidin populatie), fie la scaderea nivelului variabilei (pentru alte unitati din populatie).

La randul lor factorii esentiali nu actioneaza cu aceeasi intensitate asupra tuturor unitatilor dincadrul populatiei considerate, determinand, ın acest fel, variatia neuniforma a variabilei respective ıncadrul populatiei.

In consens cu cele subliniate mai sus, se poate afirma ca parametrul valoarea medie a unei seriistatistice care are la baza variabila X, constituie acel nivel pe care l-ar putea ınregistra variabila ıncadrul populatiei cercetate ın conditiile ın care factorii neesentiali nu s-ar fi manifestat, iar factoriiesentiali ar fi actionat asupra unitatilor din populatie cu aceeasi intensitate.

Parametrul valoarea medie, calculat pentru o serie statistica, pune ın evidenta ceea ce este comun,general si esential sub aspectul nivelului de dezvoltare al variabilei, ın raport cu care este studiata opopulatie.

In raport cu natura variabilei ce sta la baza seriei, cat si a formei de prezentare a indicatorilor cucare aceasta este construita, exista mai multe posibilitati de calcul a valorii medii.

Functia determinata G, sub forma sa cea mai generala, are urmatoarea expresie analitica:

G(x1, x2, . . . , xR) =

( R∑i=1

xki · fi) 1

k

(2.3)

Pentru diverse valori ale lui k, ın stricta concordanta cu continutul si semnificatia functiei G, seıntalnesc mai multe tipuri de medii:

Page 36: 6WDWLVWLF GHVFULSWLY II III

30 Capitolul 2. Parametrii repartitiilor unidimensionale

− media armonica (k = −1);

− media aritmetica (k = 1);

− media patratica (k = 2);

− media cubica (k = 3);

− media de ordinul k ın general.

In caz concret, valoarea medie reala X este aceea care se obtine prin indicatorul (mediu) rezultatfie prin aplicarea criteriului relatiei determinante, fie criteriului raportului.

Modalitati de calcul a valorii medii

1. Media aritmetica

Acesta este indicatorul cel mai utilizat ın calculul parametrului valoare medie a unei serii statistice,asa cum rezulta din practica statistica.

Pentru o serie statistica de distributie cu frecvente absolute

X :

(x1 x2 . . . xi . . . xRN1 N2 . . . Ni . . . NR

)valoarea medie este:

X =

R∑i=1

xi ·Ni

R∑i=1

Ni

(2.4)

ın timp ce pentru o serie statistica de distributie cu frecvente relative

X :

(x1 x2 . . . xi . . . xRf1 f2 . . . fi . . . fR

)valoarea medie este:

X =

R∑i=1

xi · fi (2.5)

Pentru o serie statistica continua de distributie cu frecvente absolute

X :

([x1, x2) [x2, x3) . . . [xi, xi+1) . . . [xR, xR+1]N1 N2 . . . Ni . . . NR

)valoarea medie este:

X =

R∑i=1

mi ·Ni

R∑i=1

Ni

(2.6)

unde mi =xi + xi+1

2, i = 1, R, este mijlocul intervalului i.

Page 37: 6WDWLVWLF GHVFULSWLY II III

2.1. Parametrii tendintei centrale 31

In mod analog, pentru o serie statistica continua de distributie cu frecvente relative

X :

([x1, x2) [x2, x3) . . . [xi, xi+1) . . . [xR, xR+1]f1 f2 . . . fi . . . fR

)valoarea medie este:

X =R∑i=1

mi · fi (2.7)

2. Media armonica

Consideram o serie de forma

X :

(x1 x2 . . . xi . . . xRN1 N2 . . . Ni . . . NR

)(2.8)

In cazul unei serii discrete de forma (2.8), media armonica notata cu X−1 se defineste prin:

X−1 =

R∑i=1

Ni

R∑i=1

1

xi·Ni

(2.9)

numita si formula mediei armonice ponderate.Daca ponderile sunt egale ıntre ele, adica N1 = N2 = . . . = NR = N∗, atunci relatia (2.9) devine:

X−1 =

R∑i=1

N∗

R∑i=1

1

xi·N∗

=R

R∑i=1

1

xi

(2.10)

care reprezinta formula mediei armonice simple.In cazul unei serii care are la baza o variabila continua X, respectiv,

X :

([x1, x2) [x2, x3) . . . [xi, xi+1) . . . [xR, xR+1]N1 N2 . . . Ni . . . NR

)procedand ca la media aritmetica, pentru media armonica rezulta:

X−1 =

R∑i=1

Ni

R∑i=1

1

mi·Ni

(2.11)

unde mi reprezinta mijlocul intervalului i, i = 1, R.

Page 38: 6WDWLVWLF GHVFULSWLY II III

32 Capitolul 2. Parametrii repartitiilor unidimensionale

Si ın acest caz, daca ponderile sunt egale, se obtine relatia de calcul a mediei armonice simple, deforma:

X−1 =R

R∑i=1

1

mi

(2.12)

3. Media geometrica

Pentru o serie care are la baza variabila discretaX, formata cu frecvente absolute, media geometricanotata cu Xg (sau Xo) este definita prin expresia:

Xg =N

√xN1

1 · xN22 · . . . · x

NRR (2.13)

Din relatia (2.13) pentru media geometrica ponderata exprimata cu frecvente relative se deduce:

Xg =N

√xN1

1 · xN22 · . . . · x

NRR =

( R∏i=1

xNii

) 1N

=

R∏i=1

xNiNi =

R∏i=1

xfii (2.14)

Daca variabila X, de la baza seriei este de variatie continua, atunci relatiile de calcul pentru diverselevariante de medie geometrica, raman valabile cu singura modificare ca valorile xi, i = 1, R, se ınlocuiesccu mijloacele intervalelor de variatie, calculate conform formulei:

mi =xi + xi+1

2, i = 1, R. (2.15)

v Valoarea mediana

Valoarea mediana, notata cu Me este acea valoare a variabilei cantitative X care ımparte repartitiaın doua parti egale, respectiv:

FN (Me) =N

2sau N(Me) =

N

2(2.16)

Calculul valorii mediane se face diferentiat, dupa cum seria are la baza o variabila discreta sau continua.Pentru o repartitie discreta, calculul medianei nu implica probleme deosebite si nici un volum marede calcule.

Se considera o repartitie cu frecvente absolute:

X :

(x1 x2 . . . xi . . . xRN1 N2 . . . Ni . . . NR

)In calculul valorii mediane a unei serii discrete, pot aparea doua situatii:

a) volumul N al populatiei este un numar impar;b) volumul N al populatiei este un numar par.In ambele cazuri, calculul medianei presupune, ın prima faza, determinarea rangului medianei,

notat cu rMe , conform urmatoarei relatii:

rMe =1

2·R∑i=1

Ni = N(Me) (2.17)

Page 39: 6WDWLVWLF GHVFULSWLY II III

2.1. Parametrii tendintei centrale 33

a) Daca volumul populatiei N este un numar impar, rangul medianei este un numar zecimal acarui parte ıntreaga

[N2

]indica numarul de unitati din populatie pentru care variabila X a ınregistrat

valori mai mici ca mediana. Ca urmare, Me trebuie sa fie valoarea imediat urmatoare celei de rang[N2

]adica:

Me = x([N2

]+1) (2.18)

b) Daca volumul populatiei este un numar par, rangul medianei este un numar ıntreg si ca urmarela mijlocul seriei nu se mai afla o valoare a variabilei X cu care sa coincida mediana, ci se gasescdoua valori, mediana calculandu-se ın acest caz ca medie aritmetica a acestora. Relatia de calcul amedianei, ın acest caz, este:

Me =x([N

2

]) + x([N2

]+1)

2(2.19)

Pentru o repartitie continua, calculul valorii mediane presupune verificarea egalitatii (2.16) si caurmare, trebuie cunoscuta densitatea de repartitie f(x). Determinarea functiei f(x) implica un volummare de calcule si deci, din acest motiv, ın activitatea practica f(x) este aproximat. Acest lucruva conduce la o expresie aproximativa de calcul a valorii mediane, care necesita un volum redus decalcule.

Sa consideram o repartitie continua ın raport cu variabila X, si anume:

X :

([x1, x2) [x2, x3) . . . [xi, xi+1) . . . [xR, xR+1]N1 N2 . . . Ni . . . NR

)unde intervalele [xi, xi+1), i = 1, R, pot fi de lungime egala sau neegala. Calcularea rangului medianeiva permite stabilirea intervalului ın care se afla valoarea mediana, interval numit si interval median.Se cumuleaza frecventele absolute din aproape ın aproape pana ce este ındeplinita inegalitatea:

N1 +N2 + . . .+Ni ≥N

2

Ultima frecventa Ni cumulata, ne permite sa indicam intervalul median [xi, xi+1).Formula aproximativa de calcul a medianei este:

Me = xi +N(Me)−N(xi−1)

Ni· (xi+1 − xi) (2.20)

v Valoarea modala

Valoarea modalaMo(X) a unei repartitii reprezinta aceea valoare a variabileiX careia ıi corespundefrecventa cea mai mare.

Acest parametru se mai numeste modul, valoare dominanta sau moda si se noteaza cu Mo.Mod de calcul:

a) Pentru o serie de repartitie discreta, data sub forma

X :

(x1 x2 . . . xi . . . xRf1 f2 . . . fi . . . fR

)valoarea modala se citeste direct din serie, nefiind nevoie de nicio tehnica sau formula de calcul. Incazul acestui tip de serie, valoarea modala va fi acea valoare a variabilei X pentru care frecventa estecea mai mare.

Page 40: 6WDWLVWLF GHVFULSWLY II III

34 Capitolul 2. Parametrii repartitiilor unidimensionale

b) Pentru serii de repartitie continue, respectiv:

X :

([x1, x2) [x2, x3) . . . [xi, xi+1) . . . [xR, xR+1]N1 N2 . . . Ni . . . NR

)modala nu poate fi determinata direct.

Intervalul caruia i corespunde frecvena cea mai mare, se numeste interval modal si va continemodala. Sa presupunem ca intervalul modal este [xi, xi+1).

Formula de calcul a modalei este:

Mo = xi +Ni −Ni−1

(Ni −Ni−1) + (Ni −Ni+1)· (xi+1 − xi) (2.21)

O serie poate avea o singura valoare modala, caz ın care seria se numeste serie unimodala. Daca oserie are mai multe valori modale, atunci se numeste serie plurimodala. O serie plurimodala evidentiazafaptul ca populatia ın cauza este neomogena. Calculul valorii modale, ın asemenea cazuri, presupuneo delimitare mai riguroasa a obiectului observarii cat si a populatiei care urmeaza sa fie studiata. Oalta cale, care poate duce la eliminarea unui asemenea neajuns, o constituie comasarea a doua catedoua sau trei cate trei intervale, etc., pana se ajunge la o serie unimodala.

In cazul unei serii simetrice valoarea modala coincide cu valoarea medie si cu mediana. Pentruserii usor asimetrice, K. Pearson a stabilit urmatoarea relatie ıntre cei trei parametri:

Mo = X − 3(X −Me)

unde X este media aritmetica a variabilei X.Calculul valorii modale reprezinta un deosebit interes pentru activitatea practica. Avand ın vedere

semnificatia acestui parametru − indica acea valoare a variabilei ınregistrata de cele mai multe unitatidin populatie − se poate afla: ora la care sunt solicitate cele mai multe convorbiri telefonice, ora devarf privind transportul ın comun, marimea cea mai solicitata la ıncaltaminte, etc.

Daca valoarea modala este identica cu valoarea medie, atunci se poate afirma ca valoarea mediese bucura de o mai mare reprezentativitate.

Daca, ın plus, avem Me = Mo = X, tinand seama ca valoarea mediana nu este influentata devalorile extreme ale variabilei, se poate afirma ca mediana reprezinta un grad de reprezentativitatemai mare decat valoarea medie.

- Aplicatie. Numarul vizitatorilor unui muzeu, ın mai multe zile consecutive ale unei luni, a fost:12, 13, 32, 24, 31, 15, 17, 11, 42, 44, 19, 33, 15.

a) Identificati populatia statistica, unitatea statistica si volumul populatiei statistice;b) Calculati si interpretati parametrii tendintei centrale.

Rezolvare. a) Pentru ınceput, sa remarcam faptul ca valorile date ın enuntul problemei sunt aferenteunei variabile statistice care indica numarul de vizitatori.

Populatia statistica este reprezentata de multimea zilelor, unitatea statistica este ziua, iar volumulpopulatiei statistice este 13 (avem 13 valori ın enuntul problemei, fiecare valoare fiind ınregistrataıntr-o anumita zi).

b) Fie X variabila care indica numarul de vizitatori.Valoarea medie pentru X este :

X =12 + 13 + 32 + 24 + 31 + 15 + 17 + 11 + 42 + 44 + 19 + 33 + 15

13= 23, 69.

Page 41: 6WDWLVWLF GHVFULSWLY II III

2.1. Parametrii tendintei centrale 35

In fiecare zi, numarul mediu de vizitatori ai muzeului a fost de 24 persoane.

Pentru a calcula valoarea mediana, ordonam crescator sirul valorilor lui X:

11, 12, 13, 15, 15, 17, 19, 24, 31, 32, 33, 42, 44.

Calculam rangul medianei RMe = N2 = 13

2 = 6, 5. Valoarea medianei este:

Me = x[rMe ]+1 = x[6,5]+1 = x7 = 19.

In jumatate din zile, numarul vizitatorilor a fost ıntre 11 si 19 persoane, ın timp ce ın restul zilelor,muzeul a avut ıntre 19 si 44 vizitatori.

Pentru a calcula valoarea modala, cautam valorile lui X care au frecventa de aparitie cea mai mare.Observam ca valoarea 15 apare de doua ori, ın timp ce restul valorilor au frecventa 1. Deci valoareamodala este Mo = 15. In majoritatea zilelor, muzeul a avut 15 vizitatori. �

- Aplicatie. Distributia salariatilor unei firme ın functie de salariul lunar (sute lei) este redata ınseria statistica de mai jos:

S :

([10, 20) [20, 40) [40, 80) [80, 100]

3 7 11 3

), 24

a) Caracterizati variabila statistica de la baza seriei de mai sus;b) Calculati si interpretati parametrii tendintei centrale.

Rezolvare. a) Variabila statistica S, aflata la baza seriei din enuntul problemei, este o variabilaatributiva, cantitativa, continua, avand ca valori intervalele de salar lunar ale salariatilor firmei.

b) Pentru a determina valoarea medie, vom calcula mai intai mijloacele intervalelor din seria desalarii. Pentru un interval [a, b), mijlocul se obtine cu formula m = a+b

2 . Avem:

S :

(15

[10, 20)30

[20, 40)60

[40, 80)90

[80, 100]3 7 11 3

), 24

Valoarea medie este:

X =15 · 3 + 30 · 7 + 60 · 11 + 90 · 3

24= 49, 37.

Fiecare angajat al firmei obtine lunar un venit mediu de 4937 lei.

Pentru a calcula valoarea mediana, parcurgem urmatoarele etape:• calculam rangul medianei: rMe = N

2 = 242 = 12.

• cautam frecventa Ni pentru care

N1 +N2 + . . .+Ni ≥ rMe . (2.22)

In cazul nostru, verificam succesiv:

3 ≥ 12, fals

3 + 7 ≥ 12, fals

3 + 7 + 11 ≥ 12, adevarat

Deci, Ni = 11, adica este ultima frecventa pe care am adaugat-o ca sa obtinem inegalitatea (2.22)adevarata.

Page 42: 6WDWLVWLF GHVFULSWLY II III

36 Capitolul 2. Parametrii repartitiilor unidimensionale

• Cu Ni astfel gasit, identificam intervalul median.In cazul nostru, frecventa Ni = 11 corespunde intervalului [40, 80). Deci Me ∈ [40, 80). Intervalul

[40, 80) se numeste interval median.• Calculam valoarea medianei. Daca Me ∈ [a, b) atunci

Me = a+rMe − (N1 +N2 + . . .+Ni−1)

Ni· (b− a).

In cazul nostru, Me ∈ [40, 80), deci

Me = 40 +12− (3 + 7)

11· (80− 40) = 47, 27.

Deducem ca 50% din angajatii firmei au un venit lunar cuprins ıntre 1000 si 4727 lei, ın timp ce restulangajatilor au un venit lunar cuprins ıntre 4727 si 10000 lei.

Pentru determinarea valorii modale, identificam mai ıntai frecventa Ni maxima. Aceasta ne va indicaintervalul modal.

In cazul nostru Ni = 11 este cea mai mare frecventa dintre frecventele absolute ale seriei S. Deciintervalul modal este [40, 80)

Gasim valoarea modala Mo ∈ [a, b) aplicand urmatoarea formula:

Mo = a+(Ni −Ni−1)

(Ni −Ni−1) + (Ni −Ni+1)· (b− a).

In cazul nostru, Mo ∈ [40, 80), deci

Mo = 40 +(11− 7)

(11− 7) + (11− 3)· (80− 40) = 53, 33.

Majoritatea salariatilor firmei au un venit lunar de 5333 lei. �

2.2 Parametrii de structura

Frecvente sunt cazurile cand este necesara studierea structurii unei populatii ın raport cu o variabilasau alta. Parametrii statistici, ın forma cea mai generala, folositi ın caracterizarea structurii uneipopulatii poarta denumirea de valori quantile.

Valorile quantile ale unei serii de repartitie unidimensionale sunt acele marimi ınregistrate devariabila X, care ımpart seria ın n parti egale (mai precis ımparte populatia ın n parti egale). In acestcaz se vor calcula p quantile (p = n− 1).

Pentru o serie continua, a carei densitate de probabilitate f(x) este cunoscuta, urmatoarea egalitateeste satisfacuta de cele p quantile:∫ q1

x1

f(x)dx =

∫ q2

q1

f(x)dx = . . . =

∫ xn

qn−1

f(x)dx =1

n(2.23)

unde cele n− 1 quantile s-au notat cu q1, q2,. . ., qn−1.Relatia (2.23) se particularizeaza pentru cazul seriilor discrete, cand seria este construita cu

frecvente relative:q1∑x1

fi =

q2∑q1

fi = . . . =

xn∑qn−1

fi =1

n(2.24)

Page 43: 6WDWLVWLF GHVFULSWLY II III

2.2. Parametrii de structura 37

Pentru o serie oarecare, quantila de ordinul p poate fi definita astfel:

FN (qp) = p · 1

nsau N(qp) = p · N

n, pentru orice p = 1, n− 1

Modul de calcul al valorilor quantile difera ın raport cu tipul seriei.Fie o serie de repartitie, care are la baza o variabila X discreta, de urmatoarea forma:

X :

(x1 x2 . . . xi . . . xRN1 N2 . . . Ni . . . NR

)Pentru calculul valorii quantile de ordinul p (p = 1, n− 1), ın prima etapa trebuie determinat rangulacesteia:

rqp = N(qp) = p · Nn

(2.25)

Se disting doua cazuri:a) daca p ·N se divide cu n atunci quantila de ordin p se calculeaza ca o medie aritmetica simpla

a valorilor variabilei X, de ordinul rangului si al rangului majorat cu o unitate, dupa cum urmeaza:

qp =xrqp + xrqp+1

2(2.26)

b) daca p ·N nu se divide cu n atunci quantila de ordin p este egala cu acea valoare a variabilei Xcorespunzatoare partii ıntregi a rangului majorat cu 1:

qp = xrqp+1 (2.27)

In cazul seriilor care au la baza o variabila continua, conform definitiei, cele n− 1 quantile trebuiesa satisfaca relatia (2.23). Determinarea quantilelor din asemenea egalitati ar presupune cunoastereadensitatii de probabilitate f(x). Ori ın activitatea practica f(x) se aproximeaza prin diverse procedee,implicand un volum exagerat de calcule.

In vederea gasirii unor formule aproximative de calcul a quantilei de ordin p (p = 1, n− 1) seconsidera o serie de variatie continua, ale carei intervale de variatie nu trebuie sa fie neaparat egale calungime:

X :

([x1, x2) [x2, x3) . . . [xi, xi+1) . . . [xR, xR+1]N1 N2 . . . Ni . . . NR

)(2.28)

In prima etapa se determina rangul quantilei de ordinul p (p = 1, n− 1) conform urmatoarei relatii:

rqp = N(qp) = p · 1

n·R∑i=1

Ni (2.29)

Cunoscand rangul, se poate identifica intervalul ın care se afla quantila de ordinul p, numit si intervalulquantilei de ordinul p (p = 1, n− 1). Cumuland frecventele pe clase pana la egalarea sau depasirearangului, conform inegalitatii:

N1 +N2 + . . .+Ni ≥ rqp (2.30)

ultima frecventa adunata Ni va corespunde intervalului [xi, xi+1) ın care se afla quantila de ordinul p(p = 1, n− 1). Prin urmare, quantila de ordinul p, notata qp, se calculeaza conform relatiei:

qp = xi +rqp −N(xi−1)

Ni· (xi+1 − xi) (2.31)

Page 44: 6WDWLVWLF GHVFULSWLY II III

38 Capitolul 2. Parametrii repartitiilor unidimensionale

Procedeul de determinare a quantilei de ordinul p (p = 1, n− 1) este acelasi si ın cazul ın careseria (2.28) este formata din frecvente relative.

Caracterizarea structurii unei serii se poate face utilizand diverse cazuri particulare de valori quantile.

Valoarea mediana (Me) este si un parametru de structura obtinandu-se ca un caz particular dequantila, cand n = 2. Daca pentru o serie se cunoaste Me (quantila de ordinul 2), atunci structurapopulatiei poate fi redata astfel:

X :

(xmin −Me Me − xmax

50% 50%

)(2.32)

semnificand faptul ca jumatate din populatia supusa studiului a ınregistrat pentru variabila X valoricuprinse ıntre valoarea minima a lui X si mediana, iar cealalta jumatate din populatie a ınregistratpentru X valori cuprinse ıntre mediana si valoarea maxima a lui X.

Valorile quartile reprezinta acel caz particular al valorilor quantile pentru care n = 4. Cele treiquartile, care se obtin, notate: Q1, Q2 si Q3 sunt acei parametri de structura care ımpart populatiaın patru parti egale.

In raport cu mediana, quartila ıntai Q1, se numeste quartila mica (inferioara), quartila a doua Q2

coincide cu mediana si se numeste quartila mijlocie, iar quartila a treia Q3 se numeste quartila mare(superioara).Cunoscandu-se cele trei quartile, rezulta urmatoarea structura a populatiei ın raport cu variabila X:

X :

(xmin −Q1 Q1 −Q2 Q2 −Q3 Q3 − xmax

25% 25% 25% 25%

)(2.33)

ceea ce semnifica o structurare a populatiei supusa studiului ın patru parti egale. Aceasta ınseamna ca25% din unitatile populatiei ınregistreaza valori pentru variabila X mai mici decat quartila mica, 25%din unitatile populatiei ınregistreaza valori, ın raport cu aceeasi variabila X, cuprinse ıntre quartilamica si cea mijlocie, 25% vor avea valori cuprinse ıntre quartila mijlocie si quartila mare, iar restulde 25% din unitatile populatiei vor avea valorile pentru variabila X cuprinse ıntre quartila mare sivaloarea maxima a lui X.

- Aplicatie. Se considera distributia unor hoteluri ın functie de categoria de confort (numar destele):

X :

(1 2 3 4 512 14 10 15 3

), 54

a) Caracterizati structura hotelurilor folosind valorile quartile;b) Calculati si interpretati prima si ultima decila;c) Calculati si interpretati centila 78.

Rezolvare. a) Quartilele ımpart populatia statistica ın 4 parti egale. Deci n = 4. Numarul hotelu-rilor analizate este N = 54.

Rangul quartilei mici este rQ1 = p · Nn = 1 · 544 = 13, 5, iar valoarea quartilei mici este

Q1 = x[rq1 ]+1 = x[13,5]+1 = x14 = 2.

Rangul quartilei mijlocii este rQ2 = p · Nn = 2 · 544 = 27, iar valoarea quartilei mijlocii este

Q2 =xrq2 + xrq2+1

2=x27 + x28

2=

3 + 3

2= 3.

Page 45: 6WDWLVWLF GHVFULSWLY II III

2.3. Parametrii variatiei 39

Rangul quartilei mari este rQ3 = p · Nn = 3 · 544 = 40, 5, iar valoarea quartilei mari este

Q3 = x[rq3 ]+1 = x[40,5]+1 = x41 = 4.

Avem deci urmatoarea structura a hotelurilor ın functie de categoria de confort:

X :

(1− 2 2− 3 3− 4 4− 525% 25% 25% 25%

), 100%

Deducem ca 25% din hoteluri au cel mult 2 stele categorie de confort, 50% din hoteluri au ıntre 1 si3 stele categorie de confort, iar 75% din hoteluri au cel mult 4 stele categorie de confort.

b) Valorile decile ımpart populatia statistica ın zece parti egale, fiecare parte reprezentand 10% dinpopulatia statistica. In total, sunt noua decile, notate de obicei cu d1, d2, . . ., d9.

Rangul primei decile este rd1 = p · Nn = 1 · 5410 = 5, 4, iar valoarea primei decile este

d1 = x[rd1 ]+1 = x[5,4]+1 = x6 = 1.

Asadar, 10% din hoteluri au cel mult o stea categorie de confort.Rangul ultimei decile este rd9 = p · Nn = 9 · 54

10 = 48, 6, iar valoarea ultimei decile este

d9 = x[rd9 ]+1 = x[48,6]+1 = x49 = 4.

Asadar, 90% din hoteluri au cel mult patru stele categorie de confort.

c) Valorile centile ımpart populatia statistica ın o suta de parti egale, fiecare parte reprezentand 1%din populatia statistica. In total, sunt 99 de centile, notate de obicei cu c1, c2, . . ., c99.

Rangul centile 78 este rc78 = p · Nn = 78 · 54100 = 42, 12, iar valoarea centilei 78 este

c78 = x[rc78 ]+1 = x[42,12]+1 = x43 = 4.

Asadar, 78% din hoteluri au cel mult patru stele categorie de confort. �Observatie: Avem urmatoarele egalitati pentru valoarea mediana: Me = Q2 = d5 = c50.

2.3 Parametrii variatiei

Studiul unor populatii statistice prezinta importanta numai din punct de vedere al unor marimi carevariaza de la o unitate la alta sau de la un grup de unitati la altul.

Valorile ınregistrate de o variabila cantitativa, ın raport cu care este studiata o populatie, sedatoreaza actiunii diferitilor factori esentiali si neesentiali.

Intensitatea diferita cu care se pot manifesta factorii esentiali cat si sensul contrar cu care potactiona factorii neesentiali ın raport cu fiecare unitate, provoaca nivele diferite ınregistrate de variabileın raport cu care este studiata populatia.

Problema masurarii variatiei unei variabile cantitative este importanta pentru a vedea ın ce masuravaloarea medie a acesteia poate reprezenta ıntrega populatie.

Daca abaterile de la valoarea medie sunt neesentiale atunci se poate afirma ca populatia esteomogena si ca acest parametru poate reprezenta tendinta centrala, iar daca aceste abateri sunt mariatunci populatia este eterogena si valoarea medie nu are capacitatea de a reprezenta populatia.

Pentru unele serii, valoarea medie nu se poate calcula. In asemenea cazuri, parametrul valoareamediana poate sa-i ia locul. Aceeasi problema se pune si ın acest caz, de a vedea ın ce masura valoareamediana este sau nu reprezentativa pentru populatia ın cauza.

Page 46: 6WDWLVWLF GHVFULSWLY II III

40 Capitolul 2. Parametrii repartitiilor unidimensionale

O alta problema care nu se poate rezolva fara a studia si masura variatia ınregistrata de o variabilaın raport cu care este studiata o populatie, o constituie verificarea de ipoteze. In activitatea practica,de multe ori pornind de la valorile unor parametrii calculati pe baza datelor culese relativ la un numarmic de unitati, este necesar a fi extinsi la nivelul ıntregii populatii sau de a se verifica anumite ipotezestatistice.

Parametrii variatiei se pot calcula atat sub forma absoluta cat si relativa, si masoara ımprastiereavalorilor unei variabile cantitative fata de valoarea medie sau valoarea mediana.

Ca urmare, ın functie de elementul de referinta folosit ın masurarea variatiei, deosebim:- parametrii variatiei ın raport cu valoarea medie;- parametrii variatiei ın raport cu valoarea mediana.

v Parametrii variatiei ın raport cu valoarea medie

Abaterea medie liniaraAbaterea medie liniara, notata cu dx, reprezinta media aritmetica a abaterilor variabilei X de la

valoarea medie a acesteia, luate ın valoare absoluta:

dx = M |X −X| (2.34)

Relatia (2.34) se particularizeaza ın:

dx =

R∑i=1

|xi −X| ·Ni

R∑i=1

Ni

(2.35)

Daca seria are la baza o variabila continua si se cunoaste f(x), atunci abaterea medie liniara secalculeaza astfel:

dx =

∫ xR

x1

|x−X| · f(x)dx (2.36)

Densitatea de probabilitate f(x) se poate aproxima cu densitatea empirica si atunci pentru abatereamedie liniara se pot obtine relatii de calcul aproximativ, frecvent utilizate ın activitatea practica, deforma:

dx =

R∑i=1

|mi −X| ·Ni

R∑i=1

Ni

sau dx =

R∑i=1

|mi −X| · fi (2.37)

dupa cum seria ın cauza este formata cu frecvente absolute sau relative, unde:

mi =xi + xi+1

2, i = 1, R

este mijlocul intervalului i.Acest parametru serveste caracterizarii sintetice a gradului de reprezentativitate a valorii medii,

aratand cu cat se abate ın medie orice valoare a variabilei X de la valoarea medie X, ıntr-un sens saualtul.

Page 47: 6WDWLVWLF GHVFULSWLY II III

2.3. Parametrii variatiei 41

Sub forma relativa, acest indicator poarta denumirea de coeficient simplu de variatie si se calculeazaconform relatiei:

Vx =dx

X· 100 (2.38)

Coeficientul simplu de variatie (Vx) arata cu cat se abate ın medie orice valoare a variabilei X de lavaloarea medie echivalenta cu 1 sau 100%. Calculat pentru doua serii diferite, se poate aprecia gradulde reprezentativitate a celor doua medii. Se apreciaza ca fiind mai reprezentativa acea valoare mediepentru care coeficientul simplu de variatie este mai mic.

Parametrul abaterea medie liniara, ın forma absoluta sau relativa, prezinta unele deficiente de-oarece nu este suficient de sensibil la abaterile mici, adaugandu-se si unele inconveniente de naturateoretica, generate de exprimarea abaterilor ın valoarea absoluta.

Inlaturarea acestor deficiente se poate realiza apeland la un nou parametru privind masurareavariatiei, numit abatarea medie patratica.

Abaterea medie patratica

Acest indicator este utilizat atat pentru caracterizarea gradului de reprezentativitate a valorii mediicat si ın scopul estimarii unor parametri necunoscuti.

Abaterea medie patratica, notata cu σx, se defineste ca fiind media patratica a abaterilor valorilorvariabilei X, de la valoarea medie X, adica:

σx =

√M(X −X)2 (2.39)

Un calcul intermediar ın aflarea acestui parametru, ıl constituie calcularea patratului abaterii mediipatratice, care se numeste dispersie sau varianta si care are urmatoarea expresie de calcul:

σ2x = M(X −X)2 = D2(X) (2.40)

V (x) reprezinta o alta notatie pentru varianta, pe langa σ2x.

Varianta fiind un calcul intermediar ın aflarea abaterii medii patratice, ın cele ce urmeaza se vaprezenta modul de calcul al acesteia.

Relatia de calcul a variantei se particularizeaza ın raport cu tipul seriei. In cazul unei serii careare la baza o variabila X discreta, conform definitiei, varianta are expresia:

σ2x =

R∑i=1

(xi −X)2 ·Ni

R∑i=1

Ni

(2.41)

In cazul unei serii care are la baza o variabilaX continua, varianta se calculeaza conform urmatoareirelatii:

σ2x =

∫ xR

x1

(x−X)2 · f(x)dx (2.42)

a carei aplicare presupune cunoasterea densitatii de repartitie f(x).Pentru o serie data, varianta calculata nu are interpretare, dar daca se extrage radacina patrata

din aceasta se obtine un numar care se exprima ın aceleasi unitati de masura ca si variabila de labaza seriei. Acest numar (valoare) reprezinta abaterea medie patratica, simbolizand cu cat se abateın medie ın plus sau minus orice valoare xi a variabilei X de la valoarea medie X.

Page 48: 6WDWLVWLF GHVFULSWLY II III

42 Capitolul 2. Parametrii repartitiilor unidimensionale

Parametrul abatere medie patratica se poate exprima si sub forma relativa, caz ın care se numestecoeficientul de variatie a lui Pearson si se noteaza cu Vx. Expresia de calcul este:

Vx =σx

X· 100% (2.43)

si reprezinta abaterea medie a oricarei valori a variabilei X de la valoarea medie, considerata egala cu1 sau 100.

Coeficientul de variatie a lui Pearson calculat pentru doua sau mai multe serii, poate fi folosit ınaprecieri comparative privind gradul de reprezentativitate a valorii medii calculate.

Deoarece gradul de reprezentativitate a valorii medii este ın raport invers cu marimea coeficientuluide variatie a lui Pearson, se poate afirma, ın cazul mai multor serii, ca este mai reprezentativa valoareamedie a acelei serii pentru care Vx este mai mic.

In concluzie, trebuie retinut ca parametrul abatere medie patratica sub forma absoluta σx si subforma relativa Vx sunt indicatori fundamentali utilizati ın masurarea variatiei unei variabile.

Atat abaterea medie liniara, cat si abaterea medie patratica constituie o masura a variatiei medii,primul o medie de ordinul unu, iar al doilea o medie de ordinul doi (dx ≤ σx).

v Parametrii variatiei ın raport cu valoarea mediana

Abaterea interquartila

Abaterea interquartila, prin definitie, este media aritmetica simpla a segmentelor Me − Q1 siQ3 −Me, respectiv:

Q =Me −Q1 +Q3 −Me

2=Q3 −Q1

2(2.44)

si arata cu cat se abat ın medie, ın plus sau ın minus, de la mediana, cele 50% din valorile variabileicuprinse ıntre Q1 si Q3.

Forma relativa a acestui indicator notat cu Qr este:

Qr =Q

Me· 100% =

Q3 −Q1

2 ·Me· 100% (2.45)

Qr se numeste coeficient de variatie interquartilic si arata cu cat se abat ın medie de la mediana(considerata egala cu 100), valorile variabilei ınregistrate pentru cele 50% din unitatile populatieicuprinse ıntre Q1 si Q3.

Ca atare, se apreciaza ca ımprastierea unitatilor ın cadrul populatiei studiate este cu atat maimare, ın raport cu variabila de studiat, cu cat abaterea interquartila ın valoarea absoluta (2.44) saurelativa (2.45) este mai mare.

Abaterea interquantila

Pentru acest parametru, sub forma absoluta, avem:

Q =qn−1 −Me +Me − q1

2=qn−1 − q1

2(2.46)

iar sub forma relativa denumita si coeficient de variatie interquantilic este:

Qr =q

Me· 100% =

qn−1 − q1

2 ·Me· 100% (2.47)

Page 49: 6WDWLVWLF GHVFULSWLY II III

2.4. Parametrii formei 43

Cu cat abaterea interquantilica (relativa sau absoluta) este mai mica, cu atat valoarea mediana estemai reprezentativa.

- Aplicatie. In decursul unui an, veniturile (mii lei) ınregistrate de mai multe magazine dintr-unoras au fost: 50, 45, 22, 13, 20.

a) In ce masura se abat valorile veniturilor de la venitul mediu ?b) Este venitul mediu reprezentativ pentru magazinele analizate ?

Rezolvare. Fie X variabila statistica pentru venit. Venitul mediu ınregistrat de fiecare magazineste:

X =50 + 45 + 22 + 13 + 20

5= 30.

a) Calculam dispersia veniturilor:

σ2X =

(50− 30)2 + (45− 30)2 + (22− 30)2 + (13− 30)2 + (20− 30)2

5= 215, 6

iar abaterea medie patratica este:

σX =√σ2X =

√215, 6 = 14, 68.

Deci, veniturile magazinelor se abat de la venitul mediu cu 14, 68 mii lei.

b) Pentru a studia reprezentativitatea venitului mediu, respectiv omogenitatea distributiei magazinelorın raport cu venitul mediu, calculam coeficientul de variatie al lui Pearson:

CVX =σX

X· 100% =

14, 68

30· 100% = 48, 93%

Deoarece CVX ≥ 30%, deducem ca venitul mediu, de 30000 lei, nu este reprezentativ pentru magazineleanalizate.

2.4 Parametrii formei

Din aplicatiile practice, precum si din alte surse, s-au constatat ca graficele pot avea diverse forme,dintre care: forma de clopot, forma literei U , J , L sau alte forme. Ceea ce prezinta importanta,nefiind surprins de niciun parametru prezentat, ıl constituie modul de repartizare a valorilor variabileide o parte si de alta a valorii medii, considerata si centrul de greutate al seriei. Acest lucru nuınseamna altceva decat evidentierea acelei curbe care aproximeaza cel mai bine conturul poligonal alseriei respective si ın acelasi timp o imagine mai clara asupra gradului de reprezentativitate a valoriimedii.

In marea majoritate a cazurilor, distributia unitatilor unei populatii se face dupa un clopot (dupalegea normala a lui Gauss). Dar unitatile nu se distribuie uniform ın jurul valorii medii, ceea ce poateconduce la ınclinatii ıntr-o directie sau alta a valorii medii. Aceasta distribuire neuniforma poateconduce la cazul cand diferite serii (diferit distribuite ın jurul valorii medii) sa aiba aceeasi medie,acelasi σ si totusi o curba sa fie mai aplatizata decat cealalta, simetrica sau mai putin simetrica.Evidentierea acestor diferente poate fi realizata cu ajutorul parametrilor formei.

Parametrii formei unei serii de repartitie, dupa continut, se clasifica ın doua grupe:

Page 50: 6WDWLVWLF GHVFULSWLY II III

44 Capitolul 2. Parametrii repartitiilor unidimensionale

- parametrii asimetriei;- parametrii boltirii.

v Parametrii asimetriei

Asimetria unei serii se defineste ın raport cu dispunerea unitatilor ıntr-o parte sau alta a valoriimedii.

In acest sens, o serie de repartitie este simetrica ın raport cu media sa daca frecventele valorilorvariabilei X egal departate de valoarea medie sunt egale ıntre ele, adica:

f(X − σ) = f(X + σ)

oricare ar fi σ astfel ıncat X − σ si X + σ sa se afle printre valorile lui X.

Coeficientul de asimetrie al lui Fisher

Acest parametru se noteaza cu α3, iar expresia sa de calcul este:

α3 =M(X −X)3

σ3X

(2.48)

sau ıntr-o forma echivalenta:

α3 =M(X −X)3√(M(X −X)2)3

(2.49)

Calculand valoarea acestui parametru, ın functie de semnul ei, avem urmatoarele cazuri:1. α3 = 0, ceea ce ınseamna ca M(X −X)3 = 0, adica suma tuturor abaterilor cu semnul minus esteegala cu suma tuturor abaterilor cu semnul plus, ridicate la puterea a treia. Ca urmare, ın acest cazse poate spune ca seria este simetrica.2. α3 > 0, ceea ce ınseamna ca M(X − X)3 > 0. Aceasta ınseamna ca pe total suma abaterilor cusemnul plus de la valoarea medie este mai mare decat suma abaterilor cu semnul minus si ca urmareseria prezinta o asimetrie pozitiva.3. α3 < 0, deci M(X −X)3 < 0. Aceasta ınseamna ca pe total, suma abaterilor cu semnul minus estemai mare decat suma abaterilor cu semnul plus de la valoarea medie. O astfel de serie se spune careprezinta o asimetrie negativa.

Observatie: Un alt coeficient utilizat pentru studiul asimetriei distributiei valorilor unei variabilestatistice X, este coeficientul de asimetrie al lui Pearson

α =X −Mo

σX.

Acest coeficient are aceleasi interpretari ca si cele ale coeficientului de asimetrie al lui Fisher.v Parametrii boltirii

Aprecierea boltirii unei serii este utila ın caracterizarea gradului de reprezentativitate a valoriimedii cat si pentru compararea reprezentativitatii a doua sau mai multe valori medii ce reprezintaserii diferite.

Parametrul M(X −X)4 ofera o caracterizare numerica sub forma absoluta a gradului de boltireal unei serii. Sub forma relativa, gradul de boltire se masoara cu parametrul:

β4 =M(X −X)4

σ4X

(2.50)

Page 51: 6WDWLVWLF GHVFULSWLY II III

2.4. Parametrii formei 45

Pentru a ıntelege semnificatia boltirii unei serii, se considera doua serii statistice care au la bazavariabilele X si Y , iar X = Y si σX = σY .

Mai presupunem, ın plus, ca cele doua distributii au forma de clopot pentru care α3X = α3Y , adicaambele sunt simetrice. Desi s-ar parea ca cele doua serii nu au nimic care sa le deosebeasca, totusireprezentandu-le grafic rezulta doua curbe de forma:

Figura 2.1: Distributii ın forma de clopot pentruvariabilele X si Y

unde graficul lui X este mai ınalt, iar al lui Y mai plat. Ca urmare, se observa ca cele doua serii nusunt caracterizate de aceeasi boltire.

Boltirea unei serii este utila pentru a da o caracetrizare mai exacta reprezentativitatii valorii medii.In cazul exemplului prezentat mai sus, atat mediile cat si abaterile medii patratice sunt egale si

ca urmare, coeficientul de variatie al lui Pearson este acelasi pentru cele doua serii. Deci rezulta caambele valori medii prezinta acelasi grad de reprezentativitate. Cu toate acestea, graficele celor douaserii contrazic concluzia dedusa ın urma compararii celor doi coeficienti de variatie.

Valoarea medie cea mai reprezentativa este ın seria ın care cele mai multe unitati ale populatieicercetate au ınregistrat valori mai apropiate de valoarea medie. Pentru o astfel de serie, ımprastiereafata de valoarea medie fiind mica, graficul are o forma mai ascutita ın cazul seriei X si mai plata ıncazul seriei Y .

Nivelul boltirii pentru o serie oarecare data se masoara cu ajutorul parametrului β4, a carui expresiede calcul este data de relatia (2.50). Valoarea lui β4 pentru o distributie normala este egala cu 3. Pentruorice alta curba corespunzatoare unei serii date si aproximata cu un clopot, raportul ıntre momentulcentrat de ordinul patru si patratul momentului centrat de ordinul al doilea, este un numar diferit de3, curba respectiva fiind mai ascutita sau mai plata decat curba normala a lui Gauss.

Comparand gradul de boltire al unei serii oarecare si gradul de boltire al clopotului lui Gauss,Fisher a stabilit urmatoarea expresie de calcul al coeficientului boltirii, notat cu β′4:

β′4 =M(X −X)4

σ4X

− 3 sau β′4 = β4 − 3

expresie cunoscuta ın literatura de specialitate sub denumirea de exces al seriei.Urmatoarele cazuri sunt semnificative cu privire la aprecierea boltirii unei serii:- daca β′4 = 0 (adica β4 = 3) atunci seria ın cauza prezinta aceeasi boltire cu a curbei normale

(excesul este nul);

Page 52: 6WDWLVWLF GHVFULSWLY II III

46 Capitolul 2. Parametrii repartitiilor unidimensionale

- daca β′4 > 0 (adica β4 > 3) atunci boltirea corespunzatoare curbei respective este mai ınalta simai ascutita decat curba normala (serie leptokurtica);

- daca β′4 < 0 (adica β4 < 3) atunci boltirea corespunzatoare curbei respective este mai plata (maijoasa si mai larga) decat curba normala (serie platikurtica).

Asimetria si boltirea joaca un rol ınsemnat ın caracterizarea formei unei serii atributive de repartitie.Cu ajutorul parametrilor prezentati poate fi formata o imagine mai clara asupra unei serii deja con-struite, asupra masurii ın care seria respectiva poate fi reprezentata de valoarea sa medie.

- Aplicatie. Distributia apartamentelor unui imobil, ın raport cu numarul de camere, este redataın tabelul de mai jos. Calculati si interpretati parametrii formei distributiei.

Tip apartament: 1 camera 2 camere 3 camere

Nr. apartamente: 4 20 6

Rezolvare. Consideram variabila cantitativa X, care indica numarul de camere. Distributia varia-bilei X este:

X :

(1 2 34 20 6

), 30

Pentru variabila X avem valoarea medie: X = 1·4+2·20+3·630 = 2, 066, modala Mo = 2, dispersia

σ2X =

(1− 2, 066)2 · 4 + (2− 2, 066)2 · 20 + (3− 2, 066)2 · 630

= 0, 3288

iar abaterea medie patratica σX =√σ2X =

√0, 3288 = 0, 5734.

Coeficientul de asimetrie al lui Pearson:

α =X −Mo

σX=

2, 066− 2

0, 5734= 0, 1151.

Observam ca α > 0, deci avem o asimetrie pozitiva (de dreapta).Coeficientul de asimetrie al lui Fisher:

α3 =M(X −X)3

σ3X

=(1−2,066)3·4+(2−2,066)3·20+(3−2,066)3·6

30

0, 57343= 0, 0066

Observam ca α3 > 0, deci avem o asimetrie usor pozitiva (de dreapta).Coeficientul de boltire al lui Fisher:

β4 =M(X −X)4

σ4X

=(1−2,066)4·4+(2−2,066)4·20+(3−2,066)4·6

30

0, 57344= 3, 0008

iar β′4 = β4 − 3 = 0, 0008 Observam ca β4 > 0, deci distributia este usor leptokurtica. �Observatie: In cazul aplicatiei de mai sus, observam ca X = Me = Mo, iar α3, β

′4 → 0. In acest caz,

spunem ca distributia variabilei X urmeaza legea normala. Distributia are forma clopotului lui Gauss.

Page 53: 6WDWLVWLF GHVFULSWLY II III

2.5. Parametrii concentrarii 47

2.5 Parametrii concentrarii

Energia informationalaAcest parametru a fost introdus de Acad. Octav Onicescu. Prin definitie:

E =

R∑i=1

f2i (2.51)

unde s-a notat cu E energia informationala. Este un parametru utilizat ın cazul ın care seria are labaza o variabila nenumerica.

In cazul unei populatii caracterizata de un grad de concentrare maxim, va exista o clasa care vaavea frecventa relativa egala cu 1, iar celelalte vor avea frecventele relative 0 si ca urmare: Emax = 1.

Daca populatia este caracterizata de o concentrare minima, atunci:

X :

(x1 x2 . . . xR1R

1R . . . 1

R

)iar

Emax = R · 1

R2=

1

R(2.52)

Se observa ca:1

R≤ E ≤ 1

Forma relativa a acestui parametru, notata cu Er, se deduce astfel:

Er =E − 1

R

1− 1

R

=

R∑i=1

f2i −

1

R

1− 1

R

(2.53)

de unde:0 ≤ Er ≤ 1

Referitor la populatia data, studiata ın raport cu o variabila X, se calculeaza Er, iar daca:- Er se apropie de 1, atunci populatia respectiva este caracterizata de un grad ınalt de concentrare;- Er se apropie de 0, populatia ın cauza se caracterizeaza printr-o concentrare minima.

- Aplicatie. In urma unui sondaj efectuat la un magazin privind calitatea unui anumit produs, s-auobtinut urmatoarele rezultate: 20% din clienti s-au declarat nesatisfacuti de produs, 50% satisfacuti,ın timp ce restul au fost foarte satisfacuti. Analizati gradul de concentrare al clientilor ın raport cunivelul de calitate al produsului.

Rezolvare. Fie variabila statistica S care indica nivelul de satisfactie al clientilor privind calitateaprodusului. In raport cu variabila S, distributia clientilor este:

S :

(Nesatisfacuti Satisfacuti Foarte satisfacuti

20% 50% 30%

), 100%

Valoarea energiei informationale este:

E = (0, 20)2 + (0, 50)2 + (0, 30)2 = 0, 38.

Page 54: 6WDWLVWLF GHVFULSWLY II III

48 Capitolul 2. Parametrii repartitiilor unidimensionale

Valoarea energiei relative este:

Er =E − 1

R

1− 1R

=0, 38− 1

3

1− 13

= 0, 07.

Avem deci un grad minim de concentrare al clientilor privind calitatea produsului. �

2.6 Teme de control

Alegeti o populatie statistica observata ın raport cu mai multe variabile. Se cere:

P1. Alegeti doua variabile (una cantitativa, cealalta calitativa) si construiti repartitia populatiei ınraport cu fiecare dintre ele;

P2. Calculati si interpretati corespunzator parametrii tendintei centrale (valoarea medie, mediana,modala) pentru seria care are la baza variabila cantitativa;

P3. Analizati reprezentativitatea parametrilor tendintei centrale (sub forma absoluta si relativa);

P4. Folosind parametrii de structura analizati structura populatiei ın raport cu variabila cantitativa;

P5. Analizati gradul de dispersare al unitatilor populatiei ın raport cu variabila cantitativa;

P6. Caracterizati sintetic concentrarea unitatilor din populatie folosind variabila nenumerica;

P7. Analizati statistic asimetria repartitiei de la problema P1;

P8. Analizati comparativ rezultatele obtinute la problemele P5 si P6.

Bibliografie:

1. Buiga A., Metodologie de sondaj si analiza datelor ın studiile de piata, Ed. Presa UniversitaraClujeana, Cluj-Napoca, 2001;

2. Buiga A., Dragos C., Lazar D., Parpucea I., Todea A., Statistica I, Ed. Presa UniversitaraClujeana, Cluj-Napoca, 2003;

3. Buiga A., Dragos C., Lazar D., Brendea G., Litan C., Mare C., Statistica Descriptiva, Ed.Napoca Star, Cluj-Napoca, 2018;

4. Florea I., Parpucea I., Buiga A., Statisticıa descriptiva, Ed. Continental, Cluj-Napoca, 1998.

Page 55: 6WDWLVWLF GHVFULSWLY II III

Capitolul 3

Analiza legaturii dintre variabilestatistice

Sectiuni3.1. Analiza legaturii dintre variabile calitative3.2. Analiza legaturii dintre variabile ordinale3.3. Analiza legaturii dintre variabile cantitative3.4. Functii de regresie3.5. Teme de control

Obiective• Insusirea conceptelor de corelatie si regresie si utilizarea lor ın economie• Cunoasterea posibilitatilor de cuantificare a intensitatii legaturii dintre marimi economice• Insusirea metodelor de stabilire a unei legaturi functionale ıntre variabile

Cuvinte cheie• Corelatia dintre variabile, coeficienti de asociere, coeficient de corelatie• Corelatia rangurilor, coeficientii lui Kendall si Spearman• Metoda celor mai mici patrate, regresia liniara simpla• Regresia liniara multipla, regresii neliniare: hiperbolica, parabolica, exponentiala

Rezultate asteptateDupa parcurgerea acestui modul se cere studentului sa stapaneasca notiunile de corelatie si regresie,

sa poata identifica existenta unei eventuale legaturi ıntre doua marimi. De asemenea, sa stie masuraintensitatea legaturii dintre variabile, fie ele cantitative sau calitative. Se urmareste si cunoastereametodelor de modelare functionala a legaturilor.

49

Page 56: 6WDWLVWLF GHVFULSWLY II III

50 Capitolul 3. Analiza legaturii dintre variabile statistice

Ne propunem abordarea unor metode statistice caracteristice studiului seriilor multidimensionale.Scopul acestora este de a identifica si utiliza eventualele legaturi care se pot manifesta ıntre douasau mai multe variabile. Prezinta interes: existenta legaturii, intensitatea acesteia, forma functionalaa legaturii, parametrii si reprezentativitatea ei privind fenomenul cercetat. Problematica legaturilordintre variabile este foarte curent ıntalnita ın economie. Spunem ca salariul unui angajat este ınfunctie de productivitatea muncii sale, vechimea ın munca, responsabilitatea activitatii sale, etc; saucererea pentru un produs este ın functie de pretul produsului, venitul consumatorilor, etc. De fiecaredata, atat ın teoria economica, cat si ın aplicatii se ıntalneste expresia: Fie functia cererii .... Inrealitatea economica ınsa, aceasta functie nu se da, nu se cunoaste, ci trebuie estimata pornind de lao baza de date. Aceasta problema de estimare a unei functii si alte probleme colaterale ei fac obiectulacestui capitol.

Pentru a putea aborda studiul legaturilor dintre variabile trebuie sa stim ın primul rand daca existasau nu o legatura ıntre variabilele studiate (sau ıntre fenomenele pe care acestea le reprezinta) si careeste natura acestora. Putem clasifica legaturile dinte variabile astfel:

1. Legatura nula. Semnifica lipsa oricarei legaturi ıntre doua sau mai multe fenomene sauvariabile care cuantifica fenomenele. De exemplu, o legatura nula se manifesta ıntre ınaltimea unuiangajat si salariul acestuia sau ıntre produsul intern brut al unei tari si varsta primului ministru. Dinpunct de vedere statistic, spunem ca ıntre doua variabile X si Y exista o legatura nula, sau nu existalegatura, daca cov(x, y) = 0.

2. Legatura determinista. Spunem ca ıntre variabilele X si Y exista o legatura deterministadaca unei valori a lui X ıi corespunde o singura valoare a lui Y . Astfel de legaturi se ıntalnesc ınspecial ın fizica, unde de exemplu viteza este egala cu distanta ımpartita la timp: v = d/t, sau fortaeste egala cu masa ınmultita cu acceleratia: F = m · a. Astfel de exemple exista si ın economie, underata profitului este egala cu profitul ımpartit la cifra de afaceri: tπ = π/C.A. · 100%. Legatura estedeterminista pentru ca variabila rπ este perfect determinata de celelalte doua: π si C.A. Adica pentruo anumita valoare a profitului si o anumita valoare a cifrei de afaceri nu putem avea decat o singuravaloare a ratei profitului.

3. Legatura statistica. Se mai numeste si stocastica sau probabilista. Este tipul de legatura celmai des ıntalnita ın stiintele sociale, deci si ın economie. Fiecarei valori xi a variabilei X ıi corespunde odistributie de valori ale variabilei Y . Matematic, o astfel de legatura se exprima sub forma y = f(x)+ε,unde am notat prin ε componenta aleatoare reziduala, datorata actiunii asupra lui Y a celorlalti factoridecat X. Desi s-ar putea spune ca prin luarea ın considerare a tuturor factorilor care influenteaza va-riabila Y , legatura este intrinsec determinista, ın stiintele economice vom ıntalni aproape ıntotdeaunaun numar foarte mare de factori, care nu pot fi identificati si cuantificati ın totalitatea lor. Asfel,functia care ıl expliciteaza pe Y are doua componente: una determnista, f(x1, x2, . . . , xn), cuprinzandvariabilele cuantificabile de care depinde Y , si una aleatoare, ε, cuprinzand variabilele ce nu au pututfi cuantificate.

Studiul legaturilor dintre variabile s-a dezvoltat ıntr-o disciplina aparte, numita econometrie. Incapitolul de fata nu ne propunem deci decat o introducere ın aceasta problematica, fara a abordaelemente de inferenta statistica specifice acestor legaturi. In cele ce urmeaza vom prezenta catevaaspecte legate de variabile si fenomenele reprezentate de acestea, probleme atat de natura aparatuluistatistic utilizat, cat si de aplicabilitatea lui ın contextul economic.

Analiza legaturii dintre variabilele unei repartitii multidimensionale presupune abordarea urmatoarelorprobleme, care se pot constitui si ın etape ce trebuie parcurse ın demersul statistic necesar:

1. Organizarea rezultatelor observarii populatiei sau esantionului ın raport cu variabilele cercetate

2. Analiza statistica a existentei legaturii

Page 57: 6WDWLVWLF GHVFULSWLY II III

3.1. Analiza legaturii dintre variabile calitative 51

3. Analiza statistica a intensitatii legaturii sau a gradului de asociere dintre variabilele observate

4. Formularea unor ipoteze cu privire la forma matematica a legaturii

5. Estimarea parametrilor functiei de regresie

6. Analiza reprezentativitatii functiei de regresie

Aceste etape pot fi parcurse integral sau partial, ın functie de natura variabilelor. Pentru variabilelecalitative nu vor fi parcurse (ın statistica descriptiva) decat primele trei, deoarece posibilitatile deprelucrare sunt mai reduse. In schimb, toate cele sase etape pot fi parcurse ın cazul variabilelorcantitative.

In scopul utilizarii facile a informatiei culese la nivelul populatiei sau esantionului, rezultateleobservarii vor fi sistematizate ıntr-o forma convenabila prelucrarii lor. Se prefera de obicei o formatabelara a prezentarii, care poate sugera unele idei de lucru pentru etapele urmatoare, prin uneleremarci cu privire la valorile pe care le-au ınregistrat variabilele.

3.1 Analiza legaturii dintre variabile calitative

Consideram o serie bidimensionala care are la baza doua variabile calitative X si Y .

HHHHHHY

Xx1 . . . xj . . . xK Total

y1 N11 . . . N1j . . . N1K N1·...

... . . .... . . .

......

yi Ni1 . . . Nij . . . NiK Ni·...

... . . .... . . .

......

yL NL1 . . . NLj . . . NLK NL·

Total N·1 . . . N·j . . . N·K N

Pentru studiul existentei legaturii dintre variabile X si Y , aflate la baza seriei bidimensionale, calculamparametrul

χ2 =

L∑i=1

K∑j=1

(Nij −N∗ij)2

N∗ij(3.1)

unde N∗ij =Ni· ·N·jN

, i = 1, L, j = 1,K.

Distingem doua cazuri:1) Daca χ2 = 0, atunci nu exista legatura ıntre variabile;2) Daca χ2 � 0, atunci exista legatura ıntre variabile.

Pentru studiul intensitatii legaturii dintre variabilele X si Y , calculam:Coeficientul de asociere (contingenta) al lui Pearson

c =

√χ2

N + χ2(3.2)

Page 58: 6WDWLVWLF GHVFULSWLY II III

52 Capitolul 3. Analiza legaturii dintre variabile statistice

unde N este volumul populatiei.Interpretari:1) Daca c = 0, atunci nu exista legatura ıntre variabile (avem legatura nula);2) Daca c ∈ (0; 0, 3), legatura este de intensitate slaba;3) Daca c ∈ [0, 3; 0, 7), legatura este de intensitate medie;4) Daca c ∈ [0, 7; 1), legatura este de intensitate puternica.

- Aplicatie. Dintre societatile comerciale cotate la Bursa de Valori Bucuresti (BVB) s-a ales unesantion de 18 societati ın raport cu variabilele X - domeniul de activitate si Y - riscul actiunilor.

PPPPPPPPPYX

IndustrieFinantesi banci

Altedomenii

Mic 3 1 7

Mare 2 5 −

a) Studiati existenta legaturii dintre do-meniul de activitate al societatilor si ris-cul actiunilor.b) In cazul existentei legaturii, precizatiintensitatea ei.

Rezolvare. a) Calculam totalurile ın seria bidimensionala de mai sus, si obtinem:

PPPPPPPPPYX

IndustrieFinantesi banci

Altedomenii Total

Mic 3 1 7 11

Mare 2 5 − 7

Total 5 6 7 18

Calculam frecventele absolute teoretice N∗ij =Ni· ·N·jN

, i = 1, 2, j = 1, 3 si gasim:

N∗11 =11 · 5

18= 3, 06; N∗12 =

11 · 618

= 3, 67; N∗13 =11 · 7

18= 4, 28;

N∗21 =7 · 518

= 1, 94; N∗22 =7 · 618

= 2, 33; N∗23 =7 · 718

= 2, 72

iar rezulatele obtinute le trecem ın tabelul de mai jos:

PPPPPPPPPYX

IndustrieFinantesi banci

Altedomenii Total

Mic 3, 06 3, 67 4, 28 11

Mare 1, 94 2, 33 2, 72 7

Total 5 6 7 18

Calculam numarul:

χ2 =2∑i=1

3∑j=1

(Nij −N∗ij)2

N∗ij=

(3− 3, 06)2

3, 06+

(1− 3, 67)2

3, 67+ . . .+

(0− 2, 72)2

2, 72= 9, 44.

Deoarece valoarea χ2 � 0 deducem ca exista legatura ıntre domeniul de activitate al societatilor siriscul actiunilor.

Page 59: 6WDWLVWLF GHVFULSWLY II III

3.2. Analiza legaturii dintre variabile ordinale 53

b) Pentru a studia intensitatea legaturii dintre variabilele X si Y , calculam coeficientul de contingenta(asociere) al lui Pearson:

c =

√χ2

N + χ2=

√9, 44

18 + 9, 44= 0, 59 ∈ [0, 3; 0, 7)

deci avem o legatura de intensitate medie ıntre variabile. �

Observatie: Un alt coeficient care se poate calcula pentru a stabili intensitatea legaturii este coeficientul

de contingenta (asociere) al lui Ciuprov T =

√χ2

N ·√

(L−1)(K−1)∈ [0, 1]. Acest coeficient are aceleasi

interpretari ca si coeficientul de contingenta (asociere) al lui Pearson.

In cazul aplicatiei precedente, avem: T =√

9,44

18·√

(2−1)(3−1)= 0, 61 ∈ [0, 3; 0, 7) deci, din nou, este

vorba despre o legatura de intensitate medie ıntre variabile.

3.2 Analiza legaturii dintre variabile ordinale

Variabilele ordinale sunt tot variabile calitative, dar care, ın plus, permit ierarhizari (clasificari) aleunitatilor statistice. Legatura dintre variabilele ordinale se numeste corelatia rangurilor.

Studiul corelatiei rangurilor se poate realiza prin intermediul urmatorilor coeficienti:

v Coeficientul de corelatie simpla a rangurilor al lui KendallPentru a putea utiliza acest indicator toate unitatile populatiei trebuie sa poata fi ordonate ın raportcu variabilele pentru care cercetam intensitatea legaturii. Presupunem ca studiem o populatie devolum n ın raport cu doua variabile.

Pentru a putea construi coeficientul lui Kendall, vom defini mai ıntai indicatorul de concordanta(P ) si respectiv, indicatorul de discordanta (Q). Pe baza indicatorilor de concordanta si discordantaconstruim coeficientul de corelatie simpla a rangurilor al lui Kendall, definit astfel:

τ =P −QP +Q

(3.3)

In cazul unei legaturi directe de intensitate maxima, P va lua valoare sa maxima, iar Q pe ceaminima, adica: P = n(n−1)

2 , iar Q = 0, deci τ = 1.

In cazul unei legaturi inverse de intensitate maxima, P va lua valoare sa minima, iar Q pe ceamaxima, adica: P = 0, iar Q = n(n−1)

2 , deci τ = −1.

In cazul lipsei legaturii, P = Q, iar τ = 0.Putem determina astfel intervalul ın care va fi cuprins τ , respectiv τ ∈ [−1, 1].

Coeficientul de corelatie simpla a rangurilor al lui Kendall ofera informatii legate de:• intensitatea legaturii dintre cele doua variabile ordinale:

- Daca |τ | ∈ (0; 0, 3) legatura este de intensitate slaba;- Daca |τ | ∈ [0, 3; 0, 7) legatura este de intensitate medie;- Daca |τ | ∈ [0, 7; 1] legatura este de intensitate puternica.

• sensul legaturii dintre cele doua variabile ordinale:- Daca τ > 0 legatura este directa;- Daca τ = 0 legatura este nula;

Page 60: 6WDWLVWLF GHVFULSWLY II III

54 Capitolul 3. Analiza legaturii dintre variabile statistice

- Daca τ < 0 legatura este inversa.

v Coeficientul de corelatie a rangurilor al lui SpearmanCa si coeficientul propus de Kendall, si acesta se calculeaza pornind de la tabelul de concordanta alrangurilor. Ne vom folosi de diferentele di dintre ranguri pentru aceeasi unitate a populatiei relativ lacele doua variabile. Coeficientul are urmatoarea expresie:

η = 1−6

n∑i=1

d2i

n(n2 − 1)(3.4)

Limitele celor doi coeficienti sunt aceleasi, la fel si interpretarile valorilor numerice.

v Coeficientul de corelatie multipla a rangurilor al lui KendallPresupunem ca studiem o populatie de volum n ın raport cu m variabile, iar unitatile populatiei

sunt ordonate ın raport ca variabilele pentru care cercetam existenta legaturii. Ne vom folosi desumele si ale rangurilor pentru aceeasi unitate a populatiei relativ la cele m variabile. Coeficientulare urmatoarea expresie:

K =σ2S(efectiva)

σ2S(maxima)

(3.5)

unde: σ2S(efectiva) = 1

n

n∑i=1

(si − S)2, iar σ2S(maxima) = m2(n2−1)

12 .

Valorile coeficentului K se regasesc ın intervalul [0, 1], iar interpretarile sunt:- Daca K ∈ (0; 0, 3) legatura este de intensitate slaba;- Daca K ∈ [0, 3; 0, 7) legatura este de intensitate medie;- Daca K ∈ [0, 7; 1] legatura este de intensitate puternica.

- Aplicatie. Pentu un grup de tari se cunosc:

- valoarea PIB/locuitor: 9, 5 10, 7 8, 3 7, 9 12, 8- costul mediu lunar/angajat: 103 100 97 73 85

Caracterizati nivelul corelatiei rangurilor, construind cate un clasament al tarilor ın raport cufiecare variabila.

Rezolvare. Pentru stabilirea clasamentelor vom considera pe prima pozitie tara cu cel mai marePIB/locuitor, respectiv tara cu cel mai scazut cost mediu lunar/angajat.

Obtinem urmatoarea ierarhie a tarilor:

- valoarea PIB/locuitor:3

9, 52

10, 74

8, 35

7, 91

12, 8- costul mediu lunar/angajat: 103

51004

973

731

852

si tabelul rangurilor unitatilor statistice (tarilor) ın raport cu cele doua variabile, fie aceastea X =valoarea PIB/locuitor si Y = costul mediu lunar/angajat

Page 61: 6WDWLVWLF GHVFULSWLY II III

3.2. Analiza legaturii dintre variabile ordinale 55

Tara T1 T2 T3 T4 T5

rang(X) 3 2 4 5 1

rang(Y ) 5 4 3 1 2

(3.6)

• Daca dorim sa calculam coeficientul de corelatie simpla a rangurilor al lui Kendall, atunci ordonamcrescator valorile sirului rang(X).

Tara T5 T2 T1 T3 T4

rang(X) 1 2 3 4 5

rang(Y ) 2 4 5 3 1

Valoarea factorilor de concordanta P , respectiv discordanta Q se obtin din linia rang(Y ), astfel:

P =n∑i=1

pi, unde pi este numarul rangurilor mai mari decat i, situate la dreapta lui i.

Q =

n∑i=1

qi, unde qi este numarul rangurilor mai mici decat i, situate la dreapta lui i.

Avem P = 3 + 1 + 0 + 0 + 0 = 4, iar Q = 1 + 2 + 2 + 1 + 0 = 6, deci coeficientul de corelatie simplaa rangurilor al lui Kendall este:

K =P −QP +Q

=4− 6

4 + 6=−2

10= −0, 2

Deoarece K < 0 avem o legatura inversa intre PIB/locuitor si costul mediu lunar/angajat. Adica,tarile care au un cost mediu lunar/angajat mic, au o valoarea a PIB-ului/locuitor mare.

Pe de alta parte, |K| = 0, 2 ∈ [0; 0, 3), sugereaza existenta unei legaturi de intensitate slaba ıntrecostul mediu lunar/angajat si PIB-ul/locuitor.

• Daca dorim sa calculam coeficientul de corelatie a rangurilor al lui Spearman, atunci ın tabelulrangurilor (3.6), calculam diferenta rangurilor, di = rang(X)− rang(Y ), pentru fiecare i = 1, 5.

Tara T1 T2 T3 T4 T5

rang(X) 3 2 4 5 1

rang(Y ) 5 4 3 1 2

di −2 −2 1 4 −1

Valoarea coeficientul de corelatie a rangurilor al lui Spearman este:

η = 1−6

n∑i=1

d2i

n(n2 − 1)= 1− 6 · [(−2)2 + (−2)2 + (1)2 + (4)2 + (−1)2]

5 · (52 − 1)= −0, 3

Deducem ca avem o legatura inversa, de intensitate slaba ıntre variabilele analizate.

• Daca dorim sa calculam coeficientul de corelatie multipla a rangurilor al lui Kendall (atentie: acestanu ofera informatii legate de sensul legaturii, ci doar legate de intensitatea ei!), atunci ın tabelulrangurilor (3.6), calculam suma rangurilor, si = rang(X) + rang(Y ), pentru fiecare i = 1, 5.

(Daca am fi avut m variabile X1, X2, . . . , Xm, atunci si =

m∑k=1

rang(Xk), pentru i = 1, n).

Page 62: 6WDWLVWLF GHVFULSWLY II III

56 Capitolul 3. Analiza legaturii dintre variabile statistice

Tara T1 T2 T3 T4 T5

rang(X) 3 2 4 5 1

rang(Y ) 5 4 3 1 2

si 8 6 7 6 3

Folosind sumele si, i = 1, 5, construim seria sumelor:

S :

(3 6 7 81 2 1 1

), 5

Avem S = 3·1+6·2+7·1+8·15 = 6.

Dispersia efectiva a variabilei S este:

σ2S(efectiva) =

1

n

4∑i=1

(si − S)2 ·Ni =(3− 6)2 · 1 + (6− 6)2 · 2 + (7− 6)2 · 1 + (8− 6)2 · 1

5= 2, 8

Pentru m = 2 variabile si n = 5 tari, dispersia maxima a variabilei S este:

σ2S(maxima) =

m2(n2 − 1)

12=

22 · (52 − 1)

12= 8

Valoarea coeficientul de corelatie multipla a rangurilor al lui Kendall este:

K =σ2S(efectiva)

σ2S(maxima)

=2, 8

8= 0, 35

deci, potrivit acestui coeficient, am avem o legatura de intensitate medie ıntre variabile. �

3.3 Analiza legaturii dintre variabile cantitative

Daca dispunem de o repartitie bidimensionala care are la baza variabilele cantitative X si Y , putemdescompune varianta totala a variabilei de explicat Y ca suma a variantei datorate variabilei explicativeX (varianta explicita) si respectiv a variantei celorlalti factori (varianta reziduala), adica:

σ2Y

Vtotala

= σ2Y /X

Vexplicita

+ σ2Y/X

Vreziduala

(3.7)

Daca nu exista legatura, adica X nu are nici o influenta asupra lui Y , mediile conditionate Y /X vorfi identice, iar dispersia lor va fi nula: σ2

Y /X= 0.

Putem retine deci ca regula de decizie ın statistica descriptiva:1) Daca σ2

Y /X= 0, atunci nu exista legatura ıntre variabile;

2) Daca σ2Y /X

� 0, atunci exista legatura ıntre variabile.

Observatie: Varianta explicita σ2Y /X

este cu atat mai mare cu cat mediile conditionate Y /X sunt mai

diferite ıntre ele. Ceea ce le face sa difere este numai influenta lui X, deoarece am ımpartit populatiaın grupe avand ca unic criteriu valorile lui X. Este firesc deci sa folosim varianta explicita ca o marimeabsoluta a intensitatii legaturii dintre X si Y si ponderea variantei explicite ın varianta totala ca omarime relativa.

Page 63: 6WDWLVWLF GHVFULSWLY II III

3.3. Analiza legaturii dintre variabile cantitative 57

Pentru a studia intensitatea legaturii dintre variabilele cantitative X si Y , calculam:Raportul de corelatie:

RY X =

√VexpVtot

=

√1− Vrez

Vtot(3.8)

sau sub forma lui matematica:

RY X =

√√√√σ2Y /X

σ2Y

=

√√√√1−

σ2Y/X

σ2Y

(3.9)

Pentru a-i gasi limitele ne raportam la cele doua situatii extreme:- daca nu exista legatura ıntre X si Y , mediile conditionate Y /X sunt egale ıntre ele, deci σ2

Y /X= 0

si RY X = 0;- daca legatura este de intensitate maxima, nu exista influente ale altor factori decat X asupra lui

Y , nu exista variatie ın cadrul grupelor, deci σ2Y/X = 0 si RY X = 1.

In consecinta, raportul de corelatie apartine intervalului RY X ∈ [0, 1]. Interpretarea intensitatiilegaturii pe baza acestui coeficient se va face astfel:

- daca RY X = 0 legatura este nula;- daca RY X ∈ (0; 0, 3) legatura este de intensitate slaba;- daca RY X ∈ [0, 3; 0, 7) legatura este de intensitate medie;- daca RY X ∈ [0, 7; 1] legatura este de intensitate puternica.

- Aplicatie. Se considera distributia a 52 de societati comerciale cu acelasi profil de activitate ınraport cu variabilele: X - cheltuielile cu publicitatea (mii lei) si Y - volumul vanzarilor (mii lei).

PPPPPPPPPYX

3− 5 5− 7 7− 9

20− 40 14 2 1

40− 60 3 10 5

60− 80 2 7 8

a) Verificati regula de adunare a variantelor.

b) Exista legatura ıntre variabilele X si Y ? In cazafirmativ, precizati intensitatea legaturii.

c) In ce masura volumul vanzarilor este influentatde cheltuielile cu publicitatea?

d) In care grupa de cheltuieli cu publicitatea, volu-mul mediu al vanzarilor este mai reprezentativ?

Rezolvare. Pentru ınceput, calculam totalurile si mijloacele intervalelor:

PPPPPPPPPYX 4

3− 56

5− 78

7− 9 Total

3020− 40 14 2 1 17

5040− 60 3 10 5 18

7060− 80 2 7 8 17

Total 19 19 14 52

a) Regula de adunare a variantelor pentru Y ın functie de X este: σ2Y = σ2

Y /X+ σ2

Y/X

• Varianta totala pentru Y este Vtot = σ2Y .

Pentru seria lui Y :

(30 50 7017 18 17

), 52 avem Y = 30·17+50·18+70·17

52 = 50.

Page 64: 6WDWLVWLF GHVFULSWLY II III

58 Capitolul 3. Analiza legaturii dintre variabile statistice

Varianta totala este: Vtot = σ2Y = (30−50)2·17+(50−50)2·18+(70−50)2·17

52 = 261, 53.

• Varianta explicita este Vexp = σ2Y /X

.

Construim mai ıntai seria mediilor conditionate

Y /X :

(Y /X∈[3,5] Y /X∈[5,7] Y /X∈[7,9]

19 19 14

), 52

Gasim valorile mediilor conditionate:

Y /X∈[3,5] = 30·14+50·3+70·219 = 37, 37

Y /X∈[5,7] = 30·2+50·10+70·719 = 55, 26

Y /X∈[7,9] = 30·1+50·5+70·814 = 60

⇒ Y /X :

37,37

Y /X∈[3,5]

55,26

Y /X∈[5,7]

60,00

Y /X∈[7,9]

19 19 14

, 52

Valoarea medie a seriei Y /X este: M(Y /X) = M(Y ) = 50 (aici am folosit o propritate a valorii medii:proprietatea de aditiune a mediilor, ınsa media seriei Y /X se poate determina si prin calcul obisnuit).Varianta explicita este:

Vexp = σ2Y /X

=(37, 37− 50)2 · 19 + (55, 26− 50)2 · 19 + (60− 50)2 · 14

52= 95, 34.

• Varianta reziduala este Vrez = σ2Y/X .

Construim mai ıntai seria dispersiilor conditionate

σ2Y/X :

(σ2Y/X∈[3,5]

σ2Y/X∈[5,7]

σ2Y/X∈[7,9]

19 19 14

), 52

Gasim valorile dispersiilor conditionate:

σ2Y/X∈[3,5]

=(30− 37, 37)2 · 14 + (50− 37, 37)2 · 3 + (70− 37, 37)2 · 2

19= 177, 28

σ2Y/X∈[5,7]

=(30− 55, 26)2 · 2 + (50− 55, 26)2 · 10 + (70− 55, 26)2 · 7

19= 161, 77

σ2Y/X∈[7,9]

=(30− 60)2 · 1 + (50− 60)2 · 5 + (70− 60)2 · 8

14= 157, 14

Deci, seria dispersiilor conditionate este: σ2Y/X :

177,28

σ2Y/X∈[3,5]

161,77

σ2Y/X∈[5,7]

157,14

σ2Y/X∈[7,9]

19 19 14

, 52

Varianta reziduala este:

Vrez = σ2Y/X =

177, 28 · 19 + 161, 77 · 19 + 157, 14 · 14

52= 166, 19.

Verificam daca: Vtot = Vexp + Vrez, adica daca: 261, 53 = 95, 34 + 166, 19. Observam ca regula deadunare a variantelor este verificata.

b) Deoarece Vexp = 95, 34 � 0, deducem ca exista legatura ıntre volumul vanzarilor si cheltuielile cupublicitatea. Pentru a determina intensitatea legaturii, calculam raportul de corelatie:

RY X =

√VexpVtot

=

√95, 34

261, 53= 0, 603.

Page 65: 6WDWLVWLF GHVFULSWLY II III

3.4. Functii de regresie 59

Deci RY X ∈ [0, 3; 0, 7), de unde deducem ca legatura este de intensitate medie.

c) Calculam Raportul de determinare:

R2Y X =

VexpVtot

· 100% =95, 34

261, 53· 100% = 36, 45%.

Deci volumul vanzarilor depinde de cheltuielile cu publicitatea ın proportie de 36, 45%, si de 100%−36, 45% = 63, 55% de alti factori.

d) Calculam coeficientul de variatie al lui Pearson pentru volumul vanzarilor ın raport cu fiecaregrupa de cheltuieli. Volumul mediu al vanzarilor va fi mai reprezentativ, pentru grupa de cheltuielicu publicitatea care are valoarea coeficientul de variatie al lui Pearson minima.

• Pentru prima grupa de cheltuieli cu publicitatea: G1 = Y/X∈[3,5] :

(30 50 7014 3 2

), 19 avem:

CVG1 =σG1

G1

· 100% =

√σ2G1

G1

· 100% =

√177, 28

37, 37· 100% = 35, 63%.

• Pentru a doua grupa de cheltuieli cu publicitatea: G2 = Y/X∈[5,7] :

(30 50 702 10 7

), 19 avem:

CVG2 =σG2

G2

· 100% =

√σ2G2

G2

· 100% =

√161, 77

55, 26· 100% = 23, 02%.

• Pentru a treia grupa de cheltuieli cu publicitatea: G3 = Y/X∈[7,9] :

(30 50 701 5 8

), 14 avem:

CVG3 =σG3

G3

· 100% =

√σ2G3

G3

· 100% =

√157, 14

60· 100% = 20, 89%.

Observam ca cel mai mic coeficient de variatie al lui Pearson se obtine pentru a treia grupa de cheltuielicu publicitatea. Deci, volumul mediu al vanzarilor este mai reprezentativ pentru grupa de cheltuielicu publicitatea cuprinse ıntre 7000− 9000 lei. �

3.4 Functii de regresie

Daca ıntre doua variabile (ambele cantitative!) se constata existenta unei legaturi de o anumitaintensitate, ne punem problema posibilitatii modelarii legaturii printr-un model matematic. O primaetapa ın acest demers este formularea unei ipoteze cat mai verosimile cu privire la forma legaturii.In acest scop, pe baza tabelului de corelatie construim norul statistic si linia poligonala a mediilorconditionate ale variabilei dependente.

Page 66: 6WDWLVWLF GHVFULSWLY II III

60 Capitolul 3. Analiza legaturii dintre variabile statistice

Figura 3.1: Linia poligonala a mediilor conditionate

In functie de forma liniei frante obtinute si a pozitiei punctelor norului fata de ea se formuleaza oipoteza cu privire la forma functiei de regresie. Daca dorim sa studiem o legatura multipla, respectivdependenta lui Y fata de variabilele factoriale X1, X2, . . ., Xn atunci pentru fiecare pereche (Y,X1),(Y,X2), . . ., (Y,Xn) desenam cate un nor statistic. Forma generala a variabilei Y ın functie devariabilele factoriale X1, X2, . . ., Xn se scrie:

Y = f(X1, X2, . . . , Xn) + ε

unde f(X1, X2, . . . , Xn) reprezinta functia de regresie care aproximeaza cel mai bine forma legaturii,iar ε reprezinta o variabila aleatoare numita reziduala, care ınsumeaza efectul altor factori decat ceiluati ın calcul.

v Estimarea parametrilor functiilor de regresieEste o etapa care se succede firesc alegerii formei functiei. In estimarea parametrilor va trebui sa

tinem cont de abaterea punctelor norului fata de modelul matematic ales Y (X1, X2, . . . , Xn), datorataltor factori decat X1, X2, . . ., Xn, considerati neesentiali, cuantificati prin variabila reziduala ε.

Principiul de la care se porneste ın estimarea parametrilor este cel al patratelor minime. Minimizamsuma patratelor abaterilor valorilor observate ale lui Y de la nivelul calculat prin Y (X1, X2, . . . , Xn).Conditia de minim a sumei este echivalenta cu conditia de minim a mediei:

M[Y − Y (X1, X2, . . . , Xn)

]2= M(ε2) minima.

Ecuatia Y (X1, X2, . . . , Xn) care descrie legatura dintre Y si factorii de influenta X1, X2, . . ., Xn,se numeste ecuatia de regresie. Metoda regresiei consta ın modelarea legaturilor statistice prin ecuatiade regresie.

Deoarece problema de minim se poate rezolva doar cunoscand forma particulara a functiei, vomaborda estimarea parametrilor separat, pe tipuri de functii.

• Regresia liniara multiplaIn ipoteza ın care legatura dintre Y si factorii sai de influenta X1, X2, . . ., Xn, este liniara, ecuatia deregresie va fi de forma:

Y (X1, X2, . . . , Xn) = a0 + a1X1 + a2X2 + . . .+ anXn (3.10)

Page 67: 6WDWLVWLF GHVFULSWLY II III

3.4. Functii de regresie 61

Coeficientii a0, a1, a2, . . ., an se numesc parametrii modelului si vor rezulta din minimizarea urmatoareifunctii cu (n+ 1) necunoscute:

G(a0, a1, . . . , an) = M[Y − (a0 + a1X1 + . . .+ anXn)

]2(3.11)

Conditiile de minim consta ın anularea celor (n+ 1) derivate partiale ale functiei G(a0, a1, . . . , an) ınraport cu necunoscutele a0, a1, . . ., an ceea ce conduce la urmatorul sistem de ecuatii:

∂G(a0, a1, . . . , an)

∂a0= −2M

[Y − (a0 + a1X1 + . . .+ anXn)

]= 0

∂G(a0, a1, . . . , an)

∂aj= −2M

[Y − (a0 + a1X1 + . . .+ anXn)

]·Xj = 0, ∀ j = 1, n

(3.12)

sau ıntr-o forma echivalenta:{M(a0 + a1X1 + . . .+ anXn

)= M(Y )

M(a0 + a1X1 + . . .+ anXn

)·Xj = M(Y ) ·Xj , ∀ j = 1, n

de unde rezulta:{a0 + a1M(X1) + . . .+ anM(Xn) = M(Y )

a0M(Xj) + a1M(X1Xj) + . . .+ anM(XnXj) = M(Y Xj), ∀ j = 1, n(3.13)

Prin rezolvarea acestui sistem liniar de ecuatii ın raport cu necunoscutele a0, a1, . . ., an, se obtinvalorile parametrilor functiei de regresie liniare multiple. Astfel, legatura statistica dintre Y si X1,X2, . . ., Xn este modelata prin aproximare cu o legatura functionala.

• Regresia liniara simplaIn cazul cand variabila endogena Y este influentata de un singur factor X, iar norul de puncte almediilor conditionate are forma din figura 3.2 vorbim de o regresie liniara simpla.

Figura 3.2: Dreapta de regresie

Functia de regresie liniara simpla are forma

Y = a+ bX + ε,

ın care parametrii reali a si b se pot determina folosindurmatoarele formule:

b =cov(X,Y )

σ2X

=M(XY )−M(X)M(Y )

M(X2)−M(X)2(3.14)

a = M(Y )− b ·M(X) (3.15)

Formulele (3.14) si (3.15) se deduc din rezolvarea sistemului (3.13), pentru cazul cand variabila endo-gena Y depinde doar de factorul exogen X.

• Regresia parabolicaIn economie sunt numeroase exemplele ın care legatura dintre fenomene si variabilele care le cuantificanu este liniara. Daca Y reprezinta recolta la hectar dintr-un produs agricol, iar X cantitatea deıngrasaminte, ne vom da seama chiar si intuitiv ca o anumita crestere a lui X nu provoaca aceeasicrestere a lui Y pe tot intervalul de variatie al celor doua variabile. La valori mari ale cantitatiide ıngras.aminte, acestea provoaca saturatie sau chiar nocivitate, ducand la o stagnare, respectiv

Page 68: 6WDWLVWLF GHVFULSWLY II III

62 Capitolul 3. Analiza legaturii dintre variabile statistice

diminuare a productiei. Alte exemple pot fi: legatura dintre vechimea ın munca si marimea salariului,dintre cheltuielile cu publicitatea si volumul vanzarilor, etc.

In cazul regresiei parabolice, norul de puncte al mediilor conditionate are forma grafica prezentataın figura 3.3

Figura 3.3: Parabola de regresie

Functia de regresie parabolica are forma generala

Y = a+ bX + cX2 + ε

unde a, b si c sunt parametrii reali ai functiei. Deter-minarea parametrilor functiei parabolice de regresie sepoate face fie aplicand direct functiei metoda patratelorminime, fie prin reducerea la cazul liniar prezentat ante-rior. In ambele cazuri vom exemplifica pentru parabolade ordinul doi.

a) Estimarea parametrilor prin aplicarea directa a metodei patratelor minime

Ecuatia de regresie a modelului se scrie:

Y (X) = a0 + a1X + a2X2

Din conditia de minimizare a expresiei:

G(a0, a1, a2) = M[Y − Y (X)

]2avem urmatoarele egalitati:

∂G(a0, a1, a2)

∂a0= 0,

∂G(a0, a1, a2)

∂a1= 0, respectiv

∂G(a0, a1, a2)

∂a2= 0

din care rezulta sistemul de ecuatii:−2M

[Y − (a0 + a1X + a2X

2)]

= 0

−2M[(Y − (a0 + a1X + a2X

2))X]

= 0

−2M[(Y − (a0 + a1X + a2X

2))X2]

= 0

care este echivalent cu: a0 + a1M(X) + a2M(X2) = M(Y )

a0M(X) + a1M(X2) + a2M(X3) = M(Y X)

a0M(X2) + a1M(X3) + a2M(X4) = M(Y X2)

Rezolvand acest sistem ın necunoscutele a0, a1, a2, rezulta parametrii ecuatiei de regresie parabolice.In mod asemanator se poate proceda pentru orice regresie neliniara.

b) Estimarea parametrilor prin reducerea la cazul liniar

Avand modelul parabolic de ecuatie:

Y (X) = a+ bX + cX2

Page 69: 6WDWLVWLF GHVFULSWLY II III

3.4. Functii de regresie 63

facem substitutiile X1 := X si X2 := X2, dupa care ecuatia devine:

Y (X1, X2) = a+ bX1 + cX2

care reprezinta un model liniar cu doi factori. Problema regresiei neliniare pentru cazul unei parabolede gradul doi se reduce astfel la o problema de regresie liniara, care se rezolva conform cazului liniar.

Observatie: In caz mai general, daca ecuatia de regresie este un polinom de gradul n:

Y (X) = a0 + a1X + a2X2 + . . .+ anX

n

efectuand substitutiile: X1 := X, X2 := X2, . . . , Xn := Xn obtinem cazul liniar ın raport cu (n+ 1)variabile.

• Regresia exponentialaIn cazul regresiei exponentiale, norul de puncte al mediilor conditionate are forma grafica prezentataın figura 3.4

Figura 3.4: Functia exponentiala deregresie

Functia de regresie exponentiala are forma generala

Y = a · bX · eε (3.16)

unde a si b sunt parametrii reali ai functiei.Aducerea la forma liniara a ecuatiei (3.16) presupunelogaritmarea ecuatiei

lnY = ln(a · bX · eε) = ln a+ ln b ·X + ε

si folosirea substitutiilor

Z := lnY, a∗ := ln a, b∗ := ln b.

Obtinem astfel modelul liniar simplu: Z = a∗+ b∗X+ε.

• Regresia hiperbolicaIn cazul regresiei hiperbolice, norul de puncte al mediilor conditionate are forma grafica prezentata ınfigura 3.5

Figura 3.5: Hiperbola de regresie

Functia de regresie hiperbolica are forma generala

Y = a+ b · 1

X+ ε (3.17)

unde a si b sunt parametrii reali ai functiei.Aducerea la forma liniara a ecuatiei (3.17) presupunefolosirea substitutiei:

Z :=1

X.

Obtinem astfel modelul liniar simplu: Y = a+ bZ + ε.

Alte tipuri de regresieIn practica economica se ıntalnesc frecvent si alte tipuri de functii (unele chiar functii compuse).Principiul de lucru pentru estimarea parametrilor va ramane ınsa ıntotdeauna acelasi: ıncercarea dea aduce functia la o forma liniara.

Page 70: 6WDWLVWLF GHVFULSWLY II III

64 Capitolul 3. Analiza legaturii dintre variabile statistice

Foarte des ıntalnite sunt functiile de productie. Forma generala a acestora este:

Y (X1, X2, . . . , Xn) = a ·Xm11 ·Xm2

2 · . . . ·Xmnn

Printr-o astfel de functie se defineste o legatura ıntre nivelul productiei Y si factorii de care aceastadepinde: productivitatea muncii, calificarea fortei de munca, gradul de ınzestrare cu capital fix, etc.Determinarea parametrilor se face prin reducere la cazul liniar prin logaritmare:

lg Y (X1, X2, . . . , Xn) = lg a+m1 · lgX1 + . . .+mn · lgXn

Daca ın aceasta noua ecuatie facem substitutiile:

Z(X1, X2, . . . , Xn) := lg Y (X1, X2, . . . , Xn)X ′i := lgXi, i = 1, n

reducem ecuatia la una liniara multipla.

Analiza reprezentativitatii functiei de regresie

Coeficientul de corelatieConstructia lui este similara cu a raportului de corelatie, cu deosebirea ca varianta ın fiecare grupa

este calculata folosind suma patratelor abaterilor fata de valorile ajustate prin functia de regresie sinu fata de media grupei. Ca urmare, coeficientul de corelatie va fi specific fiecarei functii ın parte.Expresia lui de calcul (admisa aici fara demonstratie) este:

rY X =

√1− detM

m00M00∈ [0; 1] (3.18)

unde M este matricea de variatie si covariatie aferenta fiecarui model de regresie, m00 este primulelemenet al matricii M , iar M00 este complementul algebric al lui m00. Interpretarea acestui coeficientın functie de valorile pe care le poate lua este urmatoarea:

- daca rY X ∈ [0; 0, 3] functia nu este reprezentativa pentru modelarea legaturii dintre variabile;- daca rY X ∈ (0, 3; 0, 7] functia are o reprezentativitate medie pentru modelarea legaturii dintre

variabile;- daca rY X ∈ (0, 7; 1] functia este foarte reprezentativa pentru modelarea legaturii dintre variabile.Aceste limite nu trebuie interpretate foarte rigid. Valorile coeficientilor este bine sa fie comparate

cu ale altor coeficienti, ai altor functii. Pentru aceeasi repartitie de exemplu, pentru functiile de regresiealese ca fiind posibile calculam coeficientii de corelatie si ıl retinem pe cel mai mare, considerand aceafunctie ca fiind cea mai reprezentativa.

In cazul regresiei liniare simple, formula coeficientului de corelatie (3.18) poate fi adusa la o formaechivalenta mai simpla:

rY X =

√1− m00m11 −m01m10

m00m11=

√m01m10

m00m11=

m01√m00 ·

√m11

=M(XY )−M(X)M(Y )

σY · σX

- Aplicatie. Se cunosc valorile cererii si pretului unui anumit produs pe opt piete:

Cerere (nr. buc) 15,4 11,3 10 6 20 17 9,4 8Pret (u.m.) 3,2 4,9 5 10 1,2 2,3 5,8 7,2

a) Pe un grafic adecvat, identificati formele posibile ale functiilor de regresie dintre cerere si pret;b) Gasiti parametrii functiilor de regresie identificate la punctul precedent si analizati reprezenta-

tivitatea fiecarei functii.

Page 71: 6WDWLVWLF GHVFULSWLY II III

3.4. Functii de regresie 65

Rezolvare. a) Pentru a identifica posibilele functii de regresie care ar modela legatura matematicadintre cerere si pret, construim norul de puncte, reprezentand puncte de coordonate (pret, cerere):

Figura 3.6: Dreapta si hiperbola de regresie

Din graficele prezentate ın figura 3.6 identificam dreapta si hiperbola de regresie ca fiind cele mai”apropiate” grafice de punctele de coordonate (pret, cerere).

b) Dorim sa gasim parametrii dreptei si hiperbolei de regresie, precum si gradul lor de reprezentativi-tate.

• Dreapta de regresie Y = a+ bX + ε are ca parametrii numerele reale a (termen liber constant) si b(coeficient de regresie liniar). Pentru a determina acesti parametrii, folosim formulele:

b =M(XY )−M(X)M(Y )

M(X2)− [M(X)]2(3.19)

a = M(Y )− b ·M(X) (3.20)

Tinand cont ca Y = cererea, iar X = pretul, avem urmatoarele medii:

M(X) =3, 2 + 4, 9 + 5 + 10 + 1, 2 + 2, 3 + 5, 8 + 7, 2

8= 4, 95

M(Y ) =15, 4 + 11, 3 + 10 + 6 + 20 + 17 + 9, 4 + 8

8= 12, 13

M(XY ) =3, 2 · 15, 4 + 4, 9 · 11, 3 + . . .+ 7, 2 · 8

8= 48, 73

M(X2) =3, 22 + 4, 92 + 52 + 102 + 1, 22 + 2, 32 + 5, 82 + 7, 22

8= 31, 43

M(X)2 = 4, 952 = 24, 50

Inlocuind aceste medii ın relatia (3.19) gasim:

b =48, 73− 4, 95 · 12, 13

31, 43− 24, 5= −1, 63.

Utilizand acum ın relatia (3.20) gasim:

a = 12, 13− (−1, 63) · 4, 95 = 20, 19

Page 72: 6WDWLVWLF GHVFULSWLY II III

66 Capitolul 3. Analiza legaturii dintre variabile statistice

Deci ecuatia dreptei de regresie este Y = 20, 19− 1, 63 ·X + ε .

Pentru a studia nivelul de reprezentativitate al dreptei de regresie calculam coeficientul de corelatieliniara

rY X =cov(X,Y )

σX · σY=

M(XY )−M(X)M(Y )√M(X2)−M(X)2 ·

√M(Y 2)−M(Y )2

(3.21)

Avem ca si calcule intermediare:

M(Y 2) =15, 42 + 11, 32 + 102 + 62 + 202 + 172 + 9, 42 + 82

8= 167, 78

M(Y )2 = [M(Y )]2 = 12, 132 = 147, 14

Inlocuind valorile medii ın formula (3.21) obtinem:

rY X =48, 73− 4, 95 · 12, 13√

31, 43− 24, 5 ·√

167, 78− 147, 14= −0, 95.

Astfel, |rY X | = 0, 95 ∈ (0, 7; 1], deci dreapta de regresie este puternic reprezentativa pentru modelarealegaturii dintre pret si cerere.

• Hiperbola de regresie Y = a+ b 1X + ε are ca parametrii numerele reale a (termen liber constant) si

b (coeficient de regresie hiperbolic). Pentru a determina acesti parametrii, facem substitutia Z := 1X

si obtinem modelul de regresie liniar simplu Y = a + b · Z + ε. Formulele (3.19) si (3.20) se rescriuastfel:

b =M(ZY )−M(Z)M(Y )

M(Z2)− [M(Z)]2(3.22)

a = M(Y )− b ·M(Z) (3.23)

Starile (valorile) variabilei Z le obtinem din tabelul initial, folosind transformarea Z = 1X . Avem:

Cerere (nr. buc) 15,4 11,3 10 6 20 17 9,4 8Z = 1

Pret (u.m.) 13,2

14,9

15

110

11,2

12,3

15,8

17,2

Avem urmatoarele valori medii:

M(Z) =

13,2 + 1

4,9 + 15 + 1

10 + 11,2 + 1

2,3 + 15,8 + 1

7,2

8= 0, 29

M(Y ) = 12, 13

M(ZY ) =

13,2 · 15, 4 + 1

4,9 · 11, 3 + . . .+ 17,2 · 8

8= 4, 56

M(Z2) =

13,22

+ 14,92

+ 152

+ 1102

+ 11,22

+ 12,32

+ 15,82

+ 17,22

8= 0, 13

M(Z)2 = [M(Z)]2 = 0, 292 = 0, 08.

Inlocuind valorile medii in relatiile (3.22) si (3.23), obtinem: b = 20, 84 si a = 6, 08.

Deci, hiperbola de regresie este Y = 6, 08 + 20, 84 · 1

X+ ε .

Pentru a studia nivelul de reprezentativitate al hiperbolei de regresie calculam coeficientul decorelatie hiperbolica

rY Z =cov(Z, Y )

σZ · σY=

M(ZY )−M(Z)M(Y )√M(Z2)−M(Z)2 ·

√M(Y 2)−M(Y )2

Page 73: 6WDWLVWLF GHVFULSWLY II III

3.5. Teme de control 67

Obtinem:

rY Z =4, 56− 0, 29 · 12, 13√

0, 13− 0, 08 ·√

167, 78− 147, 14= 1.

Hiperbola este puternic reprezentativa pentru modelarea legaturii matematice dintre cerere si pret.Deoarece |rY Z | > |rY X |, deducem ca hiperbola de regresie este mai reprezentativa decat dreapta deregresie. �

3.5 Teme de control

P1. Pentru o distributie ın raport cu doua variabile calitative ıntre care se presupune ca ar puteaexista vreo legatura, se cere:

1. Verificarea existentei legaturii dintre cele doua variabile;

2. Daca legatura exista, cat de intensa este aceasta ?

P2. Pentru o populatie observata ın raport cu doua variabile cantitative ıntre care ar putea exista olegatura, se cere:

1. Aprecierea existentei si a intensitatii legaturii dintre variabile;

2. Sa se formuleze pe baza unui grafic adecvat ipoteze cu privire la forma posibila a functieide regresie dintre ele;

3. Pentru functiile retinute ca fiind posibile, sa se calculeze parametrii;

4. Care din aceste functii este mai reprezentativa ?

5. Pentru functia aleasa sa se faca cateva simulari ale valorilor previzionate prin aceasta.

P3. Cunoastem urmatoarea distributie a 52 de societati comerciale cu acelasi profil de activitate, ınraport cu variabilele X cheltuielile cu publicitatea (mil. lei) si Y - volumul vanzarilor (mil. lei).

PPPPPPPPPYX

[30; 50] (50; 70] (70; 90)

[200; 400] 14 2 1

(400; 600] 3 10 5

(600; 800] 2 7 8

1. Pe baza unui grafic adecvat sa se emita ipoteze privind forma posibila a functiei de regresie.

2. In ipoteza unei forme liniare a dependentei dintre Y si X, sa se calculeze parametrii functieide regresie.

3. Sa se studieze reprezentativitatea functiei de regresie pentru modelarea legaturii dintre celedoua variabile.

4. Care este valoarea medie a volumului vanzarilor pentru un nivel al cheltuielilor cu publici-tatea de 55 milioane lei ?

5. Aceleasi cerinte de la punctele 2, 3 si 4 pentru o forma parabolica a dependentei dintre Ysi X.

Bibliografie:

Page 74: 6WDWLVWLF GHVFULSWLY II III

68 Capitolul 3. Analiza legaturii dintre variabile statistice

1. Drosbeke J.J., Elements de statistiques, Ed. Ellipses, Bruxelles, 1988;

2. Buiga A., Dragos C., Lazar D., Parpucea I., Todea A., Statistica I, Ed. Presa UniversitaraClujeana, Cluj-Napoca, 2003;

3. Buiga A., Dragos C., Lazar D., Brendea G., Litan C., Mare C., Statistica Descriptiva, Ed.Napoca Star, Cluj-Napoca, 2018;

4. Goldfarb B., Pardoux C., Introduction a la methode statistique, Ed. Dunod, Paris, 1995;

5. Py B., Statistique descriptive, Ed. Economica, 1990;

6. Roger P., Statistique pour la gestion, Ed. Management et societe, Caen, 2000;

7. Tassi P., Methodes Statistiques, Ed. Economica, Paris, 1991;

8. Wonnacott T.H., Wonnacott R.J., Statistique, Economie-Gestion-Sciences-Medecine, Ed. Eco-nomica, Paris, 1991.

Page 75: 6WDWLVWLF GHVFULSWLY II III

Capitolul 4

Serii cronologice

Sectiuni4.1. Indici statistici4.2. Indicatori medii specifici seriilor cronologice4.3. Componentele unei serii cronologice4.3. Teme de control

Obiective• Intelegerea si aplicarea metodelor de calcul a indicilor factoriali ın analiza dinamicii indicatorilor

economici;• Cuantificarea dinamicii medii a unui indicator;• Cunoasterea si utilizarea metodelor cantitative de previziune. Metoda clasica de descompunere

a unei serii de timp.

Cuvinte cheie• Indice al variatiei integrale, indice factorial, indice al pretului;• Nivel mediu al unei serii de timp, indice mediu, ritm mediu, diferenta medie absoluta;• Serie de timp, model dinamic, functii de tendinta, coeficientii sezonalitatii, ciclicitate• Medii mobile, previziune, erori de previziune, netezire exponentiala.

Rezultate asteptateStudentul ıntelege notiunile de indice factorial, nivel mediu, indice mediu, ritm mediu si stapaneste

modalitatile de calcul ale acestora. Utilizeaza metode cantitative ın previziune; ın acest sens, identificacomponentele prezente ıntr-o serie de timp, modeleaza si extrapoleaza tendinta, utilizeaza adecvat omedie mobila, modeleaza componenta sezoniera si ciclica, utilizeaza metoda netezirii exponentiale ınnetezire si previziune.

69

Page 76: 6WDWLVWLF GHVFULSWLY II III

70 Capitolul 4. Serii cronologice

4.1 Indici statistici

Studiul fenomenelor economice si sociale presupune ın marea majoritate a cazurilor si masurareavariatiei unor marimi. Aceasta variatie poate fi urmarita ın timp, spatiu sau relativ la niste categorii.Se va folosi termenul generic de stare, notandu-se cu j starea luata ca baza de comparatie si cu k ceacercetata ın raport cu aceasta. Se va nota cu Z marimea care constituie obiectul de studiu, variatiaacesteia putand fi exprimata atat sub forma absoluta, cat si relativa.

Dintre exprimarile sub forma relativa, un loc deosebit de important ıl ocupa indicele statistic.In practica variatia totala a variabilei Z este datorata variatiei unor alte variabile a caror evolutieıntre doua stari j si k influenteaza evolutia lui Z. Avem de a face, asadar, cu Z de forma Z =f(X1, X2, . . . , Xm). Un astfel de model este un model de tip determinist ın care cei m factori determinaın totalitate nivelul lui Z. In cazul unui astfel de model se pot distinge trei categorii de indici:

1) indicele variatiei totale (integrale) a marimii Z:

Ik/jZ =

Z(k)

Z(j)=f(X1(k), X2(k), . . . , Xm(k))

f(X1(j), X2(j), . . . , Xm(j))

2) indici ai factorilor Xi (individuali sau elementari):

Ik/jXi

=Xi(k)

Xi(j)

3) indici ai variatiei partiale ale lui Z sau indici factoriali: Ik/jZ/Xi

- ne arata de cate ori s-a modificatZ ın starea k fata de starea j sub influenta exclusiva a factorului Xi.

In cele ce urmeaza prezentam indicii factoriali.

• Indicii factoriali de tip Laspeyres.Acest indice este cel mai cunoscut si utilizat ın practica economica. Mai poarta si denumirea deindicele preturilor. Daca se considera un cos de r produse sau bunuri, volumul valoric al acestora (Z)se va calcula dupa relatia:

Z =r∑i=1

piqi

Indicele factorial al preturilor calculat prin metoda Laspeyres va avea expresia:

Ik/jZ/p(·L) =

r∑i=1

pi(k)qi(j)

r∑i=1

pi(j)qi(j)

iar indicele factorial al cantitatilor (volumului fizic), expresia:

Ik/jZ/q(L·) =

r∑i=1

pi(j)qi(k)

r∑i=1

pi(j)qi(j)

Page 77: 6WDWLVWLF GHVFULSWLY II III

4.1. Indici statistici 71

unde pi(j) si pi(k) sunt preturile din perioada de baza si perioada curenta, qi(j) sunt cantitatile dinperioada de baza, iar ki masoara importanta produsului sau bunului i ın cosul indicelui la momentulbaza de comparatie.

Pentru cazul general, cand Z depinde de m factori de influenta, iar forma functiei f este oarecare,Florea (1986) deduce o regula pentru elaborarea indicilor factoriali de tip Laspeyres.

• Indicii factoriali de tip Paasche.Acest indice a aparut tot ca un indice al preturilor, indicele factorial de pret de tip Paasche avandexpresia:

Ik/jZ/p(·P ) =

r∑i=1

pi(k)qi(k)

r∑i=1

pi(j)qi(k)

iar cel factorial al cantitatilor (volumului fizic), expresia:

Ik/jZ/q(P ·) =

r∑i=1

pi(k)qi(k)

r∑i=1

pi(k)qi(j)

Pentru o functie oarecare f , ın care marimea Z depinde de m factori, in Florea (1986) este prezentatao generalizare.

• Indicii factoriali de tip Fisher.In 1922, I. Fisher propune o noua expresie de calcul a indicelui preturilor. Acesta se va obtine ca omedie geometrica a indicilor de pret de tip Laspeyres si Paasche, astfel:

Ik/jZ/p(F ) =

√Ik/jZ/p(·L) · Ik/jZ/p(·P )

De aceeasi maniera se obtine si indicele de volum:

Ik/jZ/q(F ) =

√Ik/jZ/q(L·) · I

k/jZ/q(P ·)

- Aplicatie. O societate hoteliera dispune de trei tipuri de locuri de cazare: camere cu un singur pat(single), camere cu doua paturi (double) si apartamente. Numarul de camere ınchiriate (X) si tarifulpracticat (Y) ın doua luni consecutive sunt date ın tabelul urmator:

Luna j Luna k

Tipul camerei X Y (e) X Y (e)

Single 80 30 110 35

Double 50 40 60 40

Apartament 20 50 25 45

Calculati volumul valoric al ıncasarilor sub influenta exclusiva a numarului de camere ınchiriate,respectiv sub influenta exclusiva a tarifului practicat, folosind metoda Laspeyres.

Page 78: 6WDWLVWLF GHVFULSWLY II III

72 Capitolul 4. Serii cronologice

Rezolvare. Volumul valoric al ıncasarilor din ınchirierea camerelor (Z) se va calcula dupa relatia:

Z =3∑i=1

XiYi

Indicii factoriali de tip Laspeyres vor fi:

Ik/jZ/X(·L) =

3∑i=1

Xi(k)Yi(j)

3∑i=1

Xi(j)Yi(j)

=110 · 30 + 60 · 40 + 25 · 50

80 · 30 + 50 · 40 + 20 · 50= 1, 287

Constatam ca volumul valoric al ıncasarilor a crescut ın luna k fata de luna j de 1, 287 ori sub influentaexclusiva a modificarii numarului de camere ınchiriate.

Ik/jZ/Y (L·) =

3∑i=1

Xi(j)Yi(k)

3∑i=1

Xi(j)Yi(j)

=80 · 35 + 50 · 40 + 20 · 45

80 · 30 + 50 · 40 + 20 · 50= 1, 055

Deducem ca volumul valoric al ıncasarilor a crescut ın luna k fata de luna j de 1, 055 ori sub influentaexclusiva a modificarii tarifului practicat. �

- Aplicatie. Se considera marimea Z ca fiind profitul brut al unei societati si factorii: X - venituriletotale, respectiv Y - cheltuielile totale ale aceleasi societati. In doi ani consecutivi variabilele X si Yau ınregistrat valorile:

Anul

t− 1 t

X (mld. lei) 10 12

Y (mld. lei) 8 9

Calculati indicii factoriali de tip Laspeyres pentru variatia profitul brut sub influenta exclusiva aveniturilor totale, respectiv a cheltuielilor totale si interpretati rezultatele gasite.

Rezolvare. Modelul care leaga cele trei marimi va fi de forma: Z = X − Y .Expresiile si valorile indicilor factoriali de tip Laspeyres sunt:

It/t−1Z/X (·L) =

X(t)− Y (t− 1)

X(t− 1)− Y (t− 1)=

12− 8

10− 8= 2

- profitul brut a crescut ın anul t fata de anul t − 1 de 2 ori sub influenta exclusiva a modificariiveniturilor totale;

It/t−1Z/Y (L·) =

X(t− 1)− Y (t)

X(t− 1)− Y (t− 1)=

10− 9

10− 8= 0, 5

- profitul brut a scazut ın anul t fata de anul t − 1 de 0, 5 ori sub influenta exclusiva a modificariicheltuielilor totale. �

Page 79: 6WDWLVWLF GHVFULSWLY II III

4.2. Indicatori medii specifici seriilor cronologice 73

v Principalii indici utilizati ın economie

Indicele preturilor de consum este un indice de tip Laspeyres cu baza fixa:

It/0Z/p(·L) =

n∑i=1

pi(t)qi(0)

n∑i=1

pi(0)qi(0)

=

n∑i=1

pi(0)qi(0)n∑i=1

pi(0)qi(0)

· pi(t)pi(0)

=

n∑i=1

ki(0) · It/0pi

unde: n - reprezinta numarul de marfuri si servicii din cosul indicelui;ki(0) - reprezinta structura de consum, fiind ponderea marfii sau serviciului i ın consumul populatiei;pi(0) si pi(t) sunt preturile ınregistrate de marfa sau produsul i ın perioada de baza si perioada

curenta;Ponderile ki(0) sunt obtinute prin Ancheta Integrata ın Gospodarii si rezulta din structura cheltu-

ielilor medii lunare efectuate de o gospodarie pentru cumpararea marfurilor si plata serviciilor necesaresatisfacerii nevoilor de trai; aceste ponderi se actualizeaza la intervale de cativa ani. Preturile cores-punzatoare celor n marfuri si servicii din cosul indicelui se culeg lunar, ın urma unei cercetari selectiveorganizate de Institutul National de Statistica.

Indicele productiei industriale masoara evolutia de ansamblu a preturilor produselor si serviciilorindustriale fabricate si livrate de producatorii interni ın perioada curenta fata de perioada de baza, ınprimul stadiu de comercializare a produselor sau serviciilor. Indicele utlizat este tot un indice de tipLaspeyres.

Indicele salariilor masoara evolutia salariilor ın perioada curenta fata de perioada de baza. Alaturi deindicele preturilor de consum este folosit ın evaluarea nivelului de trai. Se utilizeaza, de asemenea, unindice de tip Laspeyres, care masoara variatia fondului de salarii total (Z) sub influenta modificariisalariilor medii Si corespunzatoare ramurii i.

Indicii bursieri. Principalii indici bursieri se diferentiaza prin mai multe elemente: esantionarea,respectiv alegerea titlurilor din cosul indicelui, reprezentativitate, modul de calcul utilizat si naturavariabilelor luate ın calcul. Cei mai cunoscuti si urmariti indici bursieri, cu exceptia familiei de indiciDow Jones se calculeaza ca si indici Laspeyres.

4.2 Indicatori medii specifici seriilor cronologice

Pentru o serie cronologica

Y :

(1 2 . . . t . . . ny1 y2 . . . yt . . . yn

)se pot definii urmatorii indicatori medii:

a) Nivelul mediu (valoarea medie). Nivelul mediu reprezinta nivelul teoretic atins de indicator ınconditiile ın care evolutia sa ar fi constanta ın timp, factorii ce-i determina evolutia ar actiona cuaceeasi intensitate pe ıntreaga perioada de timp analizata.

Modul de determinare a volumului fenomenului difera dupa cum seria este de intervale, respectivde momente.

Pentru seriile cronologice de intervale nivelul mediu este:

Y =y1 + y2 + . . .+ yn

n

Page 80: 6WDWLVWLF GHVFULSWLY II III

74 Capitolul 4. Serii cronologice

Pentru seriile cronologice de momente nivelul mediu este definit de urmatoarea relatie:

Y =

∫ tn

t1

y(t)dt∫ tn

t1

dt

Daca se aproximeaza evolutia indicatorului y(t) ca fiind liniara ıntre doua momente consecutive detimp, rezulta:

Y =y1T1

2+ y2

T1 + T2

2+ . . .+ yn−1

Tn−2 + Tn−1

2+ yn

Tn−1

2T1 + T2 + . . .+ Tn−1

relatie numita medie cronologica ponderata.Daca nivelul indicatorului se ınregistreaza la momente echidistante (T1 = T2 = . . . = Tn − 1),

atunci relatia anterioara devine:

Y =

y1

2+ y2 + . . .+ yn−1 +

yn2

n− 1

si reprezinta media cronologica simpla.

b) Indicele mediu. Ritmul mediuPentru calculul acestui indicator se ıntalnesc ın literatura mai multe abordari.Indicele mediu este parametrul modelului autoregresiv :

yt = Iy · yt−1 + εt, t = 2, 3, . . . , n

Utilizand metoda celor mai mici patrate pentru estimarea parametrului Iy, se obtine urmatoareaexpresie de calcul a indicelui mediu:

Iy =

n∑t=2

yt−1 · yt

n∑t=2

y2t−1

Metoda este ıntalnita ın practica sub denumirea de metoda autoregresiva.O alta expresie de calcul, adecvata pentru indicatori ce evolueaza aproximativ exponential esteurmatoarea:

Iy = n−1

√yny1

Ritmul mediu Ry se determina pornind de la indicele mediu:

Ry = Iy − 1 sau Ry(%) = Iy · 100− 100.

c) Diferenta medie absolutaExpresia de calcul a diferentei medii absolute:

∆y =

n∑t=2

(yt − yt−1)

n− 1=

n∑t=2

∆t/t−1y

n− 1

Page 81: 6WDWLVWLF GHVFULSWLY II III

4.3. Componentele unei serii cronologice 75

sau echivalent:

∆y =yn − y1

n− 1.

- Aplicatie. Cifra de afaceri a unei societati comerciale, a scazut, ıncepand cu anul 2013:

An 2013 2014 2015 2016 2017 2018

Cifra de afaceri (mil. lei) 136 107 67 42 28 22

a) Calculati si interpretati indicele mediu anual si ritmul mediu.b) Previzionati cifra de afaceri pentru anul 2019, utilizand indicele mediu, daca se mentine ritmul

din perioada 2013-2018.

Rezolvare. a) Indicele mediu anual este:

Iy =

6∑t=2

yt−1 · yt

6∑t=2

y2t−1

=136 · 107 + 107 · 67 + 67 · 42 + 42 · 28 + 28 · 22

1362 + 1072 + 672 + 422 + 282= 0, 712.

De la un an la altul, in perioada 2013-2018, cifra de afaceri a scazut ın medie de 0, 712 ori.

Ritmul mediu este:Ry = (Iy − 1) · 100% = (0, 712− 1) · 100% = −28, 8%

De la un an la altul, in perioada 2013-2018, cifra de afaceri a scazut ın medie cu 28, 8%.

b) Cifra de afaceri anticipata pentru anul 2019, utilizand indicele mediu, este:

y2019 = y2018 · Iy = 22 · 0, 712 = 15, 664 mii lei.

4.3 Componentele unei serii cronologice

O serie cronologica este o secventa de observatii asupra unei variabile, ordonate dupa parametrul timp.Frecvent, masuratorile asupra variabilei sunt efectuate la intervale egale de timp, seria cronologica fiindprezentata sub forma:

Y :

(1 2 . . . t . . . ny1 y2 . . . yt . . . yn

)In abordarea traditionala, fluctuatiile din seriile cronologice sunt privite ca o rezultanta a suprapu-

nerii urmatoarelor componente: tendinta T , componenta ciclica C, sezoniera S respectiv reziduala E.Primele trei componente sunt considerate deterministe, sistematice, determinate de factori cu actiunecontinua asupra fenomenului, ın timp ce componenta reziduala are caracter aleator fiind efectul actiuniiunor factori imprevizibili, accidentali.

Modelul clasic de descompunere al seriilor cronologice este de regula:• aditiv: Y = T + C + S + E sau• multiplicativ: Y = T · C · S · E respectiv

Page 82: 6WDWLVWLF GHVFULSWLY II III

76 Capitolul 4. Serii cronologice

• o combinatie mixta a componentelor seriei.Tehnicile de analiza, ın acest context, au ca obiective:- separarea fiecarei componente si modelarea comportamentului sau, respectiv- previziunea evolutiei fiecarei componente, iar apoi compunerea acestora ın scopul obtinerii de

previziuni privind evolutia fenomenului Y . Principiul de la baza acestei tehnici este descompunepentru a modela iar apoi recompune.

v Estimarea componentei de tendinta

Cele mai uzuale functii utilizate pentru modelarea tendintei indicatorilor din economie sunt redate ıntabelul de mai jos:

Tabelul 4.1: Functii elementare utilizate ın modelarea tendintei

Tendinta Forma liniarizata Diferente aprox. constante

liniara ∆t/t−1y = yt − yt−1

Tt = a+ bt

parabola T = a+ bt+ cX (2)∆t/t−1y = ∆

t/t−1y −∆

t−1/t−2y

Tt = a+ bt+ ct2 unde: X = t2

hiperbola T = a+ bX ∆t/t−1ty = tyt − (t− 1)yt−1

Tt = a+ b1

tunde: X =

1

t

exponentiala Zt = A+Bt ∆t/t−1ln y = ln yt − ln yt−1

Tt = a · bt unde: Zt = lnTt;

A = ln a; B = ln b

putere Z = A+ bX

Tt = a · tb unde: Zt = lnTt;

A = ln a; X = ln t

logaritmica T = a+ bX

Tt = a+ b ln t unde: X = ln t

curba logistica

Tt =a

1 + eb−ct,

a, c > 0

Stabilirea functiei adecvate pentru modelarea tendintei

In acest scop sunt utile urmatoarele precizari:• cronograma seriei initiale sau a valorilor netezite sugereaza functiile candidate, numite si linii

posibile de tendinta;

Page 83: 6WDWLVWLF GHVFULSWLY II III

4.3. Componentele unei serii cronologice 77

• cea mai adecvata functie pentru modelarea tendintei poate fi considerata aceea pentru care se

realizeaza minimul sumei patratelor reziduurilor min∑t

(yt − Tt)2;

• este adecvata tendinta liniara atunci cand diferentele absolute cu baza ın lant ∆t/t−1y = yt −

yt−1 sunt aproximativ constante. De asemenea, precizari specifice ın acest sens pentru parabola,exponentiala, respectiv hiperbola gasim ın tabelul 4.1.

Estimarea parametrilor tendinteiPentru estimarea parametrilor tendintei liniare Tt = a + bt se utilizeaza metoda celor mai mici

patrate, expresiile de calcul ale parametrilor a, b fiind deci urmatoarele:

b =

n∑t=1

(t− t)(yt − Y )

n∑t=1

(t− t)2

, respectiv a = Y − bt,

sau echivalent

b =M(tY )−M(t)M(Y )

M(t2)− [M(t)]2, respectiv a = M(Y )− bM(t).

Seria prezinta o tendinta de crestere atunci cand b > 0, respectiv de descrestere daca b < 0.Cu exceptia curbei logistice, celelalte functii neliniare din tabelul 4.1 pot fi aduse la o forma

liniarizata prin anumite substitutii, respectiv prin aplicarea operatiei de logaritmare ın cazul functieiexponentiale si a functiei putere.

- Aplicatie. Indicele lunar al pretului productiei industriale pentru piata interna, ın perioada ianu-arie 1999 - iunie 2000, baza de comparatie 1996, a avut o tendinta crescatoare:

Luna 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

(t)

Indice 3,7 3,8 4,1 4,3 4,5 4,8 4,9 5,1 5,3 5,5 5,6 5,8 6,0 6,2 6,3 6,5 6,6 7,0

(yt)

Sa se determine ecuatia tendintei.

Rezolvare. Construim mai ıntai cronograma seriei cronologice:

Figura 4.1: Indicele pretului productiei indus-triale - Tendinta

Cronograma seriei sugereaza prezenta uneitendinte liniare, peste care se suprapune ocomponenta aleatoare de amplitudine redusa:

yt = a+ bt+ εt, t = 1, 2, . . . , 18.

Parametrii tendintei se determina din relatiile:

b =M(tY )−M(t)M(Y )

M(t2)− [M(t)]2,

respectiv

a = M(Y )− bM(t).

Page 84: 6WDWLVWLF GHVFULSWLY II III

78 Capitolul 4. Serii cronologice

Exemplificam din calculele intermediare:

M(t) =1 + 2 + . . .+ 18

18= 9, 5

M(Y ) =3, 7 + 3, 8 + . . .+ 7, 0

18= 5, 33

M(tY ) =(1 · 3, 7) + (2 · 3, 8) + . . .+ (18 · 7, 0)

18= 55, 72

M(t2) =12 + 22 + . . .+ 182

18= 117, 2

si obtinem:

b =55.72− 9, 5 · 5, 33

117, 2− (9, 5)2= 0, 19

a = 5, 33− 0, 19 · 9, 5 = 3, 55.

Tendinta seriei se estimeaza prin functia de gradul ıntai:

Tt = 3, 55 + 0, 19t

al carei grafic este redat ın figura 4.1. �

v Estimarea componentelor deterministe ın cazul seriilor sezoniere

Presupunem ın acest paragraf ca seria cronologica prezinta tendinta, sezonalitate si o componentaaleatoare. Vom prezenta modul de estimare al tendintei, respectiv a componentei sezoniere.

Modelul de descompunere. Perioada componentei sezoniere

Pentru alegerea modelului de descompunere este indicat a se analiza cronograma seriei.In general, este adecvat un model aditiv atunci cand amplitudinea oscilatiilor este aproximativ

constanta, respectiv multiplicativ daca amplitudinea creste sau scade ın timp. Frecvent ın practicaeste mai adecvat modelul multiplicativ.

Perioada componentei sezoniere, notata cu p, reprezinta numarul unitatilor de timp din cadrulunui ciclu sezonier. Majoritatea seriilor sezoniere din domeniul economic au durata unui ciclu de unan, p fiind egal cu 4 ın cazul datelor trimestriale, respectiv 12 ın cazul datelor lunare. Prin extensie,pot fi studiate si fenomene cu durata unui ciclu mai mica de un an.

Mediile mobile

Pentru eliminarea componentei sezoniere (desezonalizarea seriei) se aplica datelor o medie mobilade ordin p egal cu perioada componentei sezoniere.

Mediile mobile de ordin p, notate ın continuare MM(p), sunt definite de urmatoarele relatii:• daca p este impar, p = 2k + 1, mediile mobile de ordin p sunt:

yt =yt−k + yt−k+1 + . . .+ yt + . . .+ yt+k−1 + yt+k

p, t = k + 1, k + 2, . . . , n− k;

• daca p este par, p = 2k, mediile mobile se definesc analog

yt =yt−k+0,5 + yt−k+1,5 + . . .+ yt−0,5 + yt+0,5 + . . .+ yt+k+0,5

p,

Page 85: 6WDWLVWLF GHVFULSWLY II III

4.3. Componentele unei serii cronologice 79

t = k + 0, 5, k + 1, 5, . . . , n− k + 0, 5.

In cazul p par, se introduc mediile mobile centrate de ordin p definite prin:

yt =yt−0,5 + yt+0,5

2=

12yt−k + yt−k+1 + . . .+ yt + . . .+ yt+k−1 + 1

2yt+k

p.

Estimarea tendintei ın cazul seriilor cu componenta sezoniera

In cazul seriilor sezoniere se ıntalnesc preponderent ın literatura doua modalitati de estimare atendintei:• desezonalizarea seriei, iar apoi estimarea tendintei pornind de la valorile desezonalizate;• modelarea tendintei pornind de la mediile anuale.

Estimarea componentei sezoniere

Notatii: t indice pentru an (ın general pentru un ciclu sezonier), variind de la 1 la n; s indicepentru sezon, variind de la 1 la p. Modelul de descompunere a seriei are forma:

yij = TCij + Sj + εij , respectiv yij = TCij · Sj · εij

Metoda compararii cu mediile mobile

In cazul modelului multiplicativyij = TCij · Sj · εij

metoda se ıntalneste ın literatura si sub denumirea de metoda raportarii la mediile mobile si consta ınurmatoarele:

• calculul mediilor mobile yij de ordin p egal cu perioada componentei sezoniere;

• calculul rapoartelor Sij =yijyij

ce cuantifica abaterea datelor observate de la tendinta. Daca

fixam indicele j (ne situam ın sezonul j), aceste diferente constituie estimatii pentru Sj ;

• determinarea unui indice mediu pentru fiecare sezon ca o medie a estimatiilor precedente:

Ij =1

n− 1

n−1∑i=1

Sij , j = 1, 2, . . . , p,

aceasta justificandu-se prin necesitatea eliminarii efectului aleator din Sij . Pentru a nu fi afectatide valorile extreme, uneori ınainte de calculul mediei, aceste valori se elimina, sau ın loc de mediese ia valoarea mediana a estimatiilor Sij ;

• determinarea componentei sezoniere Sj , etapa ce consta ıntr-o corectie adusa indicilor medii Ijastfel ıncat media lor sa fie 1:

Sj =Ij

1

p

p∑i=1

Ii

, j = 1, 2, . . . , p.

Page 86: 6WDWLVWLF GHVFULSWLY II III

80 Capitolul 4. Serii cronologice

In cazul modelului aditivyij = TCij + Sij + εij

determinarea componentei sezoniere decurge analog.

- Aplicatie. Datele privind evolutia trimestriala a productiei de bere din tara noastra (zeci mii hl)ın perioada 1996− 2001 sunt indicate mai jos:

An/Trim. I II III IV

1996 124,1 263,2 252,4 124,5

1997 130,1 280,2 260,6 151,1

1998 157,5 301,2 353,3 185,0

1999 169,7 340,0 350,9 168,7

2000 177,5 407,6 417,2 224,1

2001 202,9 385,3 425,6 196,6

Determinati ecuatia tendintei. In cazul prezentei componentei sezoniere, desezonalizati seria cronolo-gica a productiei de bere.

Rezolvare. Construim cronograma productiei de bere din perioada 1996− 2001

Figura 4.2: Produtia de bere din perioada 1996− 2001Graficul seriei indica prezenta unei componente sezoniere predominante, de perioada p = 4. Mediile

mobile de ordin p = 4 sunt calculate conform relatiei de definitie a mediilor mobile centrate. Astfel,spre exemplu:

y3 =0, 5 · y1 + y2 + y3 + y4 + 0, 5 · y5

4=

=0, 5 · 124, 1 + 263, 2 + 252, 4 + 124, 5 + 0, 5 · 130, 1

4= 191, 8

Page 87: 6WDWLVWLF GHVFULSWLY II III

4.3. Componentele unei serii cronologice 81

y4 =0, 5 · y2 + y3 + y4 + y5 + 0, 5 · y6

4=

=0, 5 · 263, 2 + 252, 4 + 124, 5 + 130, 1 + 0, 5 · 280, 2

4= 194, 7

...

y22 =0, 5 · y20 + y21 + y22 + y23 + 0, 5 · y24

4=

=0, 5 · 224, 1 + 202, 9 + 385, 3 + 425, 6 + 0, 5 · 196, 6

4= 306, 0

Datele observate au fost numerotate aici ın ordine cronologica y1, y2, . . ., y24.

t MM(4) t MM(4)

1 - 13 261,72 - 14 259,43 191,8 15 258,34 194,7 16 267,75 197,8 17 284,56 202,2 18 299,77 208,9 19 309,88 214,9 20 310,29 229,2 21 308,410 245,0 22 306,011 250,8 23 -12 257,1 24 -

Estimam tendinta pornind de la valorile desezonalizate.Seria mediilor mobile prezentata grafic releva o usoara tendinta de crestere a productiei de bere.

Vom considera tendinta liniara:Tt = a+ bt+ εt

originea de masurare a timpului trimestrul II al anului 1996, unitatea de masura un trimestru. Astfel,pentru trimestrul III 1996 avem t = 1, s.a.m.d:

t 1 2 3 . . . 19 20Valori desezonalizate (Z) 191,8 194,7 197,8 . . . 308,4 306,0

b =M(tZ)−M(t)M(Z)

M(t2)− [M(t)]2

a = M(Z)− bM(t)

Calcule intermediare:

M(t) = 10, 5; M(Z) = 252, 9; M(t2) = 143, 5; M(tZ) = 2884, 9; b = 6, 9; a = 180, 44

Tendinta productiei de bere ın perioada ianuarie 1996 iunie 2000 este estimata prin:

Tt = 180, 44 + 6, 9 · t.

Page 88: 6WDWLVWLF GHVFULSWLY II III

82 Capitolul 4. Serii cronologice

4.4 Teme de control

P1. Profiturile unei companii sunt redate ın graficul de mai jos:

a) Construiti seria cronologica aferenta profiturilor ınregistrate ın perioada 2010 - 2018.

b) Construiti seriile cronologice cu diferente absolute, indici statistici si diferente relative cubaza fixa si baza ın lant.

c) Cu cat se modifica ın medie profiturile de la un an la altul ?

d) De cate ori se modifica ın medie profiturile de la un an la altul ?

e) Cu cate procente se modifica ın medie profiturile de la un an la altul ?

f) Gasiti ecuatia tendintei care indica evolutia profiturilor ın timp.

g) Este tendinta gasita la punctul precedent reprezentativa ?

h) Estimati profitul companiei ın urmatorii trei ani (prin trei metode diferite).

i) De cate ori s-a modificat profitul ın anul 2018 fata de anul 2010 ?

j) Stiind ca ın perioada 2010 - 1017 impozitul pe profit datorat statului a fost de 16%, iarıncepand cu anul 2018 impozitul pe profit a fost de 10%, gasiti seria cronologica a profituluinet. Reprezentati grafic seria cronologica aferenta profitului net.

P2. Veniturile unei cofetarii obtinute din vanzarile de prajituri, cafea si sucuri sunt redate ın graficulde mai jos:

Page 89: 6WDWLVWLF GHVFULSWLY II III

4.4. Teme de control 83

a) Construiti seriile cronologice aferente veniturilor obtinute din vanzarile de prajituri, sucurisi cafea ın perioada 2012 - 2018.

b) Construiti seria cronologica a veniturilor totale ale cofetariei ın perioada 2012 - 2018.

c) Cu cat la suta se modifica ın medie veniturile totale de la un an la altul ?

d) De cate ori se modifica ın medie veniturile obtinute din vanzarea prajiturilor de la un an laaltul ?

e) Gasiti ecuatiile tendintelor veniturilor obtinute din vanzarile de prajituri, cafea si sucuri.Care din ecuatiile gasite este mai reprezentativa ?

f) Folosind diferenta absoluta medie a veniturilor obtinute din vanzarea prajiturilor, estimativeniturile pentru prajituri ın urmatorii doi ani.

g) Folosind indicele statistic mediu al veniturilor obtinute din vanzarea sucurilor, estimativeniturile pentru sucuri ın urmatorii doi ani.

h) Indicele Laspeyres al veniturilor totale sub influenta exclusiva a veniturilor obtinute dinvanzarile de prajituri ın anul 2018 fata de anul 2012. Calcul si interpretare.

i) Indicele Paasche al veniturilor totale sub influenta exclusiva a veniturilor obtinute dinvanzarile de sucuri ın anul 2018 fata de anul 2012. Calcul si interpretare.

j) Indicele Fisher al veniturilor totale sub influenta exclusiva a veniturilor obtinute din vanzarilede cafea ın anul 2018 fata de anul 2012. Calcul si interpretare.

k) Calculati si interpretati nivelul mediu al veniturilor totale.

l) Cu cat la suta se abat ın medie veniturile totale ınregistrate ın fiecare an fata de venitultotal mediu ınregistrat ın perioada 2012 - 2018 ?

m) Reprezentati grafic cronograma veniturilor totale obtinute din vanzarea prajiturilor si sucu-rilor. Precizati tendinta pe grafic. Gasiti parametrii tendintei si studiati reprezentativitateaei.

P3. In anul 2015 numarul de firme dintr-un judet a fost cu 17, 5% mai mic decat ın 2018 si cu 10%mai mare decat ın 2012. Stiind ca ın 2011 ın judet au fost 100 de firme, iar ın 2012 numarulfirmelor a crescut de 1, 2 ori, se cere:

a) Reconstituiti seria cronologica a numarului de firme ın perioada 2011 - 2018.

b) De cate ori s-a modificat ın medie numarul de firme de la un an la altul ?

c) Cu cat la suta s-a modificat ın medie numarul de firme de la un an la altul ?

d) Nivelul mediu al firmelor ın perioada 2011 - 2018. Calcul si interpretare.

e) Gasiti ecuatia tendintei care modeleaza evolutia ın timp a numarului de firme. Este tendintareprezentativa?

f) Folosind indicele statistic mediu, estimati numarul de firme ın anul 2019.

g) Daca ın anul 2012, 20% din firme au avut profilul de activitate IT, iar ın 2018 acest procents-a triplat, calculati si interpretati indicele Fisher al numarului total de firme sub influentaexclusiva a firmelor de IT ın 2018, fata de 2012.

P4. Previzionati numarul zilnic de pacienti ai unei clinici medicale private pentru saptamana a cincea,cunoscand evolutia din primele patru saptamani:

Page 90: 6WDWLVWLF GHVFULSWLY II III

84 Capitolul 4. Serii cronologice

Saptamana Ziua Nr. pacienti

1

Luni 40Marti 49Miercuri 55Joi 38Vineri 20

2

Luni 45Marti 50Miercuri 58Joi 35Vineri 22

3

Luni 47Marti 49Miercuri 60Joi 39Vineri 25

4

Luni 50Marti 60Miercuri 68Joi 50Vineri 35

Pentru una din saptamani calculati toti indicatorii posibili.

Bibliografie:

1. Buiga A., Dragos C., Lazar D., Parpucea I., Statistica I, Presa Universitara Clujeana, 2003.

2. Buiga A., Dragos C., Lazar D., Brendea G., Litan C., Mare C., Statistica Descriptiva, Ed.Napoca Star, Cluj-Napoca, 2018;

3. Florea I., Parpucea I., Buiga A., Statistica descriptiva. Teorie si aplicatii, ed. Continental, AlbaIulia, 1998;

4. Florea I., Parpucea I., Buiga A., Lazar D., Statistica inferentiala, Presa Universitara Clujeana,Cluj-Napoca, 2000;

5. Melard G., Methodes des previsions a court terme, Ed. de l’Universite de Bruxelles, 1970.