8446fb151f21e9c6acfb8dbb780d2829.pdf

1

CUPRINS Cap. 1 Analiza statistica a variabilitatii fata de tendinta centrala 1.1.Indicatorii simpli si sintetici ai variatiei 1.2.Aplicatie (rezolvata) 1.3Intrebari de autoevaluare 1.4.Cuvinte cheie Cap. 2 Indicatorii variatiei intr-o serie de repartitie bidimensionala

2.1 Regula de adunare a dispersiilor; 2.2.Aplicatie (rezolvata) 2.3.Intrebari de autoevaluare 2.4.cuvinte cheie

Cap. 3 Verificarea ipotezelor statistice 3.1 Verificarea normalitatii repartitiilor empirice 3 .2 Aplicatie. Testul 2 3.3 Intrebari de autoevaluare 3.4 Cuvinte cheie Cap. 4. Sondajul statistic i modalitati de utilizare in activitatea de audit financiar 4.1 Notiuni fundamentale privind procedeele de esantionare si de reprezentativitate a esantioanelor; 4.2 Aplicaii(rezolvate) Selecia ntmpltoare simpl repetat si nerepetata; Selectia tipica stratificata-caracteristica alternativa si nealternativa; 4.3 Intrebari de autoevaluare 4.4 Cuvinte cheie Cap. 5 Modele economice de analiza a regresiei si corelatiei liniare simple si multiple

5.1 Modelul regresiei si corelatiei liniare simple 5.2 Aplicaie 5.3 Modelul regresiei si corelatiei liniare multiple 5.4 Aplicaie 5.5 Intrebari de autoevaluare 5.6 Cuvinte cheie Cap.6 Metode econometrice de trend si prognoza cu ajutorul seriilor de timp 6.1 Indicatorii absoluti si relativi ai seriilor de timp (cronologice) 6.2. Ajustarea seriilor de timp

6.3 Aplicaie (rezolvata) 6.4 Intrebari de autoevaluare 6.5 Cuvinte cheie Cap.7. Msurarea oscilaiilor sezoniere ntr-o serie cronologic 7.1 Metode de masurare a sezonalitatii 7.2 Aplicatie (rezolvata) 7.3 Intrebari de autoevaluare 7.4 Cuvinte cheie

2

Cap. 1. Analiza statistica a variabilitatii fata de tendinta centrala

1.1 Indicatorii simpli si sintetici ai variatiei

Gradul de complexitate a unui fenomen este dat de gama factorilor de influen i variabilitatea termenilor unei serii de repartiie. Aceasta nseamn c analiza tendinei centrale cu ajutorul indicatorilor medii necesit operaii de verificare a reprezentativitii lor n raport cu valorile individuale ale caracteristicilor nregistrate, adic este necesar calcularea indicatorilor statistici ai varia iei ntlnii n literatura de specialitate i sub denumirea de indicatori ai mpr tierii sau ai dispersiei. Dispersia exprim gradul de mprtiere a valorilor individuale ale unei distribuii n jurul valorii centrale i este datorat influenei factorilor aleatori.

Aceti indicatori ai variaiei sau mprtierii stau la baza calculului altor indicatori prin care se caracterizeaz asimetria, excesul, interdependena dintre factorii de influen etc.

Indicatorii de variaie aduc un plus de cunoatere i informare asupra: verificrii reprezentativitii mediei ca valoare tipic a unei serii

de repartiie; verificrii gradului de omogenitate a seriei; comparrii n timp sau spaiu a mai multor serii de repartiie dup caracteristici

independente sau interdependente; cunoaterii gradului de influen a cauzelor dup care s-a fcut gruparea

unitilor statistice nregistrate i separrii cauzelor eseniale de cauzele ntmpltoare.

Dup gradul de generalitate se disting: indicatori simpli ai variaiei; indicatori sintetici ai variaiei; Dup metodologia de calcul i forma de exprimare deosebim: indicatori ai variaiei calculai ca mrimi absolute; indicatori ai variaiei calculai ca mrimi relative n raport cu valoarea unui

indicator al tendinei centrale, n mod deosebit cu media. Dup modul de sistematizare a datelor deosebim: indicatori ai variaiei ntr-o serie de repartiie unidimensional; indicatori ai variaiei calculai pentru serii de distribuie multidimensionale.

Indicatorii simpli ai dispersiei msoar cmpul de mprtiere al caracteristicii, precum i mprtierea fiecrui nivel individual al caracteristicii fa de nivelul lor mediu.

Indicatorii simpli caracterizeaz variaia unei singure variante a caracteristicii n comparaie cu alt variant sau cu nivelul mediu al acestei caracteristici. Aceti indicatori se pot exprima n uniti absolute, ct i relative (%) calculate n raport cu media.

Amplitudinea absolut a variantei (A) se obine ca diferen ntre valoarea maxim (x max) i valoarea minim (xmin) a seriei i are rolul de a msura intervalul de mprtiere n interiorul cruia se distribuie unitile colectivitii:

A = Xmax Xmin n cazul unei distribuii de frecvene pe intervale amplitudinea absolut a variaiei

se determin prin diferena dintre limita superioar a ultimului interval i limita inferioar a primului interval.

Dac este o serie cu intervale deschise, se va proceda la nchiderea intervalelor.

3

Amplitudinea relativ a variaiei (A%) se exprim n coeficient sau n procente i se calculeaz, de obicei, ca raport ntre amplitudinea absolut a variaiei (A) i valoarea medie a caracteristicii.

100x

A%A =

Acest indicator, amplitudinea variaiei, n ambele forme, nu este suficient de semnificativ pentru analiza mprtierii valorilor individuale, deoarece ine seama numai de valorile extreme ale caracteristicii.

Amplitudinea variaiei se folosete n mod practic la alegerea numrului de grupe i a mrimii intervalului de grupare.

Abaterile individuale absolute (di) se calculeaz ca diferen ntre fiecare variant nregistrat i media aritmetic a acesteia.

xxd ii = n funcie de scopul cercetrii, n locul mediei se poate lua mediana sau modulul. Abaterile individuale relative (di%) se calculeaz ca raport ntre abaterile

individuale absolute i nivelul mediu al caracteristicii.

100x

xx100

x

d%d iii

== pentru n,1i =

Indicatorii simpli ai variaiei permit o caracterizare parial i aproximativ a variaiei, deoarece se calculeaz pe baza relaiilor dintre doi termeni ai seriei sau prin comparaia dintre fiecare termen i media lor.

Aprecierea coninutului real al mediei calculate se face prin utilizarea abaterilor variantelor extreme:

abaterea maxim superioar: xxd maxs =

abaterea maxim inferioar: xxd mini = 1.2 Aplicatie (rezolvata) Frauda medie a unui lot de 10 firme controlate se prezint astfel(date ipotetice):

numrul de ordine: 1 2 3 4 5 6 7 8 9 10 al firmelor (n): frauda medie (xi) 1,2 0,9 1,1 0,8 1,5 1,6 0,8 0,8 1,3 0,9 (mild u.m.):

Amplitudinea absolut a variaiei:

A = x max -x min = 1,6-0,8 = 0,8 mil. lei Amplitudinea relativ a variaiei:

x

xx%A minmax

=

unde:

=+++++++++==

=

109,03,18,08,06,15,18,01,19,02,1

n

xx

n

1ii

= 1,09 milioane lei

Abaterile individuale absolute se calculeaz pentru fiecare termen: xxd ii = de unde pentru: primul termen va fi: 1,21,09 = 0,11 mil al doilea termen: 0,91,09 = 0,19 mil

4

Abaterile individuale relative:

%09,1010009,1

09,12,1100

x

d%d ii =

== pentru primul termen

i %4,1710009,1

09,19,0 = pentru al doilea termen

Abaterea maxim superioar:

51,009,16,1xxd maxs === mild u.m. Abaterea maxim inferioar:

29,009,18,0xxd mini === mild u.m. n concluzie: variaia ntre frauda maxima (1,6 mild u.m.) i frauda minima (0,8

mild u.m.) este de 0,8 mild u.m. iar abaterea maxim fa de medie este 0,51 mild u.m., iar cea minim de 0,29 mild u.m. Nu este lipsit de importan, pentru caracterizarea fraudei intregului lot verificat, nici frecvena valorilor maxime (1), ct i a celor minime (3).

Indicatorii sintetici ai variaiei caracterizeaz gradul de variaie, lund n consideraie toi termenii seriei. Acetia caracterizeaz ntr-o singur expresie numeric ntreaga variaie a unei caracteristici din colectivitatea analizat.

n funcie de metodologia de calcul, de ncrctura informaional, n statistic se calculeaz urmtorii indicatori sintetici ai mprtierii:

abaterea medie liniara; abaterea medie ptratic (deviaia standard); dispersia (variana); coeficientul de variaie. Indicatorii sintetici pot fi calculai ca mrimi medii, cu sfer de aplicabilitate

numai la variabile comparabile i ca mrimi relative, de coeficieni, cu sfer larg de comparabilitate.

Abaterea medie liniar (d) se calculeaz ca medie aritmetic simpl sau ponderat, n funcie de felul seriei, a abaterilor termenilor seriei de la media lor luate n valoare absolut adic:

n

xxd

ix

= pentru o serie simpl;

i

iix

n

nxxd

= pentru o serie de frecven;

100

nxxd

*ii

x = pentru o serie de frecvene relative

Acest indicator poate fi concludent numai dac seria prezint un grad mare de omogenitate.

Observaii privind coninutul i metodologia de calcul ale abaterii medii (Al. Isaic- Maniu i colab., 1994)

abaterea medie se exprim n unitatea de msur a caracteristicii; n cazul seriilor de distribuie de frecvene pe intervale n locul variabilelor xi se

vor lua n calcul centrele de interval;

5

n calculul abaterii medii ne putem limita numai la valorile individuale ale caracteristicii superioare valorii medii, deoarece ntr-o serie de distribuie suma algebric a abaterilor pozitive este egal cu suma abaterilor negative absolute;

abaterea medie calculat n raport cu media aritmetic ( )sd este mai mare, de regul, dect abaterea medie calculat n raport cu mediana ( )Med

abaterile mari n valoare absolut influeneaz n msur mai mare gradul de variaie al unei caracteristici, n comparaie cu abaterile mai mici.

Dispersia (s2) se calculeaz ca o medie aritmetic simpl sau ponderat a ptratelor abaterilor termenilor seriei de la media lor. Astfel:

( )

n

xx2

i2x

= pentru o serie simpl;

( )

i

i

2

i2x n

nxx

= pentru o serie de frecven;

( )

100

nxx *i2

i2x

= pentru o serie de frecvene relative; unde m,1i = Abaterea medie ptratic sau abaterea standard () se calculeaz ca o medie

ptratic simpl sau ponderat a abaterilor valorilor seriei fa de media lor, respectiv rdcina ptrat din dispersie:

2= Abaterea medie ptratic reflect ntr-o mai mare msur influena factorilor

aleatori comparativ cu abaterea medie liniar. Abaterile extreme prin ridicarea la ptrat au o influen mai mare dect abaterile intermediare, mai apropiate de medie.

Abaterea medie ptratic este mai mare dect abaterea medie liniar ( )d> . Coeficientul de variaie (v) se calculeaz ca raport procentual ntre abaterea

medie liniar sau abaterea medie ptratic i media aritmetic:

100x

;100x

d ==

Coeficientul de variaie arat cte uniti din abaterea medie liniar sau din cea ptratic revin la 100 de uniti de medie.

Coeficientul de variaie, comparativ cu ceilali indicatori ai dispersiei calculai n mrimi medii ( ),d , mrete sfera de comparabilitate a acestuia, deoarece poate fi exprimat n uniti de msur diferite.

Coeficientul de variaie poate lua valori cuprinse ntre 0-100% (0 < v < 100%).

Cnd coeficientul de variaie tinde spre zero, se consider o variaie slab, o colectivitate omogen i o medie cu un grad ridicat de reprezentativitate.

Cnd coeficientul de variaie tinde spre 100%, variaia este intens, colectivitatea eterogen, iar media are un grad de reprezentativitate redus.

Ca test de semnificaie a reprezentativitii mediei se pot stabili urmtoarele praguri de semnificaie:

0 < v < 17% media este strict reprezentativ; 17% < v < 35% media este moderat reprezentativ; 35% < v < 50% media este reprezentativ n sens larg; v > 50% medie nereprezentativ.

6

Mrimea coeficientului de variaie, ca i a abaterii medii ptratice, este direct proporional cu variaia caracteristicii.

Aceti doi indicatori reprezint un mijloc de verificare a exactitii caracterizrii care se face colectivitii prin media calculat

1.2. Aplicatie(rezolvata) Dintr-un numar de 700 de firme s-a format un esantion alcatuit din 70 de firme

la care s-a realizat un control fiscal pentru a se estima gradul de evaziune fiscala la nivelul intregii colectivitati (de 700 firme) Tabelul 1.1

Indicatorii simpli ai variaiei

amplitudinea absolut a variaiei (Ax)

Ax = xsup xinf = 208 110 = 96 u m

amplitudinea relativ a variaiei (Ax%)

2,151x

5,631002,151

110208100

x

xx%A

a

infsupx

=

==

=

7

Tabelul 1.1

Algoritmul de calcul al indicatorilor sintetici ai variatiei

Grupe de firme dupa evaziunea fiscala(1 (mil u.m.)

Numar de firme (ni)

Centrul de interval (xi)

xini (xi- x ) (xi- x )ni (xi- x )2 (xi- x )2ni

110 - 124 6 117 702 -34,2 -205,2 1169,64 7017,84 124 - 138 15 131 1965 -20,2 303,0 408,04 6120,60 138 - 152 23 145 3335 -6,2 -142,6 38,44 884,12 152 - 166 10 159 1590 7,8 78,0 60,84 608,40 166 - 180 7 173 1211 21,8 152,6 475,24 3326,68 180 - 194 2 187 374 35,8 71,6 1281,64 2563,28 194 - 208 7 201 1407 49,8 348,6 2480,04 17360,28 Total ni=70 - xini=

10584 - (xi- x )ni=0

xi-xni=1301,6

- (xi- x )2ni= 37881,11

1)Date ipotetice

x=10584

151,270

i i

i

x n

n= =

mil u.m. evaziune fiscala

8

abaterile individuale absolute (di)

xxd ii =

d1 = 117 151,2 = -34,2 d4 = 159 151,2 = 7,8 d2 = 131 151,2 = -20,2 d5 = 173 151,2 = 21,8 d3 = 145 151,2 = -6,2 d6 = 187 151,2 = 35,8 d7 = 201 151,2 = 49,8

d1 (-34,2) = abaterea minim (dmin) d7 (49,8) = abaterea maxim (dmax)

abaterile individuale relative

%6,221002,151

2,34100

x

d%d

%9,321002,151

8,49100

x

d%d

xminmin

maxmax

===

===

Indicatorii sintetici ai variaiei (Tabelul 1.1)

Caracterizeaz gradul de variaie lunar lund n consideraie toi termenii seriei . Acetia sunt:

- abaterea medie liniar ( )d ; - dispersia (2); - abaterea medie ptratic sau abaterea standard sau abaterea tip (); - coeficientul de variaie (Vx).

Abaterea medie liniar ( )xd m. u. 59,18

70

6,1301

n

n xxd

i

iix ==

=

Abaterea medie liniar arat n medie cu ct se abat termenii seriei de la media lor. Prezint dezavantajul c nu ine seama de semnul algebric i acord aceeai importan att abaterilor mici, ct i abaterilor mari. Acest indicator este un indicator concludent numai dac seria prezint un grad mare de omogenitate.

n exemplul dat, salariile nete ale persoanelor din eantion se abat n medie cu 18,59 u. m, n plus sau n minus fa de media eantionului (151,2 u.m).

Dispersia 2x este un indicator care nltur neajunsurile abaterii medii liniare, este un indicator abstract, nu are form concret de exprimare i arat modul n care valorile caracteristicii graviteaz n jurul mediei. Dispersia msoar variaia total a caracteristicii studiate datorit cauzelor eseniale i ntmpltoare.

( )16,541

70

11,37881

n

nxx

i

i

2

i2x ==

=

Acest indicator se folosete n verificarea ipotezelor statistice i n calculul altor indicatori.

Abaterea medie ptratic numit i abaterea standard sau aba-terea tip ( )x

, este un indicator care acord fiecrei abateri importana cuvenit, prin ridicarea la

9

ptrat a abaterilor. Abaterea medie ptratic este mai mare dect abaterea medie liniar ( )nd & .

Abaterea medie ptratic sau abaterea tip se folosete: - n calculele de corelaie; - la estimarea erorilor de sondaj; - la verificarea semnificaiei anumitor indicatori statistici; - la verificarea empiric a normalitii repartiiei fenomenului analizat. Astfel:

xxd 5/4 atunci seria este normal normal.

xx d 4/5 seria de distribuie se abate de la repartiia normal. Dezavantajele abaterii medii ptratice sunt: - se exprim n aceeai unitate de msur ca i variantele caracteristice (n acest

caz n uniti monetare); - nu permite compararea variaiei a dou colectiviti n care caracteristica se

exprim n uniti de msur diferite. Formula de calcul a abaterilor medii ptratice sau abaterii standard sau abaterii

tip este: 2xx =

mu 26,2316,541x ==

( ) mu 872,14m u 59,185

4d

5

4x ==

26,23872,14

n cazul exemplului dat, 5

4 din abaterea medie liniar este diferit ca valoare de

abaterea medie ptratic, adic seria de distribuie privind evaziunea fiscala medie se abate de la forma unei distribuii normale.

Coeficientul de variaie (Vx) propus de Perason se calculeaz:

- ca raport ntre abaterea medie liniar i nivelul mediu: 100x

dV

x

x = (media

calculat);

- ca raport ntre abaterea medie ptratic i media calculat: 100x

V xx

= .

Coeficientul de variaie nltur toate neajunsurile celorlali indicatori de variaie.

Acest indicator arat cte uniti din abaterea medie liniar sau ptratic revin la 100 de uniti de medie.

Totdeauna: 100 100xx d

x x

Coeficientul de variaie ia valori de la 0 100%. 0 Vx 100%. Dac: Vx = 0, nseamn lips de variaie, valorile sunt egale ntre ele i egale cu

media lor; Vx 0 variaia caracteristicii este mic; Vx 100% variaia caracteristicii este mare. Intervalul de valori al coeficientului de variaie (Vx) se poate interpreta astfel:

0 < Vx 35% - variaie mic;

10

- media este semnificativ; - colectivitatea este omogen; - gruparea este bine realizat. 35% < Vx 50% - variaie relativ mare; - media calculat i gruparea realizat

sunt discutabile. 50% < Vx 100% - variaie foarte mare; - media calculat nu este semnificativ; - colectivitatea cercetat este eterogen; - se impune refacerea gruprii.

Coeficientul de variaie poate fi folosit ca test de semnificaie a

reprezentativitii mediei astfel:

0 < Vx 17% - media este strict reprezentativ; 17% < Vx 35% - media este moderat semnificativ; 35% < Vx 50% - media este relativ reprezentativ; Vx > 50% - media nu este reprezentativ.

n exemplul dat coeficientul de variaie este:

12,29% 15,38% ;100x

d 100

x

%38,151002,151

26,23100

xV

%29,121002,151

59,18100

x

dV

xx

xx

xx

>>

==

=

===

Valorile coeficientului de variaie se situeaz sub 17% i se pot concluziona:

media calculat este strict reprezentativ; colectivitatea este omogen; gruparea este bine realizat. In concluzie, esantionul format este reprezentativ pantry cele 700 de firme. Se poate estima ca nivelul evaziunii fiscale la nivelul intregii colectivitati este de circa 105840 mil u.m.

1.3 .INTREBARI DE AUTOEVALUARE 1)Ce este dispersia? 2)Ce plus de cunoastere aduc indicatorii de variatie? 3)Ce caracterizeaza indicatorii simpli ai variatiei? 4)Ce caracterizeaza indicatorii sintetici ai variatiei? 5)Cum se calculeaza coeficientul de variatie? 6)Care este intervalul de valori a coeficientului de variatie? 7)ce reprezinta abaterea medie liniara? 8)Unde se foloseste abaterea medie patratica? 9)Unde mai poate fi folosit coeficientul de de variatie in afara de masurarea variatiei?

11

1.4. CUVINTE CHEIE Indicatori ai variatiei, ai imprastierii,ai omogenitatii; dispersie; repartitie unidimensionala; repartitie multidimensionala; amplitudinea variatiei; abaterea medie liniara; abaterea standard; coeficientul de variatie; test de semnificatie; reprezentativitatea mediei.

Cap.2. Indicatorii variatiei intr-o serie de repartitie bidimensionala 2.1. Regula de adunare a dispersiilor

Variabilitatea unitilor la nivelul unei colectiviti mprite n grupe tipice (cazul seriilor bidimensionale) este influenat att de aciunea factorilor eseniali (de grupare) ct i aciunea unor factori ntmpltori. Msurarea influenelor factorilor asupra variaiei colectivitii se realizeaz cu ajutorul sistemului indicatorilor factoriali ai variaiei: dispersia de grup sau dispersia

parial ( )2i , media dispersiilor de grup ( )2 , dispersia dintre grupe (d), dispersia total sau general ( )20 .

Dispersia de grup sau variana condiionat msoar influena factorilor ntmpltori, factori care determin variaia n cadrul unei grupe ( )ji yy .

Dispersia de grup sau dispersia parial ( )2i se calculeaz ca o medie aritmetic ponderat a ptratelor abaterilor variantelor caracteristicii de la media grupei, dup relaia:

( )

=

jij

jij

2

ij2i n

nyy

Media dispersiilor de grup ( )2 se calculeaz ca o medie aritmetic simpl sau ponderat a dispersiilor pariale astfel:

r

2i2 = pentru grupe cu un numr egal de uniti;

=

i

i2i2

n

n pentru grupe cu un numr diferit de uniti.

Acest indicator msoar variaia ntmpltoare a caracteristicii studiate pe ntreaga colectivitate.

Dispersia dintre grupe (d2) se calculeaz ca o medie aritmetic ponderat a ptratelor abaterilor mediilor de grup fa de media colectivitii generale.

( )

=i

i0i2

n

nyy

Acest indicator reflect variaia caracteristicii dependente datorat aciunii cauzelor eseniale pe ntreaga colectivitate.

12

Dispersia total sau general ( )20 se calculeaz ca o medie aritmetic ponderat a abaterilor termenilor fa de media total.

( )

=j

j020 n

nyyj

Acest indicator msoar variaia total a caracteristicii dependente (yj), variaie datorat aciunii cumulate a cauzelor eseniale i ntmpltoare care se ntlnesc la nivelul ntregii colectiviti.

n colectivitile eterogene n care acioneaz un numr mai mare de factori, valoarea dispersiei generale este mai mare.

Regula de adunare a dispersiior ( )22i20 += arat relaia dintre dispersia total i cele dou dispersii factoriale i este o relaie important n statistic. Pe baza acestei relaii se pot calcula i ali indicatori folosii n analiza seriilor statistice de distribuie multidimensionale cum sunt: coeficientul de determinaie (R2) i coeficientul de nedeterminaie (1-R2).

Coeficientul de determinaie (R2) stabilete ct la sut din variaia total este determinat de factorul de grupare sau cauz. Cu ct valoarea lui se apropie de sut, cu att factorul de grupare este mai pertinent.

Relaia de calcul este:

100R 20

22

=

Coeficientul de nedeterminaie (K2 = 1-R2) se calculeaz dup urmtoarea formul:

100K 20

2i2

=

ntre cei doi coeficieni exist urmtoarea relaie: R2 + K2 = 1

Dac R2>1-R2, nseamn c factorul de grupare acioneaz n mod hotrtor asupra variaiei caracteristicii yj, iar dac R2

13

Tabelul nr. 2.1 Gruparea combinat a firmelor n funcie de frauda constatata si de profitul net

Grupe de firme dupa profitul net realizat(mil u.m.) Grupe de firme dupa

frauda medie constatata mil u.m.

110-130 131-150 151-170 171-190 191-206

Total

I. 18-25 7 7 0 0 0 14 II. 26-40 5 6 7 7 5 30 III. 41-65 17 26 11 9 7 70

Tabelul nr. 2.2 Algoritm de calcul al mediei i dispersiei pentru Grupa I

Grupe de firme dupa profitul net

realizat (mil u.m.)

Numr de

firme (n1)

Centrul de interval

(xi)

xin1

( ) 121i nxx

110-130 7 120,0 840,0 735,44 131-150 7 140,5 983,5 735,44 151-170 0 160,5 0 0 171-190 0 180,5 0 0 191-206 0 198,5 0 0

Total = 14n1 - = 1inx5,1823 ( ) = 121i nxx88,1470

(120 130,25)2 7

(140,5 130,25)2 7

Profitul mediu al firmelor care produc o frauda de 18 ~ 25 mil u.m.

u.m. 25,13014

5,1823

n

nxx

1

1i1 ===

Dispersia grupei I ( )

06,10514

88,1470

1

12

121 ==

=

n

nxxi

14

Tabelul nr. 2.3 Algoritm de calcul al mediei i dispersiei pentru Grupa a II-a

Grupe de

firme dupa profitul net

realizat (mil u.m.)

Numr de firme (n2)

Centrul de

interval (xi)

xin2

( ) 222i nxx

110-130 5 120,0 600 8302,8 131-150 6 140,5 843 2460,4 151-170 7 160,5 1123,5 0,4 171-190 7 180,5 1263,5 2730,4 191-206 5 198,5 992,5 7125,3

Total = 30n2 - 4822,5nx 2i =

( ) 3,20619nxx 2222 =

(120 160,75) 5 Media profitului net din grupa a II-a de frauda constatata (26 ~ 40 mil.u.m.)

u.m. 75,16030

5,4822

n

nxx

2

2i2 ===

Dispersia firmelor din grupa a II-a de frauda n funcie de profitul net ( )

31,68730

3,20619n

nxx

2

22

2i22 ==

=

Tabelul nr. 2.4

Algoritm de calcul al mediei i dispersiei pentru Grupa a III-a

Grupe de firme dupa profitul net

realizat (mil u.m.)

Numr de firme

(n3)

Centrul de

interval (xi)

xin3

( ) 323i nxx

110-130 5 120,0 600 3691,0 131-150 13 140,5 1826,5 578,4 151-170 4 160,5 642,0 710,7 171-190 2 180,5 361,0 2221,7 191-206 2 198,5 397,0 5263,5

Total = 26n3 - 5,3826nx 3i = ( ) 3,12471nxx 323i =

Media profitului net din grupa a III-a de frauda constatata (41 ~ 65 mil u.m.)

u.m. 17,14726

5,3826

n

nxx

3

3i3 ===

Dispersia firmelor din grupa a III-a de frauda n funcie de profitul net

15

( )66,479

26

3,12471

3

32

323 ==

=

n

nxxi

Tabelul nr. 2.5

Total eantion

Grupe de

firme dupa profitul net

realizat (mil u.m.)

Numr de firme

(ni)

Centrul de

interval (xi)

xini

( ) i2ii nxx

110-130 17 120,0 2040,0 14894,72 131-150 26 140,5 3653,0 2153,06 151-170 11 160,5 1765,5 1306,91 171-190 9 180,5 1624,5 8593,25 191-206 7 198,5 1389,5 16738,47

Total = 70ni - 5,10472nx ii = ( ) 41,43686nxx i2ii =

Media eantionului

u.m. 60,14970

5,10472

n

nxx

i

ii0 ===

Dispersia total a eantionului

( )10,624

70

41,43686

n

nxx

i

i2

i20 ==

=

Media dispersiilor de grup ( )2 Se calculeaz media ponderat a celor 3 dispersii pe grupe.

( ) ( ) ( )74,493

70

2666,4793031,6871466,105 2 =++=

Dispersia dintre grupe ( 2)

( )

( ) ( ) ( )

202 =

=

i

ii

n

nxx

16

( ) ( ) ( )

36,13070

0,912570

266,14917,147306,14975,160146,14925,130 222

==

=++=

i

Regula de adunare a dispersiilor 222

0 += 624,1 = 493,74 + 130,36 Coeficientul de determinaie (R2) i nedeterminaie (1 R2) Coeficientul de determinaie

%9,201001,624

36,130100

20

22 ===

R

Coeficientul de nedeterminaie (1 R2)

%1,791001,624

74,493100

R1 20

22 ===

20,9% + 79,1% = 100% Se constat c R2 < 1 R2, deci coeficientul de determinaie este mai mic dect

coeficientul de nederminaie, prin urmare frauda firmelor nu este in functie de profitul net, frauda fiind influentata in mare masura de alte cauze (factori).

2.3.INTREBARI DE AUTOEVALUARE 1)Ce este dispersia de grupa sau varianta conditionata? 2)Ce arata regula de adunare a dispersiilor? 3)Ce stabileste coeficientul de determinatie? 4)Ce reflecta dispersia dintre grupe? 5)Ce masoara dispersia totala sau generala? 2.4.CUVINTE CHEIE dispersia de grupa; media dispersiilor de grupa; dispersia totala; regula de

adunare a dispersiilor; coeficientul de determinatie; coeficientul de nederminatie.

Cap.3. Verificarea ipotezelor statistice

3.1. Verificarea normalitatii repartitiilor empirice

Ipoteza statistic este presupunerea care se face cu privire la parametrii unei repartiii sau la legea de repartiie pe care o urmeaz anumite variabile aleatoare.

Ipoteza nul (H0) este ipoteza care urmeaz s fie verificat. Ea const ntotdeauna n admiterea caracterului ntmpltor al deosebirilor, adic n presupunerea c nu exist deosebiri eseniale.

Testul sau criteriul de semnificaie este procedeul de verificare a unei ipoteze statistice.

Eroarea de genul nti este procedeul de verificare a unei ipoteze statistice. Riscul de genul nti este posibilitatea comiterii erorii de genul nti. Se mai numete

i nivel (prag) de semnificaie sau nivel (prag) de ncredere.

17

Eroarea de genul al doilea este eroarea pe care o facem acceptnd o ipotez fals. Riscul de genul al doilea este posibilitatea comiterii erorii de genul al doilea.

Testul de normalitate 2 ( hi patrat)

Pentru verificarea corespondenei dintre distribuiile teoretice i cele empirice se folosete testul 2 .

Se parcurg urmtoarele etape: a) se procedeaz la mprirea n grupe a colectivitii cercetate dup variabila xi n aa

fel nct numrul unitilor din fiecare grup s fie 5; b) se determin media ( )x i abaterea medie ptratic ( x); c) se determin abaterile normale normate

x

ii

xxz

= ;

d) se stabilesc valorile funciei F(z) care se gsesc n anexa cu distribuia normal

( ) dze2

1zF

z2

z2

= ;

e) se calculeaz valorile lui 2;

f) se compar valoarea lui 2 obinut prin calcul cu valoarea 21q

corespunztoare riscului de genul I, q1. Ipoteza se accept dac

2 21q

i se respinge n caz contrar. Valorile 2

1q se caut n tabelele ntocmite pentru distribuia variabilei 2 n funcie de riscul q1 i de numrul gradelor de libertate (r l 1);

r = numrul grupelor (intervalelor formate); l = numrul parametrilor repartiiei analizate. 3 .2 Aplicatie. Testul 2 (citeste hi patrat) Se va folosi acelai exemplu, dar n loc de 7 grupe se vor lua numai 6, deoarece se vor

cumula (numai n acest caz) ultimele dou grupe, deoarece, procedeul presupune ca frecvena pe fiecare grup (ni 5) s fie mai mare sau egal cu 5 (tabelul nr. 4.17.).

Pentru uurina calculului vom prelua valorile x i x din calculele anterioare (x = 151,2 u.m. i x = 23,26 u.m.).

Din algoritmul de calcul pentru verificarea normalitii distribuiei s-a obinut: 2 = 15,2175

Alegnd pentru riscul de genul I valoarea q1 = 0,0001 i innd seama c numrul gradelor de libertate este egal cu 3 (r l 1 = 6 2 1) n tabelul cu valorile variabilei 2 se gsete corespunztor probabilitii F( 2) = 0,999 i f = 3; 3,162

1=q (anexa

nr. 2).

Deoarece 2 < 21q

15,275 < 16,3 se poate concluziona c ipoteza cu privire la normalitatea distribuiei firmelor dup valoarea vnzrilor este real.

18

Tabelul nr. 3.1 Algoritmul pentru verificarea normalitatii distributiei firmelor dupa profitul net

Grupe de firme dupa profitul net mil u.m.

Numar de firme (ni)


i ai

x

x xZ

=

Anexa cu distributia normala

( )2

21

2

ZZ

F Z e dZ

=

Probabilitatea pi

npi (n=ni=70)

ni npi

22( )i i

i

n np

np =

110-124 6 117 -1,470 0,07078 0,07078 4,9546 1,0454 0,226 124-138 15 131 -0,868 0,1947 0,12392 8,6744 6,3256 4,4714 138-152 23 145 -0,266 0,3974 0,2027 14,1890 8,811 5,4714 152-166 10 159 0,335 0,6295 0,2321 16,2470 -6,247 2,4019 166-180 7 170 0,808 0,7881 0,1586 11,1020 -4,102 1,5156 180-208 9 194 1,840 0,96712 0,17902 12,5314 -3,5314 0,9952 Total n=ni=70 - - - - - - 15,5175 Explicatii (117-151,2):23,26=

-1,470 (131-151,2):23,26= -0,868 (145-151, 2):23,26= -0,266

- 0,1947-0,07078=0,12392 0,3974-0,1947=0,2027 0,6295-0,3974=0,2321 0,7881-0,6295=0,1586

0,0707870 0,1239270 0,202770 0,232170 0,158570 0,1790270

6-4,9546=1,0454 15-8,6744=6,3256 23-14,1890=8,811 10-16,2470=-6,247 7-11,1020=-4,102 9-12,5314=3,5314

(1,0454)2:4,9546=0,2206 (6,3256)2:8,6744=4,6128 (8,811)2:14,189=5,4714 (-6,247)2:16,2470=2,4019 (-4,102)2:11,1020=1,5156 (-3,5314)2:12,5314=0,9952

3.3.INTREBARI DE AUTOEVALUARE 1)Ce presupune ipoteza statistica? 2)Ce presupune ipoteza nula? 3)Ce este eroarea de genul intai? 4)Ce este riscul de genul intai? 5)Ce este eroarea de genul al doilea? 6)ce este riscul de genul al doilea? 7)Ce este testul sau criteriul de semnificatie?

3.4.CUVINTE CHEIE Verificarea normalitatii;repartitie empirica; ipoteza nula; lege de repartitie; ipoteza statistica; test de semnificatie; eroare de genul intai; ricul de genulintai; prag de semnificatie;test de normalitate.

19

Cap. 4. Sondajul statistic i modalitati de utilizare in activitatea de audit financiar

Necesitatea obinerii de informaii, cu o maxim operativitate i cu un cost ct

mai mic, a fcut din sondajul statistic cea mai utilizat form de observare parial. Obiectivul fundamental al sondajului statistic l reprezint investigarea unei pri

(eantion) din colectivitatea sau populaia statistic general n vederea extinderii rezultatelor prelucrrii datelor de selecie la nivelul colectivitii generale.

ntruct din aceeai colectivitate pot fi formate mai multe eantioane, de volume diferite sau de acelai volum, dar cu structuri diferite, informaiile obinute n urma prelucrrii datelor de selecie nu sunt informaii certe i au un caracter incert datorit erorilor obiective de reprezentativitate.

Aceasta nseamn c formularea concluziilor n urma prelucrrii datelor de selecie se face n termeni probabilistici.

4.1. Noiuni fundamentale privind procedeele de esantionare si de reprezentativitate a

esantionului.

Cercetarea selectiv, selecie sau sondaj este o noiune ampl, care cuprinde culegerea, prelucrarea, analiza i extinderea rezultatelor asupra ntregii colectiviti. Pentru aceasta se parcurg dou etape distincte:

descrierea statistic, ce presupune culegerea i prelucrarea informaiilor referitoare la eantion i calculul indicatorilor care-l definesc: media, dispersia etc.;

inferena statistic sau extinderea datelor obinute asupra ntregii colectiviti.

Cercetarea prin sondaj presupune confruntarea a dou tipuri de colectiviti: colectivitatea total pe care vrem s o cunoatem i eantionul pe care-l nregistrm. Prin urmare, ca s le putem compara trebuie s cunoatem o serie de termeni perechi, care au acelai coninut metodologic, dar difer din punctul de vedere al informaiei, astfel:

colectivitatea general colectivitatea de selecie; media colectivitii generale media colectivitii de selecie; dispersia colectivitii generale dispersia colectivitii de selecie. Orice cercetare prin sondaj presupune o pregtire prealabil pe baza unui plan

numit i dosarul unui sondaj, care necesit parcurgerea unor etape: precizarea obiectivelor sondajului, care vizeaz estimarea unor caracteristici

ale unei distribuii statistice (media, dispersia) sau verificarea unor ipoteze privind forma distribuiilor statistice, legturile dintre fenomene, evoluia fenomenelor etc.;

eantionarea, care presupune alegerea bazei de sondaj, adic populaia asupra creia se extind rezultatele obinute prin sondaj, delimitarea populaiei i verificarea gradului de omogenitate, precum i probleme privind eantionul: alegerea unitilor folosite n eantionare i alegerea tipului de sondaj i a procedeelor de eantionare;

elaborarea planului de culegere a datelor i de prelucrare a informaiilor cu precizarea indicatorilor statistici care vor rspunde cel mai bine scopului de cunoatere;

n prezent, cercetarea prin sondaj i extinde aria de investigare, datorit multiplelor avantaje pe care le prezint i care constau n:

este mai operativ i mai puin costisitoare;

20

permite un program mai vast de observare, deoarece se efectueaz pe o populaie mai mic;

se poate folosi n studiul unor fenomene social-economice complexe pentru care observarea total ar necesita cheltuieli bneti ridicate;

erorile de nregistrare sunt mai puine i mai uor de corectat; se poate folosi n testarea calitii produselor fr s duc la distrugerea

ntregului lot; se poate folosi ca mijloc de control, de testare, n cazul organizrii unei

observri totale, n vederea corectrii eventualelor necorelri sau carene n organizare.

Rezultatele unui sondaj statistic depind de reprezentativitatea eantionului. Un eantion este reprezentativ dac reuete s reproduc n mod asemntor colectivitatea general. O reprezentativitate perfect nu se poate realiza dect cu totul ntmpltor; de aceea se admite c reprezentativitatea este bun dac greutile specifice ale fiecrei grupe nu difer cu mai mult de 5%, n raport cu structura colectivitii generale.

Asigurarea reprezentativitii eantionului presupune respectarea urmtoarelor condiii:

alegerea unitilor care formeaz eantionul s se fac pe principiul hazardului i cu o posibilitate calculat anticipat diferit de zero;

volumul eantionului s fie suficient de mare pentru a reda trsturile eseniale ale colectivitii generale;

includerea unei uniti n eantion s se fac independent de alte uniti. Reprezentativitatea eantionului depinde de procedeul i tipul de selecie folosit

i, bineneles, de profesionalismul persoanelor implicate n pregtirea planului de sondaj.

Verificarea reprezentativitii eantionului se face prin compararea structurii pe grupe a colectivitii de selecie cu cea a colectivitii generale, numit i structur programat, folosind urmtoarea relaie:

n

nnk

psd

= unde kd = coeficientul de realizare a structurii programate; ns = frecvena absolut a sondajului efectuat;

np = frecvena absolut a eantionului teoretic; n = frecvena total a eantionului. Testarea reprezentativitii se mai poate face i prin calcularea abaterilor de

structur a eantionului efectuat fa de structura programat astfel:

n

Ffk iif

= n care: kf = coeficientul de abatere de la structura programat

fi = frecvena relativ a distribuiei eantionului efectuat; Fi = frecvena relativ a distribuiei populaiei totale. Testarea se mai poate realiza i prin compararea mediei de sondaj cu cea

calculat pentru ntreaga populaie prin relaia:

100x

xxd

0

0

x=

4.2Aplicatie(rezovata) -

21

n exemplul urmtor ne propunem s verificm gradul de reprezentativitate a unui eantion de 10% din 500 de firme, care au fost verificate in timpul unui control efectuat

Tabelul nr. 4.1.

Algoritm de calcul pentru verificarea reprezentativitii esantionului

Colectivitatea general

Selecia teoretic (10%)

Selecia efectiv (10%)

Grupe de firme dup valoarea fraudei

constatate mii u.m.

cifre absolut

e (ni)

cifre relative

(ni*)

cifre absolut

e (nt)

cifre relativ

e (nt*)

cifre absolute

(n1)

cifre relative (n1*)

80-84 85 17 8 16 10 20 84-88 210 42 21 42 24 48 88-92 130 26 13 26 12 24 92-96 75 15 8 16 4 8 Total 500 100 50 100 50 100

u.m. = uniti monetare

Tabelul nr. 4.2.

Calculul mediilor de selecie si a colectivitii generale


xini xint xin1

82 6970 456 820 86 18060 1806 2064 90 11700 1170 1080 94 7050 752 376

Total xini = 43780 xint = 4384 xin1= 4340

Selecia teoretic sau programat reprezint un eantion ideal care s-ar fi realizat dac se extrgeau din fiecare grup 10% din unitile componente.

Media colectivitii generale 56,87500

43780x0 == mii u.m.

Media seleciei teoretice 68,8750

4384x t == mii u.m.

Media seleciei efectuate 80,8650

4340x1 == mii u.m.

Media seleciei teoretice este mai aproape de media colectivitii generale, cum era i normal, dar i media seleciei realizate este foarte apropiat de media colectiviii generale, ceea ce conduce la concluzia c eantionul este reprezentativ.

Vom verifica n continuare reprezentativitatea eantionului i prin alte mijloace de testare (tabelul 4.3.)

22

Tabelul nr. 4.3.

Algoritm de calcul pentru verificarea reprezentativitii eantionului pe baza coeficientului de abatere de la structura programat

Selecia teoretic Selecia efectuat Grupe de firme dup valoarea fraudei

constatate mii u.m.

Numrul de firme (nt)

Cifre relative

Numrul de firme (n1)

Abateri (df) (nt-n1)

80-84 8 16 10 -2 84-88 21 42 24 -3 88-92 13 26 12 1 92-96 8 16 4 4 Total 50 100 50 10df =

Coeficientul de abatere de la structura programat ( )fd

k

%201005010

n

nn100

n

dk 1tfdf ==

==

Coeficientul de reprezentativitate ( )x

d

==

==

==%14,0100

56,87

56,8768,87100

x

xx

%86,010056,87

56,8780,86100

x

xx

100x

dxd

0

0t

0

01

0x

Eantionul realizat este reprezentativ, deoarece se ncadreaz n limita admis de 5%.

4.3. Principii i procedee de eantionare

Alegerea unitilor care vor constitui eantionul se face fie dup principiul seleciei aleatoare, fie dup principiul alegerii raionale.

Principiul alegerii aleatoare sau probabilistice presupune extragerea unitilor din colectivitatea general dup jocul hazardului, fiecare unitate component avnd anse egale de a fi aleas n eantion. Acest tip de extragere se aplic de obicei cnd nu se cunoate structura colectivitii totale.

Principiul alegerii ra ionale are la baz un criteriu prestabilit i se aplic atunci cnd colectivitile sunt grupate n grupe tipice, deci cu o structur cunoscut.

n practica sondajului se folosesc mai multe procedee de constituire a eantionului:

al bilei revenite i nerevenite care se realizeaz prin extragerea n mod ntmpltor a unui cartona (sau bile) pe care n prealabil a fost nscris numrul unei uniti a colectivitii totale. Odat extras, acest cartona, sau bil, este repus sau nu n urn n funcie de varianta adaptat (revenit sau nerevenit);

mecanic care necesit ordonarea unitilor dup o caracteristic i stabilirea unui pas de numrare determinat n raport de mrimea colectivitii generale i de cea a eantionului;

23

tabelul cu numere ntmpltoare care const n nscrierea la ntmplare ntr-un tabel a numerelor care au fost mai nti amestecate. Tot la ntmplare se face i alegerea din tabel a numerelor care vor forma eantionul.

selecii dirijate i mixte care au un obiectiv special i sunt mai rar folosite n practica curent.

n practica statistic se folosesc mai multe tipuri de selecie care sunt dictate de anumite particulariti:

gradul i forma de variaie a caracteristicii studiate; modul de organizare a colectivitii totale; modul de repartiie teritorial a unitilor; procedeul de formare a eantionului. Se disting urmtoarele tipuri de selecie: selecie ntmpltoare simpl; selecie mecanic; selecie tipic (stratificat); selecie de serii; selecie n mai multe trepte; selecie secvenial (n cazul controlului calitii produselor); selecie subiectiv organizat (dirijat). Fiecare tip de selecie presupune calcularea urmtorilor indicatori: eroarea medie de reprezentativitate ( )

x ;

eroarea limit (); volumul eantionului (n); Calculul acestor indicatori pentru toate tipurile de sondaj se face dup modelul

seleciei ntmpltoare simple, cu mici modificri, n funcie de particularitile fiecrui tip de sondaj.

Selecia ntmpltoare simpl

Cnd colectivitatea este format din uniti simple i prezint un anumit grad de omogenitate se recomand acest tip de sondaj. Pentru formarea eantionului se procedeaz la extragerea unitilor n mod repetat sau nerepetat dintr-o urn sau de pe o list dinainte stabilit.

Erorile de reprezentativitate sunt mai mari n raport cu alte tipuri de selecie.

Sondajul tipic stratificat

Sondajul tipic stratificat este una din formele cele mai frecvent utilizate n practic, deoarece se efectueaz pe colectiviti care au fost n prealabil desprite n grupe omogene, dup o caracteristic esenial.

Fiecare grup va fi prezentat n eantion, fapt care va reduce eroarea de reprezentativitate.

Variaia mediilor de selecie va fi n funcie de variaia fiecrei grupe, msurat prin dispersiile de grup.

Selecia tipic poate fi: simpl, proporional i optim. Selecia tipic simpl presupune extragerea unitilor din fiecare grup, fr a

ine seama de ponderea unitilor din fiecare grup a colectivitii generale. Selecia tipic proporional are n vedere formarea unor subeantioane n

raport cu ponderea pe care o are fiecare grup n colectivitatea general. Selecia tipic optim ia n consideraie ponderea pe care o au grupele n

colectivitatea general a eantionului format. Selecia tipic d cele mai mici erori, dar este greu de aplicat.

24

Estimarea mediei privind volumul cheltuielilor totale se poate realiza pe baza indicatorului privind eroarea maxim admis, care se calculeaz astfel:

==Nn

1n

zz2

xx

Selecia de serii

Acest tip de sondaj se efectueaz n condiiile n care colectivitatea cercetat este organizat permanent pe uniti complexe (echipe, secii, brigzi, ateliere etc.)

De exemplu, dac echipa managerial a unei uzine care produce corpuri de iluminat dorete s afle cauza procentului ridicat de rebuturi, atunci va organiza un sondaj privind calitatea produselor obinute pe fiecare secie n parte. Secia este format din uniti (persoane) eterogene din punct de vedere al pregtirii, vrstei, calificrii, vechimii; prin urmare, rezultatul muncii lor este un rezultat de echip i nu de persoane luate independent. Felul cum toi aceti factori eseniali i neeseniali (din cadrul echipei) acioneaz, mpreun sau separat, dicteaz rezultatele de producie i calitatea produselor. Prin urmare, gradul de variaie a calitii produselor depinde, n primul rnd, de dispersiile care exist ntre seriile colectivitii.

Pentru fiecare serie extras se nregistreaz nivelurile individuale, se face media lor, iar eroarea de sondaj se stabilete ca diferen ntre media seriilor care au intrat n eantion i media colectivitii generale, sintetizate prin dispersia dintre grupe (d)

n cazul acestui tip de sondaj, erorile de reprezentativitate vor fi mai mici sau egale cu rezultatele sondajului simplu.

Relaiile de calcul ale celor trei indicatori sunt prezentate n tabelul nr. 4.4.

Tabelul nr. 4.4.

Indicatorii de calcul n cazul seleciei de serii

Indicatorul de selecie

Caracteristica

nealternativ

Selecia repetat

Selecia nerepetat

Selecia repetat

Selecia nerepetat

Eroarea medie de

reprezentativitate

rr

2x

2x

x0

=

=

=

=

=

1RrR

r

1RrR

r

2x

2x

x0

rr

2w

2p

w

=

=

=

=

=

1RrR

r

1R

rR

r

2w

2p

w

Eroarea limit

xxz =

xxz = ww z = ww z =

Volumul eantionului

(n) 2x

x2z

r

= ( ) 2x22x

2x

2

z1R

zRr

+=

2w

2w

2zr

= ( ) 2w22w

2w

2

z1R

zRr

+=

Erorile cercetrii selective

Erorile provenite din sondaj pot fi de dou feluri: de nregistrare i de reprezentativitate i reprezint diferena dintre valoarea indicatorilor obinui n urma

25

prelucrrii datelor din eantion i valoarea acelorai indicatori obinui n urma observrii totale.

Erorile ntmpl toare sunt de obicei puine i uor de corectat, deoarece unitile cuprinse n sondaj sunt puine. Aceste erori nu afecteaz calitatea informaiilor culese.

Erorile de reprezentativitate, dup sursa provenienei lor, pot fi: erori sistematice i erori ntmpltoare.

Erorile sistematice de reprezentativitate se produc ntr-un singur sens i sunt consecina influenei subiective a celui care efectueaz selecia prin nerespectarea principiului teoriei seleciei, de a acorda fiecrei uniti ansa de a fi selectat n eantion.

Erorile ntmpl toare de reprezentativitate se produc n ambele sensuri i sunt urmarea aciunii unei multitudini de factori care au caracter aleator.

Erorile ntmpl toare de reprezentativitate se produc n orice tip de sondaj, eliminarea lor complet fiind practic imposibil. Este posibil ns determinarea cu exactitate a mrimii lor probabile i apoi se stabilesc limitele de ncredere pentru estimaiile parametrilor colectivitii totale.

Determinarea mrimii erorilor de reprezentativitate se poate face, n principal, cu ajutorul urmtorilor indicatori:

eroarea efectiv; eroarea medie de selecie; eroarea limit. Indicatorii folosii pentru msurarea erorilor de reprezentativitate fiind mrimi ale variaiei,

nseamn c mrimea lor depinde de omogenitatea colectivitii din punctul de vedere al variabilei cercetate.

Mrimea erorilor de reprezentativitate este influenat de mrimea eantionului. Cu ct volumul eantionului crete, cu att valorile statistice obinute din eantion se vor apropia mai mult de parametrii colectivitii generale.

Conform principiilor legii numerelor mari, n teoria seleciei se afirm c dac volumul eantionului este suficient de mare, media de selecie se distribuie dup curba normal a lui Gauss-Laplace (fig. 1.).

Fig. 1. Distribuia normal a erorilor de reprezentare

Interpretarea mediilor i a erorilor de selecie se face pe baza distribuiei normale potrivit creia trebuie stabilite intervalul de ncredere, nivelurile de siguran i pragurile de semnificaie (tabelul nr. 4. 5.).

26

Tabelul nr. 4. 5.

Intervalul de ncredere, nivelul de semnificaie i pragul de semnificaie a unei distribuii normale

Intervalul de ncredere Nivelul de siguran (%)

Pragul de semnificaie (%)

x0xx

27

Metodele de esantionare folosite au fost de mai multe feluri. In functie de metodele de esantionare s-au calculat si indicatorii de selectie adecvati metodei de selectie

Pentru fiecare tip de sondaj s-a calculat i care ar fi trebuit s fie mrimea eantionului pentru ca rezultatele sondajului s fie ct mai corecte.

Tabelul nr. 4.6. Algoritmul necesar pentru determinarea indicatorilor de selecie

Grupe de firme dupa

frauda constatata (mii u.m.)

Numr de firme

(ni)

Cen-trul de interval

(xi) xi ni

( ) i2i nxx 110 - 124 6 117 702 7017,84 124 - 138 15 131 1965 6120,60 138 152 23 145 3335 884,12 152 166 10 159 1590 608,40 166 180 7 173 1211 3326,68 180 194 2 187 374 2563,28 194 - 208 7 201 1407 17360,28 Total ni = 70 xini = 10584 ( ) 1137881,nxx i2i =

Pentru a se trece la determinarea indicatorilor de selecie este necesar s se

calculeze mai nti media aritmetic, abaterea medie ptratic i coeficientul de variaie pentru a se vedea dac media este reprezentativ.

Media aritmetic:

Dispersia:

( )16,541

70

11,37881

n

nxx

i

i

2

i2 ==

=

Abaterea medie ptratic:

Coeficientul de variaie:

%38,151538,02,151

26,23

xVx ==

=

Deoarece coeficientul de variaie se situeaz sub 17%, se poate spune c media eantionului este strict reprezentativ.

. Selecia ntmpltoare simpl cu revenire sau repetat caracteristica nealternativ

1. Eroarea medie de reprezentativitate ( )x

2 dispersia n mrimea eantionului

2. Eroarea maxim admis ( )x sau eroarea limitat.

28

Produsul xx

z = se numete eroare limitat. Coeficientul z este argumentul funciei Gauss Laplace, care se gsete n

tabele statistice (anexa nr.4). Pe msur ce crete valoarea funciei, crete i valoarea argumentului, adic pe msur se crete probabilitatea, crete i intervalul de ncredere al mediei i scade exactitatea cu care se estimeaz media colectivitii generale.

Coeficientul de probabilitate z este direct proporional cu eroarea limit i invers proporional cu eroarea medie de reprezentativitate:

x

xz=

Funcia de probabilitate z este direct proporional cu mrimea coeficientului z, ea se apropie de 1 (ctre certitudine) proporional cu creterea coeficientului z. Creterea probabilitii se manifest prin mrirea intervalului de ncredere, ceea ce duce la o precizie mai sczut a rezultatelor. Pe msur ce crete probabilitatea, precizia scade.

n condiii date de probabilitate, creterea preciziei rezultatelor se obine prin mrirea volumului de selecie, adic a eantionului.

Se presupune c se dorete o eroare limit admis de 1,96 (z = 1,96) fa de eroarea maxim admis care poate fi 5

Z = 1,96 (pentru = 0,95; 78,2x =

3. Estimarea intervalului de ncredere a fraudei medii. n acest caz, pentru extinderea rezultatelor la nivelul ntregii colectiviti se

folosete procedeul extinderii directe. Acest procedeu const n estimarea parametrilor colectivitii generale pe baza rezultatelor seleciei statistice. Indicatorii obinui prin sondaj se abat de la cei reali datorit erorilor de reprezentativitate. Aceti indicatori se situeaz ntr-un interval de ncredere dat de media de selecie la care se adaug sau se scade eroarea limit, astfel:

x0xxxx +

unde: 0x = media colectivitii totale (de 700 de firme) x = media eantionului (de 70 de persoane)

x = eroarea maxim admis calculat anterior

5,4488 151,2 x 5,4488-151,2

mu 5,4488 m;u 2,151x

0

x

+

==

65,156x75,145 0 Frauda medie pe ntreaga colectivitate de 700 de firme se va situa ntre 145,75

i 156,65 u.m. Eroarea maxim de estimare a fraudei medii va fi de 5,4488 mii u.m. Dac se dorete micorarea erorii maxime cu 50%, deci n loc de 5,4488 u.m. s

fie permis o eroare ( )'x

de numai 2,7244 mii u.m., atunci este necesar mrirea eantionului. n calculul de mai sus eantionul a fost de 70 de firme.

4. Volumul noului eantion (n) se calculeaz cu urmtoarea formul.

unde: z = 7244,22

4488,5

2 ;96,1 x'

x==

=

2 = 541,16 (dispersia calculat)

29

( )2'x

= (2,7244)2.

. Selecia ntmpltoare simpl nerepetat caracteristica nealternativ

1. Eroarea medie de reprezentativitate ( )

x

=H

n1

n

2

x

unde: 2 = dispersia (2 = 541,16) n = mrimea eantionului (70) N = colectivitatea total (700 firme)

2. Eroarea maxim admis sau eroarea limit ( )

x

Se observ c, n cazul seleciei ntmpltoare simple nerepetate, valorile

indicatorilor de selecie sunt mai mici, deci rezultatele sunt mai precise dect n cazul seleciei ntmpltoare simple repetate.

3. Estimarea intervalului de ncredere ( )0x x0x

xxx + 1548,52,151x1548,52,151 0 +

35,156x05,146 0 Frauda medie se va situa ntre 146,05 i 156,35 mii u.m. la nivelul ntregii

colectiviti de 700 firme. 4. Volumul noului eantion (n) Formula de calcul a volumului eantionului n cazul seleciei simple nerepetate

este:

N

z

zn

222x

22

+

=

Se va folosi i o eroare limit mai mic cu 50%. z = 1,96

='x 574,221548,5 =

2 = 541,16; N = 700 pers

n cazul seleciei nerepetate, volumul eantionului este mai mic cu 63 de firme

(280 217).

. Selecia repetat caracteristica alternativ n cazul seleciei cu caracteristic alternativ sunt acceptate dou variante de

rspuns.

30

S presupunem c ne intereseaz numrul firmelor care vor avea o frauda mai mare sau egala cu 180 mii u.m. i, implicit, firmele care vor avea o frauda mai mica de 180 mii u.m..

Din gruparea realizata, se observ c numrul firmelor care au o frauda mai mare de 180 mii u.m. este de 9 (frecvena ultimelor dou grupe)

vom avea: media: ( )12,9% 129,070

9

n

mw ===

unde: m = numrul firmelor cu o frauda mai mare de 180 mii u.m. dispersia: w (1 w) = 0,129 (1 0,129) = 0,112

1. Eroarea medie probabil de reprezentativitate este: ( ) ( )4% 04,0

70

112,0

n

w1ww ==

=

2. Eroarea limit admis (tot pentru z = 1,96) w = zw = 1,96 0,04 = 0,078 (7,84%)

3. Limitele ntre care se va situa numrul firmelor cu o frauda de 180 mii u.m i peste 180 mii u.m (p)

w w p W + w w = 0,112

w = 0,0784 0,112 0,0784 p 0,112 + 0,0784

0,0336 p 0,1904 3,36% p 19,04%

4. Estimarea numrului de firme care vor avea o frauda de 180 mii u.m sau mai mare de 180 u.m (M)

N (W w) M N(W + w) 0,0336 0,1904 (din calculele

anterioare) 700 0,0336 M 700 0,1904

24 M 133 firme 5. Volumul noului eantion (n) S presupunem c se dorete ca eroarea limit (w) s fie redus la jumtate:

. Selecia nerepetat caracteristica alternativ

129,070

9

n

mw === , deci 12,9% este numrul firmelor care au n cadrul

eantionului o frauda mai mare de 180 de mii de uniti monetare. 1. Eroarea medie de reprezentativitate (w)

w = 0,129 n = 70 firme

31

( )

=N

n1

n

w1ww

w = 0,129

( )

=N

n1

n

w1ww

n = 70 firme

N = 700 firme

( )

%79,30379,0

9,00016,0700

701

70

129,01129,0w

==

==

=

2. Eroarea maxim admis (pentru z = 1,96) z = 1,96; w = 0,0379

w = z w = 1,96 0,0379 = 0,0743 (7,43%)

3. Limitele ntre care se va situa ponderea numrului de firme cu o frauda egala sau mai mare de 180 mii u.m.

w w p w + w 0,129 0,0743 p 0,129 + 0,0743

0,0547 p 0,2033 5,47% p % 20,33%

4. Estimarea numrului de firme care vor avea o frauda egala sau mai mare de 180 mii u.m.

N (w w) M N (w + w) w w = 0,0547 w - w = 0,2033 700 0,0547 M 0,129 + 0,2033

38 M 142 firme

5. Volumul noului eantion (n)

z = 1,96; w = 0,0743

0372,02

0743,0

2w'

w ==

=

w = 0,129; N = 700

i n cazul unei caracteristici alternative, volumul eantionului este mai mic

dac se folosete procedeul seleciei nerepetate (214 firme fa de 287 n cazul seleciei repetate).

Selecia tipic stratificat caracteristica alternativ

Acest tip de sondaj d cele mai mici erori n activitatea practic. Selecia tipic

se aplic cel mai frecvent n studiul fenomenelor social-economice care n prealabil au fost mprite n grupe omogene (straturi sau tipuri de uniti) dup o caracteristic esenial notate cu N1, N2, , Nr i reprezentate n sondaj prin volumul subean-tioanelor n1, n2, , nr.

Dac grupele n care a fost mprit colectivitatea sunt omogene, mediile de grupare ( )ix au valori apropiate de valorile indi-viduale din care s-au calculat, abaterile ntr-un sens sau altul sunt mici, iar gradul de variaie este mic.

32

Cnd caracteristica ce a stat la baza separrii unitilor n grupe calitativ omogene joac un rol important n variaia caracteristicii cercetate, mediile de grup sau pariale ( )ix se vor abate de la media colectivitii generale. Aceasta nseamn c influena cauzelor ntmpltoare va fi mai redus n raport cu cea a cauzelor eseniale. Selecia tipic poate fi: simpl, proporional, optim.

Selecia tipic simpl se caracterizeaz prin faptul c extragerea unitilor din fiecare grup se face la ntmplare fr s se in seama de ponderea unitilor din fiecare grup a colectivitii generale.

Selecia tipic proporional este acea selecie la care volumul subeantioanelor difer n raport cu ponderea pe care o are fiecare grup n colectivitatea general i

respect proporia de selecie N

n.

Selecia tipic optim presupune ca la formarea eantionului s se ia n consideraie ponderea pe care o au grupele n colectivitatea general i mrimea variaiei din interiorul grupelor msurat prin abaterea medie ptratic. Volumul subeantioanelor pe grupe (ni) se va calcula dup relaia:

=ii

iii N

Nnn

unde: Ni = numrul unitilor pe grupe; 2 = abaterea medie ptratic.

Indicatorii de selecie se vor calcula folosind media dispersiilor pariale. Calculul indicatorilor de selecie pentru sondajul tipic se realizeaz dup

urmtoarele formule (tabelul nr. 4.7.).

Tabelul nr. 4.7.

Caracteristic nealternativ Indicatorii de selecie Selecia repetat Selecia nerepetat

Eroarea medie de

reprezentativitate

n

2i

x

=

=N

n1

n

2i

x

Eroarea limit xx z = xx z =

Volumul eantionului

( )( )2x

2i

2zn

= ( )

( ) ( )N

z

zn

222

x

2i

2

+

=

Caracteristic alternativ Indicatorii de selecie Selecia repetat Selecia nerepetat

Eroarea medie de

reprezentativitate

( )n

w1ww

= ( )

=N

n1

n

w1ww

Eroarea limit ww z = ww z =

Volumul eantionului

( )2w

2 w1wzn

= ( )

NW1Wz

)W1(Wzn

22w

2

+

=

S-a realizat urmtoarea grupare combinat pe baza esantionului realizat

33

(tabelul nr. 4.8.)

Tabelul nr. 4.8.

Grupe de firme dupa frauda constatata (mii u.m.) Grupe de firme dupa tipul de activitate

110 -130 131-150 151-170 171-190 191-206 Total

I. Farmacii 7 7 0 0 0 14 II. Baruri + cazinouri

5 6 7 7 5 30

III. Servicii 5 13 4 2 2 26 Total 17 26 11 9 7 70

Se procedeaz la calcularea mediei i dispersiei pe fiecare grup, dar i pe total

eantion. Se intocmeste un tabel pe baza metodologiei de calcul privind regula de adunare a

dispersiilor (4.8).

Tabelul nr. 4.9.

Tabelul sintetic pentru determinarea mediilor i dispersiilor de grup

34

- Media dispersiilor de grup ( )2i ( ) ( ) ( )

74,49370

2666,4793031,6871406,105

n

n

i

i2i2

i =++=

=

- Media de selecie ( )x - frauda medie la nivelul intregului esantion.

4.5.6. Selecia tipic stratificat caracteristica nealternativ Eroarea medie de reprezentativitate (sau de selecie) - pentru selecia repetat

- pentru selecia nerepetat se introduce coeficientul de corecie

N

n1

Eroarea medie limit (x) - pentru selecia repetat pentru z = 1,96

- pentru selecia nerepetat

Limitele fraudei medii estimate

xxxxx 0 +

35

'x = 61,22

21,5

2

x ==

- n cazul seleciei nerepetate, tot n cazul unui z = 1,96 i 2

x'x

=

Cele 215 firme se vor repartiza pe grupe tipice, proporional cu numrul

firmelor care formeaz eantionul. Eantionul este format din 70 de firme repartizate pe grupe astfel: 20% n grupa I, 43% n grupa a II-a i 37% n grupa a III-a. Noul eantion va fi:

Farmacii 0,20 215 = 43 Baruri + cazinouri 0,43 215 = 92 Servicii diverse 0,37 215 = 80 Total 215

Selecia tipic repetat i nerepetat n cazul caracteristicii alternative

Se determin numrul de firme plasate peste media fraudei pe fiecare grup i

n funcie de aceste firme se determin greutatea specific (wi) a firmelor plasate peste medie i dispersiile de grup ( )2w (tabelul nr.4.9.):

Tabelul nr. 4.9.

Grupe de firme dupa

tipul de activitate

Nu-mr de

firme (ni)

Frauda medie pe

grup

Nr. firme plasate peste frauda medie

constatata

Greutatea specific

n

mw =

Dispersii de grup ( )ii2w w1w =

Grupa I Farmacii 14 130,25

u.m. 7 0,5 (7 :

14) 0,25

Grupa II Baruri + cazinouri

30 160,75 u.m.

14 0,47 (14 : 30)

0,2491

Grupa III Servicii diverse

70 147,17 u.m.

9 0,34 (9 : 26)

0,2244

Total 70 149,604 u.m.

30 0,43 (30 : 70)

0,2419

36

34,026

9 w;47,0

30

14 w;5,0

14

7w 321 ======

( ) ( ) ( )( ) 2244,034,0134,0

;2491,047,0147,0 ;25,05,015,0 ;w1w23

22

21ii

2i

==

=====

Media dispersiilor de grup ( )2w ( )[ ] ( ) ( ) ( )

( ) 2419,0w1w

2419,030

92244,0142491,0725,0

n

nw1w

ii

i

iii2w

=

=++=

=

Eroarea medie de reprezentativitate

( )05878,0

70

2419,0

n

w1ww ==

= (pentru selecia repetat)

( )

055758,09486,005878,0

9,0003455,0700

701

70

2419,0

N

n1

n

w1w

9,0

w

==

==

=

=

(pentru selecia nerepetat) Eroarea limit admis (w) pentru z = 1,96 w = z w = 1,96 0,05878 = 0,1152 pentru selecia repetat; w = z w = 1,96 0,055758 = 0,10928 pentru selecia nerepetat. S-a pstrat n toate cazurile un coeficient z = 1,96, deci aceeai probabilitate z

= 0,95 i s-a micorat eroarea limit cu 50% pentru a se putea face o comparaie ntre rezultatele obinute n diferite tipuri de sondaj. Rezultatele au fost apropiate. n realitate, valorile coeficientului z pot varia ntre 0,1 i 5, iar micorarea erorii limit se poate face n orice proporie. Volumul eantionului este n funcie de costul pe care i-l pot permite cei care doresc un sondaj. Un eantion mai mare, dei mai precis n privina rezultatelor obinute, este totui mai costisitor. 4.3.INTREBARI DE AUTOEVALUARE 1)Ce cuprinde cercetarea selectiva? 2)Ce etape presupune cercetarea selectiva? 3)Care sunt cele doua colectivitati pe care le presupune cercetrea prin sondaj? 4)Ce etape cuprinde dosarul unui sondaj? 5)Care sunt avantajele cercetarii prin sondaj? 6)Ce inseamna un esantion reprezentativ? 7)De cine depinde reprezentativitatea unui esantion? 8)Ce presupune principiul alegerii aleatoare? 9)Care sunt procedeele de constituire a esantionului folosite inpractica sondajului? 10)ce este sondajul stratificat? 11)Ce este intervalul de incredere? 4.4.CUVINTE CHEIE

37

cercetare selectiva; inferenta statistica; esantion; reprezentativitatea esantionului; principiul bilei revenite si al bilei nerevenite; selectie dirijata; sondaj tipic stratificat; selectie intamplatoare simpla; interval de incredere; argumentul functiei Gauss Laplace; eroare maxima admisa; nivel de semnificatie. Cap. 5 Modele econometrice de analiza a regresiei si corelatiei liniare simple si multiple

Metodele de studiere a dependenelor dintre dou sau mai multe variabile sunt

multiple. Dintre acestea cele mai reprezentative sunt cele cuprinse n analiza de regresie i corelaie. n cadrul acestor metode se studiaz dependena dintre o variabil (caracteristic) rezultativ (y) i una sau mai multe variabile (caracteristici cauzale) independente (x). Caracteristica rezultativ se mai numete caracteristic dependent, endogen sau efect, iar caracteristica independent se mai numete caracteristic factorial, exogen sau cauz.

Metoda regresiei este cea prin care se poate explica forma legturii (liniar, curbilinie ...) i se poate previziona nivelul unui factor n funcie de valorile altor factori.

Corelaia arat ct de puternic este legtura dintre variabile. Variabilele statistice se pot afla unele fa de altele n una din urmtoarele

situaii: legtura univoc, adic variabila independent x determin evoluia

variabilei dependente y fr a exista ns i o influen a variabilei y asupra variabilei x;

legtura biunivoc, caz n care ntre cele dou variabile exist o intercondiionare reciproc;

evoluie paralel, adic cele dou variabile au o evoluie similar, determinat nu de dependena dintre ele, ci de o ter variabil, cu influen simultan asupra celor dou variabile;

simpla coinciden, adic ntre cele dou variabile exist numai o potrivire numeric, neexistnd vreo dependen real.

Legturile dintre fenomene se pot clasifica dup mai multe criterii: 1) dup numrul caracteristicilor independente luate n studiu se disting: legturi simple, cnd se studiaz dependena dintre o variabil cauzal x i o

variabil y, unde y = f(x). legturi multiple cnd se studiaz dependena dintre o caracteristic depen-

dent y i dou sau mai multe caracteristici independente, unde y = f(x1, x2 ... xn) 2) dup direcia legturii , acestea pot fi: directe sau inverse. legturile directe exist n cazul n care caracteristica dependent se modific

n acelai sens cu caracteristica independent: crete x, crete i y sau dac scade x, scade i y.

legturile inverse exist n cazul n care cele dou caracteristici se modific n sens invers: una crete i cealalt scade sau invers.

3) dup timpul n care se realizeaz, legturile statistice pot fi: concomitente (sincrone) sau cu decalaj (asincrone).

38

legturile sincrone sunt cele care-i manifest efectele n aceeai perioad de timp.

legturi asincrone (cu decalaj) sunt cele n care efectele aciunii unor factori se percep dup trecerea unei perioade de timp.

4) dup forma funciei (expresia analitic a legturii) se disting: legturi liniare adic acele dependene care pot fi exprimate cu ajutorul

funciei liniare; legturi neliniare (curbilinii) care se exprim cu ajutorul funciilor neliniare

(parabol, hiperbol, funcia exponenial etc.).

Aplicarea metodelor de analiz a corelaiilor statistice presupune parcurgerea unor etape i clasificarea urmtoarelor probleme:

identificarea i ierarhizarea factorilor care determin n mod obiectiv variaia caracteristicii rezultative;

sistematizarea datelor observate, astfel nct s nu se modifice gradul i forma de variaie a caracteristicilor la care se aplic metoda corelaiei;

verificarea existenei i formei legturii dintre caracteristici, n vederea alegerii corecte a procedeelor statistice-matematice de msurare a dependenei statistice;

calcularea indicatorilor de corelaie n funcie de forma de legtur i de natura informaiei de care se dispune;

aplicarea testelor de semnificaie. 5.1. Modelul regresiei si corelatiei liniare simple

Metoda regresiei analizeaz cu ajutorul unor expresii analitice denumite funcii de regresie, modul n care variabila dependent y evolueaz n raport cu modificarea uneia sau a mai multor variabile independente x.

Forma generic a funciei de regresiei este: ( ) eX,,X,XfY k21x += K

n care e este variabila aleatoare perturbatoare sau eroarea, care reprezint efectul tuturor factorilor nespecificai, care sunt greu de cuantificat sau sunt nesemnificativi.

Principalele tipuri de modele de regresie sunt: regresia unifactorial sau simpl (cu o singur variabil factorial); regresia i corelaia curbilinie simpl (parabola de gradul II, hiperbola,

funcie exponenial); regresia i corelaia multipl care poate fi exprimat printr-o funcie liniar

sau o funcie curbilinie. Regresia liniar simpl este un model de regresie n care variabila dependent

(y) se modific liniar sub influena semnificativ a unei singure variabile independente (x).

Reprezentarea grafic a perechilor de valori obinute n timpul observrii indic prin forma norului de puncte o tendin liniar, iar modelul de analiz i predicie folosit va fi cel al regresiei unifactoriale liniare:

ixY = a + bxi + ei

unde a i b sunt parametrii necunoscui ai funciei ce urmeaz a fi estimai.

39

Parametrul a reprezint ordonat la origine i exprim valoarea lui y cnd x = 0. Acest parametru nu are semnificaie economic.

Parametrul b reprezint panta dreptei de regresie i poart denumirea de coeficient de regresie.

Acesta arat cu cte uniti se modific variabila rezultativ (y) la modificarea cu o unitate a variabilei factoriale (x).

Semnul coeficientului de regresie arat direcia legturii dintre cele dou variabile. Astfel:

dac b > 0 legtura dintre variabile este direct; dac b < 0 legtura dintre variabile este invers; dac b = 0 nu exist legtur ntre variabile. . Regresia liniara simpla si validarea modelului de regresie

Estimarea parametrilor a i b ai ecuaiei liniare de regresie se realizeaz prin metoda celor mai mici ptrate. Aceast metod se bazeaz pe criteriul minimizrii sumei ptratelor erorilor, adic minimizarea sumei ptratelor abaterilor valorilor observate (yi) de la valorile teoretice (Yx):

( ) minYySn

1ixi =

=

Sistemul de ecuaii normale devine:

=+

=+

===

==

i

n

1ii

n

1i

2i

n

1ii

n

1ii

n

1ii

yxxbxa

yxbna

Prin rezolvarea sistemului de ecuaii se obin parametrii a i b, astfel:

( )2i2iiii

2ii

xxn

yxxxya

= , xbya =

( )2i2iiiii

xxn

yxyxnb

= .

Dup estimarea parametrilor a i b se scrie funcia de regresie pe baza creia se

determin valorile teoretice ( )ix

Y prin nlocuirea succesiv a valorilor xi.

Calitatea funciei de regresie se poate aprecia prin urmtorii indicatori: 1) Eroarea standard (

xi YyS ) care se calculeaz ca o abatere ptratic a valorii

reale (yi) fa de cele teoretice (Yx).

( )n

YyS

2xi

Yyi

xi

=

2) Coeficientul de eroare (e) este cel care cuantific intensitatea variaiei n jurul funciei de regresie exprimat procentual.

40

100y

Se xi Yy=

Cu ct valoarea celor doi indicatori este mai sczut, cu att funcia aleas este mai reprezentativ pentru a reda tipul de legtur dintre variabilele cercetate.

3) Coeficientul de determinaie (D) arat proporia n care variabila independent (X) explic variaia caracteristicii dependente (Y), aceasta fiind o alt modalitate de apreciere calitativ a funciei de regresie.

( )( ) 100yy

Yy1D 2

i

2xi i

=

Variaia total a lui y fa de media sa y are dou componente:

( ) ( ) ( )yYYyyy xx +=

Variaia total

= Variaia neexplicat

de regresie

Variaia explicat

de regresie

Aceste abateri permit calcularea urmtoarelor dispersii:

dispersia total a lui y:

( )n

yy2

2y

= , exprim influena tuturor factorilor asupra variabilei y; dispersia explicat de regresie:

( )n

yYx2xy

= , exprim influena factorului asupra variaiei lui y; dispersia neexplicat de regresie (rezidual):

( )n

Yy 2x2ry = , exprim influena celorlali factori, factori reziduali,

asupra variaiei lui y. Validarea modelului de regresie se realizeaz aplicnd testul Fisher-Snedecor

(testul F) i presupune verificarea modului n care valorile teoretice Yx reconstituie valorile empirice (nregistrate).

Testul F se calculeaz pe baza relaiei:

( ) ( )Kn

Yy:

1K

yYF

2x

2

xcalc

ii

= unde K = numrul parametrilor modelului;

n = numrul de perechi de valori. Valoarea calculat a testului (Fcalc) se compar cu valoarea teoretic care se

obine din tabelele statistice Kn,1K,1F , pentru un rag de semnificaie i K 1,

n K grade de libertate. Pentru validarea modelului de regresie este necesar ca: Fcalc > Kn,1K,F

41

Ajustarea seriei statistice presupune nlocuirea termenilor empirici (termeni reali obinui prin observare) cu termeni teoretici, calculai pe baza unui model matematic, care arat tendina de variaie a caracteristicii rezultative y, dac ar fi depins numai de variaia factorului x.

Pentru verificarea calcului parametrilor funciei de regresie se folosete relaia:

ixiYy = , ceea ce arat c prin ajustare nu se face altceva dect o redistribuire a

influenei factorilor, astfel nct factorul nregistrat s influeneze sistematic n toate cazurile supuse observrii statistice.

Funcia de regresie este numai o ipotez statistic care exprim tendina medie de manifestare a legturii dintre cele dou caracteristici i reprezint doar un prim pas pentru msurarea corelaiei dintre fenomene.

Analiza corelaiei reprezint un instrument de caracterizare a intensitii legturii dintre variabile i este strns legat de analiza regresiei.

Corelaia poate fi pozitiv sau negativ, n funcie de natura legturii dintre cele dou variabile (legtura direct sau invers).

Covariaia ncearc s surprind existena i direcia legturii dintre o variabil dependent (y) i o variabil independent (x) lund n calcul abaterea fiecrui termen de la media seriei care se cerceteaz.

( )( )( )

n

yyxxY,XCov

n

1iii

=

=

unde n = numrul de perechi de date nregistrate. Semnul covarianei arat direcia legturii dintre variabile, adic

valoarea pozitiv denot o legtur direct, iar cea negativ o legtur invers. Valoarea zero a covarianei indic o lips de legtur.

Coeficientul de corelaie liniar (ry/x) este un indicator sintetic care

msoar intensitatea legturii dintre dou variabile xi i yi i ia valori ntre 1 i +1.

Cea mai utilizat formul de calcul este:

( )[ ] ( )[ ]

=

2

i2i

2

i2i

iiiixy

yynxxn

yxyxnr , unde 1 ry/x +1.

Valoarea pozitiv a coeficientului de corelaie (r > 0) indic o corelaie pozitiv,

direct ntre variabile X i Y. Cu ct valoarea coeficientului este mai apropiat de 1, cu att legtura dintre cele dou variabile este mai puternic.

Valoarea negativ a coeficientului de corelaie (r < 0) indic o legtur invers i cu ct valoarea este mai apropiat de 1, corelaia este mai puternic, dar n sens invers. Valoarea nul (r = 0) sau apropiat de zero a coeficientului de corelaie arat o legtur slab sau lipsit de legtur.

n practic sunt folosite urmtoarele aprecieri ale intensitii legturii dintre variabilele X i Y pentru diferite intervale de valori ale coeficientului de corelaie.

ry/x (0; 0,2) legtura lipsete sau este nesemnificativ; ry/x (0,2; 0,5) legtura slab; ry/x (0,5; 0,75) legtur de intensitate medie; ry/x (0,75; 0,95) legtura este puternic; ry/x (0,95; 1) legtur puternic, aproape determinist.

42

Dac ry/x 1 corelaia este puternic, iar valorile yi se grupeaz n jurul

dreptei de regresie. Dac legtura este liniar ry/x = Ry/x (raportul de corelaie). Dac ry/x Ry/x atunci legtura este neliniar i se va calcula numai Ry/x. Raportul de corelaie (Ry/x) se utilizeaz pentru a caracteriza intensitatea

legturii dintre variabile indiferent de forma legturii sau numrul de variabile cuprinse n cercetare.

( )( ) totaldispersia

rezidual dispersia1

yy

Yy1R 2

i

2xi i =

=

( )( ) totaldispersia

explicat dispersia1

yy

yYR 2

i

2

x i

=

Raportul de corelaie ia valori ntre 0 i 1. Cu ct valoarea se apropie mai mult

de 1, cu att legtura dintre cele dou variabile analizate este mai puternic. n cazul corelaiei liniare, raportul de corelaie este egal cu

coeficientul de corelaie liniar, considerat n modul (raportul de corelaie). Semnul raportului de corelaie se determin dup semnul parametrului b din

ecuaia de regresie.

Testarea semnificaiei coeficientului de corelaie(testul t) Se impune testarea coeficientului de corelaie deoarece este foarte probabil ca

orice pereche de variabile luat n analiz (chiar i ntre cele ntre care nu exist o legtur logic) s prezinte un coeficient de corelaie nenul. Pentru a vedea dac valoarea coeficientului de corelaie este semnificativ, se calculeaz:

( ) 2nr1r

t2

xy

xy

=

unde n = numrul de perechi de valori observate.

Valoarea calculat se compar cu valoarea din tabele t, n-2 pentru un prag de semnificaie (de regul = 0,05) i n 2 grade de libertate (dreapta are doi parametri).

Dac tcalculat > tteoretic coeficientul de corelaie este semnificativ i legtura dintre X i Y nu este ntmpltoare.

5.2 Aplicaie (rezolvata) (Regresia si corelatia simpla) S se determine pe baza informaiilor din tabelul nr. 6.3: 1) modelul de regresie (corelograma); 2) ecuaia de regresie i parametrii acesteia (a i b); 3) testarea i validarea ecuaiei de regresie; 4) indicatorii de corelaie (covariana, coeficientul de regresie, coeficientul de

corelaie, raportul de corelaie);

43

5) testarea semnificaiei coeficientului de corelaie.

Tabelul nr. 5.1 Veniturile totale i ctigurile salariale medii lunare din Romnia,

pe regiuni de dezvoltare n anul 2002

Regiune de dezvoltare

Ctigul salarial nomimal net lunar milioane lei/salariat

(xi)

Veniturile totale milioane lei lunar/persoan

(yi) Nord-Est 3,41 2,0 Sud-Est 3,73 2,2 Sud 3,70 2,07 Sud-Vest 4,01 2,17 Vest 3,68 2,38 Nord-Vest 3,39 2,38 Centru 3,44 2,41 Bucureti 4,76 3,01 Total ar 3,79 2,29

Sursa: Anuarul statistic al Romniei 2003.

Venit total mil. lei/pers/lun

3,1 3 (4,76; 3,01) 2,9 2,8 2,7 2,6 2,5 2,4 2,3 (3,68; 2,38) 2,2 (4,01; 2,17)

2,1 2 3 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4

5 Ctig salarial

mil. lei/salariul

Graficul nr. 5.1. Corelograma. Distribuia pe regiuni de dezvoltare a veniturilor totale n funcie de ctigul salarial mediu net n anul 2002.

45

Din reprezentarea grafic (corelograma) graficul nr. 5.1. a rezultat o distribuie oarecum liniar a perechilor de valori ale variabilelor Xi i Y i, prin urmare ecuaia de regresie va urma modelul liniar:

y = a + bx Se calculeaz algoritmul necesar pentru determinarea ecuaiei de

regresie de tip liniar i a indicatorilor de corelaie liniar (tabelul nr. 5.2.).

Parametrii ecuaiei de regresie a i b

( ) 39,012,3083,114812,3084,7083,11462,18

xxn

yxxxya 22

i2i

iii2ii =

=

=

( ) 515,012,3083,114862,1812,3084,708

xxn

yxyxnb 22

i2i

iiii =

=

=

Dup aflarea valorilor parametrilor a i b se trece la ajustarea seriei, astfel: y1 = 0,39 + 0,515 3,41 = 2,15 (pentru x1 = 3,41) -------------------------------------- y8 = 0,39 + 0,515 4,76 = 2,84 (pentru x8 = 4,76)

Se constat c 62,18Yyixi

== ceea ce confirm legtura de tip liniar.

Validarea ecuaiei de regresie Eroarea standard:

( )2016,0

83253,0

n

YyS

2xi

Yyi

xi==

=

Coeficientul de eroare (e):

%65,810033,2

2016,0e == (cam mare gradul de eroare)

Coeficientul de determinaie (D):

( )( ) %6,53100701,0

3253,01100

yy

Yy1D 2

i

2xi i =

=

=

Coeficientul de determinaie arat c ecuaia de regresie surprinde numai 53,6%

din influene care se datoreaz factorului x, restul de 46,4% revenind altor factori.

Testul F

( ) ( )Kn

Yy:

1K

yYF

2x

2

xcalc

ii

= K = 2 (dou variabile) n = 8 (perechi de valori)

46

93,120542,0:701,028

3253,0:

12701,0

Fcalc === .

Din anexa cu valorile raportului dispersiilor F corespunztoare nivelului de semnificaie 5% (P = 95) se gsete valoarea teoretic pentru Fx; K-1; n K, adic F0,05; 1; 6 = 5,99.

Prin urmare Fcalc > Ftabelar (12,93 > 5,99) pentru = 5%; K 1 = 1 i n K = 6 grade de libertate

Pentru o probabilitate de 95% se poate valida ecuaia de regresie calculat. Coeficientul de regresie (by/x)

( )( )( ) 51,0435,1

7275,0

xx

yyxxb 2

i

iixy ==

=

Valoarea pozitiv a coeficientului de regresie arat legtura direct ntre ctigul salarial nominal net i veniturile totale.

Creterea cu o unitate monetar a ctigului salarial net (x) conduce la creterea veniturilor totale cu 0,51 uniti monetare (y).

Covariana Cov (x,y)

( )( )( )

09,08

7275,0n

yyxxY,XCov

n

1iii

==

=

= .

Valoare pozitiv confirma legtura direct dintre cele dou variabile x i y. Coeficientul de corelaie (ry/x)

( )( )( ) ( )

73,0701,0435,1

7275,0

yyxx

yyxxr

2

i

2

i

iixy =

=

=

Coeficientul de corelaie se mai poate calcula astfel:

( )[ ] ( )[ ]( )( ) 07362,1802,44812,3083,1148

64,1812,3084,708yynxxn

yxyxnr

22

2

i2i

2

i2i

iiiixy

=

=

=

=

Valoare pozitiv a coeficientului de corelaie, confirm legtura direct ntre

cele dou variabile (ctigul salarial net i veniturile totale), iar valoarea mai apropiat de +1, arat o legtur de intensitate medie.

Raportul de corelaie (Ry/x)

( )( ) 73,0701,0

3253,01

yy

Yy1R 2

2x

xy ==

= .

Valoarea raportului de corelaie egal cu valoarea coeficientului de corelaie confirm legtura direct dintre cele dou variabile.

Verificarea semnificaiei coeficientului de corelaie se calculeaz n funcie de repartiia Student:

47

( )83,3

467,0

79,145,2

467,0

73,028

73,01

73,02n

r1

rt

22xy

xycalc ===

=

=

ry/x = 0,73; n = 8 (perechi de valori empirice) ttabelar = t0,05; 8-2 = t0,05;6 = 2,447.

Coeficientul de corelaie (ry/x) este semnificativ dac: tcalculat > ttabelar

3,83 > 2,447 pentru un nivel de semnificaie de 0,05 i 6 grade de libertate.

Se poate spune c este semnificativ coeficientul de corelaie calculat i exist o legtur real de intensitate medie ntre ctigul salarial nominal net lunar i veniturile totale ale salariailor din Romnia.

5.3. Modelul regresiei si corelatiei liniare multiple

Regresia multipl poate fi exprimat printr-o funcie liniar sau o funcie curbilinie.

n cazul regresiei liniare multiple, ecuaia este de forma:

nn110xx xaxaay n1 +++= KK i presupune existena unei variabile dependente (Y) exprimat n funcie de dou sau mai multe variabile independente (x1, x2, , xn).

Coeficienii de regresie a0, a1, , an se obin cu ajutorul metodei celor mai mici ptrate.

Parametrii ecuaiei au urmtoarea semnificaie: a0 = are caracter de medie i exprim influena factorilor nenregistrai,

considerai cu aciune constant; a1, a2, ., an = numii i coeficieni pariali de regresie, arat cu ct se modific

variabila Y, cnd variabilele factoriale x1, x2, , xn se modific cu o unitate. Intensitatea de legtur se calculeaz cu ajutorul coeficientului i a

raportului de corelaie.

Coeficientul de corelaie (21 x,xy

R ) se determin cu ajutorul coeficienilor de

corelaie simpl dintre variabilele perechi ( )2121 xxxyxy

r;r;r .

5.4. Aplicaie (rezolvata). (Regresia si corelatie liniara multipla) Pe baza informaiilor de care se dispune (tabelul nr. 5.3.) s se determine:

a) existena i forma legturii prin metoda grafic; b) algoritmul de calcul pentru determinarea indicatorilor de corelaie i

a ecuaiei de regresie; c) indicatorii de corelaie: coeficientul de corelaie i raportul de

corelaie.

48

Tabelul 5.3.

Nr. crt.

Economia subterana constatata (x1)

(miliarde uniti monetare)

Numr de firme (x2) Profitul (y) (miliarde uniti

monetare) 1. 2,2 15 15 2. 1,5 14 10 3. 1,7 12 10 4. 2,5 14 15 5. 3,1 18 20 6. 2,7 17 18 7. 3,3 20 25 8. 1,1 10 8 9. 1,8 12 12 10. 2,5 15 14

a) Determinarea existenei i formei legturii (graficul nr. 5.2 i graficul nr. 5.3.):

Profit (mild. u.m.)

30 (20;25)

8446fb151f21e9c6acfb8dbb780d2829.pdf

Documents