10. metode de analizĂ legĂturilor dintre · pdf filecomercială, mărimea stocurilor,...

18
10. METODE DE ANALIZĂ STATISTICĂ A LEGĂTURILOR DINTRE FENOMENE Asupra fenomenelor de masă studiate de statistică acţionează un număr de factori principali şi secundari, esenţiali şi neesenţiali, sistematici şi întâmplători, obiectivi şi subiectivi, care se găsesc sau nu în legături reciproce. Având în vedere faptul că statistica studiază fenomenele de masă prin prisma legilor statistice care le guvernează, ce se caracterizează prin forma de tendinţă, cunoscută şi verificată numai la nivelul ansamblului, se impune în mod natural, analiza legăturilor dintre fenomenele de masă studiate de statistică tot sub forma de tendinţă a relaţiilor de cauzalitate. Se cunoaşte că în domeniile ştiinţifice, tehnice şi ale naturii, un loc important îl ocupă studiul legăturilor cauzale în care un fenomen sau mai multe determină în mod univoc schimbarea unui alt fenomen. În acest caz este vorba de o legătură funcţională de forma: (10.1) y = f(x), unde x, y pot fi variabile reale sau vectoriale. Pe lângă independenţa a două sau mai multe fenomene sau existenţa unor legături funcţionale, între acestea pot să existe legături de natură statistică. Particularitatea acestui tip de legături constă în faptul că o caracteristică X – denumită caracteristică factorială, independentă (exogenă sau cauză) exercită o anumită influenţă asupra unei alte caracteristici Y, denumită caracteristică rezultativă, dependentă (endogenă sau efect). În cadrul legăturilor statistice, unei valori a caracteristicii factoriale X îi corespunde o distribuţie de valori a caracteristicii rezultative Y, din cauză că asupra caracteristicii dependente Y exercită influenţă şi alţi factori (caracteristici), care din punctul de vedere al legăturii dintre X şi Y se consideră întâmplători. Specific legăturilor statistice (sociale, economice etc.) este faptul că legităţile ce acţionează în cadrul acestora nu pot fi verificate pentru fiecare caz în parte, ci numai la nivelul întregului ansamblu. Legăturile statistice se pot clasifica după mai multe criterii. Dacă se ia în considerare o singură caracteristică factorială, care determină o singură caracteristică rezultativă, ceilalţi factori fiind consideraţi reziduali, spunem că avem o legătură simplă. Când se iau în studiu mai mult de două caracteristici factoriale spunem că avem o legătură multiplă.

Upload: vanhanh

Post on 05-Feb-2018

254 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

10.METODE DE ANALIZĂ STATISTICĂ A LEGĂTURILOR DINTRE FENOMENE

Asupra fenomenelor de masă studiate de statistică acţionează un număr de

factori principali şi secundari, esenţiali şi neesenţiali, sistematici şi întâmplători, obiectivi şi subiectivi, care se găsesc sau nu în legături reciproce.

Având în vedere faptul că statistica studiază fenomenele de masă prin prisma legilor statistice care le guvernează, ce se caracterizează prin forma de tendinţă, cunoscută şi verificată numai la nivelul ansamblului, se impune în mod natural, analiza legăturilor dintre fenomenele de masă studiate de statistică tot sub forma de tendinţă a relaţiilor de cauzalitate.

Se cunoaşte că în domeniile ştiinţifice, tehnice şi ale naturii, un loc important îl ocupă studiul legăturilor cauzale în care un fenomen sau mai multe determină în mod univoc schimbarea unui alt fenomen. În acest caz este vorba de o legătură funcţională de forma: (10.1) y = f(x), unde x, y pot fi variabile reale sau vectoriale.

Pe lângă independenţa a două sau mai multe fenomene sau existenţa unor legături funcţionale, între acestea pot să existe legături de natură statistică. Particularitatea acestui tip de legături constă în faptul că o caracteristică X – denumită caracteristică factorială, independentă (exogenă sau cauză) exercită o anumită influenţă asupra unei alte caracteristici Y, denumită caracteristică rezultativă, dependentă (endogenă sau efect). În cadrul legăturilor statistice, unei valori a caracteristicii factoriale X îi corespunde o distribuţie de valori a caracteristicii rezultative Y, din cauză că asupra caracteristicii dependente Y exercită influenţă şi alţi factori (caracteristici), care din punctul de vedere al legăturii dintre X şi Y se consideră întâmplători.

Specific legăturilor statistice (sociale, economice etc.) este faptul că legităţile ce acţionează în cadrul acestora nu pot fi verificate pentru fiecare caz în parte, ci numai la nivelul întregului ansamblu.

Legăturile statistice se pot clasifica după mai multe criterii. Dacă se ia în considerare o singură caracteristică factorială, care determină o

singură caracteristică rezultativă, ceilalţi factori fiind consideraţi reziduali, spunem că avem o legătură simplă. Când se iau în studiu mai mult de două caracteristici factoriale spunem că avem o legătură multiplă.

Page 2: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

Metode de analiză statistică a legăturilor dintre fenomene - 10 228

De exemplu, dacă se studiază dependenţa desfacerii Y, de suprafaţa comercială X, avem o legătură simplă, dacă se studiază profitul ca funcţie de suprafaţa comercială, mărimea stocurilor, valoarea desfacerii etc., avem o legătură multiplă.

După direcţia legăturilor deosebim: a) legături directe, atunci când la creşterea (descreşterea) valorilor caracteristicii factoriale îi corespunde creşterea (descreşterea) valorilor caracteristicii rezultative; b) legături inverse, atunci când creşterii (descreşterii) valorilor unei caracteristici factoriale îi corespunde descreşterea (creşterea) valorilor caracteristicii rezultative. De exemplu, între volumul desfacerii şi încasările respective există o legătură directă.

După expresia analitică a legăturii, deosebim legături liniare sau neliniare (parabolice, hiperbolice, exponenţiale etc.).

După timpul când se produce legătura, pot fi legături sincrone (concomitente) sau asincrone (cu decalaj).

Studiul şi analiza statistică a legăturilor dintre fenomene se face atât cu meto-de simple (elementare), prin care se verifică existenţa şi forma legăturii dintre caracte-risticile înregistrate, cât şi cu metode mai complexe, utilizând unele rezultate mate-matice din studiul funcţiilor, prin care se măsoară intensitatea dependenţei statistice.

10.1. Metode elementare de caracterizare a legăturilor dintre variabilele statistice

Dintre metodele elementare de cercetare a legăturilor statistice amintim: m1) metoda seriilor statistice paralele m2) metoda grupărilor statistice m3) metoda grafică m4) metoda tabelului de corelaţie sau contingenţă m5) metoda analizei dispersionale.

Metoda seriilor statistice paralele reprezintă un procedeu simplu, ce constă în organizarea în paralel a unor serii de date statistice, în ordinea crescătoare sau descrescătoare a caracteristicii factoriale. Prin compararea seriilor de valori astfel ordonate se poate stabili dacă există sau nu anumite legături între ele, şi dacă da, care este direcţia acestora. Se pot compara în acest mod serii de distribuţie, cronologice sau teritoriale.

Seriile paralele se folosesc când avem un număr relativ mic de unităţi observate. În cazul unui număr mai mare de unităţi observate şi a unei variaţii de amplitudine mare se recurge la metoda grupărilor statistice.

Metoda grupărilor încearcă să surprindă aspectele esenţiale ale legăturilor dintre variabilele statistice, după ce unităţile colectivităţii se grupează în funcţie de caracteristica factorială. Pentru caracteristica rezultativă se calculează indicatorii derivaţi (mărimi relative sau medii) specifice fiecărei grupe.

Page 3: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

10.1. Metode elementare de caracterizare a legăturilor dintre variabilele statistice 229

Prin compararea variaţiei caracteristicii factoriale cu cea a caracteristicii rezultative se pot aproxima: caracterul legăturii, direcţia şi intensitatea ei. Pentru analiza legăturilor dintre fenomene trebuie să se obţină grupe suficiente, pentru a se desprinde corect forma de interdependenţă dintre caracteristicile luate în studiu. În general este indicat să se lucreze cu intervale de grupare egale pentru fiecare din caracteristicile implicate în analiza de corelaţie.

Metoda grafică constă în construirea graficului de corelaţie (corelogramei), pe baza unui sistem de coordonate rectangular. Valorile caracteristicii factoriale X sau intervalele acesteia se trec pe abscisă, iar pe ordonată se trec valorile caracteristicii rezultative Y sau intervalele acesteia. Fiecare unitate observată, prin valorile măsurate pentru cele două caracteristici, va determina un punct de aceste coordonate pe graficul de corelaţie. În funcţie de amplitudinea variaţiei caracteristicii factoriale se stabileşte scala de reprezentare pe abscisă. Se recomandă, ca şi pentru caracteristica rezultativă Y, să se stabilească acelaşi număr de diviziuni al scălii.

Metoda grafică se mai numeşte şi metoda “norilor de puncte”; ea stă la baza alegerii funcţiei analitice în cazul regresiei şi corelaţiei.

Corelograma dă posibilitatea stabilirii atât a existenţei legăturii, a sensului, a formei, a intensităţii, cât şi a absenţei legăturii.

Fig.10.1.

Page 4: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

Metode de analiză statistică a legăturilor dintre fenomene - 10 230

În fig.10.1. graficul a) indică absenţa unei legături între caracteristicile X şi Y, graficul b) indică o legătură directă, iar graficul c) indică o legătură inversă.

10.2. Metoda tabelului de contingenţă

Să considerăm o populaţie statistică P având un număr finit de unităţi statistice (card(P) = n), pentru care, în urma unei observări statistice, s-au înregistrat pentru caracteristicile X, Y perechile de valori distincte (xi, yj) i= k,1 , j= p,1 cu frecvenţele

absolute nij , i= k,1 , j= p,1 . nij defineşte numărul de unităţi statistice pentru care s-a înregistrat măsurătoarea xi corespunzător caracteristicii X şi yj corespunzător caracteristicii Y.

Frecvenţele absolute (efective) nij satisfac relaţia:

(10.2.1) nnp

1j

k

1iij =∑∑

= =

Analiza tabelelor de contingenţă, prin utilizarea distribuţiei cu două dimensiuni, surprinde corelaţia care există între variabilele studiate X şi Y, cât şi intensitatea dependenţei dintre acestea.

În urma înregistrării simultane a măsurătorilor asupra unităţilor populaţiei, după cele două caracteristici, se obţine tabelul de condingentă de forma:

Tabelul 10.1.

Y X yi ... yj ... yj ni.

x1 n11 ... n1j ... n1p n1. M M xi ni1 ... nij ... nip ni. M M xk nk1 ... nkj ... nkp nk. n.j n.1 n.j n.p n.. (=n)

În tabelul 10.1. nj. reprezintă numărul unităţilor statistice pentru care,

corespunzător caracteristicii X, s-a înregistrat modalitatea xi, fără a ţine seama de valorile caracteristicii (variabilei) Y. n.j defineşte numărul unităţilor statistice pentru care, corespunzător variabilei Y, s-a înregistrat modalitatea yi, fără a lua în considerare valorile înregistrate pentru caracteristica X. Numerele (10.2.2.) nij = card{u∈P: X(u)=xi ;i Y(u)=yj} din interiorul tabelului de corelaţie se mai numesc efective parţiale. Seriile

Page 5: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

10.2. Metoda tabelului de contingenţă 231

(10.2.3) ;.n

y;

.nx

p,1jj

i

k,1ii

i

==⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

reprezintă distribuţiile unităţilor populaţiei statistice după o singură caracteristică X, respectiv Y, frecvenţele lor se mai numesc efective marginale pentru variabila X, respectiv Y, n=n.. reprezentând numărul de unităţi ale populaţiei se numeşte efectiv total. Între efectivele definite mai sus există relaţiile:

(10.2.4) .nn.nn,.nnp

1j

k

1iij

k

1iiij

p

1jiij === ∑∑∑∑

= ===

Efectivele de mai sus sunt, de fapt, frecvenţe absolute pe baza lor se pot construi frecvenţele relative corespunzătoare.

(10.2.5) ..n

nf ij

ij = ,

care definesc ponderea fiecărei înregistrări (xi, yj) în raport cu efectivul total. Frecvenţele parţiale raportate la efectivele marginale se numesc frecvenţe

parţiale condiţionate:

(10.2.6) p,1*j,k,1i,.n

nff

*j

*ij*ji*j/i ==== fixat.

*jif defineşte proporţia unităţilor care au valoarea variabilei X încadrată în

modalitatea xi, în raport cu efectivul unităţilor care au în comun modalitatea yj pentru variabila Y.

În mod analog se definesc şi frecvenţele parţiale condiţionate

(10.2.7) k,1*i,p,1j,.n

nff

*i

j*i*ij*i/j ==== fixat.

Prin raportarea efectivelor marginale la efectivul total se obţin frecvenţele relative marginale pentru variabila X, respectiv Y:

p,1j,..n.n

.f;k,1i,..n.n.f j

ji

i ====

Între frecvenţele relative definite mai sus se stabilesc relaţiile:

(10.2.8) ∑∑∑∑=== =

===p

1jj

k

1ii

k

1i

p

1jij 1.f.,1.f,1f

(10.2.9) ij*j

ijij*i

ji ff.f,ff.f =⋅=⋅

Page 6: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

Metode de analiză statistică a legăturilor dintre fenomene - 10 232

Analiza tabelului de contingentă cuprinde în primul rând analiza distribuţiilor marginale corespunzătoare celor două caracteristici X, respectiv Y. Fiecare din acestea poate fi analizată ca o serie unidimensională.

Astfel, pentru seria de frecvenţe:

(10.2.10) ⎟⎟⎠

⎞⎜⎜⎝

⎛.n....n.n

x...xx:X

k21

k21

se poate calcula media ponderată:

(10.2.11) ∑∑

=

=

= ==k

1iiik

1ii

k

1iii

x.f.n

x.nx

Ţinând seama de relaţia ∑=

=p

1jiji n.n , această valoare medie este dată de

asemenea prin:

(10.2.12) ∑∑= =

=k

1i

p

1jijinx

..n1x

Pentru aceeaşi distribuţie marginală corespunzătoare caracteristicii X se obţine varianţa (dispersia):

(10.2.13) ( )

( )∑∑

∑=

=

= −=−

=k

iiik

ii

k

iii

fxxn

nxxXV

1

2

1

1

2

..

.)(

Abaterea medie pătratică σ(X) se calculează ca rădăcină pătrată din variantă, (V(X)=σ2(X)), deci avem:

(10.2.14) ),()( XVX =σ

iar coeficientul de variaţie exprimat în procente este definit prin :

(10.2.15) C(X) % = xX )(σ

100

Aceleaşi caracteristici numerice pot fi calculate pentru distribuţia marginală corespunzătoare caracteristicii Y.

Fie acum o modalitate fixată yj corespunzătoare caracteristicii Y, utilizând frec-venţele absolute (efectivele) coloanei lui yj şi valorile caracteristicii X se defineşte seria unidimensională a caracteristicii X condiţionată de modalitatea yj a caracteristicii Y:

Page 7: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

10.2. Metoda tabelului de contingenţă 233

(10.2.16) p,1j,n...nnx...xx

:Xkjj2j1

k21j =⎟⎟

⎞⎜⎜⎝

⎛ fixat

Corespunzător acestei distribuţii condiţionate de variabilă X îi corespunde: • medie condiţionată:

(10.2.17) ∑∑

∑=

=

=

= ===k

1i*j/ii

j.

k

1iiji

k

1iij

k

1iiji

j fxn

nx

n

nxx ,

pentru fiecare j= p,1 fixat; • varianţă condiţionată:

(10.2.18) ( )

( ) ;p,1j,fxx.n

nxx)X(V

k

1i*j/i

2ji

j

k

1iij

2ji

j ∑∑

=

= =−=−

=

• abatere standard:

(10.2.19) p,1j,)x(V)X( jj ==σ fixat;

• un coeficient de variaţie:

(10.2.20) p,1j,100x

)X()X(C

j

j%j =⋅

σ= fixat.

Dacă se fixează o modalitate xi a caracteristicii X, atunci aceleaşi caracteristici numerice pot fi construite pentru distribuţiile condiţionate ale variabilei Y, de modalităţile xi, i= k,1 fixat:

(10.2.21) .n...nny...yy

:yip121i

p21i ⎟⎟

⎞⎜⎜⎝

Vom obţine:

(10.2.22) ( )

.

1

2

.

1 )(,i

p

jijii

ii

p

jiji

i n

nyyYV

n

nyy

∑∑==

−==

(10.2.23) 100y

)X()Y(C)Y(V)Y(i

i%iii ⋅

σ==σ .

Page 8: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

Metode de analiză statistică a legăturilor dintre fenomene - 10 234

Valorile numerice prezentate anterior caracterizează variabilele statistice marginale şi condiţionate, ca serii unidimensionale de variabilă X, respectiv Y, fără

a stabili legături între aceste caracteristici. Pornind de la faptul că între efectivele acestor serii unidimensionale există

relaţiile de legătură (10.2.4), vom arăta că acestea conduc la anumite relaţii de legătură între aceste caracteristici numerice.

Dacă pentru fiecare j= p,1 asociem mediei condiţionate a variabilei X, x j dată de (10.2.17) frecvenţa absolută marginală n.j obţinem o nouă serie unidimensională.

(10.2.24) X = ⎟⎟⎠

⎞⎜⎜⎝

p21

p21

.n....n.nx...xx

.

Dacă pentru această serie statistică calculăm valoarea medie, atunci aceasta reprezintă o medie a mediilor condiţionate ale variabilei X, cu ponderile marginale corespunzătoare acesteia, şi care poate fi interpretată ca media variabilei X, prezentată printr-un tablou cu dublă intrare. O notăm cu x şi avem:

(10.2.25) ∑∑

=

=

= ⋅=⋅

=p

1jjjp

1jj

p

1jjj

.fx.n

.nxx .

În mod asemănător se defineşte media pentru variabila Y. Avem:

(10.2.26) ∑∑

=

=

= ⋅=⋅

=k

1iiik

1ii

k

1iii

.fy.n

.nyy .

Varianţa seriei (10.2.24) poartă numele de varianţa mediilor condiţionate pentru variabila (caracteristica) X.

Notăm cu V( x ) această varianţă şi avem:

(6.2.27) ( )

( )2

1.

1.

1.

1.

)( xn

nx

n

nxxXV p

jj

p

jjj

p

jj

p

jjj

−⋅

=−

=

=

=

=

= .

Page 9: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

10.2. Metoda tabelului de contingenţă 235

Abaterea standard a mediilor condiţionate este σ( X )= ( )XV . În mod asemănător pentru variabila Y varianţa mediilor condiţionate este dată

prin:

(6.2.28) ( )

( )2

1.

1.

1.

1.

)( yn

ny

n

nyyYV p

jj

k

iii

k

ii

k

iij

−⋅

=−

=

=

=

=

= ,

iar abaterea standard a mediilor condiţionate este σ(Y )= ( )yV . Dacă pentru variabila X, dată prin tabelul de covarianţă, considerăm varianţa

totală dată prin:

(10.2.29) ( ) .i

2k

1i

p

1ji fxx)X(V ∑∑

= =−= ,

iar media varianţelor condiţionate:

(10.2.30)

( )

∑∑

∑∑

= =

= =

=

=−

==k

1i

p

1jij

ijk

1i

p

1j

2ji

p

1jj.

p

1jj.j

n

nxx

n

n)X(V

)x(V ,

atunci pornind de la relaţia:

( ) ( )jijii xxxxxx −+−=−

se obţine relaţia

(10.2.31) )x(V)x(V)X(V += ,

adică varianţa totală a caracteristicii X este suma dintre media varianţelor distribuţiilor condiţionate şi varianţa mediilor distribuţiilor condiţionate.

Indicatorii calculaţi mai sus pe baza datelor dintr-un tabel cu dublă intrare au fost calculaţi pe baza seriilor univariate obţinute din tabel. Analizând simultan variaţia celor două caracteristici înregistrate într-un tabel cu dublă intrare, pot fi introduşi alţi indicatori statistici, dintre aceştia covarianţa măsoară intensitatea legăturii dintre cele două variabile.

Exemplul 1. Să presupunem că pentru două variabile economice (X,Y) datele înregistrate sunt conţinute în tabelul 10.2 cu dublă intrare (bivariat).

Page 10: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

Metode de analiză statistică a legăturilor dintre fenomene - 10 236

Tabelul 10.2

Y X 60 70 80 90 ni.

150 3 4 1 - 8 160 1 7 7 2 17 170 1 3 5 4 13 180 - 1 3 8 12 n.j 5 15 16 14 50

Să se calculeze caracteristicile numerice (medie, dispersie, varianţă, coeficient

de variaţie) pentru distribuţiile marginale şi condiţionate după variabilele X şi Y. Pentru variabila X avem distribuţia marginală:

⎟⎟⎠

⎞⎜⎜⎝

⎛1213178180170160150

:X ,

pentru care se obţin indicatorii: valoarea medie x =165,8, varianţa V(X)=104,36, abaterea medie standard σ(X)= )X(V =10,22 şi coeficientul de variaţie C(X)=6,16%.

Histograma din fig.10.2. prezintă distribuţia de frecvenţe marginale după caracteristica X.

02468

1012141618

150 160 170 180

Fig.10.2.

Distribuţia de frecvenţe marginale după variabila Y este:

⎟⎟⎠

⎞⎜⎜⎝

⎛141615590807060

:Y ,

Page 11: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

10.2. Metoda tabelului de contingenţă 237

pentru aceasta se obţin indicatorii: valoarea medie y =77,8, varianţa V(X)=93,16, abaterea medie standard σ(y)=9,65, coeficientul de variaţie C(Y)= 12,41% şi histograma de frecvenţe din fig.10.3.

02468

10121416

60 70 80 90

Fig.10.3.

Pentru a calcula indicatorii menţionaţi pentru distribuţiile condiţionate după variabila X este util să construim un tabel de forma:

Tabelul 10.3.

Y 60 70 80 90 X(xi) ni1 ni1xi

ni1xi2 ni2 ni2xi

ni2xi2 ni3 ni3xi

ni3xi2 ni4 ni4xi

ni4xi2

150 3 450 67500 4 600 90000 1 150 22500 0 0 0 160 1 160 25600 7 1120 179200 7 1120 179200 2 320 51200 170 1 170 28900 3 510 86700 5 850 144500 4 680 115600 180 0 0 0 1 180 32400 3 540 97200 8 1440 259200

Total 5 780 122000 15 2410 388300 16 2660 443400 14 2440 426000 Pe baza datelor din Tabelul 10.3 se obţin indicatorii distribuţiilor de frecvenţe

după variabila X, condiţionate de modalităţile variabilei Y. Avem: 1565

780x1 == ,

641565

122000)X(V 21 =−= , σI(X)=8 şi C1(X)=5,1%;

x 2=160,7, V2(X)=62,18, σ2(X)=7,89 şi C2(X)=4,91%; x 3=166,25, V3(X)=73,4, σ3(X)=8,57 şi C2(X)=5,15%; x 4=174,3, V3(X)=48,08, σ4(X)=6,93 şi C2(X)=3,98%.

Page 12: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

Metode de analiză statistică a legăturilor dintre fenomene - 10 238

Analizând coeficientul de variaţie observăm că distribuţia condiţionată de modalitatea yi=90 este cea mai omogenă.

În mod analog se calculează indicatorii medii şi ai variaţiei pentru distribuţiile de frecvenţe condiţionate după variabila Y.

10.3. Covarianţă pentru două variabile statistice

În paragraful precedent, pornind de la tabelul cu dublă intrare pentru două variabile X, Y (tabelul 10.1), folosind seriile univariate marginale şi condiţionate, au fost calculaţi diferiţi indicatori. Pe baza aceluiaşi tabel de contingenţă pot fi calculaţi indicatori de analiză a variaţiei simultane a celor două caracteristici X şi Y. Dintre aceştia vom prezenta momentele simple, momentele centrate şi covarianţa.

Pentru u şi v numere naturale, corespunzător variabilelor X şi Y se calculează pe baza datelor din tabelul de contingenţă momentele simple de ordinul u şi v prin relaţia:

(10.3.1) ∑∑= =

=k

1i

p

1jij

vj

uiv,u nyx

n1)Y,X(M

Pentru u=1 şi v=0 M1,0(X,Y)= x , iar pentru u=0 şi v=1 M0,1(X,Y)= y . Momentele centrate de ordinul u şi v se calculează ca şi momentele simple

pentru variabilele centrate X- x şi Y- y , adică avem relaţia:

(10.3.2) ∑∑= =

⎟⎠⎞⎜

⎝⎛ −⎟

⎠⎞⎜

⎝⎛ −=

k

1i

p

1jij

vj

uiv,u nyyxx

n1)Y,X(m

Covarianţa unei variabile bidimensionale (X,Y) se utilizează ca indicator intermediar în măsurarea legăturii liniare dintre cele două variabile X şi Y.

Calculul covarianţei se face cu relaţia:

(10.3.3) ( ) ( )∑∑= =

−⋅−=k

1i

p

1jijji nyyxx

n1)Y,X(cov ,

adică cov (X,Y)=m1,1(X,Y). Din (10.3.3) se obţine următoarea formulă echivalentă de calcul a covarianţei:

(10.3.4) yx)Y,X(myxnyxn1)Y,X(cov

k

1i

p

1j1,1ijji ⋅−=⋅−= ∑∑

= =.

Page 13: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

10.3. Covarianţă pentru două variabile statistice 239

Din formulele de calcul a covarianţei rezultă următoarele proprietăţi ale acesteia:

a) Covarianţa este un indicator simetric, adică are loc: cov (X,Y) = cov (Y,X).

b) Covarianţa este o funcţie omogenă în ambele variabile, adică: cov (αX,βY) = αβ cov (X,Y) oricare ar fi α,β∈3.

c) Dacă una din variabile este constantă, atunci: cov (X,Y) = 0.

d) Dacă X1, X2 sunt două variabile independente şi α,β două numere reale, atunci

cov(αX1+βX2, Y) = α cov(X,Y) + β cov(X2Y)

e) ( ) )Y(V)X(VY,Xcov ≤ Să reprezentăm grafic prin puncte de coordonate (xi, yi) valorile înregistrate

pentru variabilele X, Y. Vom obţine un grafic (fig.10.4) ce se numeşte norul de puncte al variabilei bidimensionale (X,Y).

fig.10.4.

Punctele situate în cadranele I şi III arată o legătură directă între cele două variabile X şi Y, iar cele din cadranele II şi IV pun în evidenţă o legătură indirectă. Cu cât predomină punctele dispuse, în una sau alta din cele două perechi de cadrane, în lungul uneia, respectiv alteia din cele două bisectoare, cu atât acea legătură este mai puternică.

Întrucât covarianţa nu este un indicator normalizat şi depinde de unităţile de măsură pe cele două axe, ea nu se poate utiliza direct pentru aprecierea intensităţii

Page 14: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

Metode de analiză statistică a legăturilor dintre fenomene - 10 240

legăturii, dar, pornind de la covariantă, se construieşte coeficientul liniar de corelaţie, ca indicator de măsură a intensităţii legăturii dintre două variabile.

Exemplul 1. Să se calculeze covarianţa pentru variabilele X, Y pentru care datele înregistrate sunt prezentate în tabelul 10.3 de contingenţă (exemplul 1 din §.10.2.).

Se va utiliza formula (10.3.4), iar calculele pot fi aranjate ca în tabelul următor: Tabelul 10.4

Y X (yi) (xi)

60

70

80

90

ni.

xini.

xi

2ni. ∑=

4

1jijjny ∑

=

4

1jijji nyx

150 3 4 1 - 8 1200 180000 540 81000 160 1 7 7 2 17 2720 435200 1290 206400 170 1 3 5 4 13 2210 375700 1030 175100 180 - 1 3 8 12 2160 388800 1030 185400 n.j 5 15 16 14 50 8290 1379700 - -

yjn.j 300 1050 1280 1260 3890 yj

2n.j 18000 73500 102400 113400 307300

∑=

4

1jijinx

780

2410

2660

2440

-

∑=

4

1jijij nxy

46800

168700

212800

219600

-

Se obţine cov (X,Y)=58,76, ce arată că între cele două variabile există o legătură pozitivă (directă).

10.4. Graficul de corelaţie. Curba de regresie. Raportul de corelaţie

Să presupunem că pentru o serie bivariată (X,Y) s-au înregistrat n cupluri de valori (xi, yi), i= n,1 . Dacă fiecărei perechi de valori (xi, yi) i se asociază un punct dintr-un plan, raportat la un sistem de axe carteziene, atunci spunem că s-a realizat reprezentarea grafică a seriei bivariate. Poziţionarea punctelor în plan dă o imagine a seriei bivariate, în funcţie de care se poate stabili intuitiv gradul de dispersare a unităţilor, precum şi forma legăturii dintre cele două variabile. Graficul astfel trasat poartă numele de grafic de corelaţie sau graficul norului de puncte. Pentru a obţine o concluzie cât mai veridică trebuie ca numărul de valori înregistrate să fie suficient de mare.

Page 15: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

10.5. Metoda regresiei 241

Exemplul 1. Să presupunem că variabilele X şi Y reprezintă cheltuielile de reclamă şi respectiv volumul vânzărilor. Pe parcursul a 10 luni s-au înregistrat aceste cheltuieli şi vânzări, obţinându-se astfel următoarele perechi de valori (în aceleaşi unităţi băneşti): (1,2; 101), (0,8; 92), (1,00; 110), (1,3; 120), (0,7; 90), (0,8; 82), (1,0; 93), (0,6; 75), (0,9; 91), (1,1; 105).

Folosind aceste date se obţine intuitiv legătura dintre cheltuielile de reclamă şi volumul vânzărilor prin graficul de corelaţie din fig.10.5.

Fig.10.5.

Se observă clar, de pe grafic, că la o creştere a lui xi corespunde o creştere a lui yi. Mai mult, plasând o linie dreaptă printre aceste puncte, ea poate fi folosită la o previziune asupra evoluţiei vânzărilor, corespunzătoare unei evoluţii a cheltuielilor de reclamă.

Curba de regresie asigură o sintetizare, după anumite reguli de calcul, a norului de puncte (graficul de corelaţie) prin marcarea în planul de reprezentare al norului de puncte a graficului unei funcţii analitice.

Pentru analiza dependenţei statistice, dintre variabilele X şi Y se construiesc două curbe de regresie:

a) Curba de regresie a variabilei Y în funcţie de X se construieşte pe baza perechilor de numere (xi, y i), unde y i este media distribuţiei condiţionate a variabilei Y pentru modalitatea xi.

b) Curba de regresie a variabilei X în funcţie de Y se construieşte pe baza perechilor ( x j, yj), unde x j este media distribuţiei condiţionate a variabilei X pentru modalitatea yj.

Page 16: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

Metode de analiză statistică a legăturilor dintre fenomene - 10 242

În cazul a) curba de regresie uneşte punctele (xi, y i), i= k,1 , unde

y i= ∑=

⋅p

1jijij

.iny

n1 .

În cazul b) curba de regresie uneşte punctele ( x j, yj), j= p,1 , unde

x j= ∑=

⋅k

1iiij

jxn

.n1 .

Pentru datele din Exempul 1 curba de regresie Fy/x (a lui Y în funcţie de X) şi Fx/y (a lui X în funcţie de Y) uneşte punctele respective din graficul de corelaţie deoarece la fiecare xi corespunde un singur yj şi reciproc, i,j=1,10.

Pentru datele din Exemplul 1, §.10.2. curbele de regresie Fx/y şi Fy/x au forma din fig.10.6.

Fig.10.6.

Dintre toate curbele de ajustare a evoluţiei descrise de norul de puncte, cea mai bună aproximare este asigurată de curba de regresie, FY/X în sensul că, dacă y =f(x) este o curbă de ajustare a norului de puncte, atunci:

(10.4.1) ( )2ijk

1i

p

1jij yyf −∑∑

= =

este minim când FY/X=f(x). FX/Y se bucură de aceeaşi proprietate. Analiza interdependenţei dintre fenomenele economice, sociale etc. este

deosebit de dificilă. În special, definirea conexiunii cauzale dintre fenomenele economice trebuie făcută ţinând seama de condiţiile concrete în care apar.

În general, prin conexiune cauzală înţelegem faptul că apariţia unui eveniment A determină apariţia unui eveniment B, evident în anumite condiţii, şi neapariţia evenimentului A atrage după sine neapariţia evenimentului B.

Analiza conexiunii cauzale presupune în primul rând o analiză calitativă şi apoi una cantitativă, pentru a măsura atât forma cât şi intensitatea legăturii.

Page 17: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

10.5. Metoda regresiei 243

După intensitatea conexiunii cauzale distingem: independenţa totală sau lipsa de legături, legături funcţionale sau totale şi legături relative sau statistice.

Dacă pentru variabilele statistice X şi Y s-au înregistrat datele într-un tabel cu dublă intrare, atunci caracteristica X este independentă de Y dacă distribuţiile condiţionate ale variabilei X de modalităţile variabilei Y sunt identice între ele şi de asemenea sunt identice cu distribuţia marginală după variabila X.

Conexiunea statistică este tipul de legătură cel mai des întâlnit în studiul fenomenelor din domeniul economic şi social.

Particularitatea principală a acestui tip de legătură este că la o valoare dată a variabilei factoriale X îi corespunde o distribuţie de valori ale caracteristicii rezultative Y. O dependenţă statistică se prezintă sub forma:

(10.4.2) fj = f(xi) + εj, unde εj reprezintă componenta aleatoare, care se datorează altor factori decât a variabilei X.

Pe baza graficului “norului de putere” se determină curba de regresie. Forma legăturii dintre cele două variabile se determină intuitiv prin modul de dispunere a punctelor în planul de reprezentare grafică.

Ca tipuri de legături distingem legături liniare şi neliniare. Cele neliniare pot fi la rândul lor de diferite forme: parabolice, exponenţiale etc. În fig.10.7. a) şi b) reprezintă o legătură liniară directă (pozitivă), respectiv inversă (negativă), c) una parabolică, iar d) una exponenţială.

Să revenim asupra relaţiei (10.2.31) numită egalitatea varianţelor

(10.4.3) )x(V)x(V)X(V +=

pentru variabila X, într-un tabel cu dublă intrare. Primul termen, varianţa marginală a caracteristicii X,

(10.4.4) ∑=

⎟⎠⎞⎜

⎝⎛ −=

k

1ii

2i .nxx

..n1)X(V

este rezultatul tuturor factorilor, atât a factorului de grupare cât şi a factorilor aleatori. Ea măsoară dispersia globală a caracteristicii X.

Varianţa mediilor distribuţiilor condiţionate:

(10.4.5) ( )∑=

−=p

1jj.

2j nxx

..n1)x(V

reprezintă dispersia mediilor condiţionate ale variabilei X, ea este varianţa care rezultă din gruparea aplicată şi se numeşte varianţă explicată prin grupare.

Page 18: 10. METODE DE ANALIZĂ LEGĂTURILOR DINTRE · PDF filecomercială, mărimea stocurilor, valoarea desfacerii etc., ... Analiza tabelelor de contingenţă, prin utilizarea distribuţiei

Metode de analiză statistică a legăturilor dintre fenomene - 10 244

Fig.10.7.

Media varianţelor condiţionate

(10.4.6) ( )∑=

=p

1jj.j nXV

..n1)x(V

reprezintă dispersia punctelor din “norul de puncte” în jurul curbei de regresie FX/Y. Ea se numeşte varianţă reziduală.

Raportul de corelaţie (R2) reprezintă un indicator normalizat al aprecierii intensităţii legăturii dintre cele două variabile ale tabelului de contingenţă. El se calculează după relaţia:

(10.4.7) )x(V)x(V1

)x(V)x(VR 2

Y/X −== ,

pentru explicarea lui X în funcţie de Y şi după relaţia:

(10.4.8) )y(V)y(V1

)y(V)y(VR 2

X/Y −== ,

pentru explicarea lui Y în funcţie de X.