statistica - capitolul4
TRANSCRIPT
134
Capitolul 4
ANALIZA LEGĂTURILOR DINTRE FENOMENELE ŞI PROCESELE ECONOMICE
4.1. INDICATORI: DEFINIRE, FORMULE DE CALCUL
Metoda regresiei Regresia simplă (unifactorială)
Modelul liniar Funcţia de regresie:
ix bxaYi
+= Parametrul “a“ reprezintă ordonata la origine şi arată la ce nivel ar fi
ajuns valoarea caracteristicii Y dacă toţi factorii - mai puţin cel înregistrat - ar fi avut o acţiune constantă asupra formării acesteia.
Parametrul “b” se mai numeşte şi coeficient de regresie şi reprezintă, în sens geometric, panta liniei drepte. Coeficientul de regresie “b“ arată cu cât se schimbă în medie variabila Y în cazul în care variabila X se modifică cu o unitate. Acest parametru este pozitiv în cazul legăturii directe şi negativ în cazul legăturii inverse.
Parametrii “a” şi “b” se determină din sistemul de ecuaţii normale obţinut
prin metada celor mai mici pătrate (∑=
=−n
1i
2xi i
Yy minim)( ).
În cazul în care dispunem de un număr mic de perechi de valori (xBi B, yBiB):
⎪⎪
⎩
⎪⎪
⎨
⎧
=+
=+
∑∑∑
∑∑
===
==
i
n
1ii
n
1i
2i
n
1ii
n
1ii
n
1ii
yxxbxa
yxbna
Dacă se foloseşte metoda determinanţilor se obţine:
2n
1ii
n
1i
2i
n
1iii
n
1ii
n
1i
2i
n
1ii
n
1i
2i
n
1ii
n
1ii
n
1i
2i
n
1iii
n
1ii
n
1ii
xxn
xyxxy
xx
xn
xyx
xy
a
⎟⎟⎠
⎞⎜⎜⎝
⎛−
−==
∑∑
∑∑∑∑
∑∑
∑
∑∑
∑∑
==
====
==
=
==
==
135
2n
1ii
n
1i
2
n
1ii
n
1iii
n
1ii
n
1i
2i
n
1ii
n
1ii
i
n
1ii
n
1ii
n
1ii
xxn
yxyxn
xx
xn
yxx
yn
b
i ⎟⎟⎠
⎞⎜⎜⎝
⎛−
−==
∑∑
∑∑∑
∑∑
∑
∑∑
∑
==
===
==
=
==
=
În cazul în care perechile de valori (xBi B, yBiB) se repetă de nBi B ori:
⎪⎪
⎩
⎪⎪
⎨
⎧
=+
=+
∑∑∑
∑∑
===
==
i
k
1iiii
k
1i
2ii
k
1ii
i
k
1iii
k
1ii
nyxnxbnxa
nynxbna unde ∑
=
=k
1iinn
Dacă se foloseşte metoda determinanţilor se obţine:
2
i
k
1iii
k
1i
2i
i
k
1iii
k
1iiii
k
1i
2ii
k
1ii
nxnxn
nxnyxnxnya
⎟⎟⎠
⎞⎜⎜⎝
⎛−
−=
∑∑
∑∑∑∑
==
====
2k
1iiii
k
1i
2i
k
1iiii
k
1iiii
k
1ii
nxnxn
nynxnyxnb
⎟⎟⎠
⎞⎜⎜⎝
⎛−
−=
∑∑
∑∑∑
==
===
În cazul sistematizării datelor într-un tabel cu dublă intrare în care perechile de valori (xBi B, yBjB) se repetă de n BijB ori:
⎪⎪⎩
⎪⎪⎨
⎧
=+
=+
∑∑∑∑
∑∑
= ===
==
k
i
m
jijji
k
iii
k
iii
m
jjj
k
iii
nyxnxbnxa
nynxbna
1 11.
2
1.
1.
1.
unde:
∑ ∑∑∑= = ==
===k
j
k
i
m
jijj
k
ii nnnn
1 1 1.
1.
136
∑ ∑∑ ∑∑∑= == == =
==m
j
k
iijij
k
i
m
jijji
k
i
m
jijji nxynyxnyx
1 11 11 1
Dacă se foloseşte metoda determinanţilor se obţine:
2
i
k
1iii
k
1i
2i
i
k
1ii
k
1iij
m
1jjii
k
1i
2ij
m
1jj
nxnxn
nxnyxnxnya
⎟⎟⎠
⎞⎜⎜⎝
⎛−
−
=
∑∑
∑∑∑∑∑
==
== ===
..
...
2k
1iiii
k
1i
2i
m
1jjji
k
1iiijj
k
1i
m
1ji
nxnxn
nynxnyxnb
⎟⎟⎠
⎞⎜⎜⎝
⎛−
−
=
∑∑
∑∑∑∑
==
=== =
..
..
Regresia multiplă
Modelul liniar nn22110xxx xaxaxaaY
n21++++= ...,...,,
în care: a B0B - reprezintă parametrul care exprimă factorii neînregistraţi, consideraţi
cu acţiune constantă, în afara celor consideraţi drept caracteristici factoriale; a B1B,aB2 B, ... ,aBn B - coeficienţii de regresie care arată cât se modifică
caracteristica rezultativă dacă caracteristica factorială respectivă se modifică cu o unitate;
xB1 B,xB2B, ... ,xBnB - caracteristicile factoriale incluse în raportul de interdependenţă.
Parametrii a B1B,a B2B, ... ,aBn Bse determină din sistemul de ecuaţii normale:
⎪⎪⎪
⎩
⎪⎪⎪
⎨
⎧
=+++
=+++
=+++
∑∑∑∑
∑∑∑∑
∑∑∑
ini2ninnii11ni0
ii1nii1n2i11i10
inini110
yxxaxxaxa
yxxxaxaxa
yxaxana
...
............................................................
...
..........................................................
...
Cunoscând cei n parametri ai funcţiei de ajustare, se calculează pentru fiecare unitate ecuaţia de regresie pe baza valorilor xB1B, xB2 B,…,xBnB.
137
Metoda corelaţiei
Corelaţia simplă
Covarianţa (cov(x,y))
( )( )
n
yyxxyx
i
n
1ii −−
=∑=),cov(
Coeficientul de corelaţie
Se foloseşte pentru măsurarea intensitatea legăturii liniare dintre două variabile statisice.
În cazul în care dispunem de un număr mic de perechi de valori (xBi B, yBiB):
( )( )
yx
i
n
1ii
xy n
yyxxr
σσ
−−=∑=
/
Coeficientul de corelaţie liniară simplă poate să ia valori între -1 şi +1. Între -1 şi 0, legătura dintre cele două variabile este de sens invers şi este
cu atât mai intensă, cu cât se apropie de –1. Între 0 şi +1, legătura dintre cele două variabile este directă şi este cu atât
mai intensă, cu cât se apropie de 1. Formulă de calcul simplificat:
⎥⎥⎦
⎤
⎢⎢⎣
⎡⎟⎟⎠
⎞⎜⎜⎝
⎛−
⎥⎥⎦
⎤
⎢⎢⎣
⎡⎟⎟⎠
⎞⎜⎜⎝
⎛−
−=
∑∑∑∑
∑ ∑∑
====
= ==
2n
1ii
n
1i
2i
2n
1ii
n
1i
2i
n
1i
n
1iii
n
1iii
xy
yynxxn
yxyxnr /
Dacă s-a utilizat coeficientul de corelaţie liniară simplă, pentru testarea semnificaţiei legăturii, se aplică cel mai frecvent testul t:
2nr1
rt
2xy
xy −⋅−
=/
/,
unde n reprezintă volumul eşantionului. Valoarea calculată se compară cu cea tabelară stabilită probabilistic pentru
un nivel de semnificaţie 21P /α−= şi cu n-2 grade de libertate. Dacă t BcalculatB > t BtabelarB se verifică ipoteza semnificaţiei relaţiei de corelaţie
şi dacă t BcalculatB < t BtabelarB legătura este nesemnificativă şi trebuie căutat un alt factor esenţial cu care să se studieze corelaţia.
138
Raportul de corelaţie
În cazul în care dispunem de un număr mic de perechi de valori (xBi B, yi):
( )
( )∑
∑
=
=
−
−= n
1i
2i
n
1i
2x
xy
yy
yYR
i
/ sau ( )
( )∑
∑
=
=
−
−−= n
1i
2i
n
1i
2xi
xy
yy
Yy1R
i
/
unde ixY reprezintă valorile ajustate indiferent de modelul de regresie
selectat. Raportul de corelaţie poate lua valori de la zero la +1. Dacă xyxy rR // = se confirmă ipoteza legăturii liniare. Pentru corelaţia neliniară, măsurarea gradului de intensitate a legăturii se
face numai prin raportul de corelaţie.
Corelaţia multiplă
Coeficientul de corelaţie multiplă
2xx
xxxyxy2
xy2
xyxxy
21
212121
21 r1rrr2rr
r−
−+= ////
,/ dacă 0r21 xx ≠,
şi 2
xy2
xyxxy 2121rrr //,/ += dacă 0r
21 xx =,
Raportul de corelaţie multiplă
( )
( )∑
∑
=
=
−
−−= n
1i
2i
n
1i
2xxxi
xxxy
yy
Yy1R
n21
n21
,,,
,,,/
L
L
Corelaţie neparametrică
Coeficientul de asociere
Această metodă se utilizează pentru măsurarea intensităţii legăturii a două caracteristici alternative prezentate într-un tabel de asociere de forma:
y x
yB1 B yB2 B Total
xB1 B a b a+b xB2 B c d c+d
Total a+c b+d a+b+c+d
139
Produsul ad arată gradul de realizare a legăturii directe dintre X şi Y, iar produsul bc gradul de legătură inversă între aceste două caracteristici cercetate.
Pentru stabilirea valorii numerice a coeficientului de asociere, care să indice existenţa şi intensitatea unei legături, formula cea mai utilizată este cea propusă de Yule:
bcadbcadQ
+−
=
Acest indicator poate să ia valori între -1 şi +1, arătând nu numai gradul de intensitate al asocierii celor două caracteristici, dar şi sensul ei.
Coeficienul de corelaţie a rangurilor propus de Spearman
nn
d61r 3
n
1i
2i
s −−=∑= ,
în care: d BiB - reprezintă diferenţa între rangurile perechii de valori (xBi B,yBiB); n - numărul de perechi de valori.
Coeficientul de corelaţie a rangurilor propus de Kendall:
)( 1nnS2rk −⋅⋅
= ,
în care ( )∑=
−=n
1iii QPS
unde: PBiB - numărul rangurilor mai mari care urmează rangului curent pentru
variabila dependentă; QBi B - numărul rangurilor mai mici care urmează rangului curent pentru
variabila dependentă.
140
4.2. PROBLEME REZOLVATE
Problema 1. Pentru 10 unităţi economice din acelaşi sector de activitate se cunosc datele următoare:
Tabelul 4.1.
Nr. crt. Capital fix (mii RON)
Producţia (mii RON)
A 1 2 1 140 80 2 90 50 3 110 60 4 220 120 5 80 40 6 60 30 7 130 70 8 100 60 9 150 90
10 200 110 Total 1280 710
Se cere: 1. să se argumenteze, cu ajutorul metodelor simple, existenţa, direcţia şi
forma legăturii; 2. să se determine parametrii funcţiei de regresie; 3. să se calculeze valorile funcţiei de regresie; 4. să se afle valoarea coeficientului de corelaţie. Rezolvare
1. Dintre metodele simple de evidenţiere a legăturilor dintre variabile cele mai indicate pentru acest exemplu sunt: metoda seriilor paralele interdependente şi metoda grafică.
Metoda seriilor paralele interdependente presupune ordonarea valorilor ( ix ) ale caracteristicii factoriale (capitalul fix) şi înregistrarea în paralel a valorilor ( iy ) corespunzătoare ale caracteristicii dependente (producţie), după cum se poate vedea în tabelul 4.2.
Cele două şiruri de date din tabelul 4.2. indică existenţa unei legături directe între capitalul fix şi mărimea producţiei.
141
Tabelul 4.2. Nr. crt. ix (mii RON) iy (mii RON)
A 1 2 1 60 30 2 80 40 3 90 50 4 100 60 5 110 60 6 130 70 7 140 80 8 150 90 9 200 110
10 220 120
Pentru a putea aprecia şi forma legăturii este necesar să se traseze graficul de corelaţie (figura 4.1.), care sugerează o legătură de tip liniar.
0
20
40
60
80
100
120
140
0 50 100 150 200 250
Capital fix (mii RON)
Prod
ucţie
(mii
RO
N)
Figura 4.1. Legătura dintre capitalul fix şi producţie
2. Aflarea parametrilor funcţiei liniare de regresie necesită rezolvarea
următorului sistem de ecuaţii normale:
⎪⎪
⎩
⎪⎪
⎨
⎧
=+
=+
∑∑∑
∑∑
===
==
n
1iii
n
1i
2i
n
1ii
n
1ii
n
1ii
yxxbxa
yxban
142
Calculele necesare rezolvării sistemului au fost sistematizate în tabelul 4.3., coloanele 3 şi 4.
Tabelul 4.3. Nr. crt. ix iy 2
ix ii yx 2iy ixY
0 1 2 3 4 5 6 1 60 30 3600 1800 900 32,6 2 80 40 6400 3200 1600 43,9 3 90 50 8100 4500 2500 49,6 4 100 60 10000 6000 3600 55,2 5 110 60 12100 6600 3600 60,9 6 130 70 16900 9100 4900 72,1 7 140 80 19600 11200 6400 77,8 8 150 90 22500 13500 8100 83,5 9 200 110 40000 22000 2100 111,7
10 220 120 48400 26400 4400 123 Total 1280 710 187600 104300 58100 710,3
Sistemul de ecuaţii normale este:
⎩⎨⎧
=+=+
104300b187600a1280710b1280a10
,
cu soluţiile:
321a ,−= 5650b ,=
Ecuaţia medie de estimare a legăturii liniare dintre capitalul fix şi producţie este:
ix x5650321Yi
,, +−=
La o creştere cu o mie de lei noi (RON) a capitalului fix, producţia se măreşte, în medie, cu 0,565 mii RON.
3. Valorile ajustate ale producţiei se calculează înlocuind fiecare variantă
( ix ) a caracteristicii factoriale în funcţia de regresie (vezi tabelul 4.2., coloana 6).
1232205650321Y
632605650321Y
10
1
x
x
=⋅+−=
=⋅+−=
,,
,,,
M
143
4. Coeficientul de corelaţie liniară simplă este:
=
⎥⎥⎦
⎤
⎢⎢⎣
⎡⎟⎟⎠
⎞⎜⎜⎝
⎛−
⎥⎥⎦
⎤
⎢⎢⎣
⎡⎟⎟⎠
⎞⎜⎜⎝
⎛−
−=
∑∑∑∑
∑ ∑∑
====
= ==
2n
1ii
n
1i
2i
2n
1ii
n
1i
2i
n
1i
n
1iii
n
1iii
xy
yynxxn
yxyxnr /
( )( )99280
5041005810010163840018760010710128010430010 ,=
−⋅−⋅⋅−⋅
=
Acest rezultat arată o legătură directă foarte puternică, aproape
funcţională, între variabilele înregistrate. Problema 2. Numărul mediu de angajaţi şi profitul anual înregistrat de 10
firme dintr-o subramură industrială se prezintă astfel:
Tabelul 4.4.
Nr. crt. Număr mediu de angajaţi (persoane)
Profit anual (mii RON)
0 1 2 1 13 115 2 4 45 3 12 100 4 5 50 5 6 55 6 8 85 7 3 40 8 4 50 9 5 45
10 7 70 Total 67 655
Se cere: 1. să se analizeze existenţa, direcţia şi forma legăturii; 2. să se determine parametrii funcţiei de regresie; 3. să se calculeze valorile funcţiei de regresie; 4. să se măsoare intensitatea corelaţiei dintre cele două variabile folosind
coeficientul şi raportul de corelaţie.
144
Rezolvare 1. În relaţia dintre cele două variabile factorul de influenţă este numărul
mediu de angajaţi ( )x , iar variabila rezultativă este mărimea profitului ( )y . Dintre metodele simple de evidenţiere a corelaţiei dintre două variabile am ales metoda grafică, aceasta oferind cele mai multe informaţii.
Din figura 4.2. reiese că între numărul de angajaţi şi mărimea profitului există o legătură directă, de tip liniar.
0
20
40
60
80
100
120
140
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Număr mediu angajaţi (persoane)
Prof
it an
ual (
mii
RO
N)
Figura 4.2. Legătura dintre numărul mediu de angajaţi şi valoarea profitului
2. Sistemul de ecuaţii normale necesar pentru aflarea parametrilor a şi b
ai funcţiei liniare este:
⎪⎩
⎪⎨⎧
=+
=+
∑ ∑ ∑∑ ∑
ii2ii
ii
yxxbxa
yxban
Folosind rezultatele calculelor intermediare prezentate în tabelul 4.5 (coloanele 1 - 4), se obţine sistemul:
⎩⎨⎧
=+=+
5170b553a67655b67a10
, cu soluţiile: 50727b
201715a,
,==
3. Valorile teoretice ale profitului (ixY ) se vor calcula înlocuind fiecare
valoare ( ix ) a variabilei factoriale în funcţia de regresie:
ix x50727201715Yi
,, +=
145
Rezultatele calculelor efectuate sunt prezentate în tabelul nr. 4.5., coloana 6.
Tabelul 4.5. Nr. crt. ix iy ii yx 2
ix 2iy ixY ( )2xi i
Yy −
0 1 2 3 4 5 6 7 1 13 115 1.495 169 13.225 112,80 4,86 2 4 45 180 16 2.025 45,23 0,05 3 12 100 1.200 144 10.000 105,29 27,96 4 5 50 250 25 2.500 52,74 7,50 5 6 55 330 36 3.025 60,24 27,51 6 8 85 680 64 7.225 75,26 94,88 7 3 40 120 9 1.600 37,72 5,18 8 4 50 200 16 2.500 45,23 22,75 9 5 45 225 25 2.025 52,74 59,87 10 7 70 490 49 4.900 67,75 5,05 Total 67 655 5.170 553 49.025 655,00 225,62
4. Calculele efectuate pentru determinarea parametrilor a şi b ai funcţiei liniare de regresie (tabelul 4.5.) pot fi utilizate şi pentru aplicarea formulei de calcul simplificat a coeficientului de corelaţie:
=
⎥⎥⎦
⎤
⎢⎢⎣
⎡⎟⎟⎠
⎞⎜⎜⎝
⎛−
⎥⎥⎦
⎤
⎢⎢⎣
⎡⎟⎟⎠
⎞⎜⎜⎝
⎛−
−=
∑∑∑∑
∑ ∑∑
====
= ==
2n
1ii
n
1i
2i
2n
1ii
n
1i
2i
n
1i
n
1iii
n
1iii
xy
yynxxn
yxyxnr /
[ ] [ ] 9789065549025106755310
6556751701022
,=−⋅−⋅
⋅−⋅=
Această valoare apropiată de 1 indică o legătură foarte puternică între cele
două variabile. Raportul de corelaţie se determină cu formula:
( )
( ),
∑
∑
=
=
−
−−= n
1i
2i
n
1i
2xi
xy
yy
Yy1R
i
56510655
n
yy
n
1ii
,unde ===∑= mii RON/angajat
146
Utilizând datele din tabelul 4.5., calculăm:
97890506122622551R xy ,,,
=−=
Coeficientul şi raportul de corelaţie au valori egale, ceea ce confirmă liniaritatea legăturii.
Problema 3. Se cunosc următoarele date pentru zece firme:
Tabelul 4.6 Producţie (mii tone)
Număr de salariaţi (mii pers.)
Capital fix (mil. RON)
10 1,1 2,0 12 1,3 2,1 14 1,4 2,2 16 1,2 2,3 17 1,5 2,3 20 1,7 2,1 20 1,9 2,3 21 1,9 2,4 22 2,0 2,4 23 2,1 2,5
Se cere: 1. dacă legătura dintre variabile este liniară, să se estimeze parametrii
modelului elaborat; 2. să se testeze semnificaţia parametrilor modelului şi a modelului liniar; 3. să se calculeze valorile ajustate pentru caracteristica rezultativă, pe
baza modelului validat.
Rezolvare
Se notează cu y – producţia; xB1B – numărul de salariaţi; xB2 B – capitalul fix. Modelul de regresie considerat are forma 1 2y a bx cx= + +
Rezolvare folosind EXCEL: • Se introduc datele din tabelul 4.6 într-o foaie de calcul Excel; • Se selectează din meniu Tools – Data Analysis – Regression; • În fereastra de dialog se introduce la Input Y Range câmpul A1:A11
reprezentând valorile variabilei dependente (producţia); la Input X Range se selectează câmpurile B1:C11, reprezentând valorile variabilelor independente (salariaţi şi capital fix). Se bifează Labels;
• Calculele sunt realizate pentru un prag de semnificaţie de 0,05. Dacă se doreşte modificarea pragului se bifează Confidence Level şi se modifică valoarea;
147
• Dacă se doreşte şi obţinerea valorilor reziduale ˆ( )i iy y− , se bifează Residuals. Tastaţi OK.
Se obţin rezultatele:
SUMMARY OUTPUT
Regression Statistics Multiple R 0.950237502R Square 0.902951309Adjusted R Square 0.875223112Standard Error 1.564293263Observations 10 ANOVA
df SS MS F Significance F
Regression 2 159.3709061 79.68545 32.56437 0.00028475 Residual 7 17.12909389 2.447013 Total 9 176.5 Coefficients Standard
Error t Stat P-value Lower 95% Upper 95%
Intercept -12.69677948 9.033681838 -1.40549 0.202671 -34.0580273 8.6644684 Numar de salariaţi
9.388646288 2.233077646 4.204353 0.004014 4.108260507 14.669032
Capital fix 6.673034934 5.057545859 1.319422 0.228544 -5.2861521 18.632222 RESIDUAL OUTPUT
Observation Predicted Productie Residuals
1 10.97680131 -0.97680132 13.52183406 -1.52183403 15.12800218 -1.12800214 13.91757642 2.082423585 16.73417031 0.265829696 17.27729258 2.722707427 20.48962882 -0.48962888 21.15693231 -0.15693239 22.09579694 -0.095796
10 23.70196507 -0.701965
148
Interpretarea rezultatelor: Raportul de corelaţie multiplă
21 ,/ xxyR (Multiple R) este 0,950. Arată o legătură foarte puternică între variabile.
Coeficientul de determinaţie R P
2P (R Square) are valoarea 0,903. Cu cât
este mai apropiat de 1 cu atât partea din variaţia lui y explicată de xB1B şi xB2 B este mai mare şi deci intensitatea legăturii dintre variabile este mai puternică. În acest exemplu putem spune că 90,3% din variaţia producţiei este explicată de variaţia numărului de salariaţi şi a capitalului fix, variabilele factoriale incluse în model.
Eroarea standard (Standard Error) este 1,564. Dacă această valoare ar fi nulă, toate punctele observate s-ar afla pe dreapta de regresie, aşadar e de dorit ca eroarea standard să fie cât mai apropiată de zero. În cazul nostru, condiţia este îndeplinită.
Analiza dispersională pentru validarea modelului se regăseşte în tabelul ANOVA: varianţa explicată prin model (Regression), varianţa neexplicată (Residual) şi varianţa totală (Total), pentru fiecare fiind calculate numărul gradelor de libertate, suma pătratelor şi dispersia.
Pentru a verifica, din punct de vedere statistic, modalitatea în care modelul specificat reuşeşte să conducă la reconstituirea valorilor empirice prin valorile teoretice, se foloseşte testul F. În cazul nostru, valoarea calculată de 32,56 este semnificativă, deci modelul este validat ca fiind acceptabil;
Ecuaţia modelului este: 2i x6736x389969712y ,,, ++−= : - Intercept reprezintă termenul liber (coeficientul a), care este egal
cu –12,697. Aceasta reprezintă valoarea variabilei dependente y când toate variabilele explicative sunt nule. Astfel, producţia care s-ar obţine dacă nu ar fi nici un salariat şi capitalul fix ar fi zero, este –12,697 mii tone. Desigur că în acest caz, nu are nici o semnificaţie;
- Coeficientul b are valoarea 9,389 (pozitiv, deci legătura e directă), ceea ce înseamnă că la creşterea cu o mie de persoane a numărului de salariaţi, producţia va creşte cu 9,389 mii tone;
- Coeficientul c are valoarea 6,673, ceea ce înseamnă că la creşterea cu un milion de lei a capitalului fix, producţia va creşte cu 6,673 mii tone;
În cazul în care a fost selectat Residuals, sunt calculate şi valorile previzionate ˆ( )iy , în cazul nostru Predicted Producţie, pe baza modelului de regresie validat.
149
Problema 4. Cele 10 magazine de acelaşi profil dintr-o localitate se caracterizează prin următoarele date:
Tabelul 4.7 Desfaceri (mii RON)
52 60 74 20 25 34 49 38 45 12
Suprafaţă (mp.)
41 38 72 16 21 22 23 21,5 32 15
Se cere să se măsoare legătura dintre cele două variabile folosind metode
neparametrice.
Rezolvare În vederea aplicării metodei corelaţiei vom ordona crescător valorile
caracteristicii factoriale X (suprafaţă), trecând într-o coloană alăturată valorile corespunzătoare ale caracteristicii dependente Y (desfaceri), după cum se poate vedea în tabelul următor, coloanele 1 şi 2. Vom acorda câte un rang fiecăruia din cele 10 magazine, în funcţie de mărimea suprafeţei comerciale (coloana 3) şi nivelul desfacerilor (coloana 4) şi vom măsura diferenţele dintre cele două ranguri. Aceste diferenţe vor fi ridicate la pătrat (coloana 5), suma lor urmând a fi folosită pentru calcularea coeficientului Spearman de corelaţie a rangurilor:
( )1nn
d61r 2
n
1i
2i
S −−=∑= ,
unde: id - diferenţa de rang pentru unitatea i (ii yxi RRd −= );
n - numărul observaţiilor. Se obţine 96360rS ,= (legătură puternică).
Tabelul 4.8 ix iy
ixR iyR 2
id iP iQ 1 2 3 4 5 6 7
15 12 1 1 0 9 0 16 20 2 2 0 8 0 21 25 3 3 0 7 0 21,5 38 4 5 1 5 1 22 34 5 4 1 5 0 23 49 6 7 1 3 1 32 45 7 6 1 3 0 38 60 8 9 1 1 1 41 52 9 8 1 1 0 72 74 10 10 0 0 0 Total - - - 6 42 3
150
Pentru a calcula coeficientul Kendall de corelaţie a rangurilor vom stabili pentru fiecare magazin i în parte numărul total de magazine care au un nivel superior (coloana 6), respectiv inferior (coloana 7) al desfacerilor. Pentru aceasta vom număra rangurile superioare (respectiv inferioare) yR care apar după rândul corespunzător magazinului i până la sfârşitul tabelului. De exemplu, magazinul cu desfaceri de 49 mii RON are rangul 7 după desfaceri. Dintre cele patru magazine înscrise pe rândurile următoare, 3 au ranguri yR superioare şi unul are rang yR
inferior. Este obligatoriu ca rangurile xR să fie ordonate crescător. Folosind totalurile din coloanele 6 şi 7 putem calcula coeficientul Kendall:
( )1nn
QP2r
n
1ii
n
1ii
k −
⎟⎟⎠
⎞⎜⎜⎝
⎛−⋅
=∑∑== , 870rk ,=
Datele din tabelul iniţial pot fi folosite pentru a construi un tabel de asociere. Pentru aceasta am calculat valoarea medie a desfacerilor (41 mii RON) şi suprafaţa medie a unui magazin (30 mp) şi am transformat cele două variabile analizate în caracteristici alternative prin restrângerea celor 10 înregistrări în două grupe: valori sub medie, respectiv peste medie.
Tabelul 4.9 Desfaceri
(mii RON) Suprafaţă (mp) sub 41 peste 41
A 1 2 sub 30 5 1 peste 30 0 4
Pentru a aprecia intensitatea legăturii se foloseşte coeficientul de asociere,
calculat cu relaţia:
01450145
cbdacbdaQ
⋅+⋅⋅−⋅
=+−
= , 1Q =
151
4.3. PROBLEME PROPUSE Problema 1. Pentru cei 8 muncitori dintr-o secţie a unei unităţi economice
s-au înregistrat următoarele date:
Tabelul 4.10 Vechime (ani) 3 6 4 5 2 5 4 1 Producţie (buc.) 22 30 20 25 18 26 22 19
Se cere:
1. să se reprezinte grafic datele şi să se aleagă funcţia de regresie potrivită;
2. să se determine parametrii funcţiei de regresie;
3. să se interpreteze din punct de vedere economic coeficientul de regresie;
4. să se calculeze coeficientul de corelaţie. Rezolvare
1. Reprezentare grafică: corelograma (figura 4.3.).
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8
Vechime (ani)
Prod
ucţie
(buc
.)
Figura 4.3. Legătura dintre vechime şi producţe
2. Aflarea parametrilor funcţiei liniare de regresie necesită rezolvarea
următorului sistem de ecuaţii normale:
152
⎪⎪
⎩
⎪⎪
⎨
⎧
=+
=+
∑∑∑
∑∑
===
==
n
1iii
n
1i
2i
n
1ii
n
1ii
n
1ii
yxxbxa
yxban
Elementele necesare rezolvării sistemului se înscriu în tabelul 4.11, coloanele 1-4.
Tabelul 4.11 Nr. crt. ix iy 2
ix ii yx 2iy ixY
0 1 2 3 4 5 6 1 3 22 2 6 30 3 4 20 4 5 25 5 2 18 6 5 26 7 4 22 8 1 19
Total
Sistemul de ecuaţii normale devine:
⎩⎨⎧
=+=+
......................................................
baba8
,
cu soluţia:
..............=a
..............=b
3. Interpretarea coeficientului de regresie
4. Coeficientul de corelaţie liniară simplă este:
=
⎥⎥⎦
⎤
⎢⎢⎣
⎡⎟⎟⎠
⎞⎜⎜⎝
⎛−
⎥⎥⎦
⎤
⎢⎢⎣
⎡⎟⎟⎠
⎞⎜⎜⎝
⎛−
−=
∑∑∑∑
∑ ∑∑
====
= ==
2n
1ii
n
1i
2i
2n
1ii
n
1i
2i
n
1i
n
1iii
n
1iii
xy
yynxxn
yxyxnr /
153
R: 1. funcţie liniară; 2. ii x1327714Y ,, += ; 3. pentru fiecare an suplimentar de vechime, producţia unui muncitor creşte, în medie, cu 2,13 buc. 4. 0,8821.
Problema 2. Într-o firmă s-au înregistrat următoarele date: Tabelul 4.12
Vechime (ani) 12 34 3 36 14 22 5 10 Salariu lunar (RON) 950 2100 700 2500 1400 1900 800 900
Ştiind că legătura dintre cele două variabile este exprimată prin funcţia:
ii x2664748507Y ,, += se cere: 1. calculaţi raportul de corelaţie; 2. determinaţi în ce măsură influenţează vechimea salariului lunar; 3. estimaţi salariul lunar al unei persoane cu 20 ani vechime. Rezolvare
1. Valorile teoretice ale salariului (ixY ) se vor calcula înlocuind fiecare
valoare a variabilei factoriale ix (vechime) în funcţia de regresie:
ii x2664748507Y ,, += .
Rezultatele calculelor se vor înscrie în tabelul 4.13, coloana 3.
Tabelul 4.13 Nr. crt. ix iy
ixY ( )2xi iYy − ( )2i yy −
0 1 2 3 4 5 1 12 950 2 34 2100 3 3 700 4 36 2500 5 14 1400 6 22 1900 7 5 800 8 10 900
Total
Raportul de corelaţie se determină cu formula:
154
( )
( ),
∑
∑
=
=
−
−−= n
1i
2i
n
1i
2xi
xy
yy
Yy1R
i
.................................unde ===∑=
8n
yy
n
1ii
Utilizând datele din tabelul 4.13, calculăm:
.................................................................
=−= 1R xy
2. Se calculează coeficientul de determinaţie: ......................)( == 2
xy2 RR
3. În funcţia de regresie se atribuie valoarea 20 variabilei factoriale ix (vechime):
.............,, =⋅+= 202664748507Yi .
R: 1. 0,971; 2. 0,9428 (salariul depinde în proporţie de 94,28% de vechime); 3. 452,8 RON.
Problema 4. Se cunosc următoarele date privind comerţul exterior al
României cu ţările Uniunii Europene (UE15) în anul 2004: Tabelul 4.14
Ţara Export (mil. euro) Import (mil. euro) Austria 590 919 Belgia 374 393 Danemarca 42 93 Franţa 1608 1866 Finlanda 15 78 Germania 2832 3918 Grecia 507 355 Irlanda 31 128 Italia 4014 4515 Luxemburg 4 16 Olanda 603 488 Portugalia 37 78 Regatul Unit 1259 860 Spania 375 578 Suedia 107 280
Sursa: Anuarul statistic al României, 2005,INS.
155
Se cere să se calculeze coeficienţii de corelaţie a rangurilor Spearman şi Kendall.
Rezolvare
Coeficientul de corelaţie a rangurilor Spearman se calculează cu formula:
( )1nn
d61r 2
n
1i
2i
S −−=∑= ,
unde dBi Breprezintă diferenţa de rang dintre export şi import pentru aceeaşi ţară i.
Pentru calcularea coeficientului Kendall se ordonează crescător ţările Uniunii Europene după variabila x (export) înscriind în coloana alăturată rangurile corespunzătoare după variabila y (import). Se determină apoi pentru fiecare ţară, pe baza rangurilor la import:
P BiB - numărul de ţări (de la rândul i până la sfârşitul seriei) având la import ranguri superioare rangului ţării i;
QBi B - numărul de ţări (de la rândul i până la sfârşitul seriei) având la import ranguri inferioare rangului ţării i.
Tabelul 4.15
Rang după: Ţara ix iy
ix iy Diferenţa de
rang (dBi B) 2id P BiB QBi B
Luxemburg 1 Finlanda 2 Irlanda 3 Portugalia 4 Danemarca 5 Suedia 6 Belgia 7 Spania 8 Grecia 9 Austria 10 Olanda 11 Regatul Unit
12
Franţa 13 Germania 14 Italia 15 Total -
156
Se determină apoi diferenţa:
...........=−= ∑∑==
n
1ii
n
1ii QPS .
Coeficientul Kendall este:
.............)(
........)(
=−⋅
⋅=
−⋅⋅
=11515
21nn
S2rK
4.4. TEMĂ Problema 1. Opt agenţi economici din acelaşi domeniu de activitate
au înregistrat următoarele realizări: Tabelul 4.16
Cifra de afaceri (mii RON) 540 580 600 640 700 620 610 470
Profit (mii RON) 47 59 52 56 64 58 50 40
Ştiind că legătura dintre cele două variabile are caracter liniar, măsuraţi intensitatea acesteia prin intermediul:
1. raportului de corelaţie; 2. coeficientului de corelaţie; 3. coeficientului de corelaţie a rangurilor Spearman; 4. coeficientului de corelaţie a rangurilor Kendall. R: 1. 0,8857;2. 0,8857; 3. 0,714; 4. 0,571.
Problema 2. La o firmă s-au înregistrat următoarele date privind costurile
de producţie şi profitul obţinut:
Tabelul 4.17 Costuri (mii RON) 90 30 100 50 45 110 70 55 20 15
Profit (mii RON) 10 15 8 12 14 9 11 13 16 17 Măsuraţi intensitatea legăturii dintre cele două variabile cu ajutorul: 1. coeficientului şi raportului de corelaţie, dacă funcţia de regresie este
ii xY 089,0687,17 −= ; 2. coeficientului de corelaţie a rangurilor Spearman; 3. coeficientului de corelaţie a rangurilor Kendall.
R: 1. – 0,9739 şi 0,9739; 2.– 0,9758; 3. – 0,9111.
157
Problema 3. Pentru cincisprezece firme din aceeaşi ramură s-au înregistrat următoarele informaţii referitoare la o lună de activitate:
Tabelul 4.18 Nr. crt. Profit
(mii RON) Nr. salariaţi
(pers.) Capital fix (mil. RON)
0 1 2 3 1 15 10 2,40 2 17 12 2,72 3 13 8 2,08 4 23 17 3,68 5 16 10 2,56 6 21 15 3,36 7 14 10 2,24 8 20 14 3,20 9 24 19 3,84
10 17 10 2,72 11 16 11 2,07 12 18 13 2,33 13 23 16 2,98 14 15 10 1,94 15 16 12 2,17
Considerând că variabila dependentă y este profitul,iar factorii de influenţă sunt numărul de salariaţi ( 1x ) şi capitalul fix ( 2x ) să se determine folosind Excel:
1. funcţia de regresie multiplă care exprimă legătura dintre variabile; 2. intensitatea legăturilor simple între 1x şi y , 2x şi y , 1x şi 2x ; 3. valoarea raportului de corelaţie multiplă. R: 1. 21xx x441x840533Y
21,,, ++= ; 2.
1xyr / = 0,9684; 2xyr / =0,9027;
21 xxr / =0,8697; 3. R By/x1,x2B=0,976
158
4.5. INTREBĂRI RECAPITULATIVE
1. Prin ce se caracterizează legăturile statistice? 2. Prin ce se deosebesc legăturile statistice de alte tipuri de legături? 3. Ce înţelegeţi prin legătură simplă? Exemplificaţi. 4. Ce înţelegeţi prin legătură multiplă? Exemplificaţi. 5. Ce înţelegeţi prin legătură directă? Exemplificaţi. 6. Ce înţelegeţi prin legătură inversă? Exemplificaţi. 7. Ce înţelegeţi prin asociere statistică? Exemplificaţi. 8. Ce înţelegeţi prin corelaţie statistică? Exemplificaţi. 9. Ce metode simple se pot utiliza pentru verificarea existenţei legăturii? 10. Prin ce se reprezintă grafic legătura dintre două variabile statistice? 11. Ce se poate evidenţia cu ajutorul metodei grafice cu privire la
legăturile statistice? 12. Ce este un tabel de corelaţie? 13. Ce condiţii trebuie să îndeplinească un tabel de corelaţie pentru a
permite analiza legăturii între două variabile statistice? 14. Ce este un tabel de asociere? 15. Pentru ce se poate utiliza un tabel de asociere? 16. Pentru ce se utilizează metoda regresiei? 17. Care este semnificaţia statistică a parametrilor modelului liniar de
regresie? 18. Care este semnificaţia geometrică a parametrilor modelului liniar de
regresie? 19. Ce arată semnul coeficientului de regresie? 20. Prin ce se măsoară intensitatea legăturii liniare? 21. Ce semnificaţie are valoarea coeficientului de corelaţie? 22. Între ce limite ia valori coeficientul de corelaţie? 23. Ce semnificaţie are valoarea raportului de corelaţie? 24. Între ce limite ia valori raportul de corelaţie? 25. Ce indicator se poate calcula pe baza raportului de corelaţie? 26. Când se utilizează metodele neparametrice pentru analiza legăturilor
dintre variabilele statistice? 27. Care sunt cele mai utilizate metode neparametrice pentru analiza
legăturilor dintre variabilele statistice? 28. Când se utilizează coeficientul de asociere propus de Yule? 29. Ce înţelegeţi prin ranguri şi care sunt cei mai utilizaţi indicatori
calculaţi pe baza acestora? 30. Ce relaţie este între coeficienţii de asociere a rangurilor propuşi de
Spearman şi Kendall?