cursul 3 tpmg

10
Cursul 3 3. INDICII DISPERSIEI Aşa cum s-a mai menţionat, indicii tendinţei centrale dau o imagine incompletă a şirului statistic, mai ales atunci când acesta nu este simetric şi când apare ca evident dezechilibrat. Aceste neajunsuri sunt uşor de observat din datele tabelului 3.1. (Tabelul lui OTTO, 1958) în care, deşi fiecare şir are = 5, numărul claselor, repartiţia valorilor pe clase şi limitele de variaţie ale şirurilor statistice sunt compet diferite. De aceea, pentru evaluarea dispersiei observaţiilor în jurul mediei aritmetice se folosesc indicii dispersiei sau indicii de împrăştiere. Tabelul 3.1. Tabelul lui Otto (1958) Centru clasă 1 2 3 4 5 6 7 8 9 n f 1 5 90 5 10 0 5 f 2 10 80 10 10 0 5 f 3 15 70 15 10 0 5 f 4 5 15 60 15 5 10 0 5 f 5 2 8 15 50 8 15 2 10 0 5 f 6 2 3 10 15 40 15 10 3 2 10 0 5 3.1. AMPLITUDINEA VARIAŢIEI Matematic, A v = X max – X min . Ea nu reflectă modul de distribuţie al valorilor în jurul mediei ci doar limitele extreme ale variaţiei. Utilitatea ei în interpretarea datelor statistice este redusă deoarece, în interiorul acestor limite, nu se cunoaşte modul în care se concretizează

Upload: manu-lonhard

Post on 11-Jan-2016

8 views

Category:

Documents


2 download

DESCRIPTION

Marin Ardelean, USAMV Cluj-Napoca, TPMG, Teoria Prelucrarii Masusatorilor Geodezice

TRANSCRIPT

Page 1: Cursul 3 TPMG

Cursul 3

3. INDICII DISPERSIEI

Aşa cum s-a mai menţionat, indicii tendinţei centrale dau o imagine incompletă a şirului statistic, mai ales atunci când acesta nu este simetric şi când apare ca evident dezechilibrat.

Aceste neajunsuri sunt uşor de observat din datele tabelului 3.1. (Tabelul lui OTTO, 1958) în care, deşi fiecare şir are = 5, numărul claselor, repartiţia valorilor pe clase şi limitele de variaţie ale şirurilor statistice sunt compet diferite. De aceea, pentru evaluarea dispersiei observaţiilor în jurul mediei aritmetice se folosesc indicii dispersiei sau indicii de împrăştiere.

Tabelul 3.1.Tabelul lui Otto (1958)

Centru clasă 1 2 3 4 5 6 7 8 9 nf1 5 90 5 100 5f2 10 80 10 100 5f3 15 70 15 100 5f4 5 15 60 15 5 100 5f5 2 8 15 50 8 15 2 100 5f6 2 3 10 15 40 15 10 3 2 100 5

3.1. AMPLITUDINEA VARIAŢIEI

Matematic, Av = Xmax – Xmin. Ea nu reflectă modul de distribuţie al valorilor în jurul mediei ci doar limitele extreme ale variaţiei. Utilitatea ei în interpretarea datelor statistice este redusă deoarece, în interiorul acestor limite, nu se cunoaşte modul în care se concretizează variabilitatea datelor. Pentru exemplificare să se considere cele două şiruri de măsurători de mai jos:

Şirul 1. 27; 52; 49; 51; 48; 50; 73Şirul 2. 27; 29; 28; 30; 72; 71 ; 73La ambele şiruri n = 7 iar Av

= 73 – 27 = 46 dar, în mod evident, variabilitate şirului 2 este mai mare decăt cea a şirului 1

3.2. ABATEREA MEDIE (deviaţia medie, e)

Abaterea medie este reprezentată de media aritmetică a abaterilor individuale absolute de la media şirului. Formula de calcul este următoarea:

e =

Ex. în şirul 6; 4; 7; 5; 9; 3; 8 cu =

e =

Dacă avem şiruri lungi, cu date grupate pe distribuţii de frecvenţe, formula devine:

e =

în care: f = frecvenţa fiecărei clase;

Page 2: Cursul 3 TPMG

c = valoarea centrului de clasă.

Dacă se calculează e pentru datele tabelului 2.2.3.3. (v. cursul 1), în care se va obţine:

Tabelul 2.2.3.3.Debitul canalului magistral (m3/h) pe interval de clase

Interval de clasă

Centrul clasei

fa frInterval de clasă

Centrul clasei

fa fr

20,0-20,9 20,4 3 0,06 26,0-26,9 26,4 4 0,0821,0-21,9 21,4 2 0,04 27,0-27,9 27,4 5 0,1022,0-22,9 22,4 6 0,12 28,0-28,9 28,4 9 0,1823,0-23,9 23,4 3 0,06 29,0-29,9 29,4 4 0,0824,0-24,9 24,4 4 0,08 30,0-30,9 30,4 3 0,0625,0-25,9 25,4 7 0,14 - - Σfa=50 Σfr=0,5

e =

+ =1.72

Şi acest indice de dispersie are o utilitate scăzută deoarece, conform formulei, valorile care se abat puternic de la medie nu sunt luate suficient în considerare (în ex. de mai sus 3x4,6<6 x 3,4).

3.3. DIFERENŢA MEDIE (D)

Este reprezentată de media aritmetică a diferenţelor (în valoare absolută) dintre toate perechile ce se pot forma cu datele unui şir statistic.

Să reluăm şirul: 6; 4; 7; 5; 9; 3; 8 cu = 6. Numărul perechilor ce se pot forma este

dat de formula Np = (în cazul nostru ).

D =

+

+

Acest indice de dispersie are aceleaşi neajunsuri ca şi cel calculat anterior, în plus este destul de dificil de calculat atunci când şirul cuprinde un număr mare de date ale măsurării, de aceea se utilizează mai puţin. In plus, şi acest indice recurge la artificiul însumării diferenţelor în valoare absolută (fără a ţinea seam semnul diferenţei).

3.4. ABATEREA MEDIE PĂTRATICĂ (varianţa, s2)

S2 este măsura caracteristică a dispersiei datelor masurătorilor. Prin ridicarea la pătrat a abaterilor de la medie toate valorile devin pozitive (ex. - x1 = a; - x2 = -b; - x3 = c;

Page 3: Cursul 3 TPMG

abaterea medie pătratică = a2 + b2 + c2).În cazul şirurilor cu un număr mic de observaţii, varianţa (s2) se calculează după

formula:

s2 =

De exemplu, în cazul şirului anterior: 6; 4; 7; 5; 9; 3; 8 cu = 6

s2 =

Când şirul cuprinde date multe, formula de mai sus este greu de aplicat. În astfel de cazuri se foloseşte o altă formulă, care porneşte de la valorile individuale, şi anume:

s2 = , în care:

= termen de corecţie sau scăzător (C);

suma pătratelor valorilor individuale (SP) ;n – 1 = grade de liberatate (GL) .

Rezultă că formula de mai sus devine s2 = . Dacă notăm SP – C = suma

pătratelor abaterilor (SPA) rezultă că s2 = .

Termenul de grade de libertate (GL) poate fi explicat astfel: pentru formarea unei medii pot fi folosite oricâte (n) valori cu excepţia uneia singure care rămâne “blocată” şi trebuie să ia o anumită valoare. Deci, în realitate, pentru formarea unei mediei a n măsurători se folosesc doar n – 1 date întâmplătoarea ale măsurătorilor, una având intotdeauna o valoare obligată. De exemplu:

n = 5: 5 9 7 1 8 = 6n = 3: 8 15 7 = 10n =4: 6 10 3 11 = 7,5

Obligată

Exemplul 3.4.1: În tabelul 3.4.1 se dau câte 30 de valori individuale ale unor şiruri de variaţie reprezentând temperatura aerului la suprafaţa solului, în cursul lunii ianuarie, în perioada 1991-2000, la USAMV Cluj-Napoca. În aceste şiruri, calcularea varianţei se va

face pornind de la valorile individuale, conform formulei s2 = .

Astfel, pentru şirul din 1991 se vor obtine valorile:

; C =

SP = 1,242 + 1,132 + 1,692 + … + 1,062 = 52,05SPA = SP – C = 52,05-49,02 = 3,03

s21991 =

La fel se procedează şi pentru celelalte şiruri, obţinându-se:s2

1992 = 0,060; s21995 = 0,339; s2

1998 = 0,222;s2

1993 = 0,659; s21996 = 0,617; s2

1999 = 0,732;

Page 4: Cursul 3 TPMG

s21994 = 0,793; s2

1997 = 0,527; s22000 = 0,007;

În cazul în care datele sunt prezentate sub forma de şiruri statistice, cu valori distribuite pe clase, calcularea varianţei se face după formula:

s2 =

în care: c = valoarea clasei (centrului de clasă)f = frecvenţa fiecărei clase

Tabelul 3.4.1Temperatura aerului la suprafaţa solului, în cursul lunii ianuarie la Cluj-Napoca,

în perioada 1991-2000Ziua/Anul 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000

1 1,24 1,17 1,86 1,89 1,39 1,55 1,14 1,22 1,93 1,882 1,13 1,38 1,50 1,95 2,06 1,18 1,67 1,26 2,31 1,623 1,69 1,26 2,01 0,62 2,88 1,22 1,95 2,05 3,21 1,814 1,55 1,62 2,72 1,15 1,22 1,26 2,18 1,58 4,11 1,625 1,18 1,88 1,00 1,93 1,31 2,05 2,76 1,20 3,69 1,776 1,22 1,59 0,94 2,31 1,62 1,58 2,08 1,26 1,66 1,927 1,26 1,31 1,66 3,21 2,02 1,20 2,06 1,02 1,96 1,768 2,05 1,22 1,35 4,11 1,22 1,26 1,59 0,87 2,89 1,689 1,58 1,31 1,44 3,69 1,26 1,86 1,12 1,05 1,55 1,6210 1,20 1,62 2,52 0,84 1,18 1,50 1,22 1,14 3,62 1,5811 1,26 1,29 2,00 1,66 1,02 2,01 1,31 1,00 2,38 1,7012 1,02 1,22 1,88 1,96 2,05 2,72 1,62 0,72 2,06 1,7613 0,87 1,26 1,39 2,89 1,58 1,00 2,02 0,83 2,88 1,8214 1,05 1,18 2,06 1,55 1,20 0,94 1,22 1,02 1,13 1,8715 1,14 1,02 2,88 3,62 1,26 1,66 1,26 1,49 1,65 1,7516 1,00 1,01 1,13 2,38 1,02 1,35 1,18 1,43 2,11 1,8417 0,72 1,12 1,65 1,43 0,87 1,44 1,02 1,14 2,72 1,8018 0,83 1,69 2,11 1,14 1,05 2,38 3,21 1,67 1,88 1,7219 1,02 1,12 2,72 1,67 1,14 1,43 2,12 1,95 1,39 1,8820 1,49 1,28 1,17 1,95 1,00 1,14 1,69 2,18 2,06 1,7921 1,83 1,24 2,28 2,18 0,72 1,67 1,12 2,76 2,88 1,7222 1,00 1,26 1,36 2,76 1,88 1,95 1,00 1,08 1,95 1,8323 1,10 1,22 0,96 1,08 1,39 2,18 0,72 1,00 2,18 1,8224 1,22 1,62 1,65 1,00 2,06 2,76 0,83 1,33 2,76 1,7925 1,24 1,31 2,06 1,33 2,88 2,08 1,02 1,69 2,08 1,7326 1,59 1,56 2,88 1,69 1,13 2,06 1,49 0,99 2,06 1,8427 1,88 1,72 3,76 0,99 1,65 2,88 1,65 1,79 2,88 1,7728 1,62 1,39 4,31 1,79 2,11 3,76 2,06 0,92 3,76 1,7529 1,31 1,98 1,22 0,92 2,72 4,31 2,88 1,76 4,31 1,6830 1,06 1,28 1,31 1,76 1,17 1,65 3,76 0,82 3,96 1,76

Metoda presupune construirea unui tabel ajutător în care se calculeazăze fc şi fc2

pentru fiecare centru de clasă, ceea ce presupune un volum de muncă mai mare decât necesită calcularea directă a lui s2 pornind de la valorile individuale, pe care oricum le avem în tabelul de date originale.

Page 5: Cursul 3 TPMG

3.5. ABATEREA MEDIE PĂTRATICĂ PONDERATĂ

Se calculează atunci când se extrag mai multe probe din aceeaşi populaţie referitoare la acelaşi element măsurat (ex. 10 probe privind temperatura la sol la Cluj – tabelul 3.4.1). Dacă dorim să calculăm o varianţă (s2) pentru toate cele 10 x 30 = 300 de date obţinute, se va proceda în mod diferit, în funcţie de faptul dacă probele au acelaşi număr de măsurători (observaţii) sau conţin numere diferite de măsurători.

În primul caz, abaterea medie pătratică ponderată se calculează ca medie aritmetică a varianţelor parţiale.

s2pond =

În cazul datelor din tabelul 3.4.1 spond2 = . În cel de al doilea caz,

formula de calcul al lui s2pond devine:

s2pond =

în care: s12; s2

2; …; sk2 = varianţele probelor 1, 2, …, k;

n1; n2; …; nk = nr. de date din probele 1, 2, …, k;n = număr total de date (din toate probele);k = numărul probelor.

Pentru exemplificare se dau varianţele a patru probe:Proba a: n1 = 57 s1

2 = 0,686b: n2 = 94 s2

2 = 0,216c: n3 = 69 s3

2 = 0,588d: n 4 = 80 s 4

2 = 0,393 n = 300; k = 4

s2pond =

3.6. ABATEREA STANDARD (deviaţie, eroare standard) – notată s

Matematic se calculează foarte uşor: s = (radical din varianţă). Ea se utilizează pentru a arăta care este variaţia medie a valorilor individuale ale unui şir de măsurători faţă de media şirului. Pentru datele şirurilor din tabelul 3.4.1, s va fi:

s1= = 0,322; s3 = 0,812 s5 = 0,582 s7 = 0,726 s9 = 0,856 s2 = 0,652; s4 = 0,891 s6 = 0,785 s8 = 0,471 s10= 0,382

Abaterea standard (s) are cel puţin două avantaje faţa de varianţă (s2) in măsurarea variabilităţii:

- Măsoară variabilitatea în unităţi de măsură caracteristice (tipice) pentru mărimea măsurată şi nu în unităţi pătratice care sunt tipice pentru suprafeţe;

- “Comprimă” valorile variabilitătii la şirurile de măsurători făcând mai uşoare eventualele comparaţii între acestea. De ex., din datele de mai sus, dacă s1 = 0,322 şi s2 = 0,652 s-ar putea conchide, la o analiză superficială că variabilitatea şirului 2 este aproximativ de doua ori mai mare decât cea a şirului 1. Daca se foloseşte ca măsură a

Page 6: Cursul 3 TPMG

variabilităţii s2 (varianţa) atunci = 0,110 şi = 0,452 ceea ce ar însemna că variabilitate şirului 2 este de patru ori mai mare decât cea a şirului 1.

Astfel de comparaţii nu pot fi făcute pe baza valorilor s2 şi s deoarece ele sunt valori reprezentative doar pentru variabilitatea şirului de măsurători pentru care au fost calculate. Compararea variabilităţii a două sau mai multe şiruri de măsurători poate fi, însă, obiectiv făcută cu ajutorul următorului indice al dispersiei.

3.7. COEFICIENTUL DE VARIAŢIE (varibilitate)

Deoarece abaterea standard (s) este o măsură absolută a dispersiei datelor unui şir statistic ea nu permite să comparăm între ele două sau mai multe distribuţii de frecvenţe în privinţa variaţiei lor. Aceasta deoarece şirurile cu valori mari vor avea, de regulă, s2 şi s mari iar şirurile cu valori mici vor avea s2 şi s mici, ceea ce nu înseamnă însă că dispersia datelor în primul caz nu poate să fie mai mică decât în cel de-al doilea. Iată exemplul de mai jos:

Exempul 3.7.1. Şirul 1 Şirul 2

324

309

341

325

363

0,7

4,9

0,3

3,6

7,2

s2 = 420,8

s = 20,5

= 332,4

s% = 6,2

s2 = 8,40

s = 2,90

= 3,34

s% = 86,8

Compararea se poate face, însă, cu ajutorul coeficientului de variaţie (de variabilitate) propus de Pearson. Acesta poate fi exprimat în valori absolute (se notează cu v sau cv) sau în procente (se notează cu s%).

cv = sau s% = 100

Dacă aplicăm aceste formule la exemplele anterioare obţinem s1% = 6,16; s2% = 86,8.

De regulă, cu cât s% este mai mare cu atât neomogenitatea şirului respectiv este mai ridicată

În general, pentru raţiuni de ordin practic, se admite (arbitrar) că atunci când:s% 9,9% = variabilitate mică;s% = 10,0 – 19,9% = variabilitate mijlocie;s% = 20,0 – 29,9% = variabilitate mare.s% > 30,0% = variabilitate foarte mare.

Exemplificând cele de mai sus pe datele prezentate în tabelul 3.4.1. se obţine:

Page 7: Cursul 3 TPMG

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000n = 30 30 30 30 30 30 30 30 30 30GL = n - 1 29 29 29 29 29 29 29 29 29 29

38,35 41,13 57,78 57,45 46,06 56,03 50,95 40,22 76,01 52,88

1,28 1,37 1,93 1,92 1,54 1,87 1,70 1,34 2,53 1,76

C= 49,02 56,39 111,28 110,02 70,72 104,65 86,53 53,92 192,58 93,21

SPA= 3,02 1,74 19,12 22,99 9,84 17,91 15,28 6,45 21,23 0,21s2= SPA/GL 0,104 0,060 0,659 0,793 0,339 0,617 0,527 0,222 0,732 0,007s = 0,323 0,245 0,812 0,890 0,582 0,786 0,726 0,471 0,856 0,085

s% = 25,26 17,85 42,16 46,49 37,94 42,07 42,74 35,17 33,77 4,82

Se obseră că variabilitatea temperaturilor zilnice la suprafaţa solului, în luna ianuarie, a celor zece ani analizaţi, este foarte diferită. Astfel:

- în 2000, variabilitate mică deoarece s%<10;- în 1992, variabilitate mijlocie deoarece 20>s%>10;- în 1991, variabilitate mare deoarece 30>s%>20;- în restul anilor analizaţi, variabilitate foarte mare deoarece s%>30.Această înseamnă că, în cei zece ani luaţi în studiu, elementul climatic măsurat

(temperatura aerului la suprafaţa solului, în cursul lunii ianuarie la Cluj-Napoca la Cluj-Napoca) s-a manifestat preponderent ca foarte variabil. În opt din cei zece ani datele prelevate au avut o variabilitate mare şi foarte mare şi doar in doi ani (1992 şi 2000) variabilitate datelor a fost mijlocie şi mică. Se poate conchide că, pentru a caracteriza locaţia Cluj-Napoca, din punctul de vedere al temperaturii aerului la suprafaţa solului în cursul lunii ianuarie, este nevoie de măsurători în mult mai mulţi ani decât cei analizaţi în acest exemplu.