prelucrarea statistica a unui set de date

Prelucrarea statistica elementara

a unui set de date

Se considera setul de date (numere reale)

eD := [ex1; ex2; :::; exN ]obtinute in urma "masurarii" unei anumite caracteristici X asupra unei anumitepopulatii (statistice); de fapt masuratorile efective se fac (numai) asupra unuiesantion reprezentativ din populatie.Sa remarcam ca eD nu este neaparat o multime de numere, deoarece unele

valori se pot repeta (ceea ce nu se intampla in cazul unei multimi).Vrem sa obtinem anumite informatii asupra populatiei dintr-o analiza sta-

tistica, chiar si elementara, efectuata asupra setului de date.Prelucrarea statistica elementara efectuata asupra acestui set de date pre-

supune parcurgerea unui numar de pasi succesivi efectuati intr-o ordine deter-minata.Pasul 1.Se ordoneaza setul de date crescator, repetand, la nevoie, ecare valoare de

atatea ori de cate ori apare in setul initial de date.Se obtine sirul crescator de date:

ex(1) ex(2) ::: ex(N);unde 8>>>>>>>>>>>:

ex(1) = min [ex1; ex2; :::; exN ];ex(2) = min([ex1; ex2; :::; exN ]n[ex(1)]);::: ::: ..............................ex(i) = min([ex1; ex2; :::; exN ]n[ex(1); :::;ex(i1)]::: ::: .................................ex(N) = max [ex1; ex2; :::; exN ]:

Pasul 2.Se elimina datele aberante. De multe ori, datorita unor accidente aparute

in timpul experimentului/elor ori datorita unor erori inerente procesului de in-registrare a unui numar mare de date sau din alte cauze unele dintre datele dinsetul eD nu reprezinta valori reale ale unor masuratori efectuate cu caracteristicaX asupra populatiei aate in studiu, ci valori aberante ce nu-si au locul in setulde date. Pentru ca rezultatele prelucrarii statistice sa e relevante si conformecu realitatea asemenea date trebuie eliminate din setul de date ce urmeaza a prelucrate. Este evident ca primele date vizate de caracter aberant sunt ex(1)si ex(N): Exista teste speciale, destul de sosticate, care permit stabilirea carac-terului aberant al unor asemenea date. Noi vom verica din "ochi" caracterulaberant al unora dintre date si le vom elimina.

1

De exemplu, daca greutatile (masurate in kilograme) a noua studenti sunt:

[59; 65; 63; 5; 70; 68; 74; 152; 54; 68]

dupa ordonare obtinem sirul ordonat crescator:

[54; 59; 63; 5; 65; 68; 68; 70; 74; 152]:

Evident ne "sare in ochi" caracterul "aberant" al valorii 152: In mod normalaceasta valoare trebuie eliminata.In continuare vom considera ca din setul initial de date eD = [ex1; ex2; :::; exN ]

au fost eliminate datele aberante. Vom nota cu

D = fx1; :::; xngsetul de date nou obtinut. Sirul crescator asociat va :

x(1) x(2) ::: x(n):

Pasul 3.Se determina volumul selectiei, adica numarul total de date ce urmeaza a

analizate. Atragem atentia ca ecare data din setul D trebuie numarata (deatatea ori) de cate ori apare in setul de date. In cazul nostru jDj = n:Pasul 4.Se determina intervalul de variatie al datelor (intervalul cel mai mic care

contine toate datele din setul de date analizat).In cazul nostru acest interval va :

[x(1);x(n)]:

In continuare se determina cei mai importanti indicatori de pozitie (nu-

miti si indicatori pe orizontala). Acestia ne pot indica (intr-un mod relevant)situarea unui numar mare de date fata de o anumita "pozitie centrala" asociatasetului de date.Cel mai important indicator de pozitie se obtine la:Pasul 5.Se determina Media de selectie.

x =x1 + :::+ xn

n=x(1) + :::+ x(n)

n:

Un alt indicator important de pozitie se obtine la:Media este foarte importanta din punct de vedere teoretic, dar si practic.

Din pacate ea poate puternic inuentata de aparitia in setul de date a unoreventuale date aberante care nu au putut insa "detectate".Pasul 6.Se determina mediana (selectiei).

2

Aceasta este

Me :=

8

Pentru orice y 2 R avem:

1

n

nXk=1

(xk y)2 S2:

Pasul 11.Se determina functia empirica de repartitie.

Fn : R ! [0; 1]

este data prin:Fn(x) =

xn;

undex = jf1 i n j xi < xgj :

Reamintim ca pentru o multime nita A prin jAj am notat cardinalul lui A;adica numarul de elemente ale lui A:Daca x(1) < x(2) < ::: < x(n) functia de repartitie este data de:

Fn(x) =

8>>>>>>>>>>>:

0 ; x x(1);1n ; x(1) < x x(2); kn ; x(k) < x x(k+1) 1 ; x(n) < x

:

Se poate arata ca daca F : R ! [0; 1] este functia de repartitie teoretica acaracteristicii X atunci

supx2R

jFn(x) F (x)j !n!1 0;

aproape sigur (teorema lui Glivenko).Prin urmare oriunde vom avea nevoie de functia de repartitie F a v.a. X

vom putea folosi functia de repartitie empirica Fn:Pasul 12.Se imparte intervalul de variatie al datelor in subintervale de lungimi egale

cu "pasul"

h =x(n) x(1)1 + log2 n

:

De fapt se imparte intervalul de variatie al datelor [x(1);x(n)] in r = k + 1parti "egale", prin k = [log2 n] taieturi (reamintim ca pentru un numar real ase obisnuieste sa se noteze cu [a] partea intreaga a lui a; adica cel mai mareintreg k a):Asadar

h =x(n) x(1)1 + [log2 n]

:

4

Pentru a usura calculele noi vom alege de ecare data volumul populatieidin esantion de forma n = 2k; k 2 N; k 3; cand vom obtine log2 n = k 2 N:Vom obtine intervalele:8>>>>>>>:

I1 = [x(1);x(1) + h)I2 = [x(1) + h;x(1) + 2h) Ir1 = [x(1) + (r 2)h;x(1) + (r 1)h)Ir = [x(1) + (r 1)h;x(1) + (1 + log2 n)h]

:

Daca am luat

Ir = [x(1) + (r 1)h;x(1) + rh] = [x(1) + (r 1)h;x(1) + (1 + [log2 n])h]am facut o eroare

x(1) + (1 + log2 n)hx(1) + (1 + [log2 n])h

= (log2 n [log2 n])h

a1 + log2 n

!n!1 0; daca a := x(n) x(1)

Pasul 13.Se traseaza histograma.Conform dictionarelor o histograma ar un grac care reprezinta, prin drep-

tunghiuri, o distributie statistica.Fie n1 numarul de date din setulD care se aa in intervalul I1; n2 numarul de

date care se aa in intervalul I2; :::; nr numarul de date care se aa in intervalulIr:Asadar frecventa absoluta a intervalului Ij va .

nj :=f1 i n x(i) 2 Ij g ; 1 j r:

Este evident ca 0 nj n siPr

j=1 nj = n:Pentru a obtine histograma asociata datelor x1; :::; xn vom trasa, intr-un

sistem ortogonal de axe, dreptunghiurile, cu bazele de lungimi egale,

Dj = Ij [0;nj ]; 1 j rsi apoi le hasuram. Histograma este tocmai reuniunea celor r dreptunghiurihasurate. In limba greaca histos inseamna tesut.Moda este data de subintervalul Ij cu cel mai mare nj :Exemplu.Se considera setul de date: 110 = 112 = 115 = 112 = 109 = 111 = 114 = 112:Sa retinem ca in acest caz n = 8 = 23: In ordine crescatoare datele vor :

109 =110 = 111 = 112 = 112 =112 = 114 = 115:

Prin urmareh =

115 1091 + log2 2

3=6

4= 1; 5:

5

Obtinem intervalele:

I1 = [109 ; 110; 5) ; I2 = [110; 5 ; 112) ; I3 = [112 ; 113; 5) ; I4 = [113; 5 ; 115]:

De aici se obtin usor frecventele absolute n1 = 2 ; n2 = 1; n3 = 3 si n4 = 2:Se obtine histograma:

Se observa ca intervalul I3 constituie moda.Mai departe se pot realiza alti pasi care conduc la o prelucrare statistica

superioara a datelor. Printre acestia amintim:Pasul 14.Alegerea unei repartitii probabiliste teoretice de referinta dintr-o anumita

familie de repartitii.Pasul 15.Determinarea parametrilor prin estimari punctuale, intervale de estimare.Pasul 16.Analiza concordantei dintre repartitia empirica si repartitia teoretica aleasa.Pasul 17.Realizarea unor teste de comparare a unor populatii si a unor teste de con-

cordanta.Pasul 18.Legatura variabilelor. Corelatie si regresie.Pasul 19.Experimentare statistica. Controlul unuia sau al mai multor factori de vari-

abilitate.Pasul 20.Prognozare. Concluzii. Comentarii.

6

Realizarea pasilor de mai inainte presupune insa cunostinte superioare dematematica si un avans serios in studiul statisticii.

7

prelucrarea statistica a unui set de date

Documents