date statistice. culegere date. serii · pdf fileapoi datele sunt culese şi înscrise...

7
DATE STATISTICE. CULEGERE DATE. SERII STATISTICE. TABELE. GRAFICE Date statistice Datele statistice sunt valorile variabilelor pe care elementele eşantioanelor le i-au în cadrul unui studiu statistic. Scalele de măsură a datelor statistice sunt: 1. scala interval - folosită pentru măsurarea variabilelor cantitative continue, este o mulţime de valori numerice dintr-un interval între care există relaţii de ordonare şi asupra cărora se pot efectua operaţii matematice (diferenţă, sumă, medie). Exemple de scale interval : - valorile temperaturii exprimate în grade Celsius; - valorile înălţimii exprimate în metri. 2. scala discretă - folosită pentru măsurarea variabilelor cantitative discrete, este formată dintr-un număr finit de valori numerice între care există relaţii de ordonare şi asupra cărora se pot efectua operaţii matematice. Exemple de scale discrete : - nr. naşteri; - nr. operaţii. 3. scala nominală - folosită pentru măsurarea variabilelor calitative nominale, este formată dintr-un număr finit de valori nonnumerice între care nu există relaţii de ordonare. Exemple de scale nominale : - rasă: alb, negru, galben, alta; - gen: masculin, feminin; - tip hipertensiune arterială: primară, secundară, sistolică izolată, malignă, de sarcină. 4. scala ordinală - folosită pentru măsurarea variabilelor calitative ordonate, este o mulţime discretă de valori între care există relaţii de ordonare, dar asupra lor nu se pot efectua operaţii matematice; Exemple de scale ordinale : - stare de sănătate: slabă, medie, bună; - stadiu tumoare: 0, I, II, III, IV; - scor Apgar (primit de nou născut în primele 60 secunde viaţă având la bază 5 parametrii: respiraţie, frecvenţă cardiacă, reactivitate la stimuli, tonus muscular, aspect tegumente): 0, 1, 2, ..., 10. Culegerea datelor În studiile statistice la culegerea datelor se ţine cont de: - obiectul şi tipul studiului; - timpul alocat studiului; - resurse materiale, financiare şi umane alocate; - modalităţile de acces la date şi de alegere a subiecţilor (entităţilor); - procedurile şi protocoalele folosite. Culegerea datelor, în studiile biostatistice (epidemiologice), reprezintă o etapă importantă atât prin volumul de resurse cât şi de timp alocat. O clasificare a modalităţilor de culegera a datelor se poate face după criteriile: A. În funcţie de populaţia cuprinsă în studiu: - de tip exhautiv: se culeg date despre toate entităţile populaţiei statistice ţintă. Acest tip de culegere de multe ori nu se poate realiza deoarece costurile ar putea depăşi bugetul studiului (studii clinice) sau conduc la distrugerea populaţiei (studii farma-biologice); - de tip eşantion: se culeg date despre subiecţii unui eşantion reprezentativ al populaţiei ţintă; B. În funcţie de durata culegerii datelor:

Upload: hoangtruc

Post on 06-Feb-2018

216 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: DATE STATISTICE. CULEGERE DATE. SERII · PDF fileapoi datele sunt culese şi înscrise într-un tabel ce va con ţine rezultatele pentru unul sau mai multe seturi de observa ţii,

DATE STATISTICE. CULEGERE DATE. SERII STATISTICE. TABELE. GRAFICE

Date statistice Datele statistice sunt valorile variabilelor pe care elementele eşantioanelor le i-au în cadrul unui studiu statistic. Scalele de măsură a datelor statistice sunt: 1. scala interval - folosită pentru măsurarea variabilelor cantitative continue, este o mulţime de valori numerice dintr-un interval între care există relaţii de ordonare şi asupra cărora se pot efectua operaţii matematice (diferenţă, sumă, medie). Exemple de scale interval: - valorile temperaturii exprimate în grade Celsius; - valorile înălţimii exprimate în metri. 2. scala discretă - folosită pentru măsurarea variabilelor cantitative discrete, este formată dintr-un număr finit de valori numerice între care există relaţii de ordonare şi asupra cărora se pot efectua operaţii matematice. Exemple de scale discrete: - nr. naşteri; - nr. operaţii. 3. scala nominală - folosită pentru măsurarea variabilelor calitative nominale, este formată dintr-un număr finit de valori nonnumerice între care nu există relaţii de ordonare. Exemple de scale nominale: - rasă: alb, negru, galben, alta; - gen: masculin, feminin; - tip hipertensiune arterială: primară, secundară, sistolică izolată, malignă, de sarcină. 4. scala ordinală - folosită pentru măsurarea variabilelor calitative ordonate, este o mulţime discretă de valori între care există relaţii de ordonare, dar asupra lor nu se pot efectua operaţii matematice; Exemple de scale ordinale: - stare de sănătate: slabă, medie, bună; - stadiu tumoare: 0, I, II, III, IV; - scor Apgar (primit de nou născut în primele 60 secunde viaţă având la bază 5 parametrii: respiraţie, frecvenţă cardiacă, reactivitate la stimuli, tonus muscular, aspect tegumente): 0, 1, 2, ..., 10. Culegerea datelor

În studiile statistice la culegerea datelor se ţine cont de: - obiectul şi tipul studiului; - timpul alocat studiului; - resurse materiale, financiare şi umane alocate; - modalităţile de acces la date şi de alegere a subiecţilor (entităţilor); - procedurile şi protocoalele folosite. Culegerea datelor, în studiile biostatistice (epidemiologice), reprezintă o etapă importantă atât prin volumul de resurse cât şi de timp alocat. O clasificare a modalităţilor de culegera a datelor se poate face după criteriile: A. În funcţie de populaţia cuprinsă în studiu: - de tip exhautiv: se culeg date despre toate entităţile populaţiei statistice ţintă. Acest tip de culegere de multe ori nu se poate realiza deoarece costurile ar putea depăşi bugetul studiului (studii clinice) sau conduc la distrugerea populaţiei (studii farma-biologice); - de tip eşantion: se culeg date despre subiecţii unui eşantion reprezentativ al populaţiei ţintă; B. În funcţie de durata culegerii datelor:

Page 2: DATE STATISTICE. CULEGERE DATE. SERII · PDF fileapoi datele sunt culese şi înscrise într-un tabel ce va con ţine rezultatele pentru unul sau mai multe seturi de observa ţii,

- de tip transversal: se aplică atunci când se culeg date despre subiecţi la un moment dat al studiului; - de tip longitudinal: se aplică atunci când se culeg date despre subiecţi în mai multe momente succesive ale studiului. În practică se folosesc trei tipuri de culegere a datelor: I. Culegerea de tip eşantion reprezentativ: prin acest procedeu se culeg date pentru un număr reprezentativ de entităţi ale populaţiei ţintă, urmând ca rezultatele să fie extrapolate. Acest tip de culegere este folosit în studiile statistice descriptive şi analitice. Iniţial se stabilec numărul de entităţi luate în studiu (talia eşantionului) în funcţie de populaţia ţintă, apoi datele sunt culese şi înscrise într-un tabel ce va conţine rezultatele pentru unul sau mai multe seturi de observaţii, pentru una sau mai multe caracteristici. Acest tip de culegere permite efectuarea celor mai multe tipuri de calcule statistice, limitarea fiind dată de numărul subiectilor sau de gradul de reprezentativitate al eşantionului. II. Culegerea de tip expus-nonexpus: în cadrul acestui procedeu subiecţii populaţiei sunt împărţiţi în două categorii: expuşi respectiv neexpuşi la factorul de risc studiat. Astfel se poate urmări frecvenţa de apariţie a factorului de risc la cele două categorii, neputându-se face comparaţii şi calcule între cele două categorii. III. Culegerea de tip caz-martor: în cadrul acestui procedeu subiecţii populaţiei sunt împărţiţi în două grupe: caz (bolnavi) şi martor (indemni la boală). Astfel, se stabileşte tipul de boală şi se studiază (în general retrospectiv) prezenţa factorului de risc în apariţia sau evoluţia îmbolnăvirii. Serii statistice O serie statistică este un şir de date (observaţii) ale uneia sau mai multor variabile despre entităţile unui eşantion obţinute într-un studiu statistic. În funcţie de numărul de variabile studiate o serie poate fi: - univariată cînd se observă o singură variabilă; - bivariată cînd se observă două variabile; - multivariată cînd se observă mai multe variabile. Dacă variabilele sunt cantitative continue atunci seriile vor fi unidimensionale, bidimensionale respectiv multidimensionale. Seria statistică unidimensională X1, X2, ..., Xn reprezintă un şir de n valori pentru o variabilă cantitativă definită pe un eşantion de talie m. Exemple de serii statistice unidimensionale: - valoare calcemiei pentru un eşantion de n subiecţi; - valoarea tensiunii arteriale sistolice determinată la n indivizi; - concentraţia de thiomersal a unui set de n vaccinuri antigripale. Seriile de date statistice în forma brută (în ordinea în care au fost culese) prezintă două neajunsuri majore: - cu cât numărul de date este mai mare cu atât ansamblul informaţiei este mai neclar; - în acest format datele se pretează greu la calcule şi comparaţii. Aceste incoveniente pot fi parţial sau total eliminate utilizând una sau mai multe metode clasificate după două direcţii: 1. schimbarea modului de organizare şi prezentare al datelor prin folosirea: - seriilor ordonate: valorile sunt organizate crescător sau descrescător putându-se observa uşor repetiţiile şi determina limitele intervalului de valori; - distribuţiilor: încadrarea datelor după modele teoretice; - tabelelor: organizarea datelor se va face pe două direcţii (coloane şi linii) în funcţie de specificul acestora; - graficelor: oferă posibilitatea de prezentare a datelor într-o formă geometrică într-un sistem de axe de coordonate;

Page 3: DATE STATISTICE. CULEGERE DATE. SERII · PDF fileapoi datele sunt culese şi înscrise într-un tabel ce va con ţine rezultatele pentru unul sau mai multe seturi de observa ţii,

2. calculul unor măsuri statistice: - măsuri de centralitate: prezintă valorile în jurul cărora se grupează datele distribuţiei; - măsuri de dispersie: indică gradul de apropiere sau depărtare a datelor individuale faţă de măsura de centralitate; - măsuri de asimetrie: indică direcţia şi ordinul de mărime al abaterii la simetrie. În funcţie de această măsură distribuţia poate fi simetrică, asimetrică pozitiv (coada distribuţiei se plasează în partea pozitivă a axei), asimetrică negativ (coada distribuţiei se plasează în partea negativă a axei); - măsuri de boltire: indică magnitudinea vârfului distribuţiei. Tabele În studiile biostatistice, tabelul este principalul mod de prezentare a datelor statistice. De aceea, tabelele sunt construite astfel încât să permită realizarea unei analize corecte. La realizarea tabelelor se va ţine cont de: - tabelul treuie să aibă titlu, care trebuie să fie la concis şi obiect; - rândurile şi coloanele ce indică natura datelor sunt etichetate simplu şi precis; - sunt incluse unităţile de măsură ale datelor; - sunt precizate sursele de informare; - este recomandat a se construi două sau mai multe tabele de dimensiuni mai mici sau mai simple în locul unui tabel mare sau foarte detaliat; - este de preferat să există linii sau coloane ce conţin medii sau totaluri; - dacă sunt folosite abrevieri acestea se vor explica într-o locaţie separată; - formatarea tabelelor trebuie să fie sugestivă. În studiile biostatistice tabelele pot conţine: - coloane de identificare a subiecţilor; - coloane cu denumirile claselor pentru datele calitative; - coloane cu numărul de apariţii a claselor sau frecvenţa absolută; - coloane cu frecvenţa relativă; - coloane pentru frecvenţe absolute sau relative cumulate; - coloane cu măsuri matematice (totaluri, medii, minimum, maximum); - linii cu date detaliate ale subiecţilor sau claselor; - linii cu măsuri matematice. Frecvenţă absolută a unei valori x dintr-o serie statistică S este numărul de repetări ale valorii x în seria S. Deci suma frecvenţelor absolute ale tuturor valorilor distincte dintr-o serie statistică este egală cu talia seriei. Frecvenţa relativă a unei valori x dintr-o serie statistică S este raportul dintre frecvanţa absolută a valorii x şi talia seriei. De obicei frecvenţa relativă este prezentată în procente. Frecvenţa absolută cumulată crescătoare a unei valori x dintr-o serie statistică S este suma frecvenţelor absolute ale valorilor seriei mai mici sau egale cu x. Frecvenţa absolută cumulată descrescătoare a unei valori x dintr-o serie statistică S este suma frecvenţelor absolute ale valorilor seriei mai mari sau egale cu x. Frecvenţa relativă cumulată crescătoare a unei valori x dintr-o serie statistică S este raportul dintre frecvenţa absolută cumulată crescătoare a valorii x şi talia seriei. Frecvenţa relativă cumulată descrescătoare a unei valori x dintr-o serie statistică S este raportul dintre frecvenţa absolută cumulată descrescătoare a valorii x şi talia seriei. Exemplu de tabel simplu ce conţine clase, frecvenţa absolută şi relativă: Tratamentele aplicate pentru HTA în judeţul AAAA spitalul BBBB Denumire Nr. cazuri Procent

Page 4: DATE STATISTICE. CULEGERE DATE. SERII · PDF fileapoi datele sunt culese şi înscrise într-un tabel ce va con ţine rezultatele pentru unul sau mai multe seturi de observa ţii,

tratament [%] tratament 1 1230 16.4 tratament 2 2120 28.3 tratament 3 900 12.0 tratament 4 3250 43.3 Total 7500 100.0

Sursa: ... O categorie specială a tabelelor sunt tabelele de contigenţă în care clasele sunt grupate după două criterii ce pot avea unul sau mai multe nivele. Exemplu de tabel de contingenţă cu mai multe nivele: Clasificarea absolvenţilor Facultăţilor de Farmacie după tipul locului de muncă la finalul studiilor pentru promoţia din anul 20xx

Tip loc muncă Total Centru universitar Spital Farmcie Producţie

medicamente Fără ocupaţie

Bucureşti 25 145 10 20 200

Craiova 5 85 0 10 100

Iaşi 10 105 20 15 150

Cluj-Napoca 10 110 15 15 150

Timişoara 7 98 10 10 125

Tg.-Mureş 4 71 0 5 80

Sursa: Registrul de ocupare a forţei de muncă ... Exemplu de tabel de contingenţă cu două nivele: Frecvenţa cazurilor de apariţie a HTA după sex

Sex HTA

Masculin Feminin Total

prezentă 100 80 180

absentă 800 1020 1820

Total 900 1100 2000

Sursa: Studiul ... O altă categorie de tabele pentru datele statistice sunt tabelele de sinteză sau master ce realizează un mod complet de prezentare a datelor, utilizând mai multe linii sau coloane de subtotaluri şi totaluri. Exemplu de tabel master: Internările într-o clinică de cardiologie a unui spital

Mediu urban Mediu rural Total Vârsta Masc. Fem. Total Masc. Fem. Total Masc. Fem. Total

sub 30 ani 30-40 ani

Page 5: DATE STATISTICE. CULEGERE DATE. SERII · PDF fileapoi datele sunt culese şi înscrise într-un tabel ce va con ţine rezultatele pentru unul sau mai multe seturi de observa ţii,

40-50 ani 50-60 ani

peste 60 ani Total

Sursa: Registrul internări ... Exemplu de tabel pentru frecvenţă cumulată: Tabelul claselor de frecvenţă a TAS Tensiune arterială sistolică [mm Hg]

Pacienţi (frecvenţa absolută)

Frecvenţa relativă [%]

Frecventa relativă cumulată crescătoare [%]

[0,10) 6 6% 6% [10,12) 10 10% 16% [12,14) 15 15% 31% [14,16) 21 21% 52% [16,18) 28 28% 80% [18,22) 20 20% 100% Total 100 100% Sursa ... Grafice Graficul este metoda de prezentare geometrică a unor date statistice într-un sistem de axe de coordonate. Pentru ca un grafic să fie corect organizat, în construcţia sa trebuie respectate câteva principii de bază: - graficul trebuie să fie simplu; - graficul să aibă titlu; - graficul trebuie să aibă legendă pentru variabilele reprezentate; - curbele sau liniile graficului trebuie evidenţiate prin grosime şi culoare; - se pot folosi axe suplimentare de ghidaj pe verticală sau orizontală; - scalele axelor trebuie evidenţiate în clar precum şi unităţile de măsură ale acestora; - graficul trebuie să se explice singur. În funcţie de scala folosită graficul poate fi: - grafic cu scală aritmetică, în care intervalele alese pentru reprezentare sunt constante pe fiecare axă; - graficul cu scală semi-artimetică, în care pe una din axe se foloseşte o scală aritmetică (axa OX), iar pe cealaltă axă o scală cu caracter relativ. Histograma este reprezentarea grafică a distribuţiei de frecvenţe absolute. Astfel pe axa OX se înscriu clasele de frecvenţă, iar pe axă OY frecvenţele absolute. Histograma constă într-o serie de dreptunghiuri alăturate în care lăţimea este dată de clasa de frecvenţă, iar înălţimea este dată de frecvenţa absolută pentru clasa respectivă. Exemplu de histogramă: Histograma notelor la disciplina Biostatiscă a studenţilor din anul I ai Facultăţii de Farmacie.

Page 6: DATE STATISTICE. CULEGERE DATE. SERII · PDF fileapoi datele sunt culese şi înscrise într-un tabel ce va con ţine rezultatele pentru unul sau mai multe seturi de observa ţii,

Histograma notelor

0

5

10

15

20

25

30

1 2 3 4 5 6 7 8 9 10

Nota

Fre

cv

en

ta

Nr. note

Poligonul de frecvenţe este reprezentarea grafică a distribuţiilor de frecvenţe absolute pentru mai multe serii de date statistice clasificate după acelaşi criteriu. Poligonul de fecvenţe este o curbă obţinută prin unirea punctelor a căror abcise sunt centrele claselor iar ordonatele frecvenţele absolute. În general poligonul de frevenţă este utilizat pentru a se realiza comparaţii cu distribuţii teoretice. Exemplu de poligon de frecvenţe: Poligonul notelor la disciplinele Informatică şi Biostatiscă a studenţilor din anul I ai Facultăţii de Farmacie.

Poligonul notelor

0

10

20

30

40

1 2 3 4 5 6 7 8 9 10

Nota

Fre

cv

en

ta Informatica

Biostatistica

Normal

Se pot utiliza histograma şi poligonul frecvenţelor şi pentru reprezentarea frecvenţelor relative sau frecvenţelor cumulate, dar cel mai adesea sunt utilizate diagramele bazate pe procente. Exemplu de diagramă de procente: Diagrama procentelelor PAS (presiunii arteriale sistolice) măsurată la pacienţii internaţi într-o secţie de cardiologie a unui spital într-o perioadă de timp.

Page 7: DATE STATISTICE. CULEGERE DATE. SERII · PDF fileapoi datele sunt culese şi înscrise într-un tabel ce va con ţine rezultatele pentru unul sau mai multe seturi de observa ţii,

Diagrama PAS2% 5%

10%

25%

36%

17%

5%

80-100

100-120

120-140

140-160

160-180

180-200

200-220