lucrarea practică 8 - seria 7 · numai cu epi info, dar şi cu dbase, foxpro, excel etc. aceste...

MG - Lucrarea practică 8 2011/2012 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

- 92 -

Lucrarea practică 8

Indicaţii generale:

Un prim scop al lucrării practice este crearea de fişiere de tip chestionar (sau view-

uri) pentru introducerea datelor în fişierele create în EpiInfo 2005. Acesta este un soft

specific unor prelucrări statistice de date, utilizat în special în epidemiologie.

Avantajul principal al acestui soft constă în faptul că nu impune cheltuieli majore,

în condiţiile în care, cu ajutorul său, se pot obţine majoritatea rezultatelor prelucrărilor de

date cu care ne întâlnim în cercetarea medicală.

Punctul său forte, pentru care este recomandată folosirea sa, este posibilitatea

creării unor chestionare care să nu permită, din start, introducerea de date eronate flagrant.

Punctul său slab îl constituie slaba calitate a diagramelor pe care le poate crea.

Afirmaţii de tipul „fumatul este asociat cu decesul timpuriu, după un prim atac de

cord”, făcute în urma comparării unor proporţii calculate cu date obţinute din eşantioane

„reprezentative”, pot fi confirmate statistic prin teste hi pătrat (care în asemenea situaţii

sunt considerate ca teste de semnificaţie statistică, şi nu ca teste de bonitate).

Aplicaţiile statistice (SPSS, Epi Info, …) au evident implementate module pentru

efectuarea directă a calculelor necesare. Dar rezultatele pot fi obţinute şi cu ajutorul

aplicaţiei Excel, controlând în mod corespunzător desfăşurarea calculelor.

În această lucrare practică:

a) veţi crea fişiere de tip baze de date, chestionare în interiorul lor, apoi veţi

introduce înregistrări;

b) veţi începe prelucrarea statistică a înregistrărilor, pe exemple simple.

c) veţi exersa modul de obţinere a tabelelor de contingenţă din datele primare,

atât în Excel, cât şi în FoxPro;

d) veţi aplica teste Z şi hi pătrat pe tabele de contingenţă simple;

e) veţi începe să folosiţi modulul Analyze Data al aplicaţiei Epi Info;

f) veţi învăţa să lucraţi cu comanda TABLES din acest modul, comandă dedicată

obţinerii tabelelor de contingenţă şi a rezultatelor conexe.

Teme 34: crearea chestionarelor în Epi Info

35: introducerea datelor în Epi Info

36: analiza statistică primară a datelor din fişiere

37: tabele de contingenţă în Excel

38: testul hi pătrat în Excel

39: comanda TABLES în Epi Info

Softul ce va fi utilizat în lucrarea practică:

EpiInfo 2005, Excel, FoxPro

UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2011/2012

- 93 -

Tema 34: crearea chestionarelor în Epi Info

Epi Info este un pachet de programe destinat prelucrării de date organizate sub formă de

chestionare şi sistematizării rezultatelor studiilor pentru a fi incluse în comunicări şi

rapoarte. Conceput în primul rând pentru aplicaţii în epidemiologie, Epi Info poate fi folosit

cu succes în prelucrarea datelor din domeniul medical şi din afara acestuia, pachetul

incluzând facilităţi de gestiune a datelor şi de statistică de tipul celor oferite de programele

SAS, SPSS, etc. facilităţi cuprinse întrun singur sistem al cărui avantaj principal este faptul

că este permisă copierea şi libera distribuire. La lansare, pagina de întâmpinare este

următoarea:

Principalele componente ale programului Epi Info sunt următoarele:

Make View, care este un editor de text folosit pentru a defini câmpurile utilizate în

introducerea datelor pe una sau mai multe pagini ale unui chestionar (View).

Enter Data, care afişează chestionarele construite cu Make View, controlează procesul

de introducere a datelor utilizând setările şi codurile specificate în Make View; are şi

posibilităţi de căutare a înregistrărilor.

Analyze Data, care este folosit pentru analizarea datelor înregistrate în fişierele create nu

numai cu Epi Info, dar şi cu dBase, FoxPro, Excel etc. Aceste fişiere pot conţine liste,

frecvenţe, tabele, diagrame, date specifice studiilor epidemiologice.

Create Maps, care este un instrument folosit pentru crearea hărţilor epidemiologice.

Create Reports, care este folosit pentru generarea rapoartelor.

Alte componente sau utilitare ale softului, utile în diverse activităţi, sunt următoarele:

NutStat, care este folosit pentru înregistrarea şi evaluarea măsurătorilor referitoare la

înălţime, greutate, circumferinţa capului şi a toracelui pentru copii şi adolescenţi.


- 94 -

StatCalc, care este folosit pentru efectuarea de calcule statistice cu date plasate în tabele.

Data Compare, care este folosit pentru identificarea diferenţelor între două tabele.

Table to View, care se foloseşte pentru a genera un chestionar (view) pe baza unui tabel

de date existent.

VisData, utilizat pentru citirea fişierelor de date şi schimbarea proprietăţilor.

Epi Lock, care furnizează o criptare pentru a se proteja accesul la date şi pentru a facilita

atât transmisia dar şi crearea còpiilor de rezervă (backup).

Compact, care este folosit la compactarea bazelor de date de tip (MS)Access.

Aplicaţia Epi Info cuprinde şi

– un sistem de ajutorare a utilizatorului (help), care conţine informaţii despre

facilităţile oferite,

– un manual de utilizare, precum şi

– un program de îndrumare interactivă în crearea fişierelor folosite în epidemiologie.

Pentru crearea unui fişier-chestionar se va folosi modulul Make View, anume comanda:

FileNewFile name (numele bazei de date: nume_EPI)OpenName the View

(„Chest1” ca nume dat chestionarului)

În pagina din partea stângă găsiţi trei opţiuni referitoare la gestiunea paginilor din

chestionar (Add Page – adăugarea unei noi pagini la sfârşitul celor deja existente, Insert

Page – adăugarea unei pagini noi între două deja existente, Delete Page – eliminarea paginii

curente) precum şi comanda Program care face posibilă programarea anumitor operaţii de

verificare, ducând astfel la evitarea erorilor care pot apărea la introducerea datelor.

Introducerea de câmpuri în pagina curentă a chestionarului, conform indicaţiei afişate, se

efectuează cu un clic pe butonul din dreapta la mausului, în poziţia în care se doreşte apariţia

câmpului respectiv (pentru fixarea poziţiei este utilă grila). Ca urmare, va apărea caseta de

dialog Field Definition în care se vor introduce caracteristicile câmpului: numele, tipul,

dimensiunea, limitările valorilor, codificări, valorile legale etc.


- 95 -

Caseta de dialog Field Definition este prezentată în figura următoare. Se observă că tipul

câmpului este fixat implicit pe „Text”.

Chestionarul va conţine următoarele 15 câmpuri:

1. Codul numeric personal. În caseta text Question or Prompt vom introduce textul

„Codul Numeric Personal:”, în grupul Field or Variable vom alege pentru Type valoarea

„Number”, iar pentru Pattern valoarea „#############” (adică 13 cifre); în sfârşit, în

caseta text Field Name vom introduce textul „CNP”.

(De menţionat că secvenţa de caractere „CNP” va servi drept nume al câmpului, iar

secvenţa mai lungă „Codul Numeric Personal:” va servi drept etichetă pentru explicaţii pe

ecran.)

2. Numele pacientului va fi de tip text şi va avea cel mult 30 de caractere. De data

aceasta în caseta text Question or Prompt vom introduce „Numele:”, pentru Type vom

alege valoarea „Text”, iar Size va fi stabilit la „30”. Numele câmpului poate fi lăsat cel

propus în caseta text Field Name.

3. Prenumele pacientului va fi tratat similar ca şi numele său.

4. Sexul pacientului va avea două valori posibile: F sau M. De data aceasta, în caseta

text Question or Prompt vom introduce „Sexul:”, pentru Type vom alege valoarea „Text”,

iar în grupul Code Tables vom apăsa butonul Legal Values, apoi butonul Create New, şi

vom tasta valorile legale „F”, apoi „M” (vezi figura următoare). Şi în acest caz numele

câmpului poate fi lăsat cel propus în caseta text Field Name.

5. Data naşterii pacientului va fi evident de tip dată calendaristică. Pentru a putea

preleva această dată, în caseta text Question or Prompt vom introduce „Data naşterii:”,

pentru Type vom alege valoarea „Date”, iar pentru Pattern valoarea aleasă va fi „DD-MM-

YYYY”. De data aceasta vom interveni în caseta text Field Name pentru a modifica numele

câmpului în „DataNast”.


- 96 -

6. Data internării pacientului va fi tratată similar ca şi data naşterii.

7. Edeme va fi o variabilă cu două valori posibile Yes/No. De data aceasta, în caseta text

Question or Prompt vom introduce „Edeme?”, pentru Type vom alege valoarea „Yes/No”.

În acest caz numele câmpului, în caseta text Field Name, va fi modificat în „Edeme”.

În mod asemănător se procedează pentru următoarele 3 câmpuri:

8. Pleurezie.

9. Palpitaţii (numele câmpului „Palpitatii”).

10. Tuse.

11. Temperatura va fi o variabilă de tip numeric şi va lua valori numai între 35 şi 43.

Pentru stabilirea valorilor limită se bifează caseta de validare Range şi se aleg pentru Lower

şi Upper valorile „35”, respectiv „43”.

Ultimele 5 câmpuri (Edeme, Pleurezie, Palpitatii, Tuse şi Temperatura) vor fi grupate

întrun grup numit Manifestari. Pentru crearea unui grup se procedează în felul următor: se

selectează câmpurile prin tragere cu mausul deasupra, apoi din meniul Insert se alege

comanda Group.

Pagina construită poate să aibă următoarea formă:


- 97 -

Cu ajutorul comenzii Add Page (din meniul din pagina din stânga) se va adăuga o nouă

pagină în care vor fi plasate ultimele trei câmpuri:

12. Salariat, de tipul Yes/No,

13. Numărul copiilor, de tip numeric cu valori între 0 şi 14,

14. Copii, o listă-tabel care va conţine numele şi vârsta copiilor. Pentru aceasta în caseta

text Question or Prompt vom introduce „Copii:”, iar în grupul Code Tables vom apăsa

butonul Grid. În caseta combinată Enter Column Name for Grid se va introduce textul

„Numele copilului”, după care se apasă butonul Save Column şi se procedează la fel pentru

„Vârsta copilului”.

15. Vârsta pacientului în momentul internării, de tip numeric.

Evident, odată ce cunoaştem data naşterii şi data internării, vârsta pacientului ar trebui să

fie calculată automat! Pentru asemenea operaţiuni se poate folosi comanda Program din

pagina din stânga!

Ca urmare a comenzii Program pe ecran va apărea o cu totul altă organizare: pagina din

stânga va fi intitulată Check, iar cea din dreapta Check Commands.

Veţi alege Varsta drept câmp în care se va calcula valoarea, apoi veţi comanda Assign,

încercând să introduceţi expresia de calcul

=YEARS(DataNast, DataIntern)

(ca în figura de mai jos).

Probabil că nu veţi reuşi. Motivul: câmpurile DataIntern şi DataNast sunt plasate pe

altă pagină decât Varsta şi valorile lor nu sunt disponibile pentru calcule! Încercaţi, ca

soluţie extremă, mutarea câmpului Varsta de pe pagina 2 pe pagina 1. Evident, veţi face apel

la comenzile Cut/Paste din meniul Edit. După mutare nu ar mai trebui să întâmpinaţi

dificultăţi. (Atenţie, nu se recomandă tastarea expresiei, ci formarea ei din componente

selectate!)


- 98 -

Tema 35: introducerea datelor în Epi Info

Se poate realiza direct din meniul File, comandând Enter Data. Alte posibilităţi, după

părăsirea modulului Make View, din pagina principală Epi Info fie se alege direct modulul

Enter Data, fie se comandă Enter Data din meniul Programs. În acest caz se deschide

chestionarul creat, alegându-se proiectul şi view-ul corespunzător.

Se vor introduce cel puţin 4 înregistrări (adică se completează câmpurile cu date pentru

cel puţin 4 persoane, pe ambele pagini!). După care salvaţi fişierul nume_EPI.mdb şi

transferaţi-l în căminul d-voastră.

În figura de mai jos este prezentat momentul completării datei internării, pe pagina 1

pentru înregistrarea a 3-a. De menţionat că pentru toate inscripţiile legate de valorile

câmpurilor a fost ales un font standard de afişare (MS Sans Serif) de mărime 14 p.t.

Se impune o observaţie. În datele pe care le introducem apar redundante sexul şi data

naşterii. Este posibil ca valoarea din câmpul DataNast să fie „calculată” automat odată ce a

fost introdus codul numeric personal, la fel valoarea din câmpul Sexul. Puteţi realiza

aceasta?

Tema 36: analiza statistică primară a datelor din fişiere

Pentru a efectua calcule statistice vom folosi modului Analyze Data. În cadrul acestui

modul vom folosi mai multe comenzi pe care le putem alege din fereastra de comenzi din

partea stângă. Rezultatele execuţiei comenzilor sunt afişate în fereastra din dreapta sus

(intitulată Analysis Output). În fereastra din dreapta jos (intitulată Program Editor) se vor

afişa comenzile/seturile de comenzi care au fost executate anterior; de asemenea, se pot

introduce noi comenzi, în regim de linie de comandă.

Comenzile pe care le putem alege sunt grupate, în fereastra din stânga, în câteva grupe.

Distingem astfel comenzile de lucru cu datele (grupate în „Data”), cele ce operează asupra

variabilelor (grupate evident în „Variables”), comenzile de selecţie (grupate în „Select/If”),

comenzile de analiză statistică primară (grupate în „Statistics”) etc.

Read (Import) este comanda utilizată la începutul oricărei sesiuni de lucru în modulul

Analysis. Este folosită pentru preluarea datelor dintr-un fişier, date ce vor fi folosite pentru

prelucrările ulterioare (până la o nouă comandă Read (Import).). Formatul implicit al


- 99 -

datelor este Epi 2000, dar acesta poate fi schimbat astfel încât este posibil să se preia date şi

din alte tipuri de fişiere (de exemplu diverse versiuni de Excel, diverse versiuni de Fox Pro,

Paradox sau chiar documente hipertext).

Softul Epi Info este însoţit de mai multe „proiecte” pentru exemplificare şi auto-învăţare,

dintre care cel mai simplu este Sample.mdb.

Lansaţi în execuţie comanda:

Read (Import)Data Formats: „Epi 2000”

Data Source: „Sample.mdb”

Show: Views

Views: „viewBabyBloodPressure”

Veţi constata că aceasta este de fapt comanda:

READ 'C:\...\Epi_Info\Sample.mdb':viewBabyBloodPressure

List, din grupul „Statistics”, este comanda de afişare sub formă tabelară (Grid sau HTML)

a valorilor unor variabile din fişierul activ de date. Implicit, pentru valoarea „*” în lista

Variables, vor fi afişate valorile pentru toate variabilele. Dacă însă vor fi selectate doar unele

variabile, afişarea valorilor se va efectua doar pentru aceste variabile. Această comandă

permite şi modificarea valorilor variabilelor din fişierul activ de date (Allow Updates).

Ca exemplu, vom afişa doar valorile variabilelor (câmpurilor) Birthweight,

SystolicBlood, AgeInDays sub formă tabelară (Display Mode: „Grid”) după ce aceste

câmpuri au fost selectate din lista derulantă Variables.

Comanda efectivă este:

LIST Birthweight SystolicBlood AgeInDays GRIDTABLE

Frequencies, din grupul „Statistics”, este comanda cu care de obicei se începe analiza

unui nou set de date, pentru că înainte de a face prelucrări statistice mai complicate, vrem să

aflăm câteva informaţii de bază, legate de distribuiţia datelor. Comanda se poate folosi atât

pentru variabile calitative, cât şi pentru variabile cantitative, şi conduce la obţinerea unui

tabel-sinteză care conţine toate valorile variabilelor specificate în lista Frequency of:,


- 100 -

împreună cu frecvenţele absolute (numărul de apariţii), procentele şi procentele cumulate

pentru fiecare valoare a variabilei.

De asemenea, în tabel este trecută şi o schiţă de reprezentare grafică de tip „cu bare”.

În figura de mai jos este prezentat efectul comenzii

FREQ Birthweight

Birthweight in Oz (X1) Frequency Percent Cum Percent

90 1 6.3% 6.3%

95 1 6.3% 12.5%

100 1 6.3% 18.8%

105 2 12.5% 31.3%

120 4 25.0% 56.3%

125 3 18.8% 75.0%

130 1 6.3% 81.3%

135 1 6.3% 87.5%

150 1 6.3% 93.8%

160 1 6.3% 100.0%

Total 16 100.0% 100.0%

95% Conf Limits

90 0.2% 30.2%

95 0.2% 30.2%

100 0.2% 30.2%

105 1.6% 38.3%

120 7.3% 52.4%

125 4.0% 45.6%

130 0.2% 30.2%

135 0.2% 30.2%

150 0.2% 30.2%

160 0.2% 30.2%

Se observă că sunt afişate şi intervalele de încredere 95% (95% Confidence Limits)

pentru fiecare valoare a variabilei. Ele trebuie citite în felul următor: avem încredere 95% că

procentul celor care la naştere cântăresc 90 oz se situează undeva între 0.2% şi 30.2%. Acest

rezultat este bazat pe înregistrarea unui caz din 16! La cursurile de biostatistică din anul al II-

lea se va explica modul în care se obţin aceste evaluări.

În cazul în care se specifică o variabilă de stratificare, se obţin mai multe tabele de

frecvenţă, câte unul pentru fiecare valoare a variabilei de stratificare.

Comanda Means conduce, în plus faţă de datele pe care le-am obţinut deja cu comanda

Frequencies, la obţinerea unor indicatori statistici de centrare şi împrăştiere: media (Mean),

mediana (Median), cuartilele (de 25% şi de 75%), valoarea minimă (Minimum) şi maximă

(Maximum), modul = valoarea având frecvenţa maximă (Mode), varianţa (Variance) şi

abaterea standard (Std Dev). Evident, Obs este numărul total de valori ale variabilei, iar Total

este suma tuturor valorilor variabilei.

În figura de mai jos este prezentat efectul comenzii


- 101 -

MEANS AgeInDays

Age in Days(X2) Frequency Percent Cum Percent

2 3 18.8% 18.8%

3 7 43.8% 62.5%

4 4 25.0% 87.5%

5 2 12.5% 100.0%

Total 16 100.0% 100.0%

Obs Total Mean Variance Std Dev

16 53.0000 3.3125 .8958 .9465

Minimum 25% Median 75% Maximum Mode

2.0000 3.0000 3.0000 4.0000 5.0000 3.0000

Comanda Means poate fi folosită însă numai pentru variabile cantitative; pentru cele

calitative trebuie să ne mulţumim cu rezultatele comenzii Frequencies.

Comanda Select, din grupul „Select/If”, este folosită pentru selectarea unui grup de

înregistrări care îndeplinesc un anumit criteriu. După selectarea grupului de înregistrări, în

prelucrare vor fi luate în calcul doar acestea. Comanda Select rămâne activă pâna la anularea

ei (Cancel select).

Ca exemplu, să selectăm noii născuţi cu vârsta (exprimată în zile) mai mare de 3. În

caseta Select Criteria: formaţi expresia „AgeInDays>3”. În urma unei comenzi List se va

obţine următorul rezultat:

Ultimele două coloane, intitulate „UniqueKey” şi „RecStatus”, sunt câmpuri speciale

pentru tabele create cu Epi Info. În câmpul RecStatus se păstrează starea înregistrării.

Anume, pentru înregistrările care au fost marcate pentru ştergere valoarea va fi 0, iar pentru

restul valoarea va fi 1. Câmpul UniqueKey este folosit pentru numărarea automată a

înregistrărilor din tabel.

Comanda Header, din grupul „Output”, poate fi folosită pentru a stabili un text ca titlu

pentru rezultate, de asemenea pot fi precizate caracteristicile de redare (fontul, mărimea,

etc.). Un exemplu:

HEADER 2 "Rezultate pentru nou nascuti" (BOLD) TEXTFONT +4

Observation

Number

Birthweight in

Ounces (X1)

Age in

Days(X2)

Systolic Blood Pres-

sure (mm Hg)(Y) UniqueKey RecStatus

2 120 4 90 2 1

5 130 4 92 5 1

6 125 5 98 6 1

9 120 5 96 9 1

10 90 4 95 10 1

14 150 4 97 14 1


- 102 -

Comanda Type, din acelaşi grup „Output”, este analoagă celei anterioare; evident, este

folosită pentru inserarea unei secvenţe de caractere sau a conţinutului unui fişier-text în

fluxul de ieşire (fie cel implicit – monitorul –, sau cel specificat cu comanda RouteOut).

Comanda RouteOut redirectează ieşirea (fluxul de rezultate) către conţinutul unui fişier

cu numele specificat; acest proces va fi terminat prin comanda CloseOut. Rezultatele

obţinute în urma unor comenzi precum Frequencies, List etc. vor fi inserate în conţinutul

fişierului cu numele specificat prin RouteOut.

Deschideţi (din Sample.mdb) cu ajutorul comenzii Read (Import) tabelul

viewEstriolAndBirthweight. Folosiţi comanda RouteOut pentru a redirecţiona rezultatele

obţinute spre fişierul cu numele nume_EBW (evident, în folderul C:\Anul_1). Ce extensie

va avea acest fişier?

Introduceţi titlul „Estriolul şi greutatea la naştere” cu ajutorul comenzii Header bifând

opţiunile „Bold” şi „Italic” şi alegând mărimea fontului de „7”. Introduceţi apoi textul

„Conţinutul fişierului” cu ajutorul comenzii Type bifând şi acum opţiunile „Bold” şi „Italic”,

însă alegând mărimea fontului de 5. Folosiţi comanda List pentru a lista valorile celor două

variabile Birthweight şi Estriol, alegând modul de afişare „Web (HTML)”. Introduceţi un

nou text: „Prelucrări statistice” păstrând parametrii de la textul anterior. Cu ajutorul

comenzii Means calculaţi indicatorii statistici pentru variabila Birthweight, apoi pentru

Estriol. Închideţi fişierul de rezultate cu ajutorul comenzii CloseOut.

Probabil că suntem de acord cu toţii că informaţia prezentată grafic este mai uşor de

„înţeles”. Cele mai utilizate moduri de prezentare grafică sunt diagramele cu dreptunghiuri

(Bar sau Rotated Bar), diagramele de tip rozetă (Pie) şi histogramele (Histogram). Primele

două tipuri sunt potrivite pentru „afişarea” informaţiei despre variabilele care au un număr

„mic” de valori (în special variabile calitative). Ultimul tip este adecvat prezentării

sumarizate a variabilelor care au un număr mare de valori numerice (aşa cum este cazul

greutăţii exprimată în grame, sau a înălţimii exprimată în centimetri), bineînţeles după ce se

realizează gruparea valorilor în câteva intervale de valori.

Comanda Graph, din grupul „Statistics”, este folosită pentru a realiza reprezentări

grafice ale variabilelor din fişierul activ de date. Ca un exemplu, să deschidem (din „sursa”

Sample.mdb) cu ajutorul comenzii Read (Import) tabelul viewSmoke. Cu ajutorul

comenzii Graph vom prezenta valorile variabilei Sex întro diagramă cu bare

(dreptunghiuri). Pentru aceasta în fereastra obţinută prin lansarea comenzii, alegem „Bar” în

lista Graph Type: şi „Sex” în X-AXIS Main_Variable(s):. În Y-AXIS Show values of: va

fi păstrată valoarea implicită „Count”. Titlul diagramei va fi: „Repartitia pe sexe a

persoanelor fumatoare | creat de ... (numele d-voastră)”. După afişare, diagrama obţinută va

fi „exportată” (FileExport...) în format jpg după care va fi redenumită nume_DISX.jpg

alegând şi calea de acces prin opţiunea Export Destination: File Browse.

În mod asemănător se procedează pentru variabila Race pentru care vom alege tipul de

diagramă „Rotated Bar”, apoi pentru variabila Marital pentru care alegem tipul de grafic

„Pie”. Salvaţi cele două diagrame, după ce aţi ales titluri adecvate, în fişiere cu denumirile

nume_DIRACE.jpg respectiv nume_DIMAR.jpg. Pentru variabila cantitativă Age tipul de

diagramă adecvat va fi „Histogram”, pentru care veţi stabili lungimea intervalului de grupare

la 10, iar prima valoare va fi 0. Diagrama obţinută va fi salvată în fişierul

nume_DIAGE.jpg. Ce titlu i-aţi stabili?

În continuare, dorim să reprezentăm grafic variabila Weight separat pentru fiecare

valoare a variabilei Sex. Pentru aceasta, alegem tipul de diagramă „Histogram”, variabila

principală Main_Variable(s): va fi aleasă „Weight”, lungimea intervalului de grupare va fi


- 103 -

15, titlul principal va fi: „Repartitia greutatii in functie de sex | creat de ... (numele d-

voastră)”, la opţiunea One Graph for Each Value of alegem variabila „Sex”, vom bifa

opţiunea Multiple Graph per Page şi vom introduce valorile 2 pentru No

Across/Horizontal respectiv 1 pentru No Down/Vertical. Vom salva diagramele obţinute

sub numele nume_DIAGESX1.jpg respectiv nume_DIAGESX2.jpg.

Ca un exerciţiu de control, deschideţi tabelul viewOswego din proiectul Sample.mdb.

Redirectaţi rezultatele prelucrărilor următoare spre fişierul nume_OSW. Fiecare comandă va

fi însoţită de un text explicativ, în care veţi specifica ce se obţine cu comanda respectivă.

Listaţi conţinutul fişierului. Pentru variabila Age veţi calcula media pentru persoanele

sănătoase (criteriul „ill=No”) şi separat pentru persoanele bolnave („ill=Yes”).

Reprezentaţi grafic adecvat variabilele Age, Sex, Ill, salvaţi diagramele obţinute în

format JPG şi inseraţi-le, însoţite de comentariile d-voastră referitoare la ceea ce doriţi să

prezentaţi în diagramele respective, într-un document denumit nume_DIOSWEGO.doc.

Tema 37: tabele de contingenţă în Excel

Riscul apariţiei unei maladii (sau riscul de deces) este raportul între numărul de

„evenimente” ce apar întro perioadă de timp specificată (de obicei un an) şi numărul de

indivizi luaţi în considerare (respectiv aflaţi în viaţă) la începutul perioadei.

Tabelul următor, întocmit pentru compararea riscurilor, conţine date privind mortalitatea

la doi ani după primul atac de cord suferit de fumători. (Sursa: Daly, Bourke and McGilvray,

pag. 184.)

Supravieţuirea la 2 ani

Total decedaţi în viaţă

au continuat să fumeze 19 135 154

n-au mai fumat 15 199 214

Total 34 334 368

Acesta este un exemplu tipic de tabel de contingenţă (de tipul 2 2, adică două linii, două

coloane), bordat cu o linie şi o coloană a totalurilor.

Datele primare nu se prezintă însă în acest fel. Preluaţi fişierul LP08_1.xls pentru a vedea

cum sunt înregistrate datele primare. Dacă deschidem fişierul cu Excel, atunci vom folosi de

patru ori (pe patru coloane) însumarea rezultatelor date de funcţia logică IF, condiţiile

logice fiind de forma AND(C2=FALSE,D2=TRUE) şi analoagele.

Preluaţi cele 368 de înregistrări pe o primă foaie de calcul a fişierului nume_CALCULE,

foaie pe care o veţi denumi „Primare”.

Creaţi tabelul de mai sus pe a doua foaie de calcul, de exemplu în domeniul A1:D5

(având grijă să denumiţi această foaie de calcul „Conting”)

Calculaţi în coloana E rata deceselor. (Astfel, pentru întreg lotul de pacienţi, în celula E5

vom plasa formula „=B5/D5” şi vom obţine rata de 9.24%; pentru cei ce au continuat să

fumeze, în celula E3 vom plasa formula „=B3/D3” şi vom obţine rata de 12.34%, iar pentru

cei ce n-au mai fumat, în celula E4 vom obţine rata 7.01%. Evident, ar fi de dorit să plasaţi

în celula E2 un text explicativ, ca de exemplu „Rata deceselor”)

Se va observa o creştere a ratei deceselor în cazul celor ce au continuat să fumeze,

comparativ cu cazul celor care n-au mai fumat. Oare această creştere este „semnificativă”?

Pentru a răspunde la întrebări de acest fel va fi obligatoriu să precizăm „nivelul de

semnificaţie”, altfel răspunsurile sunt lipsite de conţinut.

Să alegem nivelul de semnificaţie uzual 05.0 . Afirmaţia că „fumatul este ASOCIAT

CU decesul timpuriu, după un prim atac de cord” poate fi confirmată (dar nu respinsă!) cu


- 104 -

ajutorul unui test de semnificaţie bazat pe acest nivel de semnificaţie şi pe o anumită

distribuţie hi-pătrat (anume cea cu un singur grad de libertate). Pragul ce trebuie depăşit

pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei =CHIINV(0.05, 1)

şi va avea valoarea aproximativ 3.84. Oare este el depăşit?

Atenţie, apelând funcţia CHIINV ni se oferă explicaţii detaliate în caseta de folosire a

funcţiei. (Întrebare: este confirmată afirmaţia?)

Afirmaţia că „fumatul este O CAUZĂ A decesului timpuriu, după un prim atac de cord”

poate fi confirmată cu ajutorul unui alt test de semnificaţie bazat pe nivelul de semnificaţie

ales şi pe o anumită distribuţie, normală standard de data aceasta. Pragul ce trebuie depăşit

pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei =NORMSINV(1–0.05)

şi va avea valoarea aproximativ 1.64. Oare este el depăşit?

Vom încerca să confirmăm ultima afirmaţie („este cauză”) prin efectuarea unui test de

semnificaţie. Compararea celor două populaţii, anume a celor care „n-au mai fumat”,

respectiv a celor care „au continuat să fumeze” se va face la nivelul proporţiilor riscurilor de

deces.

„Ipoteza nulă”, pe care încercăm să o „respingem” în urma efectuării testului de

semnificaţie, este următoarea

21

şi ea exprimă faptul că cele două proporţii „nu diferă semnificativ” una de alta. Ipoteza

alternativă, pe care o vom accepta dacă vom reuşi respingerea ipotezei nule, este următoarea:

21 .

Evident, ea exprimă faptul că riscul de deces este mai mare pentru cei care „continuă să

fumeze”.

Proporţiile riscurilor de deces sunt estimate prin frecvenţele relative observate,

1234.01 p , 0701.02 p , calculate pe baza datelor din eşantioane. Ele sunt în concordanţă

cu ipoteza alternativă!

(Este important să facem această observaţie! Căci în cazul în care frecvenţele relative

observate nu erau în concordanţă cu ipoteza alternativă, am fi confirmat o altă afirmaţie!)

Avem nevoie şi de riscul de deces pentru întreaga populaţie, uşor de calculat

%24.9368

34p . De asemenea, trebuie să reţinem şi „volumele eşantioanelor”, 1541 n ,

2142 n .

Statistica pe care o folosim este

21

12

11)1(

nnpp

ppz iar valoarea obţinută o vom

compara cu valoarea prag z corespunzătoare nivelului de semnificaţie ales. Mai precis,

vom putea respinge ipoteza nulă doar dacă vom constata că zz .

Să ne alegem un nivel de semnificaţie 01.0 . Valoarea prag z va fi obţinută în Excel

prin formula =NORMSINV(0.99)

plasată întro celulă oarecare. (Atenţie, 0.99 este 1 .) Ar trebui să o găsim 2.326.


- 105 -

Copiaţi întreaga foaie de calcul „Conting” întro foaie nouă, denumită „ZTest”. Plasaţi aici

în celula E2 inscripţia „Frecvenţe relative” iar dedesubt afişaţi conţinutul celulelor cu 4

zecimale (numeric, nu în procente).

Plasaţi în celula A7 inscripţia „Nivelul de semnificaţie”, iar în celula B7 numărul 0.01. În

continuare, plasaţi în celula C7 inscripţia „Valoarea prag”, iar în celula D7 formula =NORMSINV(1-B7)

De asemenea, plasaţi în celula E7 inscripţia „Valoarea statisticii”, iar în celula F7

formula de calcul: =(E3-E4)/SQRT(E5*(1-E5)*(1/D3+1/D4))

În sfârşit, în celula A8 plasaţi, aliniată la stânga, formula logică: =IF(F7>D7,"respingem H0","nu putem respinge H0")

Care este rezultatul?

Modificaţi acum nivelul de semnificaţie, în celula B7, la 0.05. Ce se întâmplă?

Ar trebui, cu nivelul de semnificaţie de 5%, să trageţi concluzia că fumatul în continuare

are efect negativ asupra ratei de supravieţuire a pacienţilor ce au suferit un atac de cord.

Totuşi, cu nivelul de semnificaţie mai mic, de doar 1%, această concluzie nu mai este

susţinută de datele din eşantioane.

Putem afla oare nivelul de semnificaţie „limită” pentru care concluzia este susţinută de

datele din eşantioane?

Plasaţi în celula A9 inscripţia „Valoarea p (riscul acceptării ipotezei alternative)”, iar în

celula B9 formula

=1-NORMSDIST(F7)

Ar trebui să obţineţi 4.08%.

Copiaţi acum întreg conţinutul foii de calcul „ZTest” în altă foaie de calcul, pe care o veţi

redenumi „Gripa”.

Modificaţi aici conţinutul tabelului din A2:D5, aşa încât să apară astfel:

S-au îmbolnăvit de gripă Nu s-au îmbolnăvit de gripă Total

Vaccinaţi 80 420 ?

Nevaccinaţi 150 535 ?

Total ? ? ?

Este vorba despre rezultatul unui studiu organizat de o companie farmaceutică, pentru a

testa eficacitatea unui vaccin nou împotriva gripei. În acest studiu, au fost selectaţi în mod

aleatoriu o serie de locuitori ai unui oraş mare (câţi anume?), care au fost urmăriţi din

noiembrie până în februarie. Dintre aceştia, unii (câţi anume?) au fost vaccinaţi, ceilalţi nu.

Se poate afirma că vaccinul este eficient în combaterea gripei? (Se va alege ca nivel de

semnificaţie 05.0 .) Care este „valoarea p” a acestei afirmaţii?

Tema 38: testul hi pătrat în Excel

Să reluăm afirmaţia „fumatul este ASOCIAT CU decesul timpuriu, după un prim atac de

cord”. Ea poate fi confirmată cu ajutorul unui test hi-pătrat DE SEMNIFICAŢIE.

În Excel calculele necesare confirmării vor exploata tabelul de contingenţă (din domeniul

B3:C4 (care, reamintim, conţine „datele observate”). Acest tabel are două rânduri şi două

coloane. Prin urmare, numărul gradelor de libertate este (2–1)(2–1) = 1.

Copiați tabelul de pe foaia „ZTest” pe o foaie nouă, unica foaie de calcul din fişierul

nume_HIPATRAT.xls. Redenumiți „ChisqTest” această foaie.


- 106 -

Preluaţi, de asemenea, o copie a rândurilor 7:8 de pe foaia „ZTest” pe foaia „ChisqTest”.

Aceste rânduri conţin nivelul de semnificaţie, valoarea prag, valoarea statisticii, precum şi

formula de „calcul” a deciziei de a respinge sau nu ipoteza nulă.

Formula de calcul a valorii prag, din celula B9, a fost pregătită pentru testul Z; ea trebuie

adaptată pentru testul hi pătrat. Aşadar, o veţi modifica în =CHIINV(B7, 1)

Rămâne doar să adaptăm statistica pe care o folosim şi care de data aceasta este cea a lui

Pearson

2

2

N

NNN

NN

NX cr

rccrr c

, unde rN sunt totalurile pe linii, cN sunt

totalurile pe coloane, iar N este totalul general. Aceste totaluri au fost calculate pe coloana

D şi pe rândul 5.

Formula pe care ar trebui să o plasăm în celula F9 este destul de complicată. Ar fi de

preferat calculul preliminar al expresiilor

N

NN cr , pe care l-am putea efectua de exemplu în

domeniul F3:G4, prin formula =$D3*B$5/$D$5

şi analoagele ei.

Ar urma calculul preliminar al termenilor

2

N

NNN

NN

N crrc

cr

, pe care l-am putea

efectua de exemplu în domeniul I3:J4, prin formula =1/F3*(B3-F3)^2

şi analoagele ei.

Acestea fiind calculate, formula din celula B9 devine o simplă însumare: =SUM(I3:J4)

iar concluzia privind confirmarea afirmaţiei (prin respingerea ipotezei nule) apare automat în

celula A8.

Ar fi interesant să plasaţi în celula A9 inscripţia „Valoarea p (riscul acceptării ipotezei

alternative)”, iar în celula B9 formula de calcul, care în cazul acestui test hi pătrat devine =CHITEST(B3:C4,F3:G4)

Ar trebui să obţineţi o valoare dublă faţă de valoarea pe care aţi obţinut-o (pentru acelaşi

nivel de semnificaţie ales), în celula A9 de pe foaia „ZTest”. Aveţi o explicaţie pentru

această „coincidenţă”?

Tema 39: comanda TABLES în Epi Info

Vom folosi acum modulul Analyze Data al aplicaţiei EpiInfo pentru a „analiza” datele

primare din fişierul LP08_1.xls.

Înainte de toate este necesar să preluăm acest fişier, care nu a fost creat cu aplicaţia

EpiInfo! Pentru aceasta vom folosi comanda Read (Import) din gruparea de comenzi Data.

În caseta de dialog READ va trebui să alegem „Excel 8.0” în lista Data Formats, apoi să

identificăm fişierul în caseta Data Source.

Comenzile date, exprimate în limbajul aplicaţiei, vor fi afişate în fereastra Program

Editor. Ele vor putea fi reluate (eventual după modificări) cu butonul Run din această

fereastră.


- 107 -

Apelaţi comanda List pentru a „vedea” conţinutul fişierului. Observaţi cum sunt

identificate datele, pe linii şi pe coloane. (Este un exemplu simplificat de tabel conţinând

date primare.)

Apelaţi comanda Tables pentru a crea tabelul de contingenţă între variabilele Cont_smok

şi Deceased. Alegeţi aceste variabile în casetele listă Exposure Variable respectiv Outcome

Variable (ca în figura următoare).

Observaţi rezultatele afişate. În tabelul de contingenţă, pe lângă numerele cu care ne-am

obişnuit, sunt afişate şi procentajele pe linii (Row%) şi pe coloane (Col%). Pentru a „scăpa”

de ele, reluaţi comanda, apăsaţi butonul Settings (vezi figura) şi renunţaţi la Show Percents.

Observaţi restul rezultatelor afişate în special în ultima parte. Ce puteţi identifica?

STATISTICAL TESTS Chi-square 1-tailed p 2-tailed p

Chi square - uncorrected 3,0321

0,0816356755

Chi square - Mantel-Haenszel 3,0238

0,0820513166

Chi square - corrected (Yates) 2,4299

0,1190395582

Mid-p exact

0,0441211064

Fisher exact

0,0603417435

lucrarea practică 8 - seria 7 · numai cu epi info, dar şi cu dbase, foxpro, excel etc. aceste...

Documents