suport curs curatare_lesson1

7
  SCURTA INTRODUCERE IN SPSS (Statistic Packa ge Social Sciences) Programul se compune din trei module principale :  editorul de date (.sav) - Afiseaza setul de date pe care urmarim sa facem prelucrari ; baza de date se prezinta ca un tabel bidimensional, avand pe linii cazurile sau inregistrarile (care in general reprezinta respondenti ai unui chestionar), iar pe coloane variabilele (respectiv intrebarile din chestionar si raspunsurile aferente)  fisierul de sintaxa (.sps)- prin intermediul caruia pot fi efectuate prelucrari folosind instructiuni specifice SPSS-ului. Acest fisier este folosit pentru pastrarea comenzilor de sintaxa ale SPSS (daca sintaxa se face direct din meniu-ul SPSS-ului, acesta se va copia (Paste) in fisierul de sintaxe  fisierul de output (.spo) - modulul in care sunt afisate toate rezultatele prelucrarilor sub forma de statistici, grafice, tabele si de asemenea diferitele mesaje de avertizare (warnings) venite din  partea programului; Good to know: modul de prezentare al tabelelor se poate modifica cu ajutorul unor sabloane predefinite (table looks) care se pot apela din meniul Format/ Table  Looks Comenzi si meniuri Transformarea datelor si prelucrarea statistica a acestora se pot realiza in doua moduri: prin intermediul comenzilor din meniuri si alternativ cu ajutorul comenzilor din sintaxa. Indiferent de metoda folosita, in fisierul de sintaxa va trebui sa existe sintaxa    facuta manual, sau copiata din meniu. Prezentare meniuri SPSS are patru meniuri principale, care grupeaza comenzi inrudite; meniul Data contine comenzi care realizaeaza manipulari ale setului de date in ansamblu; meniul Transform grupeaza comenzi prin care se realizeaza crearea si transformarea variabilelor individuale; prelucrarile statistice se realizeaza prin intermediul meniului Statistics iar comenzile grafice se gasesc sub meniul Graphics  Configurarea programului    in submeniul Edit/ Options se gasesc principalele comenzi prin care programul poate fi configurat

Upload: mihaela-stanescu

Post on 01-Nov-2015

219 views

Category:

Documents


0 download

DESCRIPTION

-

TRANSCRIPT

  • SCURTA INTRODUCERE IN SPSS (Statistic Package Social Sciences)

    Programul se compune din trei module principale :

    editorul de date (.sav) - Afiseaza setul de date pe care urmarim sa facem prelucrari ; baza de date se prezinta ca un tabel bidimensional, avand pe linii cazurile sau inregistrarile (care in

    general reprezinta respondenti ai unui chestionar), iar pe coloane variabilele (respectiv

    intrebarile din chestionar si raspunsurile aferente)

    fisierul de sintaxa (.sps)- prin intermediul caruia pot fi efectuate prelucrari folosind instructiuni specifice SPSS-ului. Acest fisier este folosit pentru pastrarea comenzilor de sintaxa ale SPSS

    (daca sintaxa se face direct din meniu-ul SPSS-ului, acesta se va copia (Paste) in fisierul de

    sintaxe

    fisierul de output (.spo) - modulul in care sunt afisate toate rezultatele prelucrarilor sub forma de statistici, grafice, tabele si de asemenea diferitele mesaje de avertizare (warnings) venite din

    partea programului; Good to know: modul de prezentare al tabelelor se poate modifica cu

    ajutorul unor sabloane predefinite (table looks) care se pot apela din meniul Format/ Table

    Looks

    Comenzi si meniuri

    Transformarea datelor si prelucrarea statistica a acestora se pot realiza in doua moduri: prin intermediul

    comenzilor din meniuri si alternativ cu ajutorul comenzilor din sintaxa. Indiferent de metoda folosita, in

    fisierul de sintaxa va trebui sa existe sintaxa facuta manual, sau copiata din meniu.

    Prezentare meniuri

    SPSS are patru meniuri principale, care grupeaza comenzi inrudite; meniul Data contine comenzi care

    realizaeaza manipulari ale setului de date in ansamblu; meniul Transform grupeaza comenzi prin care

    se realizeaza crearea si transformarea variabilelor individuale; prelucrarile statistice se realizeaza prin

    intermediul meniului Statistics iar

    comenzile grafice se gasesc sub

    meniul Graphics

    Configurarea programului in submeniul Edit/ Options se gasesc principalele comenzi prin care programul poate fi configurat

  • 1. CREAREA FISIERULUI DE DATE

    Fisierul de date poate fi realizat prin introducerea directa a datelor prin editorul de date sau prin

    importul datelor din alte formate

    1.1 Preluarea datelor din alte formate

    Fisiere in format Excel SPSSul poate citi fisiere in format nativ Excel. Pentru a citi un fisier Excel acesta trebuie salvat in versiunea 4; apoi se deschide in mod obisnuit din SPSS

    Fisiere de date de alt tip (Acess, FoxPro, etc.) Pentru importul de astfel de fisiere se foloseste comanda Open Database New Query - si se alege programul din care importam datele.

    Nu se poate importa mai mult de o baza de data, la o singura accesare a meniului. Daca in Access

    avem mai multe tabele, fiecare se importa separat, urmand sa se faca concatenarea tabelelor

    rezultate in SPSS.

    Fisiere ASCII (Flat ASCII sau MultiCard ASCII=Quantum)

  • 2. RESPECTAREA PARAMETRILOR PROIECTULUI

    Imediat ce avem baza unita, se verifica daca numarul chestionarelor respecta esantionul clientului

    (Verificarea se face cu datele din Ariadna sau cu cele din fisa de esantionare). Totodata numarul

    inregistrarilor din bazatrebuie sa corespunda numarului de chestionare receptionate si validate de catre

    Coordonatorul de proiect (in caz contrar se poate ca unele chestionare sa nu fi fost date la introducere

    sau sa nu se fi luat toate bazele de pe severul de date).

    Se fac, de asemenea, verificari pe cote (daca acestea exista) sau pe principalele demografice (in vederea

    identificarii eventualelor probleme ex: exista prea putine inregistrari pe un anumit oras, nu sunt acoperite toate straturile conform carora s-a facut esantionarea, sunt prea multi utilizatori Orange si prea

    putini Connex in situatia in care se stie ca au cote aproximativ egale pe piata, etc) precum si alte

    variabile de interes (in functie de tipul studiului) . Acestea se pot stabili impreuna cu PD-ul sau PM-ul.

    Eliminarea/ stergerea din baza a chestionarelor invalidate in urma verificarilor telefonice/ pe

    teren

    Comanda utilizata este: USE ALL.

    SELECT IF (nr_chest35 or nr_chest135 ).

    EXECUTE .

    Comanda este preluata din meniu: Data Select Cases, iar dupa ce se scrie conditia (pentru inregistrarile care vor ramane in baza) se bifeaza Deleted (in loc de filtered cum se face pentru filtre)

    Daca au fost sterse chestionare din baza de date se mai verifica inca o data parametrii proiectului.

    FM si PM trebuie informati asupra chestionarelor scoase din baza si motivelor pentru care a fost luata

    aceasta decizie.

    Pentru orice neregula aparuta (numar prea mic de inregistrari, dezechilibrare cote, etc.) se anunta PM ul sau responsabilul de proiect (pt cele nonDaedalus), in vederea luarii unei decizii.

    3. ETICHETAREA

    Etichetele reprezinta asocierea variabilelor din baza cu un text explicativ care, la efectuarea unei analize

    pe variabila respectiva va fi afisat in output in locul numelui variabilei.

    Analog pot fi atribuite si etichete pentru valorile unei variabile; lungimea acestora nu poate depasi 60 de

    caractere (inclusiv spatii, virgule etc.), in aceasta situatie ele vor fi trunchiate. Pentru etichetele mai

    lungi de 60 de caractere se reformuleaza afirmatia (fara a-i schimba sensul sau a omite anumite chestii

    importante) astfel incat aceasta sa se incadreze in lungimea de 60 char.

    Etichetele usureaza citirea unui output in SPSS dar nu au nici o influenta asupra variabilelor.

    Etichetarea se face in limba engleza. Pentru etichetarea valorilor, input-ul este chestionarul tradus in

    limba engleza, etichetele fiind de fapt optiunile de raspuns la fiecare intrebare. Pentru etichetarea

    variabilelor input-ul este fisierul de specificatii de raport / etichetare (realizat de catre AD); Etichetarea

    variabilelor corespunde de fapt unui titlu care se da pentru fiecare intrebare. Pentru variabilele

    dihotomice, eticheta fiecarei variabile din cadrul intrebarii este de fapt identificata cu optiunile din

    chestionar; valorile pentru astfel de variabile (0 si 1) nu se eticheteaza. Etichetele pentru grupuri de

    variabile multiplu raspuns se vor prelua din specificatiile de raport.

    Pentru etichetarea variabilelor se foloseste sintaxa: var lab q05 Unaided Awareness.

    iar pentru etichetarea valorilor se foloseste sintaxa:

  • val lab q05

    1Prigat 2Cappy .

    .

    99DK/NA.

    Daca, o data definite etichetele pentru o variabila, mai descoperim noi valori (pe care nu le-am etichetat

    inainte) sau cream noi valori (ex. cele de DK/NA) pentru etichetarea acestora se foloseste sintaxa add

    val lab in loc de val lab. Daca am folosi val lab fara add in fata, in urma sintaxei se vor sterge toate

    etichetele definite inainte si vor ramane doar cele scrise ultimele.

    !! La etichetarea valorilor variabilelor de venit/ cheltuieli..., se trec doar sumele in Euro/ $ nu si cele in

    lei, iar moneda in care acestea se evalueaza se trece doar in eticheta variabilei (Personal Monthly Net

    Income (EURO)) nu si in etichetele de valori: val lab d01

    1 "Less than 75"

    2 "75 - 250 "

    3 "250 - 450 "

    4 " 450 - 650 "

    5 "650 - 850"

    6 "More than 850 "

    99 "DK/ NA".

    Iata o sintaxa de etichetare gresita, nu atat din punc de vedere al functionarii, cat al textului etichetelor: val lab d01

    1 "Less than 2,7 mil lei (75 EURO)"

    2 "2,7 - 9 mil lei (75 - 250 EURO)"

    3 "9 - 16,2 mil lei (250 - 450 EURO)"

    4 "16,2 - 23,4 mil lei (450 - 650 EURO)"

    5 "23,4 - 30,6 mil lei (650 - 850 EURO)"

    6 "More than 30,6 mil lei ( 850 EURO)"

    99 "DK/ NA".

    Pentru etichetarea demograficelor exista standarde predefinite astfel incat, indiferent de studiu,

    etichetarea acestora se face pe baza template-ului de demografice.

    Modul de scriere a etichetelor pentru variabile respectiv seturi (grupuri multiplu raspuns) urmeaza

    standardele folosite in scrierea titlurilor in limba engleza (inceputul fioecarui cuvant se scrie cu CAPS,

    mai putin prepozitiile) : Breakdown by Age; Consumption Frequency in the Past 12 Months. Etichetele

    pentru valori se scriu normal, cu litera mare doar la inceputul primului cuvant. La preluarea etichetelor

    din chestionar sau din specificatiile de etichetare/ raport si aducearea lor in Excel/ SPSS trebuie urmarit

    ca acestea sa nu inceapa cu spatii.(ex: 11 Less than 1000 . Daca exista asemenea spatii, acestea trebuie sterse. Dupa ghilimeaua care marcheaza inceputul etichetei nu trebuie sa fie spatii)

    Verificarile care se fac dupa etichetarae bazei de date sunt:

    - toate variabilele/ valorile variabilelor au fost etichetate conform standardelor - etichetele nu au fost trunchiate.

    Setari legate de afisare

    Afisarea etichetelor in listele de variabile cu Options/General; pentru afisarea in tabele Options/Output

    labeling; pentru afisarea etichetelor valorilor in editorul de date in meniul View se bifeaza optiunea

  • Labels.

    4. CURATARE/ VALIDARE (General)

    4.1 Filtrarea datelor

    Filtrarea datelor reprezinta selectia temporara a unui subset de cazuri bazat pe anumite conditii criteriu;

    in aceasta situatie cazurile care nu indeplinesc conditia respectiva sunt ascunse; se pot realiza astfel analize numai pe subsetul respectiv, apoi sa se revina la setul complet .

    Structura unui filtru

    Variabila filtru Blocul DA Blocul NU

    Q 5. Intentionati sa incheiati o polita de asigurare de viata in viitor?

    1 Da Q 6. In ce orizont de timp? 1 mai putin de 6 luni 2 6 - 12 luni 3 1 - 2 ani 4 2 - 3 ani 5 peste 3 ani

    2 Nu Q 7. De ce? ............................................................................................................................. .....|____| ...................................................................................................................................................|____|

    ............................................................................................................................ .........................|____|

    blocul DA: q06 conditie DA: q05=1

    blocul NU: q07 conditie NU: q05=2

    Obs: Multe filtre nu au decat un singur bloc(cel de da)

    Verificarea filtrelor

    Se verifica situatiile in care filtrul a fost aplicat incorect, deci daca exista persoane care au raspuns la

    intrebarile dintr-unul din blocuri fara sa indeplineasca conditia de filtru. Prin urmare la intrebarile cu

    doua blocuri vom avea de verificat doua situatii posibile de nerespectare a filtrului. In exemplul de mai

    sus: Q051 si q06>0

    Q052 si q07>0

    Pentru a filtra datele, SPSS-ul calculeaza o noua variabila dihotomica, avand valoarea 1 pentru cazurile

    care indeplinesc conditia si 0 pentru celelalte, denumita automat filter$.Numele acesteia se poate modifica (putem sa ii dam noi un nume) daca filtrarea se face direct din sintaxa si nu din meniu.

    Comanda utilizata pentru filtrarea cu ajutorul meniului:

    Data Select Cases , se bifeaza If condition is satisfied si se scrie conditia:

    Se scrie conditia in

    functie de care

    cream filtrul

  • Sintaxa folosita pentru a scrie acest filtru de mana este:

    compute filtru=((q35=1 or q36=4) and s02f=4).

    exe.

    filter by filtru.

    Pentru a scoate un filtru de pe baza ( pentru a reveni la toate cazurile din baza), comanda utilizata este:

    use all sau filer off.

    Daca in conditia pe care o punem la crearea filtrului se au in vedere mai multe variabile intre care exista

    o anumita relatie se utilizeaza operatori logici (and, or etc.). Atunci cand utilizam astfel de operatori

    logici trebuie acordata mare atentie ordinii in care acestia apar si modului in care folosim parantezele

    pentru a determina prioritatile.

    Important: Comenzile de transformarea a datelor (de ex recode) nu tin cont de filtru si actioneaza pe

    toata baza de date. Filtrele sunt folosite doar pentru a scoate din baza anumiti respondenti (care nu

    indeplinesc o conditie) si a observa datele pe o baza mai mica.

    4.2 Recodificarea

    Codificare este operatia prin care i se asociaza fiecarui raspuns un numar ; in general mai multor

    raspunsuri asemanatoare li se asociaza acelasi cod .

    Recodificarea se refera la modificarea categoriilor de valori pe care le poate lua o anumita variabila.

    Aceasta operatie este realizata mai ales la restrangerea numarului de valori pe care le poate lua o

    variabila intr-un numar mic de categorii relevante care sa usureze analiza. (De exemplu daca

    transformam varsta care este o variabila continua intr-o variabila cu cateva categorii de varsta). De

    asemenea, recodificarea este utilizata la tratarea valorilor lipsa (recode (sysmis=99)).

    Recodificarea se poate face prin modificarea valorilor variabilei initiale sau prin crearea unei noi

    variabile cu codurile respective Transform Recode Into same variables sau Into Different variables Exemple si comentar ii

    In general la restrangeri ( recodificari) este indicat sa se creeze o variabila noua, variabila veche

    ramanand cu valorile originale, pentru a putea fi folosita la o eventuala recodificare diferita ; numai in

    masura in care suntem siguri ca nu vom mai avea nevoie de valorile variabilei initiale se alege

    recodificarea pentru aceeasi variabila (de ex la curatare transformarea zerourilor in valori missing)

    valorile din variabila initiala care nu sunt specificate in ce se transforma li se atribuie automat

    valoarea missing

    Folosirea comenzii copy old value (else = copy) pentru valorile care raman neschimbate

    Pentru a aplica recodificari numai asupra unei selectii de cazuri se foloseste optiunea If sau do if,

    punerea unui filtru nu functioneaza in cazul recodificarilor: if q05=8 q06=4.

    exe.

    sau do if q05=8.

    recode q06 (6=4) (3=4).

    end if.

    exe.

    Se creaza variabila dihotomica de filtare , pe care am

    numit-o filtru ( ea poate avea orice alt nume)

    Se aplica filtrul asupra bazei de date

  • Iata o sintaxa gresita: Compute filtru=( q05=8).

    Exe.

    Filter by filtru.

    recode q06 (6=4) (3=4).

    Exe.

    Ex de sintaxa de recodificare pentru varsta(15 50 ani): recode d_age (17 throu lower =1) (18 throu 24=2) (25 thro 34 =3) (35 thro highest=4) intro d_agec.

    exe.

    O situatie aparte de recodificare este aceea in care respondentul poate da o valoare exprimata in orice unitate de masura (Unitatile de masura sunt variabile controlabile in chestionar fie predefinite, fie codificate ulterior) Ex: Q 1. Cat intentionati sa platiti pentru aceste pachete de servicii, incluzand TVA?

    .......................... 1 USD 2 EURO 3 ROL (lei vechi) 4 RON (lei noi)

    Pentru prelucrarea acestui tip de intrebare este necesar ca suma sa fie exprimata intr-o singura unitate de

    masura; astfel vom avea nevoie de o serie de recodificari.

    Presupunem 1USD=30.000lei si 1 Euro=36.000lei 1USD=0.83EURO Daca variabila de cheltuieli este q15 iar q15_moneda este variabila in care se trece moneda in care este

    exprimata suma., sintaxa este urmatoarea:

    Cream o noua variabila Q15r (suma finala trebuie exprimata in EURO): if q15_moneda=1 q15r=q15*0.83.

    if q15_moneda=2 q15r=q15.

    if q15_moneda=3 q15r=q15/36000.

    if q15_moneda=3 q15r=q15/3.6.

    exe.

    Astfel am obtinut o noua variabila in care toate sumele sunt exprimate in euro. Pentru aceasta, PD

    trebuie sa informeze SD asupra tipului de moneda in care se vrea variabila finala; tot astfel se trateaza si

    sumele cu/ fara TVA. Trebuie sa verificam cum a fost intrebarea in chestionar (daca e sau nu inclus

    TVA-ul) si sa ne informam cu se vrea prelucrata aceasta intrebare (cu/ fara TVA); si dupa caz, variabila

    se imparte sau se inmulteste cu 1,19.

    Utilizarae unei astfel de sintaxe va avea ca effect recodificarae

    tuturor valorilor lui q06 din 6 si 3 in 4, fara a tine cont de filtru.

    Mare atentie: Nu folositi niciodata recodificari in cadrul filtrelor.

    Nu functioneaza!!!