3 pregatirea datelor pentru analiza sas

Upload: andra-gabriela

Post on 03-Apr-2018

224 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/28/2019 3 Pregatirea Datelor Pentru Analiza SAS

    1/5

    1

    Pregtirea datelor pentru analiz

    Interogarea datelor

    Tehnic vorbind, o interogare este o cerere de regsire a datelor din una mai mai multe surse de

    date.

    n contextul SAS, o interogare este o colecie de specificaii care ne permit s aducem datele nforma dorit de utilizator. Interogrile pot fi folosite pentru:

    Selectarea rndurilor pornind de la una sau mai multe condiii Selectarea, ordonarea i sortarea coloanelor Definirea de variabile calculate Jonciunea tabelelor prin diferite metode nlocuirea valorilor datelor Gruparea i agregarea datelor Specificarea unui parametru pentru interogare

    n SAS EG, instrumentul care ne permite s construim specificaiile unei interogri poartdenumirea de Query Builder.

    Pornind de la aceste specificaii, Query Builder genereaz cod SQL.

    Interogrile care au asociai parametri permit utilizatorului s furnizeze date de intrare pentruinterogare, la momentul execuiei acesteia.

    Interogrile se fac pornind de la un set de date anume.

    Implicit, se deschid fr a avea selectat nici o coloan a tabelei. nainte de a rula o interogare,trebuie s adugm cel puin o coloan.

    Proprietile unei coloane pot fi modificate, incluznd Alias-ul (numele), Eticheta sau Formatul.

    Funcionaliti diferite ale Query Builder sunt oferite prin intermediul a trei tab-uri: Selecta Data,Filter Data i Sort Data.

    Tab-ul Select Data permite: crearea de coloane calculate; aplicarea de formate asupra datelor;folosirea funciilor de agregare; crearea de expresii condiionale.

    Filtrea datelor

    Se pot defini dou tipuri de filtre:filtre simple i filtre avansate.

    Pentru un filtru simplu, trebuie selectat operatorul de comparaie i introduse valorile sauvaloarea de comparat. Aceste valori pot fi preluate i din valorile cmpului respectiv stocate ntabela SAS corespunztoare. Dac n cmpul Value trebuie s introducem valori nenumerice,

  • 7/28/2019 3 Pregatirea Datelor Pentru Analiza SAS

    2/5

    2

    atunci acestea trebuie incluse ntre ghilimele i s se in cont de faptul c valorile sunt case -sensitive.

    Pentru filtrele avansate, se pot crea expresii complexe prin intermediul unui editor de expresiiavansate. Operatorii de comparaie disponibili includ operatori standard, dar i operatori avansai

    ca:

    Operator Exemplu

    In a list of values IN ("DB","IL")

    Between venit BETWEEN 1200 AND 2000

    Is null | Is missing Realizeaz un test pentru valorile lips

    Sounds likenume =* "smith"

    gsete "Smythe", "Smith"

    Containstara contains "US"

    gsete "USA", "RUSIA"

    Matches pattern

    Realizeaz o cutare bazat pe caractere speciale. Semnul procent(%) nlocuiete oricte caractere. Semnul underscore (_)nlocuiete un caracter.

    nume like R_D%"

    gseteRADULESCU", RADU", RODICA"

    Combinarea filtrelor

    Atunci cnd se creeaz unul mai mai multe filtre asupra datelor, se poate specifica dac relaiiledintre filtre sunt de tip AND sau OR. De asemenea, pentru condiii complexe, filtrele pot fi

    grupate.

    1.1. Crearea unei noi coloane calculatentr-o interogare se poate insera o nou coloan care s fie calculat pe baza altor coloane sauvalori. O coloan calculat poate fi folosit pentru a agrega valori, a nlocui valori pornind de lao anumit condiie sau a efectua calcule. Dup crearea unei coloane calculate, aceasta poate fifolosit pentru sortarea sau gruparea rezultatelor.

    a. Coloan agregatPrima opiune permite efectuarea unei funcii de agregare pe oricare dintre coloanele interogrrii.Dup crearea unei coloane agregate sau a unei coloane calculate care conine o funcie deagregare, pentru ca rezultatele s aib o semnificaie, datele pot fi grupate n funcie de valorileunei coloane. Aceast operaie este echivalent cu folosirea clauzei GROUP BY ntr-o interogareSQL. Spre exemplu, dac vrem s calculm nalimea medie a unui grup de elevi, vom gruparezultatele n funcie de vrst, pentru a vedea nlimea medie pentru fiecare grup de vrst.

    Implicit, atunci cnd rulm o interogare, aceasta este grupat dup toate coloanele pe care trebuies le afieze, i nu va calcula funciile de agregare pentru un anumit grup de valori. Debifai

  • 7/28/2019 3 Pregatirea Datelor Pentru Analiza SAS

    3/5

    3

    opiunea Automatically select groups i apoi Edit groupspentru a specifica variabila de gruparedorit.

    b. Coloan recodificatA doua opiune permite crearea unei coloane calculate prin recodificarea unei valori individualesau a unui domeniu de valori. Aceata mai poart i denumirea de nlocuirea valorilor.Recodificarea este o modalitate eficient de grupare a valorilor.

    c. Coloan calculatA treia opiunepermite folosirea editorului avansat de expresii pentru definirea unei noi coloanepe baza unei formule de calcul.

    2.3 Jonciunea tabelelor

    Folosim jonciunea tabelelor atunci cnd vrem s: Calculm o nou coloan folosind ca intrri date din coloane stocate n tabele diferite Adugminformaii dintr-o tabel asociativ pentru a le introduce n tabela de analiz Identificm dac valorile unei coloane se regsesc sau nu n alte tabele

    Tabelele care particip la jonciune trebuie s aib o coloan comun. Aceast coloan trebuie sconin valori care s se potriveasc exact sau care s poat fi cu uurin comparate ntre tabele.O jonciune creat ntre coloane ale cror valori au corespondent exact se numete inner joi ireprezint tipul de jonciune implicit in SAS Enterprise Guide. Pe lng aceasta, sunt suportatei alte tipuri de jonciuni,cum sunt jonciunile externe. ntr-o interogare se pot realiza jonciunintre maxim 32 de tabele diferite. Atunci cnd se adaug mai mult de o tabel ntr-o interogare,

    Query Builder ncearc automat s relizeze jonciunea ntre tabele, be baza coloanelor care auacelai nume i tip.

    Tip jonciune Rnduri returnate de rezultatul interogrii

    inner Numai rndurile care au corespondent

    Tabela1 Tabela 2

    left outer Toate rndurile (care au corespondent i care nu aucorespondent) din prima tabel a interogrii, plusrndurile care au corespondent din cea de-a doua tabel

  • 7/28/2019 3 Pregatirea Datelor Pentru Analiza SAS

    4/5

    4

    Tabela 1 Tabela 2

    right outer Toate rndurile (care au corespondent i care nu au

    corespondent) din cea de-a doua tabel a interogrii,plus rndurile care au corespondent din prima tabel

    Tabela 1 Tabela 2

    full outer Toate rndurile din amndou tabelele

    Tabela 1 Tabela 2

    2.4 Setarea opiunilor interogrii

    Meniul Options din Query Builder permite setarea opiunilor pentru o anumit interogare sau aopiunilor implicite pentru toate interogrile.Pentru fiecare dintre acestea vor fi afiate ferestrede opiuni diferite.Alegerea unui tip de rezultat nainte de rularea interogrii este o garanie a faptului c interogareava oferi informaiile n formatul potrivit. Spre exemplu, pentru a vizualiza rezultatele ntr-unbrowser Web, se poate genera un rezultat sub forma unui raport HTML. Tabelul de mai josprezint formatele de rezultate pentru o interogare i caracteristicile acestora.

    Format de rezultat Caracteristici ale datelor Rezultatele interogrii

    Data table poate fi utilizat n alte scopuri O tabel static asupracreia se pot realizaprelucrri.

    Rezultatele nu suntactualizate pn lareexecutarea interogrii.

    Data view ntotdeuna actualizat O viziune dinamic adatelor asupra creia sepot realiza prelucrri.

    De fiecare dat cndrezultatele interogrii

  • 7/28/2019 3 Pregatirea Datelor Pentru Analiza SAS

    5/5

    5

    sunt deschise, acesteasunt actualizate pentru areflecta schimbrile cares-au realizat asupradatelor incluse n

    interogare.Raport formatat pentru prezentare Un raport n formatulcare este specificat caimplicit (HTML, PDF,RTF text sau raportSAS).

    Rezultatele nu suntactualizate pn lareexecutarea interogrii.Nu se pot efectua

    prelucrri asupra acestuiformat de rezultat.

    Data view

    Dac o tabel de date stocheaz datele efective, un data view conine doar logica necesarpentru regsirea datelor care sunt stocate n alte locaii. Acestea permit citirea dinamic adatelor fr a folosi spaiul fizic de stocare pentru crearea unei noi tabele. Avantaje:

    Salveaz spaiul de memorie prin dimensiunile lor reduse Asigur faptul c seturile de date de intrare sunt ntotdeuna actuale Pot ascunde de utilizatori anumite coloane confideniale, permindu-le n acelaitimp s vad alte coloane Ascund utilizatorului jonciuni sau interogri complexe