curs 5 - pregatirea datelor

24
Curs 5 - Pregătirea datelor pentru analiză

Upload: nicolae-stan

Post on 11-Nov-2015

39 views

Category:

Documents


0 download

DESCRIPTION

sas

TRANSCRIPT

  • Curs 5 - Pregtirea datelor pentru analiz

  • CUPRINS Curs 5

    1. Pregtirea datelor pentru analiz

    2. Tabele de analiz

    3. Transpunerea datelor

  • Pregtirea datelor pentru analiz/1

    Procesul de analiz: de la datele de baz la rezultate

    Accesarea datelor Pregtirea datelor Analiza datelor Rezultate i Aciuni

    Surse de date diferite Interclasare,

    Denormalizare

    Rapoarte,

    Grafice

    Folosirea

    rezultatelor

    Modele relaionale,

    Scheme stea

    Variabile

    derivate

    Modelare,

    Estimarea

    parametrilor

    Crearea de

    profile

    Transpuneri,

    Agregregri

    Predicii,

    Clasificri

    Interpretare

    Disponibilitatea

    datelor +

    Pregtire

    adecvat +

    Modelare

    eficient =

    Rezultate

    bune

  • Pregtirea datelor pentru analiz/2

    Sisteme software care proceseaz date

    Sistemele operaionale Sistemele pentru depozite de date

    Se adreseaz conducerii departamentelor funcionale.

    Constituie o baz pentru procesul decizional de la diferite

    nivele ale conducerii.

    Conin date curente, primare privind tranzaciile. Corectitudinea acestor date

    este foarte important.

    Conine date istorice. Acestea pot fi disponibile ca atare sau

    pot fi create pornind de la

    fiierele istorice de log asociate tabelelor.

    Au o orientare tranzacional. Furnizeaz date pentru raportare, monitorizare i analiz.

  • Pregtirea datelor pentru analiz/3

    Intrri pentru tabela de analiz din perspectiv logic

  • Pregtirea datelor pentru analiz/4

    Persoane implicate n procesul de analiz

    Analist - cerine economice

    Statistician expert cantitativ

    Informatician expert IT i n domeniul datelor

  • Pregtirea datelor pentru analiz/5

    Probleme de baz n pregtirea datelor

    Care sunt cerinele de date pentru o anumit prelucrare analitic?

    Ce trebuie s avem n vedere?

    1. Identificarea datelor necesare

    2. Accesarea datelor

    3. nelegerea structurii i semnificaiei datelor:

    Eterogenitatea surselor de date, modele de date diferite

    4. Identificarea i eliminarea erorilor din date

    5. Combinarea i transformarea surselor de date diferite

  • Tabele de analiz/1

    Pai pentru crearea tabelelor de analiz 1. Identificarea i definirea subiectului analizei

    Definiie: Subiectul analizei reprezint o entitate care este analizat ntr-o

    anumit problem, iar rezultatele analizei sunt interpretate n contextul acesteia. Este elementul de baz pentru tabelele de analiz care se contruiesc.

    Frecvent, se adaug un identificator subiectului, similar unei chei primare.

    Chiar dac nu este folosit n analiz, prezena acestui identificator este important din urmtoarele considerente: Verificarea datelor, dac se consult baze de date sau alte surse de

    date; Necesitatea de a identifica subiectul analizei dac trebuie adugate

    informaii adiionale la tabela de analiz.

  • Tabele de analiz /2

    Pai pentru crearea tabelelor de analiz 2. Stabilirea existenei mai multor observaii per subiect i modul

    de tratare a acestora

    Categorii de tabele de analiz:

    de tipul o nregistrare per subiect (1-s): toate informaiile referitoare la subiectul analizei sunt reprezentate printr-o nregistrare. Caracteristicile subiectului analizei sunt stocate n coloanele tabelei.

    de tipul mai multe nregistrri per subiect (n-s): un subiect poate avea mai multe nregistrri. Trebuie s existe un identificator pentru subiect i un identificator secundar care identific observaiile multiple pentru fiecare subiect. n termeni tehnici avem tabela printe i tabela copil ntre care exist o relaie de tipul unu-la-mai muli.

  • Tabele de analiz /3

    Categorii de tabele de analiz - exemple Coninutul tabelei CLIENT Coninutul tabelei CONT

    CodC DataN Gen

    1 12.05.1975 Masculin

    2 24.04.1964 Feminin

    Cont CodC Tip DataDeschidere

    1 1 Curent 05.12.2001

    2 1 Economii 02.06.2007

    3 2 Economii 07.07.2002

    4 2 Curent 23.10.2003

    5 2 Economii 08.09.2004

  • Tabele de analiz /4

    Categorii de tabele de analiz - exemple Trebuie s crem o tabel de analiz de tipul o ntegistrare per

    subiect n care s avem: Numrul de conturi pentru fiecare client Calcularea procentajului conturilor curente Identificarea datei de deschidere a celui mai vechi cont

    S-a utilizat procedeul de agregare. Variabilele din tabela CLIENT au fost copiate. Agregarea din tabela CONT a dus la pierdere de informaii.

    CodC

    DataN

    Gen

    Numar

    Conturi

    Procent

    conturi curente

    Deschiderea

    primului cont

    1 12.05.1975 Masculin 2 50% 05.12.2001

    2 24.04.1964 Feminin 3 33% 07.07.2002

  • Tabele de analiz /5

    Tabela de analiz de tipul mai multe nregistrri per subiect

    Raiuni pentru existena observaiilor multiple per subiect:

    Msurtori repetate de-a lungul timpului: exist o relaie de tipul unu-la-mai-muli ntre subiectul analizei i entitatea dependent de timp. Exemplu: studii clinice, studiul produselor.

    Observaii multiple datorate relaiilor ierarhice: avem nevoie de un identificator pentru subiectul analizei i altul care identific observaiile multiple ale aceluiai subiect. Exemplu: domeniul asigurrilor, unde un client poate beneficia de mai multe tipuri de servicii.

    Se pot folosi, spre exemplu, n analiza statistic a seriilor de timp.

  • Tabele de analiz /6

    Tabela de analiz de tipul o nregistrare per subiect

    Este frecvent ntlnit n analizele statistice i n data mining. Informaiile suplimentare despre subiect nu trebuie s apar n

    alte rnduri, ele trebuie transformate n coloane adiionale ale aceluiai rnd.

    Exist dou perspective legate de transformarea tabelelor n-s n tabele 1-s: Perspectiva tehnic a conversiei propriu-zise; Perspectiva economic: ce agregri, variabile derivate etc. au sens din

    punct de vedere economic.

    Procesul de transformare a tabelelor n-s n tabele 1-s poart denumirea de transpunere, denormalizare, aplatizare, pivotare .a.m.d.

  • Tabele de analiz /7

    Crearea tabelelor de analiz 1-s din tabele n-s Dou tehnici principale pot fi folosite n acest sens: 1. Transpunerea: sunt transpuse nregistrrile multiple per

    subiect n coloane. n forma pur toate datele de pe rnduri sunt transformate n coloane.

    2. Agregarea: informaiile din coloane sunt transformate n valori agregate pentru un subiect al analizei. Informaia este redus prin obinerea unor msurtori descriptive derivate din datele originale.

  • Tabele de analiz /8

    Mai multe nregistrri per subiect

    ID Var11 Var12 Var13 Var14 Var15

    1

    1

    1

    2

    2

    3

    3

    3

    4

    4

    4

    Tabela principal a subiectului

    ID Var1 Var2 Var3 Var4 Var5

    1

    2

    3

    4

    ID Var1 Var2 Var3 Var4 Var5 Var6

    1

    2

    3

    4

    Copiere variabile Creare variabile derivate

    Transpunere Agregare

    Crearea tabelelor analitice 1-s din tabele n-s

  • Transpunerea datelor/1

    Transpunere datelor

    Schimbarea structurii seturilor de date este o activitate

    frecvent i important n pregtirea datelor.

    Aceasta poate fi realizat datorit cerinelor specifice prelucrrilor de analiz sau pentru a permite jonciunea cu alte seturi de date.

    SAS are instrumente specifice pentru transpunere prin procedura TRANSPOSE.

  • Transpunerea datelor/2

    Terminologie

    n funcie de forma seturilor de date, acestea pot fi privite ca:

    Seturi de late lungi (cu multe nregistrri) - LUNG Seturi de date late (cu multe coloane) LAT

    n practic se folosesc aceti termeni pentru seturile de date de tipul mai multe nregistrri per subiect (LUNG), respectiv o nregistrare per subiect (LAT)

  • Transpunerea datelor/3

    Transpunerea unui set de date de tipul mai multe nregistrri per subiect ntr-un set de date cu o nregistrare per subiect

    ID TIMP PUNCTAJ

    1 1 77

    1 2 79

    1 3 83

    2 1 62

    2 2 58

    2 3 59

    3 1 99

    3 2 97

    3 3 92

    Dac vrem s determinm punctajul mediu acordat de fiecare subiect, care

    este forma potrivit a acestui set de date?

  • Transpunerea datelor/4

    Procedura TRANSPOSE din SAS - parametri

    DATA=

    Specific setul de date de intrare.

    OUT=

    Creaz un set de date nou unde sunt memorate rezultatele. Dac nu se specific un set de date de ieire, rezultatele vor fi plasate n setul de date implicit data1.

    PREFIX=

    Adaug un prefix la variabila transpus, folosindu-se n conjuncie cu variabila ID.

    NAME=

    Permite alegerea unui nume pentru variabila automat _NAME_ creat de procedur. Se folosete pentru probleme complexe, altfel poate fi tears.

  • Transpunerea datelor/5

    Procedura TRANSPOSE din SAS - opiuni

    BY

    Permite transpunerea datelor pentru fiecare valoare a variabilei precizate n clauza BY.

    Variabilele aceastea nu sunt propriu-zis transpuse. Datele trebuie n prealabil sortate dup aceste variabile.

    ID

    Identific variabila care ajut la crearea numelui pentru valorile care sunt transpuse. Fr o specificare a varibilei ID, valorile implicite pentru rezultat vor fi col1, col2 etc.

    VAR

    Listeaz valorile efective ale datelor care trebuie transpuse. Dac aceast declaraie este omis, se vor transpune toate variabilele numerice care nu sunt incluse n clauzele BY sau ID. Pentru transpunerea variabilelor caracter, aceast declaraie este obligatorie.

    COPY

    Copiaz valorile unei variabile din setul de date surs n setul de date rezultat al procedurii de transpunere.

  • Transpunerea datelor/6

    Transpunerea unui set de date de tipul mai multe nregistrri per subiect ntr-un set de date cu o nregistrare per subiect

  • Transpunerea datelor/7

    Transpunerea mai multor variabile - Exerciiu

    IDFAMILIE AN VENITURI CHELTUIELI DATORII

    1 96 40 38 DA

    1 97 41 39 DA

    1 98 42 40 NU

    2 96 45 42 DA

    2 97 46 43 NU

    2 98 47 44 NU

    3 96 75 70 NU

    3 97 76 71 NU

    3 98 77 72 NU

    S se realizeze un set de date de tip 1-s, avnd ca subiect al analizei familia,

    prin aplicarea repetat a transpunerilor i interclasarea rezultatelor.

  • Transpunerea datelor/8

  • Recapitulare

    Recapitulare

    Care este rolul pregtirii datelor pentru analize?

    Ce activiti de baz include pregtirea datelor?

    Care sunt categoriile de tabele de analiz?

    Prin ce procedee tehnice se pot transforma tabelele de tipul mai multe nregistrri per subiect n tabele de tipul o nregistrare per subiect?