modelare dimensionala

54
Proiectarea structurii depozitului de date Modelarea dimensionala

Upload: cristina-criss

Post on 13-Nov-2015

83 views

Category:

Documents


10 download

DESCRIPTION

Sisteme informatice de gestiune

TRANSCRIPT

  • Proiectarea structurii

    depozitului de date

    Modelarea dimensionala

  • Ciclul de via al depozitelor de date

    Masa de informaii care se va stoca n depozit trebuieorganizat de aa manier nct s reflecte att dateleimportante ct i contextul lorCerine:

    Datele operaionale sunt integrate n depozitprin utilizarea de convenii consistente nprivina numelor, msurtorilor, atributelor isemanticii.

    Depozitul de date se proiecteaz innd contde cerinele exprese ale viitorilor utilizatori.

    Structura depozitului de date are n vedereidentificarea precis a datelor stocate iaccesul rapid la ele.

  • Realizarea depozitelor de date Modelarea dimensional ofer suportul necesar pentru

    proiectarea structurii depozitului de date. Structura se implementeaz sub forma unei baze de date care

    s asigure att stocarea unui volum imens de date ct i accesul rapid la ele (baze de date client-server).

    Urmtoarea etap este popularea cu date a depozitului - .

    Aceast etap va fi reluat periodic pentru a aduga datele noi. n final, depozitul este dat n exploatare curent explorare analiz raportare.

    activiti asistate de instrumente software de la simple browsere i generatoare de rapoarte la instrumente sofisticate de data mining.

  • Exploatarea curent va evidenia noi cerine informaionale pentru asistarea deciziei, cerine care vor conduce la

    extinderea structurii depozitului, popularea cu date istorice a extensiei integrarea noilor date n aplicaii de analiz.

    Procesul de dezvoltare a depozitelor de date este incremental i

    ciclic pe tot parcursul vieii.

    Proiectare

    Populare Analiz

  • Modelarea dimensional Principiul : obiectivul major al unui sistem decizional este analiza performanelor organizaiei.

    Indicatorii de performan vor fi analizai de-a lungul unor dimensiuni - axe de analiz . Acest tip de modelare este independent de tehnologiile ce vor fi utilizate.

  • Modelarea dimensional tehnic de proiectare logic ce permite structurarea variabilelor, fiind folosit pentru vizualizarea modelelor de date sub forma unui set de variabile cheie pentru activitatea analizat (variabile descrise n funcie de caracteristicile activitii respective) permite conceptualizarea i reprezentarea aspectelor cantitative, msurabile ale activitii n strns legtur cu contextul n care s-a desfurat activitatea respectiv.

  • Sistemele tranzactionale

    Aceste corelatii intre valorile inregistrate ale activitatii si contextul in care s-a desfasurat aceasta constituie temele multiplelor rapoarte de sinteza pe care le produc sistemele tranzactionale.

    Aceste rapoarte sunt insa predefinite si sintetizarea lor in vederea efectuarii unor analize comparative a mai multor parametrii se face de obicei off - line, prin copierea rapoartelor in alte medii de lucru si procesarea lor ad-hoc.

  • Modelarea dimensionala Ofera un model conceptual comun tuturor acestor rapoarte si posibilitatea de agregare a lor intr-o structura Uniforma simpla flexibila pastrand in acelasi timp legatura cu sursele initiale de date si, in consecinta, accesul la diferite nivele de detaliu, pana la setul de tranzactii initiale (drill down)

  • Modelarea dimensionala 1. Fapte colectii de fapte

    2. Dimensiuni (criterii de analiza, context)

    Ierarhii

    3.Masuri (variabile, indicatori)

    4. Granularitate

    5. Grad de imprastiere

  • Modelarea dimensional Colecia de fapte un ansamblu de date corelate constnd din variabile i date de context. Faptele modeleaz subiectul de analiz. O fapt reprezint msura activitii determinat la intersecia tuturor informaiilor referitoare la activitate. O tranzacie a activitii sau un eveniment Starea unui obiect Modificrile strii unui obiect

  • Modelarea dimensional Dimensiunile parametrii activitii, decupajul din activitatea global care corespunde msurii criteriile de agregare. zi, lun, an, trimestru, sezon (interval de timp),locaie, zon geografic,client, furnizor, produs sau grup (clas, categorie) de clieni, furnizori, produse,angajat, structur organizatoric Dimensiunea modeleaz o perspectiv de analiz; ea se compune din parametrii corespunznd informaiilor care fac s varieze msurile activitii. Tot ca dimensiune se pot modela variante de msuri: valori reale, valori bugetate, valori estimate. Aceast dimensiune oarecum artificial se cheam scenariu

  • Modelarea dimensional Caracteristici Furnizeaz informaii descriptive despre fiecare variabil (msur, indicator) Conin n general date statistice . Atributele dimensionale nu se schimb aa de des ca faptele totui, pot apare modificri iar modelul dimensional trebuie s permit modificarea pentru a asigura coerena i corectitudinea datelor. Sunt eseniale pentru analiz. Un model dimensional ce ofer un numr mare de atribute dimensionale permite analize ct mai complexe i ct mai variate

  • Modelarea dimensional Dimensiunile sunt identificate n bazele de date t ranzac ionale ca f i ind cmpuri le ce con in caracteristicile unei tranzacii, datele de identificare a tranzaciei respective, de obicei coduri-chei externe care fac legtura cu nomenclatoarele ce le expliciteaz. Dimensiunea se materializeaz prin setul de valori posibile care alctuiesc domeniul caracteristicii respective, valorile se numesc membrii dimensiunii.

  • Modelarea dimensionala

    Parametrii (atributele dimensionale) Sunt de obicei campuri calitative, de tip text In cazul in care un parametru este numeric, acesta trebuie sa indeplineasca doua conditii:

    Sa aiba valori discrete Sa fie cvasiconstante

  • Timp

    IDTimp Zi

    Lun Trimestru Semestru

    An

    Este mai fin

    Reprezentarea grafic la nivel conceptual a unei dimensiuni

  • Parametrii (atributele dimensionale)

    1. De prezentare nu au valoare analitica

    2. De agregare - stabilesc nivelele de agregare la care se va efectua analiza

    3. De cauzalitate se folosesc in realizarea de modele (descriptive sau predictive) care sa explice evolutia indicatorilor.

  • Modelarea dimensional Dimensiunile pot avea multiplii - grupe de valori ale dimensiunii respective cu o caracteristic comun. IERARHII structuri arborescente formate din dimensiuni i

    multiplii acestora. o grupare de parametrii de agregare care

    urmeaza o directie de agregare Membrii unei dimensiuni se pot aranja n una sau mai multe ierarhii . Ierarhia organizeaz parametrii unei dimensiuni dup o relaie de tip este mai fin n conformitate cu nivelul lor de detaliu.

  • Ierarhii alternative ale dimensiunii TIMP

    Anul

    Sezonul

    Semestrul

    Trimestrul Sptmna

    Luna

    Data calendaristic

    Ziua

    Ierarhia Anotimp

    Ierarhia Calendar

    Ierarhia Sapte_zile

  • Ierarhiile alternative ale dimensiunii CLIENT

    Zona

    Statut

    Judet

    Localitate Categorie

    Client

    Subctg

    IerarhiaFormaJuridica

    IerarhiaClasificare

    IerarhiaGeografie

    all

  • CONTURI

    Clasa de conturi

    Grupa conturi

    Cont

    Tip cont Cont

    Ierarhia plan contabil

    Ierarhia functionalitate conturi

  • Ierarhia Plan Contabil ALL

    Clasa 1 (conturi de capitaluri)

    Clasa 2 (conturi de imobilizari)

    ..

    Clasa 9

    Grupa 20 (imobilizari necorporale)

    Grupa 29 (provizioane pentru depreceierea imob)

    Cont 201 Cont 211

    Cont 212

    ..

    ..

  • Modelarea dimensional

    Variabile (msuri) - aspectul cantitativ, comensurabil n uniti clasice de msur (kg.,buci, uniti monetare). O variabil este un atribut numeric al unui element din baza de fapte, un indicator sau o msur prin care se poate analiza performana activitii modelate. Exemple volumul vnzrilor (cantitativ/valoric), volumul achiziiilor, costul transportului, volumul datoriilor, volumul creanelor, profitul, volumul taxelor i impozitelor. datele cantitative centralizate

  • Modelarea dimensional Tabela de fapte ocup locul central n cadrul unui model dimensional i corespunde coleciei de fapte.

    regrupeaz toi indicatorii referitori la un subiect de analiz care partajeaz acelai ansamblu de dimensiuni i care nu pot fi dedui din ali indicatori.

  • Vnzri

    Cantitate Valoare

    Tabela de fapte

    Msuri ale activitii

    Reprezentarea grafic la nivel conceptual a unei tabele de fapte

  • Modelarea dimensional

    Granularitatea FAPTELOR reprezint gradul de detaliere a acestora - nivelul de detaliu necesar analizelor, care exprim numrul de membri ai unei dimensiuni. Se recomand ca tabela de fapte s menin granularitatea cea mai fin posibil.

    determin dimensiunile principale ale modelului determin volumul bazei de date

  • 26

    Granularitatea datelor n depoziten Este un aspect important n proiectarea depozitelor de date, deoarece

    determin volumul ocupat de daten Granularitatea se refer la nivelul de detaliu (sau de rezumare) a unei

    uniti de date din depozit:n Cu ct nivelul de detaliu este mai mare, cu att granularitatea este mai mic

    (mai fin) de ex. o simpl tranzacie este de granularitate micn Cu ct rezumarea este mai puternic, cu att granularitatea este mai mare;

    de ex. suma tuturor tranzaciilor dintr-o lun

  • 27

    Niveluri de granularitate multiple n Nivelul de granularitate fin (detaliere mare) se folosete n bazele de

    date operaionale i ca date nerezumate (sau slab rezumate) n depoziten Pe nivelul de granularitate ridicat (date puternic rezumate) se pot stoca

    date pe perioade ndelungate i se folosesc pentru decizii de organizare

  • Modelarea dimensional Gradul de imprastiere a datelor ex: masura: vanzari

    dimensiuni : client, produs, timp

    Indicatorul volumul vanzarilor va avea valori valide numai pentru o mica fractiune a produsului cartezian a

    dimensiunilor ( daca vanzarile reale se inregistreaza doar pentru 1% din combinatiile posibile clienti *produse*nr

    zile gradul de imprastiere este de 9,99%)

  • Modelarea dimensional

    Un model tridimensional se poate vizualiza/reprezenta cu ajutorul unui cub.

    Un model multidimensional are ns mai multe dimensiuni un hypercub.

    Perspectivele multidimensionale asupra datelor sunt numite cuburi de date.

  • Modelarea dimensional Modelul stea o reprezentare intuitiv a cubului de date conine o tabel de fapte (coninutul cubului de date)

    un set de tabele dimensionale (dimensiunile activitii).

  • Timp

    IDTimp Zi

    Lun Trimestru Semestru

    An

    Vnzri

    IDTimp IDProdus

    IDMagazin Cantitate Valoare

    Magazin

    IDMagazin Denumire magazin

    Localitate Jude

    Regiune ara

    Produs

    IDProdus Denumire prod.

    Marc prod. Subcategorie prod

    Categorie prod Raion

  • Modelarea dimensional

    Modelul fulg de zpad o variant a schemei stea, rezultatul descompunerii uneia sau mai multor dimensiuni care au ierarhii (integrarea unor subdimensiuni sau a unor dimensiuni alternative).

    dimensiunile sunt normalizate - apariia unui numr mare de noi tabele poate compromite performanele de navigare complicnd lucrurile n termeni de lizibilitate i gestiune

  • Timp

    IDTimp Zi

    Lun Trimestru Semestru

    An

    Vnzri

    IDTimp IDProdus

    IDMagazin Cantitate Valoare

    Magazin

    IDMagazin Denumire magazin

    Produs

    IDProdus Denumire prod.

    Marc prod. Subcategorie prod

    Categorie prod Raion

    Adres

    IDLocalitate Jude

    Regiune ara

  • Modelarea dimensional

    Galaxia (constelaia) o colecie de scheme stea care au atribute dimensionale comune.

    Fuzionarea mai multor modele stea i/sau fulg de nea care utilizeaz dimensiuni comune.

  • Serviciu

    IDServiciu Denumire serv.

    Subcategorie serv. Categorie serv.

    Vnzri serv

    IDTimp IDServiciu IDMagazin

    Valoare serv.

    Magazin

    IDMagazin Denumire magazin

    Localitate Jude

    Regiune ara

    Timp

    IDTimp Zi

    Lun Trimestru Semestru

    An

    Vnzri prod.

    IDTimp IDProdus

    IDMagazin Cantitate

    Valoare prod.

    Produs

    IDProdus Denumire prod.

    Marc prod. Subcategorie prod

    Categorie prod Raion

  • Modelarea logic

    Implementarea modelului dimensional n mediul relaional:

    fiecare fapt corespunde unei tabele, numit tabele de fapte

    fiecare dimensiune corespunde unei tabele, numit tabel de dimensiuni.

  • Tabela de fapte CARACTERISTICI: Conine un numr foarte mare de tupluri milioane- care reprezint produsul cartezian al dimensiunilor

    Dimensiunea ei crete dinamic, n funcie de cantitatea de date ncrcate la fiecare ciclu de mprosptare a bazei de date, precum i n funcie de cantitatea de date istorice stocate n baza de date.

  • Tabela de fapte

    Este tabela care reflect performana activitii analizate. Conine toate msurile importante.

    Cheia primar a tabelei este o cheie compus din cheile primare ale tabelelor dimensionale Este normalizat i realizeaz o legtur indirect ntre dimensiuni

  • Modelul stea

    Tabela de fapte se leag de dimensiuni prin join-uri de egalitate.

    Fiecare atribut din cheia primar a tabelei de fapte reprezint cheia primar a unei dimensiuni

    Atributele care nu sunt chei pot fi agregate (tabelele de fapte conin doar atribute numerice)

    Tabelele sunt denormalizate

  • Vnzri (IDProdus, IDMagazin, IDTimp, Cantitate, Valoare) Timp (IDTimp, Zi , Lun, Trimestru, Semestru, An) Magazin (IDMagazin, DenMagazin, Localitate, Jude Regiune, ar) Produs (IDProdus, Denumire prod., Marc prod., Subcategorie prod., Categorie prod., Raion)

  • Modelarea logic Paradigma obiect

    Fiecare tabel de fapt corespunde unei clase, denumit clas de fapt;

    fiecare dimensiune corespunde unei clase, denumit clas de dimensiuni.

  • Etapele generale ale procesului de proiectare a unui depozit de date

    Delimitarea procesului economic ce va fi modelat.

    Stabilirea nivelului de granularitate. Alegerea dimensiunilor - criterii de agregare

    Alegerea msurilor

  • Seciune din modelul relaional al unei aplicaii tranzacionale n domeniul bancar:

    Tranzaciile clienilor sunt operaii de tipul pli, ncasri, depunere sau

    ridicare de numerar din contul personal. Costul fiecrei tranzacii este comisionul bancar, diferit pentru fiecare

    operaie i modificabil n timp. Tranzaciile sunt efectuate n mai multe filiale aflate n localiti diferite.

    CLIENT Client_id Nume Prenume Adresa Tip client Cont Telefon Data_deschidere

    TRANZACII Tranz_nb Data_tranz Operaie Client_id Operator_id Suma Comision_id

    COSTURI TRANZACII Comision_id Denumire Descriere Cost Data_modif

  • Modelare dimensional

    msura activitii:

    comisioanele asociate operaiilor dimensiuni: dat, operaie, filial, client

  • Dimensiunea DimensiuneaTIMP OPERAIE

    TRANZACII

    Dimensiunea FILIALA

    Dimensiunea CLIENT

    Schema stea a unui depozit de date

    Timp_idZiuaLunaTrimestruAn

    Operaie_idDenumire

    Timp_idOperaie_idFiliala_idClient_idSumComision

    Client_idNumeTip_client

    Filiala_idNumeOraZona

  • TRANZACIICLIENT

    FILIALA

    Schema fulg de nea a unui depozit de datenomenclatoarele au subnomenclatoare sau nomenclatoare alternative

    Timp_idZiuaLunaTrimestruAn

    Operaie_idDenumire

    Timp_idOperaie_idFiliala_idClient_idSumComision

    Client_idNumeTip_clientLocalitatea

    Filiala_idNumeOra

    Timp_idZiuaSezon

    OrasZona

    Tip clientCtg clientSubctg client

  • Dimensiunea DimensiuneaTIMP OPERAIE

    TRANZACIICLIENT

    Dimensiunea FILIALA

    Dimensiunea CLIENT

    PERSONAL

    DimensiuneaOPERATOR

    Schema constelaie a unui depozit de date

    Timp_idZiuaLunaTrimestruAn

    Operaie_idDenumire

    Timp_idOperaie_idFiliala_idClient_idSumComision

    Client_idNumeTip_client

    Filiala_idNumeOraZona

    Timp_idFiliala_idOperator_idNr_tranzaciiComision_mediu

    Operator_idNumeData_incadrareSalariu

  • Aspecte particulare ale proiectrii dimensionale

    Aditivitatea faptelor faptele sunt numerice i n general aditive i valorificate de o manier continu (msurile sunt numerice i aditive pentru a permite rezumarea unui numr mare de nregistrri n cteva nregistrri).

    Fapte semi-aditive : fapte care pot fi adiionate doar dup anumite dimensiuni (stocuri, solduri de conturi, contorizarea unor indicatori)

    Fapte non-aditive : nu pot fi deloc adiionate (indicatori calculai ca raport intre ali indicatori)

  • Vnzri IDTimp IDProdus TotalCantitate TotalValoare NrClienti Marjabrut

    Timp

    IDTimp Zi

    Lun Trimestru Semestru

    An

    Produs

    IDProdus Denumire prod.

    Marc prod. Subcategorie prod

    Categorie prod Raion

    Marjabrut = Profitbrut / Costprodus Marjabruta este non aditiv deoarece aceasta se calculeaza ca ratie a sumelor si nu ca suma a raiilor.

  • Vnzri

    IDTimp IDProdus TotalCantitate TotalValoare NrClienti Costprodus

    Timp

    IDTimp Zi

    Lun Trimestru Semestru

    An

    Produs

    IDProdus Denumire prod.

    Marc prod. Subcategorie prod

    Categorie prod Raion

    TotalCantitate, TotalValoare, NrClienti i Costprodus sunt perfect aditive. NrClieni este semi-aditiv.

  • Aspecte particulare ale proiectrii dimensionale

    Tabelele de fapte fr fapte - pentru reprezentarea acelor procese ale activitii care dei nu prezint fapte msurabile sunt interesante pentru procesul de analiz, deci trebuie s fie cuprinse n depozitul de date

    Tabelele de urmrire a evenimentelor au ca scop contorizarea evenimentelor rezultate din prezena simultan a mai multor dimensiuni n acelai loc i n acelai timp

  • Participare IDTimp IDCurs IDProfesor IDStudent

    Ora/Timp

    IDTimp

    Curs

    IDCurs

    Profesor

    IDProfesor

    Student

    IDStudent

  • Aspecte particulare ale proiectrii dimensionale Tabelele de acoperire spre deosebire de cele de urmrire a evenimentelor au ca scop de a pune n eviden ceea ce nu s-a ntmplat mai degrab dect ceea ce s-a ntmplat. Tabelele de acoperire in evidena tuturor instanierilor unor dimensiuni care la un moment dat sunt supuse unor stri, explicnd astfel componenta de acoperire din denumirea lor

    Un exemplu clasic este tabela de urmrire a produselor aflate n promoie. Prin comparaie cu tabela aferent activitii de vnzare se pot determina produsele aflate n promoie dar care nu au fost vndute

  • Vnzri

    IDTimp IDProdus IDPromo TotalCantitate TotalValoare NrClienti Costprodus Dataultimachiz

    Timp

    IDTimp

    Produs

    IDProdus

    Promoie

    IDPromo

    Produse promo

    IDTimp IDProdus IDPromo existen