dd prezentare

30
Note de curs Prof.univ.dr. BÂRA Adela DEPOZITE DE DATE

Upload: domnul-gabi

Post on 17-Feb-2018

229 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 1/30

Note de curs

Prof.univ.dr. BÂRA Adela

DEPOZITE DE DATE

Page 2: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 2/30

Obiectivul principal al depozitelor de date îl reprezintă modelarea şianaliza datelor pentru luarea deciziilor.

W. H. Inmon: un depozit de date este o “colecţie de date orientate pe

subiecte, integrate, istorice şi nevolatile destinată sprijinirii procesului deluare a deciziilor manageriale“ !".

Ralph Kimball : depozitul de date ofera acces la datele organi zaţionale; dateleconţinute sunt consistente; datele pot separate şi combinate în funcţie deecare dimensiune sau aspect al afacerii. Depozitul de date include, deasemenea, un set de instrumente pentru interogare, analiză şi prezentare ainformaţiilor; reprezintă locul în care sunt publicate datele folosite; calitateadatelor conţinute în depozit reprezinta o premisă pentru reingineria afacerii #".

!" . $nmon% &.'.% !uilding t"e Data #are"ouse, (e) *or+% ,o-n &ile / 0ons%!112.#". 3imball% R.% Reeves% 4.% Ross 5.% 6-ornt-)aite% &.% $"e Data #are"ouse%ifec&cle $ool'it,  ,o-n &ile70ons% $nc.% (e) *or+% !118.

Defnire

Page 3: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 3/30

Barry Devlin: “un depozit de date înseamnă o stocare adatelor, unitară, completă şi consistentă, obţinută dintr(ovarietate de surse, disponibilă utilizatorilor nali într(un moduşor perceptibil şi utilizabil în conte)tul afacerii9 ".

Sam Anahory subliniază ;nalitatea depozitelor de datepreciz<nd că un “depozit de date include datele şi proceselemanageriale care fac informaţiile disponibile, permiţ*ndmanagerilor să ia decizii corect fundamentate9 =".

" >evlin% B.% Data #are"ouse + from rc"itecture to -mplementation% Addison&esle 4on?man% Readin?% 5ass% !11@=" Ana-or% 0.% >ennis% 5.% Data #are"ousing in t"e eal #orld% Addison&esle 4on?man% Readin?% 5ass% !11@

Defnire

Page 4: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 4/30

orey !i Abbey Oracle de;nesc depozitul de date ca ;ind: Do colectiede informatii strategice derivate direct din sistemele /%$0 si alte sursee)terne. 1copul specic al depozitului de date este de a oferi suport dedecizie si nu suport pentru activitatea operativă9.

>upa E"raim T#rban E"% “scopul unui data 2sau information34are"ouse este de a realiza un fond de date 2data repositor&3 care săfacă accesibile datele operaţionale într(o formă acceptabilă pentruasistarea deciziilor şi pentru alte aplicaţiiF.

E"  6urban% G.% Aronson% ,.% Decision 1upport 1&stems and -ntelligent 1&stems,0iHt- Gdition% Prentice 'all $nternational% Ipper 0addle River% (e) ,erse% #JJ!%p. !=E

Defnire

Page 5: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 5/30

Orientarea pe subiecte.◦ In depozit de date este orientat pe subiecte ale activităKii întreprinderii ca

de eHemplu: clienKi% produse% servicii etc. >atele sunt preluate din toateaplicaKiile de tip O46P On 4ine 6ransaction processin? referitoare lasubiectul respectivL

◦ Pentru a ; elocvente% aceste subiecte trebuie să ;e inte?rate din diferitesurse de dateL

◦ >epozitele de date oferă o viziune speci;că asupra subiectelor% eHcluz<nddatele care nu sunt folositoare în procesul de luare a deciziiilor. 

Integrarea.◦ In depozit de date reprezintă o stocare centralizată a datelor detaliate

provenite din toate sursele relevante din cadrul unei or?anizaKii şi permiteintero?area dinamică şi analiza detaliată a tuturor informaKiilorL

◦ 0ursele din care provin datele pot ; sursele operaKionale ale or?anizaKieisau surse eHterneL◦ $nconsistenKele din datele sursă sunt eliminateL◦ $nte?rarea datelor provenite din surse diferite presupune transformarea%

curăKarea% validarea şi a?re?area corectă a acestora pentru a asi?uracredibilitatea şi consistenKa datelor.

ara$%eri!%i$i

Page 6: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 6/30

Caracterul istoric.

◦ >atele sunt stocate pentru a furniza informaKii în perspectiva

istorică luni7ani. Astfel% decidenKii pot consulta valorile succesiveale aceloraşi date pentru a determina evoluKia în timp şi a calculaanumiKi indicatori.

Persistenţa datelor .◦

>atele dintrMun depozit sunt permanente şi nu pot ; modi;cate.Atunci c<nd datele sursă se modi;că% depozitul de date esteactualizat% aceasta însemn<nd doar adau?area noilor valori pentruobiectele depozitului de date.

ara$%eri!%i$i

Page 7: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 7/30

depozitul de date asi?ură a$$e!#l la &a%ele or'ani(a)iei.Accesul trebuie să ;e imediat% la cerere% şi să ;e performantL

datele sunt $ole$%a%e &in%r*o varie%a%e &e !#r!e% suntcorectate de erori% li se asi?ură calitatea necesară şi abia apoidevin utilizabileL

$ali%a%ea &a%elor din depozitele de date este un factordeterminant pentru procesul de recule?ere a datelor. 0e înt<lneste frecvent situaKia în care datele sunt de bună calitate%dar nu sunt colectate în între?ime sau sunt “opKionale9.

erin+e "#n$+ionale

Page 8: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 8/30

datele întrMun depozit de date pot ; !epara%e ,i $ombina%e NcerinKa clasică de împărKire şi ?rupare a datelorL

accesul presupune e-i!%en)a #nor #%ili%arein!%r#men%e eHibilei cu interfaQa prietenoasă pentru a intero?a% analiza% prezentainformaKiileL

datele dintrMun depozit de date trebuie să ;e $on!i!%en%e de

eHemplu atunci c<nd două persoane7aplicaQii solicită date desprev<nzările dintrMo anumită re?iune să primească aceleaşi date% c-iardacă ele au fost cerute la momente de timp diferiteL

erin+e "#n$+ionale

Page 9: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 9/30

In depozit de întreprindere colectează toate informaKiile despresubiecte care privesc întrea?a or?anizaKie [6]:◦ furnizează un volum eHtins de dateL◦

conKine date detaliate% dar şi date a?re?ate% iar ca ordin de mărimeporneşte de la c<Kiva ?i?abtes p<nă la sute de ?i?abtes%terabtes sau mai mult.

◦ poate ; implementat doar pe infrastructură -ard)are puternicăservere I($ sau pe platforme cu ar-itecturi paralele. Acestanecesită c-eltuieli mari şi perioadă îndelun?ată ani pentru

proiectare şi realizare.

2" Ran% ,. !uilding and deplo&ing an enterprise data 4are"ouse % &-ite Paper%!111

Tip#ri &e &epo(i%e &e &a%e

Page 10: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 10/30

In data mart  conKine un subset al volumului de date dinor?anizaKie% speci;c unui ?rup de utilizatori@":

◦ >omeniul este limitat la subiecte speci;ce. >e eHemplu% un data mart

pentru mar+etin? limiteaza subiectele la clienti% articole% v<nzări. >ateleconKinute în data mart sunt de obicei a?re?ateL

◦ >ata marts sunt% în mod curent% implementate pe servere departamentalemai ieftine care se bazeaza pe I($ sau &indo)s7(6. Siclul deimplementare a unui data mart este mai cur<nd măsurat în săptăm<nidec<t în luni sau ani. Sa atare% un data mart poate ; considerat unsubansamblu al unui depozit de date mai uşor de construit şi întreKinut şi

mai puKin scump.

@" $nmon% B. Data mart does not e5ual data 4are"ouse, >5 >irect (e)sletter% (ovember%!111

Tip#ri &e &epo(i%e &e &a%e

Page 11: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 11/30

In depozit virtual  este un set de tabele virtuale /views) asuprabazelor de date operaKionale8":

Pentru e;cienKa procesării intero?ărilor se pot utiliza tabelele

virtuale materializate. In depozit virtual este uşor de construit% dar necesită capacităKi

suplimentare pe serverele de baze de date relaQionale.

8" 'olland% P. $raditional data 4are"ouses vs virtual data 4are"ouses % &-itePaper% 5arc-% #JJJ

Tip#ri &e &epo(i%e &e &a%e

Page 12: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 12/30

Arhi%e$%#ra

Ar-itectura unui depozit de date are trei componente principale :

◦ depozitul de date propriu(zis şi sistemul de ?estiune a depozituluide date

◦ sistemul de ac"izitie a datelor  din sistemele O46P şi din alte surse◦ sistemul de analiză şi prezentare a datelor din depozitul de date

Page 13: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 13/30

!#r!ele &e &a%e pen%r# &epo(i% pot ;: bazele de dateoperaKionale curente% baze de date vec-i ar-ivate şi surse de dateeHterne )eb% mail% senzoriL

datele a?re?ate folosite% deşi determină creşterea redundanKei%

ele sunt foarte importante pentru a asi?ura un timp de răspunsc<t mai micL

 6otodată putem identi;ca care sunt e%apele pen%r#$on!%r#ierea &epo(i%#l#i &e &a%e:◦ e)tragerea datelor   din bazele de date operaKionale şi sursele eHterne

or?anizaQieiL◦ curăţarea şi încărcarea datelor corecte în cadrul depozitului de dateL◦ obţinerea datelor agregate cerute de utilizatori.

Arhi%e$%#ra

Page 14: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 14/30

Arhi%e$%#ra

O ar-itectură mai compleHă este aceea în care se foloseşte un sistemstocare intermediară data sta?e necesare procesului de curăQare şiinte?rare a datelor. 0ursele de date pot ; sisteme operaKionale şi ;şiere.Acestea sunt eHtrase% curăKate% stocate şi inte?rate în depozitul de dateL

>atele din depozitul de date sunt or?anizate în mai multe sisteme datamart proiectate pentru compartimentele înterprinderiiL

>atele din data mart sunt în ;nal folosite de utilizatori pentru efectuareade analiză% obKinerea de rapoarte şi transformarea datelor în cunoştinKeminin?.

Page 15: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 15/30

0ODE121 DE DATE021TIDI0E3SIO3A1

1tructura modelului constituită din obiectelemodelului precum şi relaKiile dintre eleL/peratorii care acKionează asupra structuriiLestricţiile de integritate  formate dintotalitatea de re?ului şi constr<n?eri impusemodelului pentru asi?urarea corectitudiniidatelor.

Page 16: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 16/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

Dimen!i#nile  M “un atribut structural alunui cub ce constă dintr(o listă de membrii,

 pe care utilizatorii îi percepe ca ind deacelaşi tip 2de e)emplu toate lunile,trimestrele, anii formează dimensiunea$imp3. Dimensiunile repreznintă un modfoarte concis, intuitiv de organizare şiselectare a datelor pentru e)plorare şi

analiză.9

Page 17: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 17/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

Ierarhiile  M “membrii dimensiunilor pot organizaţi pe baza relaţiilor de tip părinte(copil, unde un membru părinte reprezintă

agregarea membrilor copil. ezultatul esteo ierar"ie şi relaţiile părinte(copil suntrelaţii ierar"ice6  

Page 18: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 18/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

3ivel#rile ( reprezintă poziKii în cadrulierar-iilor. RelaKiile între diferite nivele sunt

relaKii de tipul părinteMcopil.A%rib#%e 4 dimensiunile conKin atribute carereprezintă cali;cative speci;ce.

Page 19: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 19/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

Tabelele &e "ap%e N sunt tabelele centrale.Acestea conKin atribute de tip măsurimetrici şi c-ei eHterne către tabelele

dimensiuni. Taptele sunt de obicei datenumerice care pot ; însumate şi analizatepe diferite nivele.

Page 20: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 20/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

0e%ri$ile /m5!#rile6 corespund atributelorfaptelor din tabelele de fapte şi sunt dere?ulă de natură numerică de eHemplu:

volumul v<nzărilor% costurile% stocuriledisponibile.

Page 21: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 21/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

0e%a&a%ele  M date care descriu conKinutuldepozitului şi furnizează trimiteri directe ladate. 6ot la nivelul metadatelor se de;nesc

şi diverse tabele virtuale 2vie4s3  asociateunor cate?orii speci;ce de utilizatori.

Page 22: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 22/30

0ODE121 DE DATE021TIDI0E3SIO3A1

S$hema mo&el#l#i  este o colecKie deobiecte% incluz<nd tabelele% viziunile%indecşi şi sinonime.

Page 23: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 23/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

S$hema &e %ip 7S%ea7 * este cel maisimplu şi mai frecvent utilizat model.

Obiectele sale sunt dispuse în formă destea% în centru a<nduMse una sau maimulte tabele de fapte de care sunt le?atedimensiunile. 0uportă două tipuri de

intero?ări: consultare şi UoncKiuni multiple.

Page 24: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 24/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

Atribute ale dimensiunii TIMP

 Dimensiunea TIMP 

Atribute ale dimensiunii PRODUS

 Dimensiunea PRODUS 

Atribute ale dimensiunii LOCATIE

 Dimensiunea LOCATIE 

Atribute ale dimensiunii CLIENT

 Dimensiunea CLIENT 

ID TIMP

ID LOCATIE

ID PRODUS

ID CLIENT

Vol vânzarilor

Vol discount

Tabela de fapte

Page 25: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 25/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

S$hema &e %ip 78#l' &e 3ea9 * este ovariantă a modelului stea în care o parte dintabelele dimensiune sunt normalizate% iar datelesunt distrinuite în tabele suplimentare. Rezultă osc-emă reprezentată întrMun ?ra;c similar unuiful? de zăpadă. >iferenKa între modelul stea şimodelul ful? de nea este că tabelele dimensiunedin acesta pot ; păstrate în forma normalizată%

ceea ce determină o redundanKă redusă.

Page 26: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 26/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

Atribute ale dimensiunii TIMP

 Dimensiunea TIMP 

Atribute ale dimensiunii PRODUS

 Dimensiunea PRODUS 

Atribute ale dimensiunii REGIUNE

 Dimensiunea REGIUNE 

Atribute ale dimensiunii CLIENT

 Dimensiunea CLIENT 

ID TIMP

ID REGIUNE

ID PRODUSID CLIENT

Vol vânzarilor

Vol discount

Tabela de fapte

Atribute ale dimensiunii

TIP_PRODUS

 Dimensiunea TIP_PRODUS 

Atribute ale dimensiunii LOCATIE

 Dimensiunea LOCATIE 

Page 27: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 27/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

#b#ri &e &a%e ( spaKiu cartezian de;nit petoate dimensiunile depozitului de date. Acestapoate ; numit cub de date% ;ind un spaKiu dedate lo?ic şi nu unul ;zic. 0ecKiunile

bidimensionale sunt numite tablouri. AHelecubului sunt reprezentate de dimensiuni% laintersecKia acestora ;ind variabilele saumăsurile.Sonsiliul O4AP de;neşte cubul nMdimensional ca;ind 9un grup de celule de date aranjate după

dimensiunile datelor. / matrice tridimensională poate vizualizată ca un cub cu ecaredimensiune form*nd o faţă a cubului9

Page 28: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 28/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

PRODUS

TIMP

LOCATIE

Page 29: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 29/30

0ODE121 DE DATE 021TIDI0E3SIO3A1

locatie

 rodus

T! T" T#

$urni%or &! $urni%or &" $urni%or &#

tim

Page 30: DD Prezentare

7/23/2019 DD Prezentare

http://slidepdf.com/reader/full/dd-prezentare 30/30

In depozit de date reprezintă o stocare centralizată adatelor detaliate provenite din toate sursele relevantedin cadrul unei or?anizaKii şi permite intero?areadinamică şi analiza detaliată a tuturor informaKiilor.0copul principal în realizarea unui depozit de date estede a inte?ra datele din sistemele O46P O( line

 6ransactional Processin? întrMo sin?ură ar-itecturăconsistentă care să răspundă ;e cerinKeloroperaKionale de date inte?rate la nivelul sistemelor

O46P% ;e să constituie suportul pentru realizareaanalizelor şi pentru luarea deciziilor în cadrulor?anizaKiei% respectiv pentru sistemele O4AP OnM4ineAnaltic Processin?.

on$l#(ii