l2info

21
SISTEME PENTRU ASISTAREA DECIZIEI BAZATE PE SINTEZA ŞI ANALIZA DATELOR – Data Warehouse (Depozite de date) Transformarea datelor în informaţii şi a acestora în cunoştinţe este un proces de valorificare a datelor prin sintetizarea lor după diverse criterii, urmată de analiza datelor astfel centralizate pentru identificarea anumitor tipare şi corelaţii şi, în final, interpretarea lor. Sintetizarea datelor, centralizarea lor după anumite criterii este un proces arhicunoscut şi utilizat în elaborarea situaţiilor de sinteză, a rapoartelor periodice create pentru informarea managerilor şi se constituie în suportul pe care aceştia îşi fundamentează deciziile. Soluţiile clasice pe care informatica de gestiune le-a oferit acestui proces de sintetizare a datelor sunt: Programe dedicate care exploatează flexibilitatea limbajelor procedurale în gruparea după anumite criterii şi sintetizarea datelor; Interogări care grupează datele după criteriile cerute şi aplică funcţii pe domeniile astfel create (clauza Group by din limbajul SQL şi funcţiile Sum, Count, Avg, Min, Max, Last, First, etc); Mecanismul de totalizare şi subtotalizare din generatoarele de rapoarte care permit indicarea unor ierarhii de criterii de grupare. În informatica modernă, problema centralizării datelor se pune în aceeaşi termeni dar volumul imens de date ce trebuie explorate face ca tehnicile clasice să devină inaplicabile din cauza timpului necesar pentru procesare. Tehnologiile moderne de centralizare a datelor precum Data Warehousing (depozitarea datelor) şi On-line Analytical Processing (OLAP – procesare analitică on-line) încep să fie utilizate pe o scară din ce în ce mai mare, pe măsură ce suporturile software ce le includ câştigă teren ca suport de baze de date pentru sistemele tranzacţionale. Tehnologiile de centralizare fac primul pas spre transformarea datelor în informaţii: sinteza. Al doilea pas este analiza datelor.

Upload: ela-costache

Post on 16-Nov-2015

213 views

Category:

Documents


0 download

DESCRIPTION

cig anul 3 spiru

TRANSCRIPT

APITOLUL IV SISTEME PENTRU ASISTAREA ECIZIEI BAZATE PE SINTEZA I ANALIZA ATELOR

SISTEME PENTRU ASISTAREA DECIZIEI BAZATE PE SINTEZA I ANALIZA DATELOR Data Warehouse (Depozite de date)Transformarea datelor n informaii i a acestora n cunotine este un proces de valorificare a datelor prin sintetizarea lor dup diverse criterii, urmat de analiza datelor astfel centralizate pentru identificarea anumitor tipare i corelaii i, n final, interpretarea lor.Sintetizarea datelor, centralizarea lor dup anumite criterii este un proces arhicunoscut i utilizat n elaborarea situaiilor de sintez, a rapoartelor periodice create pentru informarea managerilor i se constituie n suportul pe care acetia i fundamenteaz deciziile.Soluiile clasice pe care informatica de gestiune le-a oferit acestui proces de sintetizare a datelor sunt:

Programe dedicate care exploateaz flexibilitatea limbajelor procedurale n gruparea dup anumite criterii i sintetizarea datelor;

Interogri care grupeaz datele dup criteriile cerute i aplic funcii pe domeniile astfel create (clauza Group by din limbajul SQL i funciile Sum, Count, Avg, Min, Max, Last, First, etc);

Mecanismul de totalizare i subtotalizare din generatoarele de rapoarte care permit indicarea unor ierarhii de criterii de grupare.

n informatica modern, problema centralizrii datelor se pune n aceeai termeni dar volumul imens de date ce trebuie explorate face ca tehnicile clasice s devin inaplicabile din cauza timpului necesar pentru procesare. Tehnologiile moderne de centralizare a datelor precum Data Warehousing (depozitarea datelor) i On-line Analytical Processing (OLAP procesare analitic on-line) ncep s fie utilizate pe o scar din ce n ce mai mare, pe msur ce suporturile software ce le includ ctig teren ca suport de baze de date pentru sistemele tranzacionale.

Tehnologiile de centralizare fac primul pas spre transformarea datelor n informaii: sinteza. Al doilea pas este analiza datelor.

Analiza datelor ncearc s descopere relaii ntre datele sintetizate: tipare, asocieri, corelaii pe plan structural, funcional i cauzal.

Cea mai simpl form de analiz a datelor este compararea datelor sintetizate cu date similare. Compararea se face pstrnd toate criteriile identice, unul singur avnd valori diferite. Spre exemplu, situaia vnzrilor pe anul acesta n regiunea de vest a rii se poate compara cu vnzrile din anul trecut n aceeai zon sau cu vnzrile unei firme concurente din anul acesta n aceeai zon sau cu vnzrile din anul acesta din zona de sud-est. Compararea vnzrilor din anul acesta n zona de vest cu vnzrile de anul trecut n zona de nord-est nu este o comparaie uzual, potenialul informativ al unei asemeni apropieri fiind destul de redus. Totui, asemenea comparaii neobinuite ar putea aduce informaii surprinztoare dac se observ ceva interesant i anume c vnzrile din anii precedeni n zonele de est sunt aproximativ de aceeai mrime cu vnzrile din anul urmtor n zona de vest. Comparaiile se fac de obicei ntre seturi de date compatibile.

Tehnologiile de comparaie includ o mare varietate de tehnici de observare care semnalizeaz tipare, corelaii, asociaii prin evidenierea unor similitudini sau din contr, sesizeaz abaterile, excepiile, situaiile anormale. Principala calitate a unui analist este abilitatea de a observa aceste similitudini sau diferene n masa datelor pe care le analizeaz. Informatica clasic a venit n sprijinul su cu tehnicile de prezentare grafic a datelor care transform informaia cantitativ n informaie calitativ. Pe un grafic se pot observa vizual cu rapiditate abaterile, excepiile, iar cu o anumit dexteritate se pot observa i anumite tipare, corelaii, asociaii.

Progresiv, au aprut i s-au impus tehnici de observare analitic a datelor fundamentate pe teorii matematice (theory-driven) care compar datele reale cu datele teoretice produse de un model ipotetic. Dac si potrivesc, modelul se poate lua n considerare ca fiind o reprezentare corect a procesului care a produs setul de date observate; dac nu, se schimb modelul ipotetic i se reia procesul de comparaie pn la obinerea un model suficient de reprezentativ pentru procesul respectiv (dac exist).

De multe ori ns, setul de modele teoretice nu este suficient, procesul observat neputnd fi ncadrat n nici un model cunoscut. Ca urmare descoperirea de noi modele este un deziderat permanent care a condus expansiunea tehnicilor de observare fr utilizarea unui model preconceput, tehnici de observare automat, bazate pe date (data-driven). Rezultatul acestor tehnici de observare automat se poate conserva ntr-un model cu caracter general, utilizabil ca fundament teoretic n primul tip de tehnici de observare. Aceste tehnici de observare analitic a datelor se regrupeaz ntr-o tehnologie modern, data mining.

n urma procesului de observare analitic se obin tipare, corelaii i chiar modele din care se pot deduce tendine, se poate specifica cu o anumit probabilitate cum vor arta datele n perioada urmtoare. Puterea descriptiv a modelului reprezentativ permite interpretarea datelor.Interpretarea datelor este un proces cognitiv care conduce la o apreciere general a situaiei, la identificarea unor probleme sau sesizarea unor oportuniti, la stabilirea potenialelor cauze ale problemelor sau la de rezolvare a lor, etc. Interpretarea datelor este un proces n care se face apel la cunotinele cu caracter general, fundamental i specific asociate domeniului respectiv precum i la experiena existent. Interpretarea datelor produce cunotine noi care se vor aduga la cele existente.

Instrumentele software clasice construite pentru asistarea deciziei au avut n vedere n special asigurarea unor tehnici de analiz, optimizare i simulare precum i prezentarea grafic a rezultatelor, aspectul calitativ al informaiei fiind astfel mai uor de sesizat de ctre utilizatorii finali. Printre aceste instrumente software le amintim pe cele cuprinse n procesoare de tabele (Lotus, Excel) orientate pe volume mici de date, cele cuprinse n instrumentarul sistemelor de gestiune a bazelor de date (Access, Visual Fox) capabile s exploateze volume mari de date cu structur uniform. Ca exemple de asemenea instrumente amintim tabelele pivot, interogrile de tip cross-tab, grafice. Un impediment major al acestor instrumente clasice este faptul c opereaz numai asupra unor date cu structur prestabilit, uniform, provenind numai dintr-o singur surs. De asemenea, un alt impediment major este dependena de date explicite, stocate special n bazele de date pentru a servi sistematizrii ulterioare a acestora. Un tratament intermediar de pregtire a datelor pentru sintez face ca analiza s nu fie nici-o dat "pe viu". Pentru depirea acestor impedimente, sistemele moderne de asistare a deciziei fac uz de tehnici speciale pentru comasarea datelor stocate n structuri neuniforme, pentru utilizarea informaiilor implicite, nespecificate n datele existente (societatea, localitatea, anul, etc), pentru completarea datelor cu criterii de agregare, etc. De asemenea, suporturile software de asistare a deciziei asigur o serie de faciliti utilizatorului final: interogare n limbaj natural, accesul la modelele conceptuale, sisteme de gestiune a serviciilor OPLAP, noi limbaje de exploatare a bazelor de date multidimensionale, servicii de prezentare a datelor (tabele pivot, grafice) precum i servicii de integrare cu alte suporturi software (procesoare de tabele, baze de date).

Produsele software care includ suport pentru asistarea deciziei pe baza sintezei i analizei datelor se numr: ORACLE, Sybase, Informix, Microsoft SQL Server, IBM DB2.Depozite de date (Data warehouse)

De la arhive la depozite de date

Depozitele de date au aprut ca o necesitate n momentul n care companiile au realizat imensul potenial informaional al datelor acumulate de-a lungul timpului n sistemele lor informatice. Exploatarea inteligent a acestora urma s le asigure un important avantaj n faa concurenei prin mrirea capacitii de acomodare la tendinele pieei, o mai bun satisfacere a clienilor, diminuarea costurilor i creterea profitului. Integrarea datelor istorice ntr-o structur unic care s se constituie n fundament pentru procesul de luare a deciziilor a devenit o prioritate a noilor tehnologii informaionale.

Sistemele de asistare a deciziei bazate pe sinteza i analiza datelor realizeaz acest deziderat prin comasarea, consolidarea, sistematizarea, corelarea i gruparea datelor existente n vederea obinerii de informaii pertinente care s evidenieze factorii care afecteaz performanelor ntreprinderii i ce anume ar putea fi fcut pentru ameliorarea lor. Rapoartele ce prezint aceste informaii ntr-o form accesibil factorilor de decizie sunt rezultatul unor tehnici speciale de exploatare a masivelor de date, capabile s descopere diverse corelaii ntre date, s fac estimri i prognoze, s atrag atenia asupra unor puncte nevralgice, s sugereze eventuale soluii, ntr-un cuvnt s contribuie decisiv la luarea celor bune decizii ntr-o situaie dat.

Structurile de date utilizate de sistemele informatice de asistare a deciziei bazate pe date sunt numite depozite de date (data warehouse). Aceste structuri pot depozita volume mari de date preluate din arhivele, precum i din bazele de date ale aplicaiilor informatice ce susin activitatea curent a ntreprinderilor, volume de ordinul 1012 (terabytes). Exploatarea acestor depozite de date este asigurat de motoare speciale ce permit interogarea masivelor mari de date precum i de servicii speciale ce asigur analiza on-line a datelor (On Line Analytical Processing -OLAP). n spatele acestor performane stau suporturi software care realizeaz transformarea datelor, corelarea i completarea lor precum i crearea dicionarelor de date care vor asigura accesul la structurile primare (stocarea modelelor conceptuale ale bazelor de date).

Depozitele de date sunt structuri create pentru stocarea unor volume mari de date organizate pe domenii, ce constituie subiecte de interes decizional n activitatea ntreprinderii. Datele sunt extrase din baze de date eterogene create de sistemele informatice aflate n funciune n ntreprinderi pe diverse platforme hardware i software. Datele sunt introduse sub controlul unor aplicaii i al sistemelor de gestiune a bazelor de date care, prin serviciile lor de integritate, recuperare n caz de eroare i confidenialitate, asigur stocarea i manipularea n condiii de maxim securitate a datelor referitoare la tranzaciile curente ale ntreprinderilor (un numr foarte mare de mici operaii standardizate). Aceste date referitoare la tranzaciile primare sunt prelucrate pentru a extrage informaii de sintez necesare pentru planificare i luarea deciziilor cu instrumentele oferite de SG BD: interogri total i rapoarte. Acuratea informaiilor obinute este dublat ns de un inconvenient major: timpul necesar pentru explorarea volumelor mari de date, stocate conform principiului bazelor de date ntr-o singur locaie. Acest principiu care asigur integritatea i coerena bazei de date face ca reuniunea tuturor datelor necesare unui raport de sintez s conduc la explorarea unui mare numr de tabele interne, la crearea de multiple legturi temporare i tabele virtuale, de unde cerinele de timp i de resurse de spaiu de lucru sunt considerabile, de multe ori inacceptabile din punctu1 de vedere al utilizatorului final. Un alt inconvenient este aglomerarea motorului bazei de date cu taskuri de centralizare cu efect de ncetinire a tranzaciilor curente. Pentru managerii operativi, ale cror decizii sunt pe termen scurt, aceste situaii bazate de obicei pe date recente sunt acceptabile dar pentru managementul strategic, necesarul de date se poate extinde la explorarea arhivelor din anii precedeni sau la nglobarea unor informaii despre pia. Stocarea informaiilor de sintez finale n tabele are inconvenientul c aceste situaii sunt valabile doar la momentul executrii, nu pot fi actualizate cu tranzaciile ulterioare dect prin reluarea ntregului proces. Totui, aceasta este ideea prin care se poate ajunge la un compromis: stocarea datelor necesare pentru planificare i decizii strategice ntr-un sistem diferit de sistemul operaional n aa fel nct exploatarea ambelor sisteme s fie posibil fr inconveniente reciproce. n plus, n depozitul de date pot fi stocate date arhivate provenind din activitatea din anii anteriori sau date despre concuren, date care pot oferi baza de comparaie necesar n aprecierea tendinelor, n efectuarea de analize complexe necesare n procesele de planificare i de luare a deciziilor majore. Depozitele de date sunt alimentate periodic cu date referitoare la tranzaciile ulterioare, fr intervenia explicit a utilizatorului final. De asemenea, date1e se pot stoca selectiv pe anumite activiti sau domenii sau alte criterii n magazii de date (data marts), separarea lor fizic fiind util n creterea performanelor exploatrii de ctre managerii anumitor compartimente din ntreprindere interesai doar de datele referitoare la domeniul lor de activitate.

Depozitele de date sunt construite de regul cu tehnologii relaionale i au aprut ca extensii ale sistemelor de baze de date relaionale cu arhitectur client server (Microsoft SQL Server, Oracle ).

Depozite de date: coninut i caracteristici

Depozitele de date centralizeaz, consolideaz, organizeaz i stocheaz date din diverse surse eterogene, date care vor fi baza procesrilor analitice necesare proceselor de decizie. Depozitul de date se construiete ntr-o manier incremental, completri i dezvoltri ulterioare fiind oricnd posibile. Datele stocate n depozite sufer un proces de curire i transformare care asigur calitatea informaiei generate pe baza lor. De asemenea, n depozitele de date se pot stoca i date noi, calculate pe baza celor existente, date cerute de regul n majoritatea rapoartelor (sume, procente, medii) scurtndu-se astfel timpul cerut pentru obinerea lor. O caracteristic principal a depozitelor de date este transformarea codurilor n date explicite, integrarea datelor din nomenclatoare n datele despre tranzacii. Acest aspect de "denormalizare" a tabelelor din bazele de date primare este permis deoarece integritatea datelor nu este ameninat ntruct nu provin din exterior iar pe de alt parte, grbete procesul de regsire.

Un alt aspect este redundan datelor care este iari permis (data calendaristic se poate exprima i n luni i n semestre i n sezoane). Cu alte cuvinte, datele care se pot calcula din datele primare se stocheaz explicit n depozit pentru a fi gata calculate la o eventual solicitare.

Diferenele dintre un depozit de date i o baz de date utilizat ntr-o aplicaie informatic de tip OLTP (on line transaction processing) sunt evideniate mai jos:

Datele stocate n sisteme OLTP sunt date operaionale, referitoare la un anumit proces sau funcie a ntreprinderii, date de detaliu cu un anumit grad de volatilitate (pot suferi actualizri) i prezentnd interes n primul rnd pentru cei ce le introduc. Datele stocate n depozite sunt date pentru asistarea deciziei, referitoare la subiecte de interes decizional, sunt date centralizate sau derivate din datele operaionale, nu se schimb n timp i sunt orientate ctre utilizatorii finali - managerii de nivel tactic i strategic. Putem spune c bazele de date utilizate de sistemele operaionale sunt orientate spre tranzacii i reflect situaia curent, n timp ce depozitele de date utilizate de sistemele de asistare a deciziei sunt orientate spre subiectele analizelor i reflect situaii globale, cu caracter istoric. Performanele cerute n cazul sistemelor tranzacionale se refer n special la integritate, siguran, confidenialitate, trasabilitate i timp de rspuns, avnd n vedere faptul c un numr foarte mare de utilizatori introduc date primare n sistem. Concurena n utilizarea sistemelor de asistare a deciziei este foarte redus, numrul de manageri - utilizatori finali fiind foarte mic. De asemenea, securitatea i sigurana n exploatare nu sunt expuse unor riscuri majore, procedurile de salvare i recuperare fiind mult mai relaxate fa de cazul sistemelor tranzacionale. Procesarea datelor n sistemele tranzacionale se aplic unui set mic de date - de regul introduse recent i stocate compact n cel mult cteva tabele - fiind n consecin foarte rapid, n timp ce fundamentarea unei decizii necesit procesarea unui volum foarte mare de date stocate dispersat, fiind n consecin foarte lent. Bazele de date ale sistemelor tranzacionale sunt proiectate i realizate pe baza unor cerine cunoscute n prealabil, adaptarea sistemului la cerine ulterioare necesit reluri ale unor faze din ciclul de via i de regul, sistemul o dat dat n exploatare funcioneaz fr modificri majore o lung perioad. Sistemele de asistare a deciziei evolueaz n timp ntr-o manier incremental, cerinele nu sunt cunoscute n totalitate n momentul proiectrii i realizrii sistemului. n consecin, depozitul de date va trebui s se adapteze mereu cerinelor. Datele stocate n sisteme tranzacionale sunt gestionate ca un ntreg, pe cnd cele stocate n sistemele de asistare a deciziei pot fi gestionate i pe seciuni ntruct sunt organizate distinct pe subiecte de analiz. Sistemele tranzacionale urmresc fluxul datelor din activitatea curent, sunt orientate spre procese, ca de exemplu, vnzri, achiziii, ncasri, pli, producie, etc. Depozitele de date sunt organizate i gestionate avnd n vedere scopul final al analizelor, sunt orientate spre subiecte, ca de exemplu clieni, furnizori, resurse, produse, etc. Afacerea propriu-zis, procesele ntreprinderii care stau la baza modelrii i proiectrii sistemelor informatice operaionale, nu influeneaz designul depozitului de date, nu sunt reflectate n structura sau comportamentul acestuia.

Prezentm mai jos un exemplu de migrare a datelor din bazele de date operaionale n depozite de date:

Date operaionale stocate n tabele: Factura_client:Nr_fctOperaieDataClient_idSuma

12345677vnzare12 aug 20071122331060 RON

Clieni:

Client_idNume_clientCod_fiscalAdresaData_intrare

112233SC Neptun SAR5546547865Constana25 ian 2006

Linii_factura_client:

Nr_fctProdusCantitatePre

12345677770910016

Produse:

Cod_produsDenumireCategorieSubcategorieUMCost

7709CafeaAlimentBcnieKg12

Date de sintez referitoare la totalul tranzaciilor lunare ale fiecrui client stocate n depozitul de date n vederea analizei clienilor:Nume_clientSC Neptun SALocalitatea Constana

Data_intrare25 ian 2006

Anul

2007Luna

august

Nr tranzacii18 Valoare medie 2079

Date de sintez referitoare la cantitatea comandat din fiecare produs stocate n depozitul de date n vederea analizei produselor:

Denumirecafea

Anul

2007Luna

august

Total cantitate23000 Unitate_msur kg

Cost marf12Pre mediu11Din exemplu se observ c pentru a fi stocate n depozitele de date, datele se centralizeaz pe mai multe nivele de agregare primare (aflate datele operaionale), primul fiind timpul (luna). Al doilea nivel de agregare depinde de subiectul analizei: clientul sau produsul. Un alt treilea nivel agregare poate fi localitatea. Pe baza unor asemenea date de sintez stocate n depozitul de date, se poate construi o suprastructur cu date din ce n ce mai agregate pe multipli ai dimensiunilor primare (timp, localitate): numrul sau suma tranzaciilor pe luni, numrul anual al tranzaciilor pe orae, numrul anual al tranzaciilor pe zone, etc.

Ciclul de via al depozitelor de date

Din punctul de vedere al obiectivelor propuse, depozitul de date este destinat s furnizeze informaii precise i la timp factorilor de decizie din cadrul organizaiei. Depozitul de date este o colecie de date orientate pe subiecte, integrate, corelate n timp i non-volatile care se constituie n suport pentru procesul de decizie.

Datele operaionale sunt integrate n depozit prin utilizarea de convenii consistente n privina numelor, msurtorilor, atributelor i semanticii. Depozitul de date se proiecteaz innd cont de cerinele exprese ale viitorilor utilizatori.

Structura depozitului de date are n vedere identificarea precis a datelor stocate i accesul rapid la ele. Pentru realizarea acestor deziderate, masa de informaii care se va stoca n depozit trebuie organizat de aa manier nct s reflecte att datele importante ct i contextul lor. Modelarea dimensional ofer suportul necesar pentru proiectarea structurii depozitului de date.

Structura se implementeaz sub forma unei baze de date care s asigure att stocarea unui volum imens de date ct i accesul rapid la ele (baze de date client-server).

Urmtoarea etap este popularea cu date a depozitului, date preluate din sistemele tranzacionale care trebuie supuse unor procese de transformare pentru a se ncadra n structura prefigurat a depozitului. Aceast etap va fi reluat periodic pentru a aduga datele noi.n final, depozitul este dat n exploatare curent pentru explorare, analiz i raportare. Aceste activiti sunt asistate de instrumente software, de la simple browsere i generatoare de rapoarte la instrumente sofisticate de data mining. Exploatarea curent va evidenia noi cerine informaionale pentru asistarea deciziei, cerine care vor conduce la extinderea structurii depozitului, la popularea cu date istorice a extensiei, la integrarea noilor date n aplicaii de analiz.

Fig. l Ciclul de via al depozitelor de date

Procesul de dezvoltare a depozitelor de date este incremental i ciclic pe tot parcursul existenei lui.

Modelarea conceptual a depozitelor de date

Modelele cele mai utilizate n faza de concepie a unui depozit de date sunt modelele dimensionale care regrupeaz datele din tabelele relaionale n scheme de tip stea sau fulg de zpad, n care se regsesc datele cantitative (cantiti, valori) din tabelele de tranzacii agregate n principal pe unitatea de timp (ziua) i apoi dup alte criterii (pe client, pe produs, pe serviciu, pe filial, pe tip de tranzacie, etc.). Astfel datele cantitative din bazele de date dimensionale vor fi totaluri, medii, numr de tranzacii, date centralizate pe diverse criterii materializate de regul prin coduri (cod_client, cod_produs, cod_serviciu, tip_tranzacie, cod_filial, etc.) i, ntotdeauna, prin data calendaristic, primul criteriu de agregare. Aceste date cantitative centralizate sunt msuri ale activitii iar criteriile de agregare sunt denumite dimensiuni. Msurile identificate prin dimensiuni sunt stocate ntr-o tabel relaional denumit tabela de fapte. Codurile criteriilor de agregare sunt explicitate n tabele de tip nomenclator asociate tabelei de fapte, schema relaional cptnd forma de stea. Mai multe asemenea scheme de tip stea care folosesc aceleai nomenclatoare formeaz un model de tip constelaie iar dac dimensiunile se pot divide n subdimensiuni, atunci nomenclatoarele pot avea, la rndul lor, asociate alte nomenclatoare. De asemenea, pot exista nomenclatoare alternative pentru acelai cod. Prin integrarea acestor subdimensiuni i dimensiuni alternative, schema rezultat are forma unui fulg de zpad.

Pentru exemplificare, considerm urmtoarea seciune din modelul relaional al unei aplicaii tranzacionale n domeniul bancar:

CLIENT

TRANZACTII

COSTURI

TRANZACTI I

Client id

Tranz_nbNume _

Data_tranz

Comision_id

Prenume

Operaie

Denumire

Adresa

Client id

Descriere

Cont

Operator id

Cost

Telefon

Suma

Data_modif

Data deschidere

Comision id

Tranzaciile clienilor sunt operaii de tipul pli, ncasri, depunere sau ridicare de numerar din contul personal. Costul fiecrei tranzacii este comisionul bancar, diferit pentru fiecare operaie i modificabil n timp. Tranzaciile sunt efectuate n mai multe filiale aflate n localiti diferite.Pentru analiza veniturilor obinute din acest tip de operaii bancare, comisioanele asociate operaiilor din tabela tranzacii (msura activitii) trebuie centralizate pe dat, operaie, filial, client (dimensiuni). Nu toate datele sunt ns disponibile. De exemplu, filiala nu este o dat explicit trecut n tabele, ea va trebui completat la transferul datelor.

Datele centralizate pot fi stocate ntr-o structur relaional de tip stea n care tabela de fapte va conine suma comisioanelor pe zile, operaii, clieni i codurile acestora care formeaz o cheie compus, fiecare cod fiind explicitat ntr-o tabel de tip nomenclator legat de tabela de fapte prin acelai mecanism cheie extern = cheie primar.

Structura de mai sus permite agregri pe nivele superioare ale dimensiunilor iniiale prin utilizarea datelor din nomenclatoare. Spre exemplu, se poate afla suma comisioanelor pe luni, operaii, zone i tipuri de clieni dac se centralizeaz datele din tabela de fapte Tranzacii pe criteriile amintite.n acelai depozit se pot stoca fapte diferite care au anumite coordonate comune i care n consecin partajeaz aceleai nomenclatoare. Schema depozitului de date va fi de tip stea multipl sau constelaie.

Dimensiunea comun tuturor faptelor este timpul pe baza cruia se pot asocia toate tabelele de fapte, crendu-se astfel premisele necesare unor analize complexe care pot corela fapte aparent fr legtur.

Dac nomenclatoarele au subnomenclatoare sau nomenclatoare alternative, schema stea din fig. 2 devine:

Schemele de tip stea, fulg de nea sau constelaie sunt modele conceptuale multidimensionale ale depozitelor de date. Ele au rolul de a organiza datele necesare procesului de decizie pe subiecte ntr-o structur uor de conceput, accesibil utilizatorilor finali care vor trebui s o extind n viitor n conformitate cu noile cerine. Schema este deschis, se poate modifica pe tot parcursul vieii depozitului de date ntr-o manier incremental prin contrast cu schema bazei de date care este fix pe tot parcursul vieii sistemului informatic care o utilizeaz, eventuale modificri structurale conducnd la realizarea de noi versiuni ale aplicaiei.Utilizarea depozitelor de date

Depozitele de date au fost gndite ca structuri unice, integrate i cumulative, destinate s asiste informaional procesul de decizie de la diverse nivele ale ntreprinderii. Administratorul depozitului de date are ca sarcin accesul partajat al diverselor categorii de manageri prin parole i drepturi de acces.

Dat fiind faptul c depozitele de date sunt orientate spre necesitile utilizatorului final, anumii factori de decizie pot selecta din depozit doar datele care le sunt utile pentru a le putea procesa mai uor sau pentru a le transporta pe calculatoare personale. Astfel de colecii specializate pe domenii, regiuni, ani sau alte criterii se numesc magazii de date (data marts).

Fig. 5 Depozit i magazii de date

Magaziile de date pot fi utilizate i n sens opus, drept structuri intermediare de colectare a datelor din sursele primare, al cror coninut este replicat periodic n depozit. Conceptul de data mart (magazie de date) poate fi complet transparent pentru utilizatorii sistemelor de asistare a deciziei.

Un alt mod de abordare a depozitelor de date este stocarea exhaustiv a datelor din sistemele tranzacionale n depozitul de date n vederea aplicrii unei alte tehnologii de procesare asupra lor, data mining. Aceast tehnologie relativ nou ctig din ce n ce mai mult teren prin capacitatea sa de a descoperi aspecte noi ale activitii desfurate, aspecte trecute n mod normal cu vederea: corelaii ntre evenimente, asociaii ntre anumite fapte, secvene, tipare de comportament - toate extrem de utile n procesele de luare a deciziei. Procesarea datelor prin tehnologia data mining desfoar fr intervenia utilizatorului, n background, rezultatele fiind stocate pentru consultare ulterioar la cerere.

Mediul de depozitare a datelor

Din punct de vedere structural, un mediu n care se poate construi, menine i exploata un depozit de date este alctuit din urmtoarele componente:

Surse de date tranzacionale Instrumente de proiectare-dezvoltare

Instrumente de extracie i transformare a datelor

Sistemul de gestiune al bazei de date

Instrumente de acces i analiz a datelor

Instrumente de administrare

Aceste componente sunt integrate pe platforma Microsoft n mediul de lucru Data Warehousing Framework care a servit i la construcia SQL Server 7.0. Scopul acestui mediu de lucru este asistarea activitilor de proiectare, implementare i administrare ale depozitelor de date pe toat durata vieii acestora. Mediul de lucru Data Warehousing Framework ofer:

arhitectur deschis , uor de integrat cu produse provenind de pe alte platforme

servicii de import-export cu validarea, curirea i transformarea datelor

metadate integrate pentru proiectarea depozitului, serviciile de populare cu date, sistemul de gestiune al serverului i instrumente ale utilizatorului final

managementul infrastructurii (gestiunea suportului, a taskurilor, a evenimentelor, alertelor i notificrilor)

Pentru proiectarea unui depozit de date sunt necesare o serie de instrumente:

instrumente pentru descrierea logic i fizic a surselor de date precum i a depozitului sau magaziei de date n care urmeaz s fie stocate;

instrumente pentru validarea, curirea i transformarea datelor cu care urmeaz s se populeze depozitul;

instrumentele destinate utilizatorului final care permit accesul la informaia stocat n depozit incluznd medii de dezvoltare de aplicaii produse specializate n analiza datelor aplicaii personale

DATE

METADATEFIG.6 Structura mediului de depozitare a datelor

Data warehousing framework descrie relaiile dintre aceste componente n procesele de construcie, utilizare i gestiune a depozitului de date. Infrastructura este asigurat prin dou tehnologii: Depozitul de metadate integrate i OLE DB, nivelul de transport al datelor. Aceste dou tehnologii fac posibil interoperabilitatea multiplelor componente ale unui depozit de date.

Analiz

Populare

Proiectare

Timp_id

Ziua

Luna

Trimestru

An

Timp_id

Operaie_id

Filiala_id

Client_id

SumComision

Dimensiune TIMP

Dimensiune OPERAIE

Operaie_id

Denumire

TRANZACII

Dimensiune CLIENT

Client_id

Nume

Tip_client

Dimensiune FILIALA

Filiala_id

Nume

Ora

Zona

Fig.2 Schema stea a unui depozit de date

Dimensiune FILIALA

Filiala_id

Nume

Ora

Zona

Dimensiune CLIENT

Client_id

Nume

Tip_client

TRANZACII

Dimensiune OPERAIE

Operaie_id

Denumire

Dimensiune TIMP

Timp_id

Operaie_id

Filiala_id

Client_id

SumComision

Timp_id

Ziua

Luna

Trimestru

An

PERSONAL

Timp_id

Filiala_id

Operator_id

Nr_tranzacii

Comision mediu

Dimensiune OPERATOR

Operator_id

Nume

Data_ncadrare

Salariu

Fig.3 Schema constelaie a unui depozit de date

Fig.4 Schema fulg de nea a unui depozit de date

Cheltuieli

Tip_client

Ctg client

Subctg client

Personal

Ora

Zona

Vnzri

Filiala_id

Nume

Ora

Zona

Timp_id

Ziua

Sezon

Client_id

Nume

Tip_client

Localitatea

TRANZACII

CLIENI

DEPOZIT DE DATE

Operaie_id

Denumire

OLAP

Timp_id

Operaie_id

Filiala_id

Client_id

SumComision

Timp_id

Ziua

Luna

Trimestru

An

Publicare

Replicare

Programare

Transformare

Schema

Instrumente utilizator final

Director informaii

DEPOZIT

de

DATE

Transformare Curare

date

Surse tranzac ionale

Proiectare depozit de date

DEPOZITUL DE METADATE

MANAGEMENTUL DEPOZITULUI DE DATE