eterogene : bd interne, internet, intranet, date externe...
Post on 08-Jul-2018
217 Views
Preview:
TRANSCRIPT
1
Realizeaza acest deziderat prin:
Comasarea
Consolidarea
Sistematizarea
Corelarea
Gruparea datelor existente (ce pot proveni din surse
eterogene : bd interne, internet, intranet, date externe, etc.)
în vederea obţinerii de informaţii pertinente care să evidenţieze
factorii care afectează performanţele întreprinderii si acţiuni
pentru ameliorarea lor.
SIAD bazat pe sinteza si analiza datelor
2
Precizare:
Extragerea datelor din baze de date eterogene este insotita de un proces de
• transformare
• corelare
• Completare a datelor.
Totodata se realizeaza si crearea dicţionarelor de date.
Datele astfel prelucrate vor fi stocate intr-un depozit de date.
3
Definitie.
Depozitul de date este o colecţie de date
orientate pe subiecte, integrate, corelate
în timp şi non-volatile care se constituie
în suport pentru procesul de decizie.
Astfel depozitul de date va contine:
- date istorice detaliate
- date agregate la nivel inferior;
- date agregate la nivel superior
- Metadate.(date despre date)
4
Diferenţele dintre un DD şi o BD
utilizata de aplicaţii informatică de tip OLTP (on line transaction processing)
A. Datele stocate în sisteme OLTP
• date operaţionale, referitoare la un anumit proces sau funcţie a întreprinderii
• date de detaliu cu un anumit grad de volatilitate (pot suferi actualizări)
• date prezentând interes în primul rând pentru cei ce le introduc.
• Procesarea datelor este foarte rapida (se aplică unui set mic de date- de regulă introduse recent şi stocate compact în cel mult câteva tabele)
• BD sunt orientate spre tranzacţii si reflectă situaţia curentă
• sunt proiectate şi realizate pe baza unor cerinţe cunoscute în prealabil
• adaptarea sistemului la cerinţe ulterioare necesită reluări ale unor faze din ciclul de viaţă
• sistemul o dată dat în exploatare funcţionează fără modificări majore o lungă perioadă.
Concluzie: Datele stocate în sisteme tranzacţionale sunt gestionate ca un întreg Sistemele tranzacţionale urmăresc fluxul datelor din activitatea curentă, sunt orientate spre procese ca de exemplu vânzări, achiziţii, încasări, plăţi, producţie, etc.
5
B. Datele stocate în depozite
• date pentru asistarea deciziei
• referitoare la subiecte de interes decizional
• date centralizate sau derivate din datele operaţionale
• nu se schimbă în timp
• orientate către utilizatorii finali – managerii de nivel tactic şi strategic
• procesarea datelor este lenta ( volum foarte mare de date stocate dispersat)
• DD sunt orientate spre subiectele analizelor si reflectă situaţii globale, cu caracter istoric.
• cerinţele nu sunt cunoscute în totalitate în momentul proiectării şi realizării depozitului
• depozitul de date va trebui să se adapteze mereu cerinţelor
Concluzie:
• Depozitele de date sunt organizate şi gestionate având în vedere scopul final al analizelor, sunt orientate spre subiecte ca de exemplu clienţi, furnizori, resurse, produse, etc.
• Datele stocate în sistemele de asistare a deciziei pot fi gestionate şi pe secţiuni (data marts) întrucât sunt organizate distinct pe subiecte de analiză.
6
Metadatele sunt date care definesc obiectele
depozitului, de exemplu:
- descriu structura datelor din depozit; aceasta
descriere include schema depozitului,
dimensiunile, ierarhiile, definitiile datelor
derivate;
- descriu algoritmii utilizati pentru obtinerea
datelor agregate.
7
Caracteristici:
1. Depozitul de date se construieşte si evolueaza in timp într-o manieră incrementală,
2. Datele stocate în depozite suferă un proces de curăţire şi transformare care asigură calitatea informaţiei generate pe baza lor.
3. Codurile sunt transformate în date explicite - integrarea datelor din nomenclatoare în datele despre tranzacţii - “denormalizarea” tabelelor din bazele de date primare este permisă deoarece integritatea datelor nu este ameninţată întrucât nu provin din exterior iar pe de altă parte, grăbeşte procesul de regăsire.
4. Este permisa redundanţa datelor (data calendaristică se poate exprima şi în luni şi în semestre şi în sezoane).
5. Securitatea şi siguranţa în exploatare nu sunt expuse unor riscuri majore, procedurile de salvare şi recuperare fiind mult mai relaxate faţă de cazul sistemelor tranzacţionale (putini utilizatori, concurenta redusa)
5. Procesele întreprinderii care stau la baza modelării şi proiectării sistemelor informatice operaţionale, nu influenţează designul depozitului de date, nu sunt reflectate în structura sau comportamentul acestuia.
5. Masa de informaţii care se va stoca în depozit trebuie organizată de aşa manieră încât să reflecte atât datele importante cât şi contextul lor
8
Realizarea depozitelor de date
A. Proiectarea structurii depozitului de date( modelarea conceptuala multidimensionala)
B. Implementarea structurii sub forma unei baze de date care să asigure atât stocarea unui volum imens de date cât şi accesul rapid la ele (baze de date client-server).
C. Popularea cu date a depozitului - . Această etapă va fi reluată periodic pentru a adăuga datele noi.
D. Exploatarea curentă
• explorare
• analiză
• raportare.
activităţi ce sunt asistate de instrumente software de la simple browsere şi generatoare de rapoarte la instrumente sofisticate de data mining.
9
Exploatarea curentă va evidenţia noi cerinţe informaţionale
pentru asistarea deciziei, cerinţe care vor conduce la
extinderea structurii depozitului,
popularea cu date istorice a extensiei
integrarea noilor date în aplicaţii de analiză.
Procesul de dezvoltare a depozitelor de date este incremental şi
ciclic pe tot parcursul vieţii.
Proiectare
Populare Analiză
10
Pentru proiectare sunt necesare: • instrumente pentru descrierea logică şi fizică a surselor de date precum şi a depozitului sau magaziei de date în care urmează să fie stocate; • instrumente pentru validarea, curăţirea şi transformarea datelor cu care urmează să se populeze depozitul; • instrumente destinate utilizatorului final care permit accesul la informaţia stocată în depozit incluzând - medii de dezvoltare de aplicaţii - produse specializate în analiza datelor - aplicaţii personale
11
Din punct de vedere structural,
un mediu în care se poate construi, menţine şi exploata un depozit de date este alcătuit din următoarele componente:
• Surse de date tranzacţionale
• Instrumente de proiectare-dezvoltare
• Instrumente de extracţie şi transformare a datelor
• Sistemul de gestiune al bazei de date
• Instrumente de acces şi analiză a datelor
• Instrumente de administrare
Proiectarea DD. Modelarea conceptuala
Precizare. Tehnicile existente nu pot fi direct aplicabile.
Consecinta. Se incepe de regula cu proiectarea logica, adica
modelarea unei scheme stea sau fulg de zapada.
Nu exista un standard pentru MMD.
Consens. Deoarece metoda E-A nu corespunde, iar
proiectarea unui MMCD depinde f. mult de cerintele
utilizatorilor si de valabilitatea si structura datelor din ST
se utilizeaza o metodologie evolutiva .
12
Modelarea conceptuala multidimensionala
Abordari:
A. Abordarea orientata pe surse de date
- presupune existenta ST
- incepe cu analiza datelor din BDT
Metode: CABIBBO; GOLFARELLI
Etape (CABIBBO):
1. Avand in vedere modelul E-A al BDT se identifica faptele,
dimensiunile, ierarhiile si masurile.
2. Se restructureaza modelul E-A astfel:
- se reprezinta faptele ca entitati ale diagramei;
- se rafineaza nivelurile din fiecare dimensiune.
13
Rafinarea
In fiecare dimensiune trebuie
- sa se reprezinte explicit nivelurile de agregare importante
pentru analiza faptelor (de ex. Atributele categoie_ produs,
marca_produs, ..) si
- sa se diferentieze de conceptele doar descriptive ce nu pot
fi utilizate in analiza (de ex. Nr tel, adresa,..)
14
Rafinarea presupune urmatoarele transformari:
a) inlocuirea asocierilor m:m (ex. Agregarea dupa ocupatie-
se inlocuieste cu ocupatia de baza);
b) adaugarea de noi concepte (E sau A) ce reprezinta noi
nivele de agregare (de ex. Dimensiunea Magazin; dorim
aregare dupa oras, zona – derivate din adresa-, atunci vom
crea noi entitati ORAS, ZONA;
c) stabilirea unui identificator pentru fiecare entitate;
d) eliminarea conceptelor irelevante
15
B. Abordarea orientata pe cereri
(in absenta surselor de date si a modelelor E-A
corespunzatoare).
Etape:
a) pe baza studiului activitatii pentru care se
construieste depozitul se vor identifica indicatorii
de performanta ai activitatii, adica masurile;
b) tot pe baza studiului se identifica dimensiunile si
ierarhiile;
c) se identifica structura multidimensionala.
(vezi ex. Met Cabibbo)
16
17
Pentru a fi stocate în depozitele de date, datele se centralizează pe mai
multe nivele de agregare
Primul nivel de agregare - timpul (luna).
Al doilea nivel de agregare depinde de subiectul analizei: clientul
sau produsul.
Un al treilea nivel de agregare poate fi localitatea.
Pe baza unor asemenea date de sinteză stocate în depozitul de date, se
poate construi o suprastructură cu date din ce în ce mai agregate pe
multipli ai dimensiunilor primare (timp, localitate):
numărul sau suma tranzacţiilor pe luni, ani, decenii
numărul anual al tranzacţiilor pe oraşe, zone, tări, etc.
18
Modelarea conceptuală a DD
Modelele cele mai utilizate sunt modelele dimensionale de tip stea sau fulg de zăpadă
Schema relaţională în formă de stea.
• Datele cantitative centralizate sunt măsuri ale activităţii
• Criteriile de agregare sunt denumite dimensiuni.
• Măsurile identificate prin dimensiuni sunt stocate într-o tabelă relaţională denumită tabela de fapte.
• Codurile criteriilor de agregare (dimensiunile) sunt explicitate în tabele de tip nomenclator asociate tabelei de fapte
Mai multe asemeni scheme de tip stea care folosesc aceleaşi nomenclatoare formează un model de tip constelaţie
Prin integrarea unor subdimensiuni şi dimensiuni alternative, schema rezultată are forma unui fulg de nea.
19
Secţiune din modelul relaţional al unei aplicaţii
tranzacţionale în domeniul bancar:
Tranzacţiile clienţilor sunt operaţii de tipul plăţi, încasări, depunere sau
ridicare de numerar din contul personal.
Costul fiecărei tranzacţii este comisionul bancar, diferit pentru fiecare
operaţie şi modificabil în timp.
Tranzacţiile sunt efectuate în mai multe filiale aflate în localităţi diferite.
CLIENT
Client_id
Nume
Prenume
Adresa
Cont
Telefon
Data_deschidere
TRANZACŢII
Tranz_nb
Data_tranz
Operaţie
Client_id
Operator_id
Suma
Comision_id
COSTURI
TRANZACŢII
Comision_id
Denumire
Descriere
Cost
Data_modif
20
Dimensiunea Dimensiunea
TIMP OPERAŢIE
TRANZACŢII
Dimensiunea
FILIALA
Dimensiunea
CLIENT
Schema stea a unui depozit de date
măsura activităţii: comisioanele asociate operaţiilor dimensiuni: dată,
operaţie, filială, client
Timp_id
Ziua
Luna
Trimestru
An
Operaţie_id
Denumire
Timp_id
Operaţie_id
Filiala_id
Client_id
SumComision
Client_id
Nume
Tip_client
Filiala_id
Nume
Oraş
Zona
21
Dimensiunea Dimensiunea
TIMP OPERAŢIE
TRANZACŢII
CLIENT
Dimensiunea
FILIALA
Dimensiunea
CLIENT
PERSONAL
Dimensiunea
OPERATOR
Schema constelaţie a unui depozit de date
Timp_id
Ziua
Luna
Trimestru
An
Operaţie_id
Denumire
Timp_id
Operaţie_id
Filiala_id
Client_id
SumComision
Client_id
Nume
Tip_client
Filiala_id
Nume
Oraş
Zona
Timp_id
Filiala_id
Operator_id
Nr_tranzacţii
Comision_mediu
Operator_id
Nume
Data_incadrare
Salariu
22
TRANZACŢII
CLIENT
FILIALA
Schema fulg de nea a unui depozit de datenomenclatoarele au subnomenclatoare sau nomenclatoare alternative
Timp_id
Ziua
Luna
Trimestru
An
Operaţie_id
Denumire
Timp_id
Operaţie_id
Filiala_id
Client_id
SumComision
Client_id
Nume
Tip_client
Localitatea
Filiala_id
Nume
Oraş
Timp_id
Ziua
Sezon
Oras
Zona
Tip client
Ctg client
Subctg client
top related