eterogene : bd interne, internet, intranet, date externe...

22
1 Realizeaza acest deziderat prin: Comasarea Consolidarea Sistematizarea Corelarea Gruparea datelor existente (ce pot proveni din surse eterogene : bd interne, internet, intranet, date externe, etc.) în vederea obţinerii de informaţii pertinente care să evidenţieze factorii care afectează performanţele întreprinderii si acţiuni pentru ameliorarea lor. SIAD bazat pe sinteza si analiza datelor

Upload: ngonhan

Post on 08-Jul-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

1

Realizeaza acest deziderat prin:

Comasarea

Consolidarea

Sistematizarea

Corelarea

Gruparea datelor existente (ce pot proveni din surse

eterogene : bd interne, internet, intranet, date externe, etc.)

în vederea obţinerii de informaţii pertinente care să evidenţieze

factorii care afectează performanţele întreprinderii si acţiuni

pentru ameliorarea lor.

SIAD bazat pe sinteza si analiza datelor

Page 2: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

2

Precizare:

Extragerea datelor din baze de date eterogene este insotita de un proces de

• transformare

• corelare

• Completare a datelor.

Totodata se realizeaza si crearea dicţionarelor de date.

Datele astfel prelucrate vor fi stocate intr-un depozit de date.

Page 3: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

3

Definitie.

Depozitul de date este o colecţie de date

orientate pe subiecte, integrate, corelate

în timp şi non-volatile care se constituie

în suport pentru procesul de decizie.

Astfel depozitul de date va contine:

- date istorice detaliate

- date agregate la nivel inferior;

- date agregate la nivel superior

- Metadate.(date despre date)

Page 4: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

4

Diferenţele dintre un DD şi o BD

utilizata de aplicaţii informatică de tip OLTP (on line transaction processing)

A. Datele stocate în sisteme OLTP

• date operaţionale, referitoare la un anumit proces sau funcţie a întreprinderii

• date de detaliu cu un anumit grad de volatilitate (pot suferi actualizări)

• date prezentând interes în primul rând pentru cei ce le introduc.

• Procesarea datelor este foarte rapida (se aplică unui set mic de date- de regulă introduse recent şi stocate compact în cel mult câteva tabele)

• BD sunt orientate spre tranzacţii si reflectă situaţia curentă

• sunt proiectate şi realizate pe baza unor cerinţe cunoscute în prealabil

• adaptarea sistemului la cerinţe ulterioare necesită reluări ale unor faze din ciclul de viaţă

• sistemul o dată dat în exploatare funcţionează fără modificări majore o lungă perioadă.

Concluzie: Datele stocate în sisteme tranzacţionale sunt gestionate ca un întreg Sistemele tranzacţionale urmăresc fluxul datelor din activitatea curentă, sunt orientate spre procese ca de exemplu vânzări, achiziţii, încasări, plăţi, producţie, etc.

Page 5: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

5

B. Datele stocate în depozite

• date pentru asistarea deciziei

• referitoare la subiecte de interes decizional

• date centralizate sau derivate din datele operaţionale

• nu se schimbă în timp

• orientate către utilizatorii finali – managerii de nivel tactic şi strategic

• procesarea datelor este lenta ( volum foarte mare de date stocate dispersat)

• DD sunt orientate spre subiectele analizelor si reflectă situaţii globale, cu caracter istoric.

• cerinţele nu sunt cunoscute în totalitate în momentul proiectării şi realizării depozitului

• depozitul de date va trebui să se adapteze mereu cerinţelor

Concluzie:

• Depozitele de date sunt organizate şi gestionate având în vedere scopul final al analizelor, sunt orientate spre subiecte ca de exemplu clienţi, furnizori, resurse, produse, etc.

• Datele stocate în sistemele de asistare a deciziei pot fi gestionate şi pe secţiuni (data marts) întrucât sunt organizate distinct pe subiecte de analiză.

Page 6: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

6

Metadatele sunt date care definesc obiectele

depozitului, de exemplu:

- descriu structura datelor din depozit; aceasta

descriere include schema depozitului,

dimensiunile, ierarhiile, definitiile datelor

derivate;

- descriu algoritmii utilizati pentru obtinerea

datelor agregate.

Page 7: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

7

Caracteristici:

1. Depozitul de date se construieşte si evolueaza in timp într-o manieră incrementală,

2. Datele stocate în depozite suferă un proces de curăţire şi transformare care asigură calitatea informaţiei generate pe baza lor.

3. Codurile sunt transformate în date explicite - integrarea datelor din nomenclatoare în datele despre tranzacţii - “denormalizarea” tabelelor din bazele de date primare este permisă deoarece integritatea datelor nu este ameninţată întrucât nu provin din exterior iar pe de altă parte, grăbeşte procesul de regăsire.

4. Este permisa redundanţa datelor (data calendaristică se poate exprima şi în luni şi în semestre şi în sezoane).

5. Securitatea şi siguranţa în exploatare nu sunt expuse unor riscuri majore, procedurile de salvare şi recuperare fiind mult mai relaxate faţă de cazul sistemelor tranzacţionale (putini utilizatori, concurenta redusa)

5. Procesele întreprinderii care stau la baza modelării şi proiectării sistemelor informatice operaţionale, nu influenţează designul depozitului de date, nu sunt reflectate în structura sau comportamentul acestuia.

5. Masa de informaţii care se va stoca în depozit trebuie organizată de aşa manieră încât să reflecte atât datele importante cât şi contextul lor

Page 8: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

8

Realizarea depozitelor de date

A. Proiectarea structurii depozitului de date( modelarea conceptuala multidimensionala)

B. Implementarea structurii sub forma unei baze de date care să asigure atât stocarea unui volum imens de date cât şi accesul rapid la ele (baze de date client-server).

C. Popularea cu date a depozitului - . Această etapă va fi reluată periodic pentru a adăuga datele noi.

D. Exploatarea curentă

• explorare

• analiză

• raportare.

activităţi ce sunt asistate de instrumente software de la simple browsere şi generatoare de rapoarte la instrumente sofisticate de data mining.

Page 9: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

9

Exploatarea curentă va evidenţia noi cerinţe informaţionale

pentru asistarea deciziei, cerinţe care vor conduce la

extinderea structurii depozitului,

popularea cu date istorice a extensiei

integrarea noilor date în aplicaţii de analiză.

Procesul de dezvoltare a depozitelor de date este incremental şi

ciclic pe tot parcursul vieţii.

Proiectare

Populare Analiză

Page 10: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

10

Pentru proiectare sunt necesare: • instrumente pentru descrierea logică şi fizică a surselor de date precum şi a depozitului sau magaziei de date în care urmează să fie stocate; • instrumente pentru validarea, curăţirea şi transformarea datelor cu care urmează să se populeze depozitul; • instrumente destinate utilizatorului final care permit accesul la informaţia stocată în depozit incluzând - medii de dezvoltare de aplicaţii - produse specializate în analiza datelor - aplicaţii personale

Page 11: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

11

Din punct de vedere structural,

un mediu în care se poate construi, menţine şi exploata un depozit de date este alcătuit din următoarele componente:

• Surse de date tranzacţionale

• Instrumente de proiectare-dezvoltare

• Instrumente de extracţie şi transformare a datelor

• Sistemul de gestiune al bazei de date

• Instrumente de acces şi analiză a datelor

• Instrumente de administrare

Page 12: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

Proiectarea DD. Modelarea conceptuala

Precizare. Tehnicile existente nu pot fi direct aplicabile.

Consecinta. Se incepe de regula cu proiectarea logica, adica

modelarea unei scheme stea sau fulg de zapada.

Nu exista un standard pentru MMD.

Consens. Deoarece metoda E-A nu corespunde, iar

proiectarea unui MMCD depinde f. mult de cerintele

utilizatorilor si de valabilitatea si structura datelor din ST

se utilizeaza o metodologie evolutiva .

12

Page 13: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

Modelarea conceptuala multidimensionala

Abordari:

A. Abordarea orientata pe surse de date

- presupune existenta ST

- incepe cu analiza datelor din BDT

Metode: CABIBBO; GOLFARELLI

Etape (CABIBBO):

1. Avand in vedere modelul E-A al BDT se identifica faptele,

dimensiunile, ierarhiile si masurile.

2. Se restructureaza modelul E-A astfel:

- se reprezinta faptele ca entitati ale diagramei;

- se rafineaza nivelurile din fiecare dimensiune.

13

Page 14: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

Rafinarea

In fiecare dimensiune trebuie

- sa se reprezinte explicit nivelurile de agregare importante

pentru analiza faptelor (de ex. Atributele categoie_ produs,

marca_produs, ..) si

- sa se diferentieze de conceptele doar descriptive ce nu pot

fi utilizate in analiza (de ex. Nr tel, adresa,..)

14

Page 15: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

Rafinarea presupune urmatoarele transformari:

a) inlocuirea asocierilor m:m (ex. Agregarea dupa ocupatie-

se inlocuieste cu ocupatia de baza);

b) adaugarea de noi concepte (E sau A) ce reprezinta noi

nivele de agregare (de ex. Dimensiunea Magazin; dorim

aregare dupa oras, zona – derivate din adresa-, atunci vom

crea noi entitati ORAS, ZONA;

c) stabilirea unui identificator pentru fiecare entitate;

d) eliminarea conceptelor irelevante

15

Page 16: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

B. Abordarea orientata pe cereri

(in absenta surselor de date si a modelelor E-A

corespunzatoare).

Etape:

a) pe baza studiului activitatii pentru care se

construieste depozitul se vor identifica indicatorii

de performanta ai activitatii, adica masurile;

b) tot pe baza studiului se identifica dimensiunile si

ierarhiile;

c) se identifica structura multidimensionala.

(vezi ex. Met Cabibbo)

16

Page 17: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

17

Pentru a fi stocate în depozitele de date, datele se centralizează pe mai

multe nivele de agregare

Primul nivel de agregare - timpul (luna).

Al doilea nivel de agregare depinde de subiectul analizei: clientul

sau produsul.

Un al treilea nivel de agregare poate fi localitatea.

Pe baza unor asemenea date de sinteză stocate în depozitul de date, se

poate construi o suprastructură cu date din ce în ce mai agregate pe

multipli ai dimensiunilor primare (timp, localitate):

numărul sau suma tranzacţiilor pe luni, ani, decenii

numărul anual al tranzacţiilor pe oraşe, zone, tări, etc.

Page 18: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

18

Modelarea conceptuală a DD

Modelele cele mai utilizate sunt modelele dimensionale de tip stea sau fulg de zăpadă

Schema relaţională în formă de stea.

• Datele cantitative centralizate sunt măsuri ale activităţii

• Criteriile de agregare sunt denumite dimensiuni.

• Măsurile identificate prin dimensiuni sunt stocate într-o tabelă relaţională denumită tabela de fapte.

• Codurile criteriilor de agregare (dimensiunile) sunt explicitate în tabele de tip nomenclator asociate tabelei de fapte

Mai multe asemeni scheme de tip stea care folosesc aceleaşi nomenclatoare formează un model de tip constelaţie

Prin integrarea unor subdimensiuni şi dimensiuni alternative, schema rezultată are forma unui fulg de nea.

Page 19: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

19

Secţiune din modelul relaţional al unei aplicaţii

tranzacţionale în domeniul bancar:

Tranzacţiile clienţilor sunt operaţii de tipul plăţi, încasări, depunere sau

ridicare de numerar din contul personal.

Costul fiecărei tranzacţii este comisionul bancar, diferit pentru fiecare

operaţie şi modificabil în timp.

Tranzacţiile sunt efectuate în mai multe filiale aflate în localităţi diferite.

CLIENT

Client_id

Nume

Prenume

Adresa

Cont

Telefon

Data_deschidere

TRANZACŢII

Tranz_nb

Data_tranz

Operaţie

Client_id

Operator_id

Suma

Comision_id

COSTURI

TRANZACŢII

Comision_id

Denumire

Descriere

Cost

Data_modif

Page 20: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

20

Dimensiunea Dimensiunea

TIMP OPERAŢIE

TRANZACŢII

Dimensiunea

FILIALA

Dimensiunea

CLIENT

Schema stea a unui depozit de date

măsura activităţii: comisioanele asociate operaţiilor dimensiuni: dată,

operaţie, filială, client

Timp_id

Ziua

Luna

Trimestru

An

Operaţie_id

Denumire

Timp_id

Operaţie_id

Filiala_id

Client_id

SumComision

Client_id

Nume

Tip_client

Filiala_id

Nume

Oraş

Zona

Page 21: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

21

Dimensiunea Dimensiunea

TIMP OPERAŢIE

TRANZACŢII

CLIENT

Dimensiunea

FILIALA

Dimensiunea

CLIENT

PERSONAL

Dimensiunea

OPERATOR

Schema constelaţie a unui depozit de date

Timp_id

Ziua

Luna

Trimestru

An

Operaţie_id

Denumire

Timp_id

Operaţie_id

Filiala_id

Client_id

SumComision

Client_id

Nume

Tip_client

Filiala_id

Nume

Oraş

Zona

Timp_id

Filiala_id

Operator_id

Nr_tranzacţii

Comision_mediu

Operator_id

Nume

Data_incadrare

Salariu

Page 22: eterogene : bd interne, internet, intranet, date externe ...cig.ase.ro/prof/ivancenco/resurse/cig_siad cursul 7.pdf · SIAD bazat pe sinteza si analiza datelor . 2 Precizare: Extragerea

22

TRANZACŢII

CLIENT

FILIALA

Schema fulg de nea a unui depozit de datenomenclatoarele au subnomenclatoare sau nomenclatoare alternative

Timp_id

Ziua

Luna

Trimestru

An

Operaţie_id

Denumire

Timp_id

Operaţie_id

Filiala_id

Client_id

SumComision

Client_id

Nume

Tip_client

Localitatea

Filiala_id

Nume

Oraş

Timp_id

Ziua

Sezon

Oras

Zona

Tip client

Ctg client

Subctg client