siad curs 8 etl

6
 ETL ETL:  Sursele de date  Proiectarea ETL  Erori de structu ra  Erori de date Sursele de date  Sistemul informaţion al al unei firme conţine doua categorii de date: date i nterne, date externe:  date externe secundare si  date externe primare. Datele interne  sunt cele pe ca re le regăsim in interiorul întreprinderi i printre care amintim rapoartele de comerciale, rapoartele financiare etc. Datele externe se refera in principal la mediul extern in care întreprin derea ii desfăoară acti!itatea. Datele externe secundare  sunt ac"i#iţionate pentru di!erse scopuri si pu$licate de către organisme pu$lice sau pri!ate Datele externe primare  sunt ac"i#iţionate direct de către întreprindere de la partenerii prin intermediul anc"etelor in scopul utili#ării lor pentru proiecte deci#ionale anterior definite. Date le i nte rne %epre#inta toate datele care se pot gasi in cadrul intreprinderii si care pot fi utili#ate in  procesul deci#io nal. &ceste date pro!in i n principal di n patru surse: ' Sistemul informational conta$il ' Sistemul informational de productie ' Sistemul informational comercial ' &nc"etele si studiile desfasurate anterior,  (atele o$ţinute din anc"etele desfăurate de întreprind ere sunt considerate ca date externe primare doar in momentul reali#ării anc"etelor, ulterior prin conser!area acestora in sistemul informaţional al întreprin derii acestea de!in date interne. )n general sistemul conta$il este cel care furni#ea#ă !olumul cel mai important de date si informaţii sistemul ui deci#ional. * anali#a a datelor furni#ate de sistemul conta$il poate orienta acti!itatea întreprinderii către o anumita direcţie i poate defini necesitatea ac"i#iţiilor de date externe primare si secundare. Datele extern e se cundar e (atele externe secundare sunt cele pu$licate de către organisme: gu !e rn amen tale +) S - sau pri!ate.  &cestea sunt utile in procesul de anali#a, ele putnd sa descrie talia si e!oluţia cererii  pentru un pr odus, sau tali a si compo#iţia unei pi eţe sau structura un ui sector de acti!itate. (atele secundare externe permit de asemenea identificarea ipote#elor de cercetare specifice si orientarea către culegerea de date primare cu a/utorul c"estionarelor.  0

Upload: ionut-dumitrascu

Post on 13-Oct-2015

21 views

Category:

Documents


1 download

TRANSCRIPT

ETLETL:

Sursele de date

Proiectarea ETL

Erori de structura

Erori de dateSursele de date Sistemul informaional al unei firme conine doua categorii de date: date interne, date externe: date externe secundare si date externe primare. Datele interne sunt cele pe care le regsim in interiorul ntreprinderii printre care amintim rapoartele de comerciale, rapoartele financiare etc.Datele externe se refera in principal la mediul extern in care ntreprinderea ii desfoar activitatea.Datele externe secundare sunt achiziionate pentru diverse scopuri si publicate de ctre organisme publice sau private Datele externe primare sunt achiziionate direct de ctre ntreprindere de la partenerii prin intermediul anchetelor in scopul utilizrii lor pentru proiecte decizionale anterior definite.Datele interne Reprezinta toate datele care se pot gasi in cadrul intreprinderii si care pot fi utilizate in procesul decizional. Aceste date provin in principal din patru surse:

Sistemul informational contabil

Sistemul informational de productie

Sistemul informational comercial

Anchetele si studiile desfasurate anterior,

Datele obinute din anchetele desfurate de ntreprindere sunt considerate ca date externe primare doar in momentul realizrii anchetelor, ulterior prin conservarea acestora in sistemul informaional al ntreprinderii acestea devin date interne.

In general sistemul contabil este cel care furnizeaz volumul cel mai important de date si informaii sistemului decizional. O analiza a datelor furnizate de sistemul contabil poate orienta activitatea ntreprinderii ctre o anumita direcie i poate defini necesitatea achiziiilor de date externe primare si secundare.

Datele externe secundare Datele externe secundare sunt cele publicate de ctre organisme: guvernamentale (INS) sau private. Acestea sunt utile in procesul de analiza, ele putnd sa descrie talia si evoluia cererii pentru un produs, sau talia si compoziia unei piee sau structura unui sector de activitate. Datele secundare externe permit de asemenea identificarea ipotezelor de cercetare specifice si orientarea ctre culegerea de date primare cu ajutorul chestionarelor. Principalul avantaj al utilizrii acestor date rezida in faptul ca pot fi obinute repede si cu costuri reduse. Datele externe secundare sunt in general achiziionate in scopuri care nu au legtura cu problema de cercetare din cadrul organizaiei care le consulta. Este destul de rar sa se gseasc exact datele cutate. De cele mai multe ori acestea ofer un rspuns parial. Cu cat problematica studiata este mai specifica ntreprinderii cu att posibilitatea achiziiei de date secundare externe este mai mica. Este posibil ca nicio data externa necesara procesului de analiza sa nu existe sau sa nu fie disponibila. In acest caz singura varianta o reprezint obinerea acestor date prin intermediul unor anchete.

Datele externe secundare pot proveni din sectorul public (organisme publice INS Agentii guvernamentale) sau privat (anchete efectuate de institutii private). Aceste doua surse de date externe prezint fiecare puncte forte si puncte slabe, fiind in fapt complementare. In tabloul urmtor sunt comparate punctele tari si cele slabe a datelor externe secundare provenite din cele doua surse de date public si privat Datele externe secundare

Metodologia tiinifica Datele provenite din sectorul public servesc in principal ca fundamente al deciziilor politice. Achiziia acestora fiind finanat din fonduri publice, impune organizaiilor care au ca sarcina colectarea lor sa aplice o metodologie riguroasa pentru a asigura validitatea acestor date fapt care nu este ntotdeauna valabil si in cazul organizaiilor private.

Standardizarea datelor Datele provenite din sectorul public sunt regrupate dup o clasificare standard care faciliteaz comparaia acestora de la un an la altul, ceea ce nu este posibil in cazul datelor provenite din sectorul privat deoarece acestea sunt in principal rezultatul unor studii punctuale.

Posibilitatea realizrii de serii temporale Standardizarea permite datelor provenite din sectorul public sa creeze serii temporale.Accesibilitate Datele provenite din organizaiile publice sunt uor de reperat si pot fi consultate in principiu gratuit. Datele provenite de la organismele private sunt dificil de accesat datorita confidenialitii iar achiziia acestora presupune in principiu eforturi financiare.Gradul de agregare Datele colectate de ctre organismele private, prin natura anchetelor pe care le dezvolta, sunt mai puin agregate dect cele colectate de ctre organismele publice.Gradul de actualitate a informaiei Complexitatea studiilor efectuate de organizaiile publice si rigurozitatea impusa de metodologiile tiinifice au ca efecte publicarea datelor cu o ntrziere de 2-3 ani. Prin contrast colectarea datelor de ctre organismele private se face avndu-se in vedere evenimente recente de interes imediat pentru firme.

Datele externe primare Datele externe primare se obin prin interogarea directa a actorilor vizai de studiul iniiat de ctre ntreprindere. Acest proces de colectare se numete ancheta sau sondaj. Achiziia datelor externe primare se efectueaz pornind de la o problema predefinita. Acestea sunt ulterior analizate si interpretate in scopul asistrii procesului decizional.

Decizia de a colecta date externe primare trebuie bine analizata avndu-se in vedere valoarea informaiei obinute in raport cu costul asociat procesului de achiziie. Aplicatia ETL

Alimentarea unui depozit de date se realizeaz ca o succesiune de diverse operaii de extragere, transformare i ncrcare a datelor, dintr-un mediu eterogen (bazele de date operaionale i cele externe) ntr-un mediu mult mai omogen, urmrindu-se utilizarea acestora n procesul de analiz.

Pentru a proteja utilizatorul de interpretri eronate, n urma procesului de analiz, este important s se asigure o calitate intrinsec a depozitului de date, calitate care depinde de procesul de construcie dar i de cel al alimentrii cu date.

Astfel identificarea i corectarea erorilor din datele depozitului, ce se pot manifesta sub forma de lipsuri, greeli de interpretare semantic etc., devine absolut necesara pentru a asigura o calitate superioar datelor ce vor sta la baza analizelor, deci implicit a rezultatelor obinute. Gravitatea i importana erorilor sunt dou noiuni ce sunt strns legate de asigurarea unui bun control al calitii.

Gravitatea este legat de costul controlului pentru detectarea unei erori ntr-un lot de date sau costul reparrii defectelor identificate i se msoar n funcie de complexitatea algoritmilor utilizate i volumul datelor afectate.

Importana este legat de utilitatea datelor afectate i impactul acestora n agregatele produsului final, depozitul de date, adic materia prim a utilizatorilor unui sistem de asistare a decizie.

Aplicatia ETL - Pregtirea datelor Pregtirea datelor presupune epurarea acestora i transformarea caracteristicilor lor din sistemele operaionale n forma definit pentru depozitul de date pentru a asigura un acces uniform.

Acest proces presupune punerea n concordan a formatelor datelor, curirea, transformarea i agregarea acestora. Prin curire se nelege eliminarea dublurilor, eliminarea sau repararea valorilor eronate i extrapolarea valorilor care lipsesc.

n procesul de pregtire a datelor denumit de literatura de specialitate la modul general procesul de transformare a datelor, se disting dou categorii de erori (defecte) i anume

una referitoare la scheme (modele) i cealalt referitoare la date. La rndul su erorile la nivel de schem sunt erori de structur sau de tip (proprieti ale atributelor) iar erorile la nivel de date pot fi de acoperire (probleme de chei) sau precizie (probleme de valori). Aplicatia ETL Tipul de erori

Exemple erori

Erori schema 1. structur Tabela Client ntr-o surs de date i tabela Partener n alt surs de date; la acest nivel se stabilete pentru fiecare tabel din depozit ce tabele ii vor corespunde n surse, iar pentru fiecare cmp din depozit ce cmp surs i corespunde.2. tip date cod client este cmp numeric iar cod partener este cmp textErori date:1. acoperire se refer la cmpurile cheie2. precizie - se refer la cmpurile noncheieAplicatia ETL - Pregtirea datelor Detectarea erorilor devine astfel o condiie esenial pentru asigurarea fiabilitii datelor de transferat i implicit pentru asigurarea coerenei depozitului de date.

Epurarea datelor nu nseamn c datele din sistemele operaionale nu sunt de calitate, incoerente, false, fapt ce nu poate fi eliminat n totalitate, ci faptul c n cadrul fluxului de date generat ntre surse i depozitul de date pot aprea conflicte i redundane care trebuie rezolvate.

Tocmai de aceea un numr mare de erori provin din categoria celor puse n eviden nu la surs ci n cadrul procesului de transfer i transformare. Fiecare restricie de integritate sau de coeren introdus pentru datele din depozit corespunde unei detectri de incoerene caracteristice constrngerii respective.

In concluzie se poate afirma c erorile provin att de la sursele de date manifestndu-se sub forma lipsei de date sau greelilor semantice sau ortografice, dar n cea mai mare msur acestea provin ca urmare a dificultilor de integrare a datelor (termenul de eroare fiind asimilat dificultilor) generate de diferenele de tip a atributelor i de modele. Integrarea datelor presupune rezolvarea problemelor de eterogenitate a schemelor (modelelor) i a semanticii. Aplicatia ETL Integrarea schemelorFaza integrrii schemei unui depozit de date este particular pentru dou motive : schema rezultat nu este o schem conceptual integrat definitiv ci evolutiv i utilizatorul depozitului de date, n general, nu prezint o nelegere global a schemei, el fiind n primul rnd un decident. Schema global (modelul conceptual) a depozitului de date este rezultatul unui proces de re-enginering. Schema obinut nu este fix ca n cazul bazelor de date clasice, aici ele pot fi supuse unor schimbri ulterioare. Acest aspect dinamic se datoreaz faptului c necesarul de date din depozitul de date este n principal ghidat de cererile utilizatorilor mai degrab dect de analiza situaiei existente.

Integrarea evolutiv a schemelor presupune compararea acestora i elaborarea unui set de aseriuni inter-scheme care s indice echivalena, incluziunea sau neasemnarea a dou obiecte.

Dup etapa de comparaie a schemelor, se va elabora schema global a depozitului.

Se vor pune n eviden asocierile dintre cmpurile surs i cele destinaie prin procesul de mapping al datelor. Aceste asocieri se pot pune n eviden la nivele diferite pornind de la tabel sau fiier, la nivel de cmp sau pri din cmp.

Aplicatia ETL - Integrarea datelor Inconsistenele datelor pot fi locale la nivel de nregistrare, la nivel de surs sau pot surveni prin punerea n comun a dou surse.

Inconsistenele se pot datora prezenei datelor false, confruntrii datelor semantic identice dar sintactic diferite etc.

Printre inconsistenele ce apar n mod frecvent n confruntarea dintre mai multe surse putem aminti:

diferena de codare pentru acelai obiect provenit din surse diferite M/F sau 1/2; diferena de uniti RON EURO; diferena de granularitate ; diferena de plaj de valoare ; diferena de actualizare; imprecizia; utilizarea sinonimelor ; modul diferit de descriere a aceleai date ntr-un text liber ex adresa; diferena de coninut ntr-un text liber; diferena lingvistic a nivelului de percepie ntr-un text liber. Principalele preocupri referitoare la procesul de curare a datelor s-au ndreptat ctre tehnicile de reconciliere ntre dou nregistrri. Un aspect particular l constituie modalitatea de abordare a acestui proces n funcie de diferena de tratament ntre atributele cheie i cele non-cheie dar semantic importante i atributele cu o mai mic importan. Aceast ierarhizare conduce la o reconciliere strict, care presupune egalitatea tuturor cmpurilor din tuplu, sau reconciliere lejer (flou) care presupune egalitatea cmpurilor cheie i similaritatea cmpurilor non-cheie. +

-

Grad de actualizare

+

-

Grad de agregare

+/-

+

Accesibilitate

-

+

Serii temporale

-

+

Standardizarea datelor

-

+

Metodologie tiinific

Date private

Date publice

Precizie

Structur

Schema

Date

Acoperire

Erori

Tip date

1