biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/digital...

Post on 06-Feb-2018

217 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

BiblioteciBiblioteci digitaledigitale pepe structuristructuri GRIDGRIDPrezentatorPrezentator: Gheorghe Sebestyen: Gheorghe Sebestyen

2

ContinutContinut

BiblioteciBiblioteci clasiceclasice vs. vs. bibliotecibiblioteci digitaledigitaleCercetariCercetari recenterecente in in domeniuldomeniul bibliotecilorbibliotecilor digitaledigitale (Digital (Digital Libraries Libraries -- DLsDLs))ObiectiveObiective sisi cerintecerinte de de proiectareproiectare pentrupentru bibliotecilebibliotecile digitaledigitaleBiblotecileBiblotecile digitaledigitale raportateraportate la la SistemeleSistemele de management a de management a continutuluicontinutului digital digital BiblioteciBiblioteci digitaledigitale bazatebazate pepe ontologieontologie –– bibliotecibiblioteci semanticesemantice““GridGrid--ificareaificarea”” bibliotecilorbibliotecilor digitaledigitaleModelulModelul uneiunei BiblioteciBiblioteci digitaledigitale bazatabazata pepe o o infrastructurainfrastructura GRIDGRIDRezultateRezultate experimentaleexperimentale ––

CautareCautare pepe bazabaza de de cheicheiTehniciTehnici de de cautarecautare sisi clasificareclasificare semanticasemantica

ConcluziiConcluzii

3

BiblioteciBiblioteci clasiceclasice sisi digitaledigitale

BibliotecaBiblioteca clasicaclasicao o arhivaarhiva de de cunostinte/informatiicunostinte/informatii pepe suportsuport de de hartiehartieMasuraMasura a a graduluigradului de de civilizatiecivilizatie a a uneiunei societatisocietati

BibliotecaBiblioteca digitaladigitalaNuNu numainumai o o versiuneversiune digitizatadigitizata a a uneiunei bibliotecibiblioteciUn set Un set nounou de de functionalitatifunctionalitati sisi serviciiservicii ((controlulcontrolul accesuluiaccesului, , alocareaalocarea sisimanagementulmanagementul resurselorresurselor, , serviciiservicii complexecomplexe de de cautarecautare sisi regasireregasire))Un Un mediumediu pentrupentru schimbschimb de de informatiiinformatii sisi cooperarecooperareContineContine o mare o mare varietatevarietate de date in de date in diverse diverse formateformate (text, audio, video, (text, audio, video, documentedocumente compusecompuse, , obiecteobiecte digitaledigitale sisi colectiicolectii))BibliotecileBibliotecile digitaledigitale suntsunt sistemesisteme informaticeinformatice complexecomplexe care care acoperaacopera toatetoateaspecteleaspectele legate de legate de creareacrearea, , stocareastocarea, , procesareaprocesarea, , distributiadistributia sisi accesulaccesul la la laladate date

4

TehnologiiTehnologii

IT IT sisi

de de comunicatiecomunicatie

implicate in implicate in implementareaimplementarea bibliotecilorbibliotecilor

digitaledigitale

http://mapageweb.umontreal.ca/turner/meta/english/metamap.html

5

ObiectiveObiective

pentrupentru

o o bibliotecabiblioteca

digitaladigitala

modernamoderna

ViziuneaViziunea proiectuluiproiectului DELOS DELOS ––““sasa permitapermita oricareioricarei persoanepersoane accesulaccesul la la oriceorice informatieinformatie((cunostintecunostinte) ) oriundeoriunde sisi oricandoricand, , intrintr--un mod un mod prietenosprietenos, , eficienteficientefectivefectiv sisi multimulti--modal modal prinprin eliminareaeliminarea barierelorbarierelor de de distantadistanta, , limbalimba, , sisi culturacultura sisi prinprin utilizareautilizarea de de dispozitivedispozitive interconectateinterconectate pepeInternetInternet””BibliotecaBiblioteca digitaladigitala = o = o arhivaarhiva de de cunostintecunostinte sisi o o infrastructurainfrastructurapentrupentru schimbulschimbul de de informatiiinformatii care care permitepermite generareagenerarea, , stocareastocareasisi accesulaccesul usorusor la date independent de la date independent de distributiadistributia resurselorresurselor fizicefizice, , a a bazelorbazelor de date de date sisi a a persoanelorpersoanelor..

ImplementareaImplementarea uneiunei bibliotecibiblioteci digitaledigitale necesitanecesitainfrastructurainfrastructura sisi serviciiservicii de de calculcalcul sisi de de comunicatiecomunicatie de de inaltainalta performantaperformanta

6

CercetariCercetari

in in domeniuldomeniul

BibliotecilorBibliotecilor

digitaledigitale

Delos Network of Excellence Delos Network of Excellence ––ObiectivulObiectivul: : definireadefinirea sisi implementareaimplementarea de de bibliotecibiblioteci digitaledigitale pepe tehnologiitehnologii noinoi de de calculcalcul sisi de de comunicatiecomunicatieRealizariRealizari: : definireadefinirea cerintelorcerintelor functionalefunctionale sisi arhitecturalearhitecturale pentrupentru o o bibliotecabibliotecadigitaladigitala

ProiectulProiectul BRICKS BRICKS ObiectivObiectiv: : proiectareaproiectarea unuiunui spatiuspatiu orientatorientat pepe utilizatorutilizator sisi pepe serviciiservicii pentrupentruutilizareautilizarea in in comuncomun a a cunostintelorcunostintelor sisi a a resurselorresurselor intrintr--un context multiun context multi--cultural cultural RealizariRealizari: :

DefinireaDefinirea uneiunei arhitecturiarhitecturi de de bibliotecabiblioteca pentrupentru o o comunitatecomunitate forte mare forte mare sisi eterogenaeterogena de de utilizatoriutilizatori, , functiifunctii automate de automate de adnotareadnotare sisi indexareindexare a a continutuluicontinutului

ProiectulProiectul OpenDlibOpenDlibObiectivObiectiv: : dezvoltareadezvoltarea unuiunui instrument software (toolkit) instrument software (toolkit) pentrupentru gererareagererarea de de bibliotecibiblioteci digitaledigitale dedicate dedicate RealizariRealizari: : instrumenteinstrumente pentrupentru culegereaculegerea de de continutcontinut digital (content digital (content harvesting)harvesting) din din resurseresurse existenteexistente

Fedora, DSpace Fedora, DSpace –– software de tip software de tip ““open sourceopen source”” pentrupentru bibliotecibiblioteci digitaledigitale

7

CercetariCercetari

in in domeniuldomeniul

BibliotecilorBibliotecilor

digitaledigitaleProiectulProiectul Diligent (Diligent (parteparte a a proiectuluiproiectului EGEE)EGEE)

ObiectivObiectiv: : utilizareautilizarea infrastructurilorinfrastructurilor Grid Grid pentrupentru implementareaimplementareabibliotecilorbibliotecilor digitaledigitaleRealizariRealizari: o : o nouanoua viziuneviziune privindprivind conceptulconceptul de de bibliotecabiblioteca digitaladigitala: :

BibliotecaBiblioteca digitaladigitala = un = un sistemsistem dinamicdinamic de de dede stocarestocare sisi management a management a continutuluicontinutului digital digital destinatdestinat unuiunui scopscop binebine definitdefinit (ex: (ex: proiectproiect, curs, , curs, colectiecolectiede de artaarta, etc.), etc.)DefinireaDefinirea de de serviciiservicii genericegenerice de de bibliotecabiblioteca mapatemapate pepe serviciiservicii GridGridExperiment de Experiment de catalogarecatalogare automata a automata a tuturortuturor imaginilorimaginilor existenteexistente pepe un portal un portal de de imaginiimagini

ProiectulProiectul SinredSinred –– un un proiectproiect national in national in cadrulcadrul ProgramuluiProgramului de de excelentaexcelentaObiectivObiectiv: : dezvoltareadezvoltarea unuiunui cadrucadru/model national /model national pentrupentru bibliotecibiblioteci digitaledigitaledestinatedestinate domeniilordomeniilor stiintificestiintifice sisi tehnicetehniceRealizariRealizari: :

evaluareaevaluarea cerintelorcerintelor, , evaluareaevaluarea produselorproduselor software software existenteexistentedezvoltareadezvoltarea uneiunei infrastructuriinfrastructuri Grid, Grid, definireadefinirea unuiunui model generic de model generic de bibliotecabiblioteca digitaladigitala, , implementareimplementare sisi experimenteexperimente de de cautarecautare sisi regasireregasire in in bibliotecibiblioteci digitaledigitale pepeGridGrid

8

CerinteCerinte pentrupentru

un un sistemsistem de de

bibliotecabiblioteca digitaladigitala

CerinteCerinte arhitecturalearhitecturale::NaturaNatura distribuitadistribuita a a resurselorresurselor de de stocarestocare, , procesareprocesare sisi de de accesaccesScalabilitateScalabilitate, , interoperabilitateinteroperabilitate sisi flexibilitateflexibilitate

CerinteCerinte functionalefunctionale: : FunctiiFunctii de de bazabaza: : stocarestocare, , indexareindexare sisi adnotareadnotare, , cautarecautare, , regasireregasire de de continutcontinut, , managementulmanagementul utilizatorilorutilizatorilor sisi a a resurselorresurselorOrganizareaOrganizarea continutuluicontinutului trebuietrebuie sasa reflectereflecte conexiunileconexiunile semanticesemantice existenteexistente

FacilitatiFacilitati de de procesareprocesareServiciiServicii de de procesareprocesare a a datelordatelor –– specializatespecializate pentrupentru diferitediferite domeniidomeniiIdentificareaIdentificarea modelelormodelelor (pattern(pattern--urilorurilor) de ) de cautarecautare sisi regasirearegasirea informatiilorinformatiilor pepebazabaza acestoraacestora (de la (de la cheichei de de cautarecautare la la cautarecautare semanticasemantica))

CerinteCerinte de de calitatecalitate a a serviciilorserviciilor (QoS)(QoS)SigurantaSiguranta datelordatelor sisi a a accesuluiaccesuluiTimpTimp rezonabilrezonabil de de regasireregasire a a informatiilorinformatiilor relevanterelevante

ManamenentulManamenentul utilizatorilorutilizatorilor sisi controlulcontrolul accesuluiaccesuluiPromovareaPromovarea ideiiideii de de OrganizatieOrganizatie virtualavirtuala

9

BiblioteciBiblioteci

digitaledigitale

si/sausi/sau SistemeSisteme

de de gestiunegestiune

a a continutuluicontinutului

digitaldigital

SistemSistem de management al de management al continutuluicontinutului::SistemSistem informaticinformatic destinatdestinat pentrupentru stocareastocarea, , indexareaindexarea sisi clasificareaclasificarea, , vizualizareavizualizarea sisi transmitereatransmiterea datelordatelor relevanterelevante pentrupentru un un anumitanumit domeniudomeniusausau sferasfera de de activitateactivitateGestionareaGestionarea de de formateformate foartefoarte variatevariate ((continutcontinut web, multimedia, web, multimedia, documentedocumente tehnicetehnice, , rapoarterapoarte economiceeconomice, etc.), etc.)ExempleExemple: :

eGovernmenteGovernment and and eAdministrationeAdministration,,FurnizareFurnizare de de continutcontinut MultiMulti--media (media (muzicamuzica, film) , film) Date de Date de administrareadministrare a a companiilorcompaniilorContinutContinut stiintificstiintific sisi tehnictehnic: : standardestandarde, , conferinteconferinte, , cursuricursuri ((eLearningeLearning) )

BiblioteciBiblioteci digitaledigitale::ArhivaArhiva de de continutcontinut digitaldigitalUn tip de Un tip de SistemSistem de management a de management a continutuluicontinutuluiAsiguraAsigura un un accesacces maimai larglarg sisi deservestedeserveste obiectiveobiective maimai generalegenerale (ex: (ex: celcel de de informareinformare))

CeleCele douadoua concepteconcepte suntsunt dificildificil de de delimitatdelimitatIn In viitorviitor, , maimai multemulte bibliotecibiblioteci digitaledigitale cu un cu un scopscop binebine definitdefinit

10

Schema de principiu a unui SMCD

TextAudio

VideoText

Generare

conţinut

digital

Managementul esenţei

Extragere

automata de

caracteristiciManagementul

metadatelor

Catalogare

Acces

şi

vizualizare

Sistem

informatic

de catalogare

11

AbordareaAbordarea

pepe

bazabaza

de de ontologiiontologii a a BibliotecilorBibliotecilor

digitaledigitale

OntologieOntologie: : concepteconcepte sisi relatiirelatii intreintre eleele la un la un nivelnivel maimai abstractabstractOntologieOntologie pentrupentru domeniuldomeniul stiintificstiintific sisi tehnictehnic

ConcepteConcepte de de bazabaza::ObiecteObiecte digitaledigitale: :

AsociereAsociere de de continutcontinut, , metadatemetadate sisi proceduriproceduri de de prelucrareprelucrare sisi de de accesacces a a procedurilorprocedurilor

ColectiiColectii digitaledigitale::AsociereaAsocierea pepe bazabaza unuiunui anumitanumit criteriucriteriu a a maimai multormultor obiecteobiecte digitaledigitale

EvenimenteEvenimente: : continutcontinut asociatasociat uneiunei anumiteanumite manifestarimanifestari (de (de scurtascurta duratadurata))ExempleExemple: : ConferinteConferinte, workshop, workshop--uriuri, , seminariiseminarii

ProceseProcese: : continutcontinut asociatasociat uneiunei activitatiactivitati de de duratadurataExempleExemple: : ProiecteProiecte, , CursuriCursuri

OrganizatiiOrganizatii virtualevirtualeRoluriRoluriUtilizatoriUtilizatori

12

TaxomoniaTaxomonia

documentelor digitaledocumentelor digitale

in in stiintastiinta

sisi

tehnicatehnica

13

AlteAlte taxonomiitaxonomii

14

apartine

laprezentat la

consta dineste un

este o

precizat

in

organizat de

membru a

participa ca

dezvoltat deOrganizatie

virtualaProiect

UtilizatorRol

ColectieEveniment

Obiect digital

Metadate Date

ConcepteConcepte sisi relatiirelatii

15

ModelulModelul de de BibliotecaBiblioteca digitaladigitala

Interfete utilizator

OAI-PMH Data Provider

Managementul metadatelor

Managementul continutului

Management utilizatori

Functii de cautare

Managementul securitatii

Nivel de prezentare

Nivelul de administrare si acces

Procesare cereri

Ontologie Metadate (BD)

Arhiva dig. (Repository)

Nivelul de stocare

NivelulNivelul de de prezentareprezentare --componentecomponente care care comunicacomunica cu cu lumealumea in in afaraafarasistemuluisistemuluiNivelulNivelul de de administrareadministrare sisiaccesacces –– manipuleazamanipuleazacontinutulcontinutul, , utilizatoriiutilizatorii sisiorganizatiileorganizatiile vitualevitualeNivelulNivelul de de stocarestocare ––stocareastocarea metadatelormetadatelor sisi a a continutuluicontinutului

16

ServiciiServicii

de de bibliotecabiblioteca

digitaladigitala

pepe

GRIDGRID

De De cece BiblioteciBiblioteci digitaledigitale pepe GRID?GRID?Un Un volulvolul imensimens de de documentedocumente digitaledigitaleAccesAcces concurentconcurent sisi motoaremotoare multiple de multiple de cautarecautare ((vezivezi Google)Google)FurnizareFurnizare de de continutcontinut multimedia onmultimedia on--line (Multimedia line (Multimedia streaming)streaming)IndexareIndexare, , catalogarecatalogare sisi adnotareadnotare automataautomataProcesariProcesari complexecomplexe de date (ex: de date (ex: recunoasterearecunoasterea sisi catalogareacatalogareaautomata a automata a continutuluicontinutului multimulti--media) media) necesitanecesita timptimp de de executieexecutie prohibitivprohibitiv de marede mareManagementulManagementul utilizatorilorutilizatorilor sisi alocareaalocarea resurselorresurselor prinprinOrganizatiiOrganizatii virtualevirtualeFacilitatiFacilitati de de distribuiredistribuire a a sarcinilorsarcinilor oferiteoferite de de serviciileserviciile GridGrid

17

““GridGrid--ificareaificarea”” modeluluimodelului de de

bibliotecabiblioteca digitaladigitala

DistribuireaDistribuirea continutuluicontinutului sisi replicarereplicareControlulControlul accesuluiaccesului la date la date prinprin::

OrganizatiiOrganizatii virtualevirtuale, , CertificareaCertificarea sisi autentificareaautentificarea utilizatorilorutilizatorilorAtribuireaAtribuirea de de roluriroluri

ExecutiaExecutia paralelaparalela a a procedurilorprocedurilor de de cautarecautare sisi clasificareclasificareAceeasiAceeasi proceduraprocedura de de cautarecautare aplicataaplicata in in paralelparalel pepe maimai multemultedocumentedocumente, , pepe maimai multemulte nodurinoduri Grid Grid DistribuireaDistribuirea fazelorfazelor de de executieexecutie ale ale uneiunei proceduriproceduri de de cautarecautare((parsareparsare, , calcululcalculul vectorilorvectorilor de de caracteristicicaracteristici, , identificareidentificare sisiselectieselectie, , clasificareclasificare) ????) ????

18

ModelulModelul de de BibliotecaBiblioteca

digitaladigitala pepe

o o infrastructurainfrastructura

GridGrid

Resurse

de calcul, de stocare

si

de comunicatie

Biblioteca

digitala

Servicii

Grid

Managementul

colectiilorManagementul

si

catalogarea

metadatelor

Managementul

obiectelor

digitale

Managementul

utilizatorilor

Vizualizarea

datelor

Managementul

organizatiilor

virtuale

Managementul

resurselor

Distributia

Task-urilor

Procesare

Distributia

si

replicarea

datelor

Procesarea

datelor

19

ExperimenteExperimente

ImplementareaImplementarea uneiunei bibliotecibiblioteci digitaledigitale pepe platformaplatforma AlchemiAlchemi Grid (Microsoft)Grid (Microsoft)DistributiaDistributia sarcinilorsarcinilor la la nivelnivel de fire de de fire de executieexecutie (thread(thread--uriuri))ProgramareProgramare Grid Grid explicitaexplicitaExperimenteExperimente de de furnizarefurnizare in in paralelparalel de de continutcontinut multimedia (multimedia content multimedia (multimedia content streaming)streaming)

ImplementareaImplementarea uneiunei bibliotecibiblioteci digitaledigitale pepe platformaplatforma Condor Grid (Open Condor Grid (Open source)source)

DistributiaDistributia sarcinilorsarcinilor la la nivelnivel de taskde task--uriuriDistributiaDistributia sarcinilorsarcinilor sisi a a datelordatelor esteeste transparentatransparenta pentrupentru aplicatiaaplicatia de de bibliotecabiblioteca((distributiadistributia se face se face prinprin scriptscript--uriuri) ) ExperimenteExperimente de de cautarecautare de de documentedocumente pepe bazabaza de de cuvintecuvinte cheiecheie ((cautarecautare in in continutcontinut sisi nunu in in catalogulcatalogul de de metadatemetadate))

TimpulTimpul de de executieexecutie scadescade cu cu numarulnumarul de de nodurinoduri executoareexecutoare utilizateutilizatePentruPentru maimai multmult de 5 de 5 executoareexecutoare timpultimpul de de planificareplanificare sisi comunicatiecomunicatie devinedevine comparabilcomparabilcu cu celcel de de procesareprocesare

CautareCautare statisticastatistica sisi semanticasemantica

20

ExperimenteExperimente

Execution time v. s. number of executor nodes

0

1000

2000

3000

4000

5000

6000

7000

8000

1 2 3 4 5

Nodes

Tim

e (s

)

Search execution time

Scheduling andcommunication time(case 1)Scheduling andcommunication time(case 2)Total time (case1)

Total time (case2)

21

CautareCautare statisticastatistica sisi semanticasemantica

IdeeaIdeea: : regasirearegasirea sausau catalogareacatalogarea unorunor documentedocumente pepe bazabaza unorunordocumentedocumente date ca date ca exempluexempluRegasireRegasire prinprin similaritatesimilaritate

AlgoritmiAlgoritmi::AlgoritmAlgoritm de de cautarecautare de tip de tip ““Naive BayesianNaive Bayesian””Algoritm Topic-Based Vector Space Model (TVSM)

BeneficiileBeneficiile implementariiimplementarii acestoracestor algoritmialgoritmi folosindfolosindsistemesisteme Grid:Grid:

PerformantePerformante maimai bunebune la la timpultimpul de de procesareprocesareDistributiaDistributia documentelordocumentelor

22

AlgoritmulAlgoritmul Naive Bayes Naive Bayes –– 1 1

ScopScop::ClasificareaClasificarea datelordatelor neetichetateneetichetate cu cu ajutorulajutorul unorunor estimariestimarifolosindfolosind date de date de antrenareantrenare etichetateetichetate

Conform cu Conform cu teoremateorema Bayes se Bayes se poatepoate obtineobtineprobabilitateaprobabilitatea posterioaraposterioara cunoscandcunoscand

probabilitateaprobabilitatea anterioaraanterioaraprobabilitateaprobabilitatea ca un document ca un document sasa apartinaapartina la un la un subiectsubiect

ProbabilitatileProbabilitatile pentrupentru noilenoile date de date de antrenareantrenare ale ale unuiunuiclasificatorclasificator (evidence) (evidence)

P(D|T)/(P(D| T ) P(D|T)/(P(D| T ) undeunde: D: D––

document, T document, T ––

topic topic

23

AlgoritmulAlgoritmul Naive Bayes Naive Bayes –– 22

EstimareaEstimarea acestoracestor probabilitatiprobabilitati se face se face prinprinmasurareamasurarea frecventeifrecventei de de aparitieaparitie a a cuvintelorcuvintelor intrintr--un un set de set de documentedocumente de de antrenareantrenare..

wwkk

esteeste

cuvantulcuvantul

k k din din celecele

nn

cuvintecuvinte

ale ale documententuluidocumententului

D D

DocumenteleDocumentele neetichetateneetichetate se se folosescfolosesc pentrupentru a a imbunatatiimbunatati setulsetul de de documentedocumente de de antrenareantrenareCuvinteleCuvintele din document din document suntsunt independenteindependente de de contextcontext

)|()|(*......*

)|()|(*

)|()|(

)|()|(

)|()|(

2

2

1

1

.........2,1

.........2,1

TwPTwP

TwPTwP

TwPTwP

TwwwPTwwwP

TDPTDP

n

n

n

n≈=

24

TopicTopic--Based Vector Space ModelBased Vector Space Model (TVSM) (TVSM) -- 11

ScopScopClasificareaClasificarea documentelordocumentelor folosindfolosind o o abordareabordare bazatbazatpepe spatiispatii vectorialevectoriale

PasiPasi de de procesareprocesare::EliminareaEliminarea cuvintelorcuvintelor nerelevantenerelevante ((StopwordsStopwords) ) –– acestiacesti termenitermeni nunuinfluenteazainfluenteaza sensulsensul documentuluidocumentului

ExempleExemple: : sisi, in, ca, , in, ca, panapana, , candcand,,……Stemming Stemming –– reducereareducerea formeiformei cuvintelorcuvintelor la la radacinaradacina

ExempluExemplu: : ““softwaresoftware”” --> > ““softsoft””SubstitutiaSubstitutia tezauruluitezaurului de de cuvintecuvinte –– inlocuireainlocuirea sinonimelorsinonimelor cu un cu un cuvantcuvant cheiecheie

25

TopicTopic--Based Vector Space ModelBased Vector Space Model (TVSM) (TVSM) -- 22

DescriereDescriere algoritmalgoritm::UtilizatorulUtilizatorul definestedefineste un un profilprofil prinprin asocieazaasocieaza unorunor documenteledocumentele la la claseclasepredefinitepredefiniteRestulRestul documentelordocumentelor se se clasificaclasifica in in concordantaconcordanta cu cu documenteledocumentele similaresimilareDocumenteleDocumentele noinoi clasificateclasificate imbunatatescimbunatatesc profilulprofilul

Se Se presupunepresupune ca ca termeniitermenii ((cuvintelecuvintele) ) suntsunt elementeleelementele atomiceatomice ale ale unuiunui documentdocumentSimilaritateaSimilaritatea dintredintre doidoi termenitermeni::

Sim(i,jSim(i,j) = ) = coscos

ωωi,ji,j

єє

[0,1]. [0,1]. ωωi,ji,j

––

unghiulunghiul

dintredintre

vectoriivectorii

termenilortermenilor

i i sisi

jjCuvinteleCuvintele care care apartinapartin unuiunui subiectsubiect anumeanume au au lungimealungimea de vector de vector aproapeaproape de 1de 1

26

TopicTopic--Based Vector Space ModelBased Vector Space Model (TVSM) (TVSM) -- 22

AxeleAxelereprezintareprezinta subiectesubiecte elementareelementarepot pot aveaavea doardoar valorivalori pozitivepozitive

FiecaruiFiecarui document document k k i se i se asocieazaasocieaza un vector un vector ddkk

AsemanareaAsemanarea bazatabazata pepesubiectsubiect sim(sim(kk,,ll) ) dintredintre douadouadocumentedocumente kk sisi ll esteeste data de data de produsulprodusul scalar scalar dintredintre vectoriivectoriidocumentelordocumentelor respectiverespective

27

ConcluziiConcluzii

BibliotecileBibliotecile digitaledigitale suntsunt sistemesisteme informaticeinformatice complexecomplexe de de management a management a continutuluicontinutului care care extindextind functionalitatilefunctionalitatilebibliotecilorbibliotecilor clasiceclasice::

MediuMediu pentrupentru schimbschimb de de informatiiinformatii sisi cooperarecooperareOrganizareaOrganizarea semanticasemantica a a unorunor informatiiinformatii diverse ca format diverse ca format AccesAcces controlatcontrolat la date la date distribuitedistribuite

InfrastructurileInfrastructurile Grid pot Grid pot sasa ofereofere un un suportsuport de de implementareimplementarefezabilfezabil pentrupentru bibliotecilebibliotecile digitaledigitale

PentruPentru distribuireadistribuirea automata a automata a datelordatelor sisi a a sarcinilorsarcinilor de de procesareprocesarePentruPentru transfer transfer eficienteficient de date de date sisi sincronizaresincronizarePentruPentru managementulmanagementul utilizatorilorutilizatorilor sisi controlulcontrolul accesuluiaccesului

ProblemeProbleme: : MulteMulte platformeplatforme GRID GRID adoptaadopta un un stilstil de de procesareprocesare de tip de tip ““prelucrareprelucrare pepeloturiloturi (batch)(batch)”” in care in care lipsestelipseste interactivitateainteractivitateaProgramatorulProgramatorul aplicatieiaplicatiei de de bibliotecabiblioteca esteeste implicatimplicat in mica in mica masuramasura in in procesulprocesul de gridde grid--ificareificare ((executieexecutie pepe Grid). Grid).

top related