modele şi algoritmi de web mining rez.pdf · şi legaturilor de care acestea sunt conectate. ceea...
TRANSCRIPT
UNIVERSITATEA TEHNICĂ “GHEORGHE ASACHI” DIN IAŞI Facultatea de Automatică şi Calculatoare
Modele şi Algoritmi de Web Mining
- REZUMATUL TEZEI DE DOCTORAT -
Conducător de doctorat: Prof. univ. dr. Mitică Craus
Doctorand: Ing. Ioan Agavriloaei
IAŞI – 2012
UNIUNEA EUROPEANĂ GUVERNUL ROMÂNIEI
MINISTERUL MUNCII, FAMILIEI ŞI PROTECŢIEI SOCIALE
AMPOSDRU
Fondul Social European
POSDRU 2007-2013
Instrumente Structurale
2007-2013 OIPOSDRU UNIVERSITATEA TEHNICĂ
“GHEORGHE ASACHI” DIN IAŞI
UNIUNEA EUROPEANĂ GUVERNUL ROMÂNIEI
MINISTERUL MUNCII, FAMILIEI ŞI PROTECŢIEI SOCIALE
AMPOSDRU
Fondul Social European
POSDRU 2007-2013
Instrumente Structurale
2007-2013 OIPOSDRU UNIVERSITATEA TEHNICĂ
“GHEORGHE ASACHI” DIN IAŞI
UNIUNEA EUROPEANĂ GUVERNUL ROMÂNIEI
MINISTERUL MUNCII, FAMILIEI ŞI PROTECŢIEI SOCIALE
AMPOSDRU
Fondul Social European
POSDRU 2007-2013
Instrumente Structurale
2007-2013 OIPOSDRU UNIVERSITATEA TEHNICĂ
“GHEORGHE ASACHI” DIN IAŞI
Teza de doctorat a fost realizată cu sprijinul financiar al proiectului
„Burse Doctorale pentru Performanţa în Cercetare la Nivel European
(EURODOC)”.
Proiectul „Burse Doctorale pentru Performanţa în Cercetare la Nivel
European (EURODOC)”, POSDRU/88/1.5/S/59410, ID 59410, este un
proiect strategic care are ca obiectiv general „Dezvoltarea capitalului
uman pentru cercetare prin programe doctorale pentru îmbunătățirea
participării, creșterii atractivității şi motivației pentru cercetare.
Dezvoltarea la nivel european a tinerilor cercetători care să adopte o
abordare interdisciplinară în domeniul cercetării, dezvoltării şi
inovării.”.
Proiect finanţat în perioada 2009 - 2012.
Finanţare proiect: 18.943.804,97 RON
Beneficiar: Universitatea Tehnică “Gheorghe Asachi” din Iaşi
Partener: Universitatea „Babeş Bolyai” din Cluj-Napoca
Director proiect: Prof. univ. dr. ing. Mihaela-Luminiţa LUPU
Responsabil proiect partener: Prof. univ. dr. ing. Alexandru OZUNU
i
Cuprins
Cuprins i
1. Introducere 1
1.1 Motivaţia cercetării ............................................................................................................... 1 1.2 Obiectivele cercetării ............................................................................................................ 2
1.3 Organizarea tezei .................................................................................................................. 3 1.4 Diseminarea rezultatelor ....................................................................................................... 5
2. Concepte teoretice fundamentele de Web data mining 7
2.1 Data mining .......................................................................................................................... 7 2.1.1 Învăţarea supervizată (clasificarea) ......................................................................... 8 2.1.2 Învăţarea nesupervizată (clusterizarea) ................................................................... 9
2.2 Web data mining ................................................................................................................. 12
2.2.1 Web structure mining ............................................................................................ 12
2.2.2 Web content mining ............................................................................................... 14 2.2.3 Web usage mining ................................................................................................. 16
3. Stadiul actual al cunoaşterii în Web mining 17
3.1 Stadiul actual în Web structure mining .............................................................................. 17 3.2 Stadiul actual în Web content mining ................................................................................ 17
4. Studiu metricilor de evaluare având în vedere modul în care utilizatorii efectuează o
căutare 19
4.1 Formularea problemei ........................................................................................................ 19
4.2 Metodologie şi metrici ........................................................................................................ 19 4.2.1 Regăsirea ad-hoc ................................................................................................... 20
4.2.2 Regăsirea diversificată ........................................................................................... 20
5. Noi modele şi algoritmi pentru clusterizarea şi căutarea pe Web 21
5.1 Modelarea documentelor Web............................................................................................ 21 5.1.1 Ponderea termenilor ............................................................................................... 21 5.1.2 Reprezentarea documentelor web .......................................................................... 22
5.2 Combinarea dependenţei, relevanţei şi structurii pentru regăsirea pe Web eficientă ......... 23 5.2.1 Formularea problemei ............................................................................................ 23
5.2.2 Model hibrid de regăsire ad-hoc a informaţiei ...................................................... 23
5.3 Algoritm de clusterizare a unui site .................................................................................... 24 5.4 Concluzii ............................................................................................................................. 26
6. Evaluare 27
6.1 Studiul metricilor de evaluare folosite în regăsirea informaţie având în vedere modul în
care utilizatorii efectuează o căutare ........................................................................................ 27 6.1.1 Comparaţia metricilor ............................................................................................ 27 6.1.2 Rezultate şi discuţii ................................................................................................ 27
6.2 Evaluarea modelării şi clusterizării documentelor web ...................................................... 29 6.2.1 Metrici folosite pentru comparaţie ........................................................................ 29 6.2.2 Rezultate şi discuţii ................................................................................................ 29
6.3 Evaluarea regăsirii informaţiei ........................................................................................... 32
ii
6.3.1 Configurarea simulării ........................................................................................... 32 6.3.2 Determinarea parametrilor optimi ......................................................................... 33
6.3.3 Rezultate şi discuţii ............................................................................................... 35 6.3.4 Concluzii ............................................................................................................... 37
7. Concluzii 39
7.1 Concluzii generale .............................................................................................................. 39 7.2 Contribuţii ştiinţifice şi valorificarea rezultatelor .............................................................. 40
7.3 Direcţii viitoare .................................................................................................................. 42
Bibliografie 43
1
1. Introducere
1.1 Motivaţia cercetării
Datorită creşterii rapide şi haotice a Web-ului, reţeaua de informaţii rezultată a suferit la capitolul
organizare şi structură, conţinutul informaţional fiind disponibil în diverse formate. Evoluţia
continuă a dimensiunii şi utilizării Web-ului a avut drept consecinţă directă apariţia diferitelor
provocări, precum stocarea informaţiei sau dificultatea extragerii cunoştinţelor utile. Problemele care
au trebui să fie soluţionate sunt regăsirea informaţiei relevante, care implică căutarea şi indexarea
conţinutului web, crearea unor meta cunoştinţe din informaţiile disponibile pe Web, precum şi
tratarea intereselor şi nevoilor utilizatorilor prin personalizarea informaţiilor şi serviciilor oferite.
Termenul de Web mining a fost introdus odată cu explozia Web-ului de la mijlocul anilor 1990,
pentru a confirma aplicarea tehnicilor de data mining pentru extragerea de cunoştinţe din conţinutul
(Web content mining), structura (Web structure mining) şi utilizarea (Web usage mining) datelor web
prin intermediul regăsirii automate a paginilor şi serviciilor web, extragerea de informaţii din
resursele web şi descoperirii de modele în cadrul Web-ului. Aşadar, Web mining este un domeniu
convergent de cercetare, care cuprinde diferite aspecte ale unor arii de cercetare deja consacrate cum
ar fi bazele de date, regăsirea informaţiei (Text REtrieval Conference, TREC), inteligenţa artificială,
învăţărea automată, text mining, etc. Principiile lor sunt abordate şi adaptate în Web mining pentru a
face faţă noilor provocări. Cel mai evident domeniu care a trebuit să se adaptateze noilor condiţii a
fost regăsirea informaţiei, luând astfel naştere regăsirea informaţiei pe Web (Web information
retrieval). Cercetările din acest domeniu au dus la crearea unui nou instrument web, anume motorul
de căutare, care a transformat activitatea de regăsire a informaţiei într-o activitate zilnică pentru
orice persoană care utilizează un calculator.
Creşterea volumului de informaţie a generat noi provocări în prelucrarea eficientă a informaţiei
noi descoperite sau reactualizarea datelor deja cunoscute. A discuta despre Web este o sarcină
dificilă din mai multe motive. În primul rând, datorită conţinutului dinamic, se poate spune că
subiectul şi conţinutul unei pagini web nu vor mai fi de actualitate până când ajung la utilizatorul
final, deoarece adresa URL care face referire la informaţia în sine poate fi rescrisă sau chiar
redirectată între timp. Apoi, o abordare realistă şi acoperirea tuturor subiectelor de interes pentru
utilizatorii finali este imposibilă deoarece noi idei şi subiecte sunt propuse în mod continuu, fiind
acceptate sau respinse de comunitatea virtuală. Un alt motiv este acela că există tendinţa puternică de
a prezenta subiecte strans legate de trecutul autorului lor, astfel acordând-se importanaţă subiectelor
şi legaturilor de care acestea sunt conectate.
Ceea ce diferenţiază Web-ul de alte colecţii de documente este faptul că, în afară de
documentele pe care le conţine, este puternic caracterizat de hiper-legăturile care inter-conectează
aceste documente. Informaţiile furnizate către utilizatori sunt de tip text, imagini, date audio sau
video precum şi date structurate (tabele şi liste). Majoritatea documentelor web sunt în format
HTML (HyperText Markup Language) conţinâd tag-uri sau etichete folosite la formatare, astfel
aplicaţiile de Web mining trebuie să parseze documentele HTML eliminând părţile care nu prezintă
interes din punct de vedere informaţional. O problemă comună a sistemelor de regăsire o reprezintă
2
modelarea documentelor. De regulă, un document necesită prelucrări preliminare pentru a extrage
din el informaţii relevante într-un format eficient şi util, astfel încât documentul să fie procesat în
mod automat de către sistemul de regăsire. O problemă deschisă în acest domeniu o reprezintă
descoperirea caracteristicilor esenţiale şi definitorii care dau importanţa şi greutatea informaţiei
furnizate de o pagină web.
De asemenea, datorită caracterului dinamic a conţinutului web, se impune o structurare şi o
analiză prealabilă a documentelor web, astfel încât datele prezentate utilizatorului fie să ofere un
răspuns rapid şi concludent la o anumită interogare, fie să ofere o varietate de răspunsuri relevante
pentru o interogare ambiguă.
Importanţa evaluării sistemelor de regăsire a fost recunoscută încă de la începutul cercetării
acestui domeniu şi are un rol cheie în îndeplinirea scopului final. Cel mai important instrument al
evaluării îl reprezintă colecţia de test: o colecţie de documente cu un set de subiecte şi judecăţi care
indică ce document este relevant relativ la un subiect. Evaluarea prin această metodă şi-a dovedit
utilitatea în urmă cu zece ani, odată cu explozia volumului informaţional, când eficienţa şi
fiabilitatea rezultatelor a început să fie investigată în mod oficial. Deşi au mai fost create colecţii de
test pentru Web, datorită lipsei puterii de calcul, o colecţie reprezentativă şi reală pentru Web nu a
fost creată decât în 2009, anume colecţia ClueWeb09. Astfel, a apărut posibilitatea investigării
tehnicilor curente de Web mining şi a unora noi având ca suport o colecţie de test care reprezintă o
bună parte din contextul actual al Web-ului.
Existând atâtea provocări ale Web-ului şi cerinţe diverse din partea consumatorilor de
informaţie, această lucrare se concentrează pe metodele care duc la o creştere a eficienţei de
modelare, organizare şi regăsire a informaţiei utile în contextul Web, pentru a satisface, în final,
nevoia tot mai crescută şi diversificată, de informaţie a utilizatorilor.
1.2 Obiectivele cercetării
Obiectivul general al acestei cercetări este acela de a contribui la îmbunătăţirea tehnicilor actuale de
Web mining prin modelarea şi structurarea conţinutului web, precum şi analiza, modelarea şi
optimizarea sistemelor de regăsire a informaţiei. Datorită diverselor abordări atunci când vine vorba
de modelarea documentelor web, precum şi din cauza multitudinii de scopuri pentru care se iniţiază
un proces de regăsire, această lucrare a abordat următoarele direcţii de cercetare:
Analiza critică a stadiului actual al cunoaşterii în Web mining din punct de vedere al:
principalelor tehnici de învăţare utilizate: învăţarea supervizată (clasificarea) şi învăţarea
nesupervizată (clusterizarea);
tehnicilor fundamentale de modelare a termenilor, documentelor şi interogărilor web,
precum şi a modalităţii de calcul al relevanţei acestora: modele non-lingvistice şi modele
lingvistice;
metodelor şi metricilor de evaluare;
principalelor direcţii de regăsire a informaţiei: regăsirea ad-hoc şi cea diversificată.
Modelarea eficientă a termenilor unui document şi a documentului în sine, cu scopul de a
reprezenta informaţia valoroasă cât mai bine. Pentru a atinge acest scop se are în vedere
3
normalizarea termenilor în cadrul modelării documentelor web, utilizarea tag-urilor HTML
în definirea ponderii locale a unui termen şi utilizarea legăturilor care există între
documentele web pentru a reprezenta eficient o pagină web.
Organizarea conţinutului web prin elaborarea şi evaluarea unui algoritm de clusterizare
pentru structurarea unei colecţii reduse de documente web, în vederea regăsirii informaţiei
relevante.
Investigarea relaţiilor dintre diferite metrici de evaluare pentru regăsirea informaţiei cu
scopul de a determina care dintre metrici măsoară în mod fidel nevoia de informaţie a
utilizatorului. Un alt obiectiv al acestui studiu este de a produce câteva referinţe pentru
viitoarele experimente care vizează regăsirea ad-hoc şi diversificată a informaţiei.
Modelarea sistemelor de regăsire ad-hoc a informaţiei printr-un nou model hibrid de
regăsire, care cuprinde două modele consacrate (modelul de dependenţă şi cel de relevanţă),
un model nou, bazat pe câmpuri şi un model de filtrare a spam-ului, cu menirea de a
îmbunătăţi performanţa de regăsire. Acestă abordare are și scopul de a obţine a unei
perspective asupra rolului pe care documentele structurate web (care au în structura lor tag-
uri HTML sau adnotări definite) îl pot avea în creşterea eficienţei sistemelor actuale de
regăsire a informaţiei. Mai mult, odată cu introducerea modelului de filtrare a spam, se
investighează şi efectul spam-ului asupra rezultatelor regăsirii. În acelaşi timp, prin evaluarea
şi analiza pertinentă a rezultatelor, se urmăreşte confirmarea sau informarea afirmaţiei:
„există o relaţie de aditivitate între numărul de tehnici folosite şi eficienţa de regăsire
realizată” (Armstrong, et al., 2009). În final, se doreşte analiza modelului abordat şi din
perspectiva regăsirii diversificate.
1.3 Organizarea tezei
Această lucrare este compusă din 7 capitole, fiecare capitol conținând diferite aspecte ale temei
abordate.
În capitolul 1 sunt prezentate într-un mod concis motivaţia temei abordate, obiectivele propuse,
contribuţiile ştiinţifice, structura şi conţinutul tezei, iar la final, lucrările publicate.
Capitolul 2 prezintă cele mai utilizate concepte din cadrul Web data mining, care sunt apoi
utilizate pe parcursul acestei lucrării. Întâi de toate, în secţiunea 2.1, este definită noţiunea de
descoperire a cunoştinţelor şi a componentei sale fundamentale – data mining-ul, care stă la baza
acestei lucrări. Pe baza acestui concept şi ca o consecinţă a apariţiei şi dezvoltării Web-ului, în
secţiunea 2.2, este introdusă o nouă noţiune, şi anume noţiunea de Web data mining. Acest concept
constituie motivaţia principală a tezei. Abordarea acestei noţiuni se face din prisma structurii şi
conţinutului prin intermediul regăsirii informaţiei. Secţiunea 2.2.1 analizează sintetic modul de
structurare a Web-ului şi prezintă o sinteză a celor mai cunoscuţi algoritmi care iau în calcul analiza
legăturilor dintre paginile web. În cadrul secţiunii 2.2.2 se prezintă conţinutul Web din perspectiva
regăsirii informaţiei prin rezumarea principiilor fundamentale care stau la baza regăsirii informaţiei,
a modelelor de reprezentare a documentelor web (rezultate sintetizate parţial şi în (Agavriloaei &
Craus, 2010)), a metodelor şi metricilor de evaluare şi a principalelor avantaje şi dezavantaje care
rezultă din modelarea sistemelor de regăsire. În acelaşi timp, sunt clarificate şi ideile de clasificare şi
4
clusterizare a documentelor text şi web. În cele din urmă, capitolul se încheie cu o scurtă discuţie
despre provocările Web-ului, acesta fiind principalul suport al cercetărilor prezentate în această teză.
În capitolul 3 se prezentă cele mai importante cercetări referitoare la subiectele acestei teze sau
la unele aspecte ale lor. Astfel, sunt examinate ipotezele, aplicaţiile şi provocările Web structure şi
Web content mining. Cea mai mare atenţie este acordată lucrărilor care au răspuns unor provocări
majore, au lansat noi abordări sau au primit o atenţie semnificativă din partea comunităţii ştiinţifice
internaţionale. Secţiunea 3.1 sintetizează diferitele abordări ale celor doi algoritmi principali utilizaţi
pentru structurarea Web-ului, în timp ce în secţiunea 3.2 se face o cercetare a abordărilor actuale
care tratează modelarea, organizarea şi regăsirea informaţiei relevante.
O contribuţie importantă este prezentată în capitolul 4 sub forma unui studiu comparativ, în
care sunt stabilite câteva elemente de referinţă ale cercetării în regăsirea informaţiei. Studiul are
drept scop investigarea relaţiilor dintre diferitele metrici de evaluare prin intermediul experimentelor
prezentate la TREC 2011, precum şi a celor de referinţă, care utilizează un model de regăsire non-
lingvistic. Scopul acestui studiu este de a analiza modul în care regăsirea ad-hoc şi cea diversificată
reflectă performanţa de căutare a utilizatorului. Rezultatele dovedesc faptul că există două direcţii
distincte în evaluarea regăsirii informaţiei: unele metrici urmăresc o precizie mare a listei returnate,
iar altele au drept finalitate captarea unui aspect mai sumar al performanţei.
Capitolul 5 conţine cea mai mare parte a contribuţiilor originale ale acestei teze. În secţiunea
5.1 este propusă o nouă reprezentare a a unui document web (Agavriloaei, et al., 2011a) folosind o
normalizare a termenilor, o nouă definiţie a ponderii locale a termenilor, care ţine cont de tag-urile
HTML şi luând în considerare legăturile dintre documentele web. Pe baza modelului de document
web oferit, se propune un algoritm de clusterizare pentru structurarea unei colecţii reduse de
documente, cu scopul de a pune în valoare informaţia utilă. În secţiunea 5.3, este introdus modelul
matematic care are la bază cercetările din (Agavriloaei, et al., 2011a) şi (Agavriloaei & Craus,
2011b). În secţiunea 5.2 se propune un nou model hibrid de regăsire a informaţiei, care are drept
scop obţinerea unei perspective noi asupra rolului pe care documentele structurate web îl pot avea în
creşterea eficienţei sistemelor actuale de regăsire. Totodată, se face o sinteză a modelelor de regăsire
folosite de comunitatea ştiinţifică pentru a scoate în evidenţă unele lipsuri şi neajunsuri pe care
modelul propus le satisface. Modelul propus are la bază cercetările din (Agavriloaei, et al., 2012)
unde se investighează efectul asupra performanţelor în cazul regăsirii ad-hoc.
În cadrul capitolului 6 sunt analizate rezultatele experimentale ale aplicării modelelor, soluţiilor
de organizare, evaluare şi regăsire a informaţiei propuse în capitolele 4 şi 5, rezultate publicate în
lucrările (Agavriloaei, et al., 2011a), (Agavriloaei & Craus, 2011b) şi (Agavriloaei, et al., 2012). În
secţiunea introductivă sunt examinate rezultatele tehnicilor propuse asupra cărora se fac aprecieri şi
critici pertinente. Ultima secţiune a capitolului prezintă concluziile rezultatelor obţinute şi indică
unele avantaje şi dezavantaje care vor putea fi abordate în cercetările ulterioare.
Capitolul 7 este dedicat prezentării sumare a rezultatelor obţinute şi a ideilor principale care se
desprind din aspectele teoretice şi practice ale cercetărilor efectuate în domeniul Web mining. Apoi,
sunt evidenţiate contribuţiile originale aduse în această lucrare pentru modelarea, organizarea,
5
evaluarea şi regăsirea informaţiei pe Web. Finalul capitolului cuprinde câteva propuneri de cercetări
viitoare care provin din rezultatele obţinute.
1.4 Diseminarea rezultatelor
Rezultatele cercetărilor prezentate în această teză au fost validate prin publicarea a 7 lucrări la
conferinţe şi reviste ştiinţifice, precum şi a 3 lucrări elaborate în cadrul studiilor doctorale, astfel:
reviste B+ (2), volume ale conferinţelor internationale indexate IEEE Xplore (3), volume ale
conferinţelor internationale (1) şi reviste ISI (1).
Ioan Agavriloaei, Andreas Rauber şi Mitică Craus. Combination of Dependence, Relevance
and Structure for Effective Web Retrieval. Publicat în Journal of Applied Sciences, vol.
12(19), pg. 2035-2043, septembrie 2012 (indexat ISI Web of Knowledge, SCOPUS).
Ioan Agavriloaei, Adrian Alexandrescu şi Mitică Craus. Improving web clustering through
a new modeling for web documents. Publicat în Proceedings of 15th International Conference
on System Theory, Control, and Computing (ICSTCC 2011), pg. 1–6, Octombrie 2011,
Sinaia, România. ISBN: 978-1-4577-1173-2 (indexat IEEE Xplore).
Ioan Agavriloaei, Mitică Craus şi Adrian Alexandrescu. Performance Evaluation of a Two-
Step Clustering Method. Publicat în Buletinul Institutului Politehnic din Iaşi, vol. Tome LVII
(LXI), no. Fasc. 2, secţia Automatică şi Calculatoare, pg. 31–43, 2011. ISSN: 1220-2169
(revistă BDI, cotată CNCSIS categoria B+).
Adrian Alexandrescu, Ioan Agavriloaei şi Mitică Craus. A Genetic Algorithm for Mapping
Tasks in Heterogeneous Computing Systems. Publicat în Proceedings of 15th International
Conference on System Theory, Control, and Computing (ICSTCC 2011), pg. 1–6, Octombrie
2011, Sinaia, România. ISBN: 978-1-4577-1173-2 (indexat IEEE Xplore).
Adrian Alexandrescu, Mitică Craus şi Ioan Agavriloaei. Determining the Best Mutation
Probabilities of a Genetic Algorithm for Mapping Tasks. Publicat în Buletinul Institutului
Politehnic din Iasi, vol. Tome LVII (LXI), no. Fasc. 2, secţia Automatică şi Calculatoare, pg.
21–30, 2011. ISSN: 1220-2169 (revistă BDI, cotată CNCSIS categoria B+).
Adrian Alexandrescu, Ioan Agavriloaei şi Mitică Craus. A Task Mapping Simulation
Framework for Comparing the Performance of Mapping Heuristics in Various Scenarios.
Acceptat în Proceedings of 16th International Conference on System Theory, Control, and
Computing (ICSTCC 2012), pg. 1–6, Octombrie 2012, Sinaia, România. (indexat IEEE
Xplore).
Ioan Agavriloaei şi Mitică Craus. An Analysis of Web Clustering. Publicat în Proceedings of
6th European Conference on Intelligent Systems and Technologies (ECIT 2010), pg. 1–6,
Octombrie 2010, Iaşi, România. ISSN: 2069-038X.
6
Pe parcursul celor trei ani ai proiectului EURODOC, în cadrul studiilor doctorale, am elaborat
următoarele rapoarte de cercetare:
Ioan Agavriloaei, Raport de cercetare nr. 3, Soluţii integratoare de Web mining, 2012,
Universitatea Tehnică „Gheorghe Asachi” din Iaşi (conducător ştiinţific: Prof. univ. dr.
Mitică Craus).
Ioan Agavriloaei, Raport de cercetare nr. 2, Contribuţii la procesarea informaţiei web cu
ajutorul clasificării şi clusterizării, 2012, Universitatea Tehnică „Gheorghe Asachi” din
Iaşi (conducător ştiinţific: Prof. univ. dr. Mitică Craus).
Ioan Agavriloaei, Raport de cercetare nr. 1, Modele şi algoritmi utilizaţi în Web mining,
2011, Universitatea Tehnică „Gheorghe Asachi” din Iaşi (conducător ştiinţific: Prof. univ.
dr. Mitică Craus).
7
2. Concepte teoretice fundamentele de Web data mining
2.1 Data mining
Descoperirea cunoştinţelor în colecţii de date desemnează procesul de extragere a informaţiilor
netriviale, implicite, necunoscute anterior şi potenţial utile (Fayyad, et al., 1996) sau descoperirea
diverselor tipare valide, potenţial folositoare şi uşor de înţeles ce se regăsesc în resurse de date, ca de
exemplu, baze de date, documente text, imagini, Web, etc. (Adamo, 2000).
De cele mai multe ori, procesul de descoperire a cunoştinţelor (Knowledge Discovery in
Databases, KDD) (Figura 2.1) porneşte cu înţelegerea domeniului de aplicaţie a problemei şi
definirea obiectivelor ce se urmăresc prin analiză, după care urmează identificarea surselor
potenţiale de date, precum şi a datelor ţintă. Având datele necesare, extragerea şi exploatarea datelor
necesare poate fi efectuată prin aplicarea unor algoritmi specifici pentru extragerea de modele având
ca scop obţinerea de cunoştinţe noi. În practică, procesul de descoperire a cunoştinţelor în colecţii de
date de dimensiuni mari presupune un număr semnificativ de iteraţii şi poate să conţină bucle între
oricare două etape, după cum se poate observa în Figura 2.1. Dintre toate componentele acestui
proces, componenta data mining a fost cel mai intens studiată. Acest lucru nu a însemnat, însă,
neglijarea celorlalte componente, care sunt uneori foarte importante în practică, pentru asigurarea
succesului întregului proces.
Figura 2.1: Paşii care compun procesul de descoperire a cunoştinţelor
Data mining reprezintă procesul de analiză a unor seturi de date observaţionale, adesea de
dimensiuni foarte mari, cu scopul de a descoperi tipare sau relaţii ascunse; o modalitate de a
descoperi un nou înţeles al datelor.
Termenul de proces în cadrul data mining este foarte important, acestă abordare nu este o soluţie
întâmplătoare prin spaţiul tehnicilor de analiză, ci un proces plănuit cu grijă pentru a decide ceea ce
va fi mai folositor, mai promitător şi mai relevant. În practică, data mining este un proces interativ:
datele se examinează folosind tehnicile de analiză, se ia decizia abordării lor din alte perspective, se
fac uneori şi unele modificări asupra lor, apoi se revine la început şi se aplică altă tehnică,
obtinându-se în acest mod rezultate mai bune sau chiar total diferite. Aplicarea corectă a etapelor
8
descrise anterior şi identificarea corectă a metodelor de analiză ce vor fi utilizate nu va furniza
rezultatele mult aşteptate dacă nu sunt înţelese bine limitările şi restricţiile descoperirii de cunoştinţe
(Liu, 2011).Tehnicile şi modelele utilizate în descoperirea de cunoştinţe nu sunt general valabile, ele
nu oferă soluţii la orice problemă, dacă nu se ţine cont de domeniul în care sunt aplicate (Wang,
2009). Deasemenea, data mining nu este o simplă colecţie de instrumente izolate fiecare complet
diferită de celelalte şi care se poate potrivi unui anumit tip de problemă. Foarte rar o problemă este
formulată atât de precis încât o simplă aplicare a unei metode de data mining sa fie suficientă pentru
a obţine rezultatul dorit (Witten, et al., 2011).
2.1.1 Învăţarea supervizată (clasificarea)
Învăţarea supervizată (supervised learning) are un mare succes în aplicaţiile lumii reale. Este folosită
în aproape toate domeniile, inclusiv domeniul Web. Învăţarea supravegheată este denumită şi
clasificare sau învăţare inductivă în machine learning. Acest tip de învăţare este similar cu învăţarea
umană: ţinem cont de experienţele noastre din trecut pentru a dobândi cunoştinţe şi abilităţi noi cu
scopul de a ne îmbunătăţi capacitatea de a face faţă unor noi provocări. Deoarece computerele nu au
”experienţă”, învăţarea supervizată învaţă din datele pe care le-a colectat în trecut şi reprezintă
experienţe trecute din unele aplicaţii ale lumii reale. În acest subcapitol, ne vom concentra pe un
anumit tip de învăţare, şi anume, studierea unei funcţii de evaluare capabile să mapeze noile valori
ale unei clase discrete de atribute peste un număr limitat de clase predefinite. Acest tip de învăţare a
stat la baza machine learning şi este, de asemenea, una dintre cele mai utilizate paradigme în
aplicaţiile web. În mod formal, clasificarea poate fi definită astfel:
Clasificarea unui set de date reprezintă un proces de generare a unui set de constrângeri pe baza
experienţei şi performanţelor acumulate cu scopul de a sorta datele ulterioare.
Setul de date folosit pentru învăţare poartă numele de set de antrenament, iar după ce modelul
este construit din datele de antrenament de către un algoritm de învăţare (pasul de extragere a
cunoştinţelor), algoritmul este verificat folosind un set de test (care are la rândul său asociate etichete
de clasă dar nu este implicat în procesul de învăţare a clasificatorului) pentru a evalua acurateţea
modelului nou construit. Acurateţea cât şi alte metrici de evaluare a unui clasificator vor fi discutate
în subcapitolul următor.
În Figura 2.2 sunt ilustraţi paşii din procesul de învăţarea supravegheată bazându-ne pe
descrierea de mai sus. În faza de antrenare un algoritm de învăţare foloseşte datele de antrenament
pentru a genera un model de calsificare. Apoi, în faza de testare, modelul învăţat este testat, folosind
setul de test pentru a obţine o anumită acurateţe a clasificării. Dacă acurateţea modelului asupra
datelor de test îndeplineşte cerinţele iniţiale, atunci clasificatorul poate fi folosit pentru a clasifica
noi date de interes, date care nu mai au clase predefinite. În caz contrar, procesul este unul iterativ şi
se poate revenii la oricare pas precedent, fie pentru a alege alt algoritm de învăţare, fie pentru a
efectua operaţii suplimentare asupra datelor (faza de preprocesare). În practică, procesul de învăţare
presupune efectuarea mai multor iteraţii pentru a construi un clasificator satisfăcător.
9
Figura 2.2: Procesul de învăţare supervizată
2.1.2 Învăţarea nesupervizată (clusterizarea)
Învăţarea nesupervizată (unsupervised learning) nu necesită prezenţa setului de antrenament cu date
preclasificate apriori. Scopul învăţării nesupervizate este definit de necesitatea de explorare a datelor
pentru descoperirea unor structuri intrinseci. Utilizatorul explorează datele cu scopul de a găsi
structuri noi, interesante şi folositoare. Printre cele mai importante metode ale învăţării nesupervizate
este clusterizarea, care organizează datele în grupuri similare numite clustere în asa fel încât
instanţele dintr-un grup sunt similare dintr-un anumit punct de vedere şi total diferite faţă de datele
din celelalte grupuri. Conceptual, procesul de clusterizare poate fi definit astfel:
Clusterizarea reprezintă procesul de organizare a datelor dintr-o colecţie nestructurată în grupuri
numite clustere ale căror membrii sunt similari într-un anumit fel.
Calitatea diferitelor metode de clusterizare se diferenţiază prin folosirea funcţiilor obiectiv.
Calitatea clusterizării se referă în primul rând la omogenitatea în cadrul grupurilor şi separabilitatea
între grupurile rezultate în urma procesului de clusterizare. Procesul de învăţare nesupervizată este
unul iterativ şi este ilustrat în Figura 2.3.
Similaritatea este, în mod teoretic, metrica care reflectă potrivirea sau puterea de relaţie între două
date, două şiruri text sau caracteristici.
Clusterizarea are nevoie de o funcţie de similitudine pentru a măsura cât de similare sunt două
date, sau alternativ, o funcţie depărtare (disimilaritate) pentru a măsura distanţa dintre două date.
În domeniul informatic un număr din ce în ce mai mare de aplicaţii aplică metodele de
clusterizare pentru a obţine rezultate superioare. Este cazul clusterizării documentelor (Li & Chung,
2005) şi a sistemelor de regăsire a informaţiei (Grossman & Frieder, 2004). Principala problemă a
clusterizării o constituie volumul mare de date care trebuie procesat, algoritmii de clusterizare fiind
în general cu timp de răspuns mare.
10
Figura 2.3: Procesul de învăţare nesupervizată
2.1.2.1 Clusterizarea partiţională
Cel mai utilizat algoritm partiţional este algoritmul k-means (MacQueen, 1967), care adevenit
exponentul unei întregi categorii de algoritmi. Popularitatea este dată de simplitatea implementării,
scalabilitate, eficienţă şi viteza de convergenţă (Figura 2.4).
Algoritmul k-means(k, D)
Alege k date ca centroizi iniţiali (centrele clusterelor)
repeat
for each dată x D do
Calculează distanţa de la x la fiecare centroid;
Asociază x la cel mai apropiat centroid // centroidul reprezintă un
cluster;
endfor
Recalculează centroidul cu ajutorul membrilor actuali ai clusterului
until criteriul de oprire este îndeplinit
Figura 2.4: Algoritmul k-means
Avantaje şi dezavantaje. Deşi k-means are marele avantaj că este uşor de implementat şi eficient,
are şi câteva mari neajunsuri. Primul dezavantaj constă în aceea că poate fi foarte lent din moment ce
în fiecare pas distanţa dintre fiecare dată şi fiecare cluster trebuie calculată, afectând astfel timpul de
executie. O posibilă soluţie este calcularea centroizilor în fiecare pas şi contorizarea datelor din
fiecare cluster oferită de (Ordonez & Omiecinski, 2004). Al doilea dezavantaj este dat de faptul că
aceată metodă e foarte sensibilă la numărul şi iniţializarea clusterelor iniţiale, algoritmul putând să
furnizeze doar un optim local. Pentru a creşte şansa determinării optimului global, algoritmul poate
fi repetat cu centre de clustere diferite Această problemă a fost abordată cu rezulate notabile de către
(Fayyad, et al., 1998). Pentru selectarea clusterelor iniţiale s-au propus metodele: alegerea punctului
cel mai îndepărtat de ultimul centroid ales, o clusterizare ierarhică suplimentară pentru fiecare
centroid sau selectarea manuală a valorilor de start. Nu în ultimul rând, algoritmul este vulnerabil la
valorile extreme, marginale.
11
2.1.2.2 Clusterizarea ierharhică
Algoritmii de clusterizare ierarhici au ca rezultat o ierarhie de clustere numită dendrogramă, adică
un arbore care reflectă strucura clusterelelor de date la diferite niveluri de similaritate. Datele nu sunt
atribuite unui anumit cluster într-un singur pas, clusterele atomice găsindu-se la baza arborelui, iar
toate clusterele intermediare fiind cuprinse într-un cluster rădăcină care conţine tot data setul.
Clusterele de pe fiecare nivel al ierarhiei se obţin prin gruparea clusterelor situate pe nivelul imediat
inferior, criteriul de grupare făcându-se pe baza calculului distanţei dintre datele clusterelor.
Există două metode de clusterizare ierarhică (Hastie, et al., 2009):
Clusterizare aglomerativă (bottom up): dendrograma se construieşte de jos în sus prin
combinarea celor mai similare perechi de clustere de pe fiecare nivel pentru a merge apoi pe
un nivel mai sus. Procesul continuă până când toate clusterele sunt grupate într-un singur
cluster, clusterul rădăcină. Pseudocodul algoritmului aglomerativ este prezentat în Figura 2.5
Clusterizarea divizivă (top down): porneşte de la un singur cluster care cuprinde toate datele,
clusterul rădăcină şi se împarte într-un set de clustere, fiecare cluster fiind apoi divizat
recursiv până se obţine clustere atomice care conţin o singură dată.
Algoritmul Aglomerativ(D)
Iniţializează fiecare dată din setul de date D ca fiind un cluster,
Compute all pair-wise distances of x1, x2, …, xn D;
Calculează toate distanţele pereche ale x1, x2, …, xn D;
repeat
Găseşte două clustere care sunt cele mai apropiate unul de altul;
Combină cele două clustere şi formează un cluster nou c;
Calculează distanţa de la clusterul c la toate celelalte clustere;
until există doar un singur cluster rămas
Figura 2.5: Algoritmul de clusterizare ierarhică aglomerativ
Avantaje şi dezavantaje. Clusterizarea ierarhică are posibilitatea să utilizeze orice funcţie distanţă
sau similaritate. Un avantaj al acestei tehnici îl reprezintă posibilitatea de a explora datele la diferite
niveluri de granularitate, deoarece se reţine toata ierarhia de clustere şi utilizatorul poate alege să
vizualizeze clusterele la orice nivel al arborelui. Unele studii au demonstrat că clusterizarea ierarhică
aglomerativă produce rezultate mai bune decât metoda k-means, putând detecta clustere de forme
arbitrare. Ca puncte slabe, calitatea clustrizării ierarhice poate fi afectată de efectul de lanţ şi de
datele marginale. Principalele neajunsuri al metodelor de mai sus sunt date de complexitatea de
calcul şi cerinţele de spaţiu, ceea ce le face foarte neeficiente şi nepractice pentru seturi mari de date,
cum este Web-ul. O posibilă soluţie pentru această problemă ar fi extragerea de eşantioane asupra
cărora se aplică clusterizarea şi apoi distribuţia datelor la clustere fie pe baza distanţei, fie prin
învăţare supervizată.
12
2.2 Web data mining
Dezvoltarea rapidă a World Wide Web-ului (pe scurt WWW sau Web) în ultimele două decenii a
facut din el cea mai mare bază de date accesibilă publicului din lume. În momentul de faţă Web-ul se
schimbă mai rapid ca niciodată, nerespectând caracteristicile standard ale unui SGBD clasic, având
multe caracteristici unice care fac din procesul de descoperire a cunoştinţelor şi exploatarea
informaţiei o sarcină fascinantă şi provocatoare. Putem afirma că Web-ul cuprinde toate trăsăturile
particulare ale colecţiilor de date create până la apariţia lui. Procesul de data mining a trebuit să dea
un răspuns noilor provocări şi cerinţe, prin modificarea modului de analiză a datelor şi felului în care
sunt prezentate rezultatele către utilizator dând astfel naştere unui domniu de sine stătător, anume
Web data mining.
Din punctul de vedere al utilizatorilor cât și al oamenilor de ştiinţă toate aceste caracteristici
prezintă atât provocări cât şi oportunităţi pentru exploatarea şi descoperirea de informaţii şi
cunoştinţe pe Web. Studiul de față face abstracție de datele multimedia de pe Web şi se axează
numai pe exploatarea datelor de tip text. Datorită bogăţiei şi diversităţii informaţiei şi altor
caracteristici ale Web-ului, în domeniul Web mining au fost definiţi şi dezvoltaţi algoritmi specifici
sau au fost adaptaţi algoritmii existenți în data mining-ul clasic.
Web mining-ul îşi propune să descoperire informaţii şi cunoştinţe folositoare din structura de
hiperlegături a Web-ului, din conţinutul paginilor Web precum şi din modul de utilizare de către
utilizator al acestor date.
Web mining reprezintă aplicarea tehnicilor de data mining pentru descoperirea şi extragerea de
informaţii interesante şi utile din documentele şi serviciile web, de obicei, prin intermediul
instrumentelor bazate pe Web.
Deşi Web mining-ul are ca bază de principii data mining-ul tradițional şi utilizează multe din
tehnicile de data mining prezentate anterior, acest proces nu este similar cu tehnicile tradiţionale de
explorare a datelor datorită în primul rând eterogenităţii şi naturii semi-structurate sau nestructurate a
datelor web (Liu, 2011). Multe idei noi şi de asemenea algoritmi au fost propuşi în ultimul deceniu,
odată cu explozia fără precedent a volumului de informaţie de acest tip. Ţinând cont de obiectivele
analizei şi de tipurile primare de date utilizate în procesul de exploatare, activitatea de Web mining
poate fi împărţită în trei mari domenii: Web structure mining, Web content mining şi Web usage
mining.
2.2.1 Web structure mining
Prin exploatarea structurii Web-ului informaţia care nu este evidentă pentru utilizator poate fi
descoperită. În acest capitol sunt prezintate principalele proprietăţi, concepte şi modele ale grafului
Web, precum şi principalii algoritmi de clasificare şi clusterizare a paginilor web bazaţi pe legături.
2.2.1.1 Algoritmul PageRank
Algoritmul PageRank (Brin & Page, 1998) este influenţat de analiza citaţiilor, considerând
legăturile către o pagină web ca fiind citaţii. Algoritmul oferă un mod de a calcula importanţa unei
13
pagini, nu doar prin numărarea numărului de pagini (backlinks) care au o legătură către ea, ci şi prin
ierarhizarea paginilor care fac această referire. Astfel, o legătură care vine de la o pagină importană
cântăreşte mai mult decât una care vine de la o pagină minoră, fiind un vot de încredere primit de la
cineva care are la rândul său încredere. Brin şi Page afirmă că „o pagină are un rang mare dacă suma
rangurilor paginilor care au legătură către ea este mare. Acest lucru acoperă atât cazul când o pagină
este referită de multe alte pagini cât şi cazul când o pagină are câteva referiri de la pagini de rang
înalt” („a page has high rank if the sum of the ranks of its backlinks is high. This covers both the
case when a page has many backlinks and when a page has few highly ranked backlinks”) (Brin &
Page, 1998).
Primul pas al algoritmului constă în calcularea numărului de legături care fac referire la fiecare
pagină web. Acest lucru se realizează printr-o pargurgere aleatorie a grafului Web. Fiecare pagină
obţine astfel o rată de vizitare care defineşte importanţa sa.
Apoi, presupunând că pagina are legături de la paginile , scorul PageRank (PR) al
paginii este definit astfel:
( ) ( ) ( ( ) ( )⁄ ( ) ( )⁄ ) (2.1)
unde, ( ) este definit ca numărul de legături pe care le are pagina către , * + şi este
un factor de amortizare, având de obicei valoarea 0.85.
Scorul PageRank trebuie calculat printr-un algoritm iterativ înainte de a avea o valoare de
echilibru. Algoritmul a stat la baza creării motorului de căutare Google.
Avantaje şi dezavantaje. Principalul avantaj al algoritmului PR este capacitatea sa de a lupta
împotriva spam-ului. Un alt mare avantaj al algoritmului PR este faptul că este o măsură globală,
fiind independentă de interogarea utilizatorului. Principala critică adusă algoritmului este chiar
independenţa sa faţă de interogare, deoarece nu poate distinge între paginile care sunt autorităţi în
general şi paginile autorităţi pentru un anumit subiect. O altă critică adusă acestui algoritm este aceea
că nu ia în considerare timpul când o anumită pagină a apărut pe Web.
2.2.1.2 Algoritmul HITS
Algoritmul HITS (Kleinberg, 1999) introduce noţiunea de autoritate – pagină importantă din punct
de vedere al conţinutului (pagina spre care trimit legăturile) şi noţiunea de hub – pagină cu rol de
resursă, pentru ghidarea utilizatorilor către autorităţi (pagina din care pleacă legăturile). Algoritmul
HITS atribuie unei pagini două valori iniţiale unitare: o pondere de hub, Hub(p), şi o pondere de
autoritate, Auth(p). Aceste ponderi se modifică după formulele:
( ) ∑ ( )
(2.2)
unde este numărul de pagini care au legătură către şi este o pagină care are legătură către .
( ) ∑ ( )
(2.3)
unde este numărul de pagini spre care are legătură şi este o pagină spre care are legătură.
14
Ideea în jurul căreia gravitează algoritmul HITS este aceea că o pagină bună de tip hub
pointează către mai multe autorităţi bune şi o pagină autoritate este referită de mai multe pagini hub
de calitate, definind astfel noţiunea de comunitate. Astfel, autorităţile şi hub-urile sunt într-o relaţie
de consolidare reciprocă, formând un graf bipartit.
Algoritmul este unul iterativ şi converge după câteva iteraţii. Pe baza acestui algoritm s-a creat
motorul de căutare Clever.
Avantaje şi dezavantaje. Principalul avantaj al algoritmului HITS este capacitatea sa de a clasa
pagini în funcţie de subiectul interogării, caracteristică care poate să ofere autorităţi şi hub-uri mai
relevante. Algoritmul HITS are mai multe dezavantaje: nu are caracteristica de anti-spam precum
algoritmul PR, poate colecta pagini care deviază de la subiect şi timpul de interogare este mare.
2.2.2 Web content mining
Web content miningul oferă metode de descoperire automată, regăsire, organizare şi management a
extraordinarei cantităţi de informaţie şi resurse disponibile pe Web. (Cooley, 2003) vede două
abordări în domeniu Web content mining: regăsirea informaţiei web şi abordarea din punctul de
vedere al bazelor de date. Regăsirea informaţiei pe Web presupune dezvoltarea de sisteme
inteligente care pot acţiona autonom sau semi-autonom pentru a descoperi şi a exploata informaţia
web. Prin acest proces se doreşte găsirea unui set de documente care este relevant la interogarea
utilizatorului. Căutarea pe Web implică aplicarea metdelor de regăsire a informaţiei asupra Web-
ului, dar are la rândul său tehnici unice datorate provocărilor noi pe care Web-ul le-a generat.
De regulă, Web content mining este analizat alături de Web structure mining, deoarece sunt
folosite împreună pentru extragerea şi organizarea informaţiei. În această secţiune sunt prezentate
principiile care stau la baza regăsirii informaţiei şi a căutării pe Web.
Regăsirea informaţiei pe Web (Web-IR) este domeniul de cercetare orientat spre găsirea
informaţiei de pe Web care să se potrivească cu nevoilor de informare ale utilizatorilor.
Funcţia unui sistem de regăsire a informaţiilor este de a prelua interogarea unui utilizator şi a
întoarce o listă de documente care sunt relevante pentru respectiva interogare, ordonate
descrescător în funcţie de probabilitatea de relevanţă.
În regăsirea informaţiei, relevanţa denotă cât de bine satisface nevoia de informaţie a
utilizatorului un document sau un set de documente regăsit. În literatura de specialitate, relevanţa se
fundamentează pe ceea ce se doreştea a fi „punctul de vedere al sistemului” („the system’s view”) şi
„punctul de vedere al utilizatorului” („ the user’s view”).
În cadrul procesului de regăsire a informaţiei utilizatorul lansează o interogare (user query)
sistemului prin intermediul unui modul care prelucrează interogarea şi o trimite modulului de
regăsire. Acesta, identifică documentele relevante prin intermediul modelelor de reprezentare, le
calculează relevanţa, le ordonează şi le prezentă utilizatorului. Înainte ca acţiunea de mai sus să aibă
loc, colecţia de documente este supusă unui proces de indexare cu ajutorul unui instrument de
indexare pentru a eficientiza regăsirea. Dacă colecţia de documente este Web-ul atunci vorbim
despre regăsirea informaţiei pe Web.
15
2.2.2.1 Modele de reprezentare şi regăsire a documentelor web
În contextul regăsirii informaţiei şi a căutării pe Web, prin modelul de regăsire a unui document web
se doreşte definirea următoarelor trei chestiuni:
modul de reprezentare a unui document,
modul de reprezentare a unei interogări şi
modul în care este definită funcţia de relevanţă/clasare a unui document la o interogare.
Dacă privim doar din punctul de vedere al clasificării şi clusterizării web, prin model de
reprezentare a unui document web se înţelege doar reprezentarea strictă a unui document, celelalte
două elemente nefăcând obiectul celor două arii de interes. Deoarece clusterizarea şi clasificarea sunt
strâns legate de regăsirea informaţiei, în continuare vor fi descrise toate cele trei componente.
Există şase modele principale de reprezentare a unui document web: modelul Boolean
(Lancaster & Fayen, 1973), modelul spaţiului vectorial (Vector Space Model, VSM) (Salton, 1971),
modelul lingvistic (Ponte & Croft, 1998), modelul probabilistic (Jones, et al., 2000) şi modelul
maşinilor cu vectori suport (Support Vector Machines, SVM) (Vapnik, 1995).
Toate modelele de mai sus au la bază acelaşi principiu definit de (Salton, 1971): se consideră
fiecare document şi interogare ca fiind un „sac” de cuvinte sau termeni (bag-of-words). Aceste
modele formează aşa numitul concept de layout representation.
Fie colecţia de documente şi setul de termeni distinţi { | |}, unde este un
termen, iar | | este mărimea setului. O pondere este asociată fiecărui termen a
documentului . Pentru un termen care nu aparţine documentului . Fiecare
document este reprezentat sub forma unui vector de termeni:
( | | ) (2.4)
unde fiecare pondere corespunde termenului şi semnifică nivelul de importanţă al
termenului in documentul . Astfel, este reprezentat sub forma unui tabel relaţional sau sub
forma unei matrici, numită matricea indecşilor (Term-Document Frequency Matrix). Ceea ce
diferenţiază, în mare parte, modelele care au la bază acest principiu este modul de definire a ponderii
şi funcţia de clasare a unui document în raport cu o interogare.
2.2.2.2 Evaluarea prin colecţii de test
Definiţia 2.6 conduce la următoarea concluzie: eficacitatea unui sistem de regăsire a informaţiei
trebuie să fie evaluată pe baza numărului, proporţiei, şi clasificării documentelor relevante
returnate.
Definiţia 2.6 şi concluzia de mai sus definesc interpretarea relevanţei unui subiect în IR şi
formează aşa zisul model de relevanţa a unui subiect (the topical relevance model).
Modelul de relevanţă a unui subiect identifică trei elemente ale procesului de regăsire: nevoia
utilizatorului de informare, setul de documente din care sistemul încearcă să satisfacă nevoia şi
valoarea relevanţei fiecărui document din colecţie la nevoia respectivă. Acestor trei elemente le
corespund trei componente într-o colecţie de test: un set de subiecte sau interogări (topics), fiecare
descriind o nevoie de informaţie, un set de documente sau colecţie (corpus) şi un set de evaluări ale
16
documentelor (qrels), care indică relevanţa documentelor la fiecare subiect. Termenul qrels
desemnează judecăţile făcute de experţi umani pentru a stabili dacă un document este relevant pentru
o nevoie de informaţie (un subiect).
Un sistem de regăsire este evaluat în raport cu o colecţie după cum urmează. Fiecare subiect este
formulat sub forma unei interogări, în general, prin extragerea termenilor din subiect, interogarea
fiind trimisă sistemulului. Sistemul identifică potrivirile dintre interogare şi documentele din colecţie
printr-un algoritm de regăsire şi returnează o listă de documente, ordonate descrescător în funcţie de
probabilitatea de relevanţă la interogare. Evaluările qrels sunt consultate pentru a determina care
documente sunt relevante pentru subiect şi ordonarea este transformată într-o listă ordonată de valori
relevanţă, numită vector de relevanţă. Apoi, o metrică de evaluare este folosită pentru a evalua
vectorul de relevanţă, precum este descris în secţiunea următoare şi apoi, scorurile pe care sistemul
le obţine pentru fiecare subiect sunt cumulate, în mod normal ca medie aritmetică, pentru a obţine
indicele de performanţă al sistemului pentru întreaga colecţie.
Metodologia descrisă mai sus reduce utilizatorul la o interogare şi un set de evaluări ale
relevanţei, iar rezultatul căutării la un vector de valori, care este mai apoi concentrat într-un singur
scor. Avantajul acestei abstractizări este dat de faptul că interogările şi evaluările pot fi create în
avans. Comunitatea ştiinţifică poate, astfel, să le utilizeze fără schimbări în experimente repetate pe
diferite sisteme, cu diferiţi parametrii de regăsire şi în momente diferite de timp.
Prin urmare, colecţia de test asigură un set de instrumente automate reproducând cu fidelitate
esenţa procesului manual de căutare a informaţiei şi evaluarea rezultatului.
2.2.3 Web usage mining
Web usage mining se referă la descoperirea şi analiza automată a modelelor în datele colectate sau
generate ca rezultat al interacţionării utilizatorului cu resursele web din cadrul unui sau mai multor
site-uri. Scopul este de a observa, modela şi analiza modele comportamentale ale utilizatorilor care
interacţionează cu un site web. Modelele descoperite sunt de obicei reprezentate sub forma de
colecţii de pagini, obiecte sau resurse care sunt accesate frecvent sau utilizate de către grupuri de
utilizatori cu nevoi şi interese comune.
Urmând procesul standard de date mining, procesul de Web usage mining poate fi împărţit în trei
etape inter-dependente: colectarea şi preprocesarea datelor, descoperirea de modele şi analiza
modelelor. În faza de preprocesare, datele provenite de la click-urile utilizatorilor sunt curăţate şi
partiţionate în seturi care reprezintă activităţile fiecărui utilizator la diferite momente de accesare a
unui site. În faza de descoperire a modelelor, sunt efectuare diferite procese de statistică, baze de
date, machine learning pentru a descoperi modele ascunse care reflectă comportamentul tipic al
utilizatorilor, precum şi statistici sumare ale resurselor web, sesiunilor şi utilizatorilor. În ultima
etapă a procesului, modelele şi statisticile descoperite sunt procesate, filtrate pentru a forma modele
de utilizator care pot fi folosite ca date de intrare pentru motoarele de recomandare, instrumente de
vizualizare, analiza şi generare a rapoartelor web.
17
3. Stadiul actual al cunoaşterii în Web mining
3.1 Stadiul actual în Web structure mining
Înţelegerea scopului din spatele legăturilor şi exploatarea lor pentru a obţine noi înţelesuri ale
informaţiei stă la baza Web structure mining-ului. Utilizarea analizei legăturilor în contextul Web a
început odată cu algoritmii PageRank (Brin & Page, 1998) şi HITS (Kleinberg, 1999). Aproape toate
cercetările ulterioare care investighează structura Web-ului s-au axat pe principiile definite în aceşti
doi algoritmi. Datorită mai multor neajunsuri ale acestor doi algoritmi, cercetările ulterioare au
incercat să aducă unele îmbunătăţiri.
Algoritmul PageRank a fost acela care a făcut popular motorul de căutare Goolge. S-a încercat
îmbunătăţirea lui în multe direcţii, astfel: modul de calcul al scorului PageRank a fost studiat de
(Kamvar, et al., 2003) şi (McSherry, 2005), evoluţia Web-ului şi influenţa motoarelor de căutare
asupra lui a fost investigată de (Cho & Roy, 2004) şi (Fortunato, et al., 2006), felul cum influenţează
alte modele bazate pe legături a fost analizat de (Tomlin, 2003) şi (Nie, et al., 2005), caracteristicile
grafului Web au fost investigate de (Pennock, et al., 2002) şi dimensiunea temporală a căutării pe
Web a fost analizată de (Baeza-Yates, et al., 2002) şi (Diaz, 2009).
O nouă metodă de analiză şi funcţie de clasare a legăturilor bazată pe log-urile de navigare ale
utilizatorului a fost propusă de (Liu, et al., 2008). Metoda BrowserRank se foloseşte de procesul
Markov cu timp continuu pentru a construi funcţia de clasare, spre deosebire de PageRank care este
un model Markov cu timp discret. Diverse variante şi îmbunătăţiri ale algoritmului HITS au fost
propuse de (Lempel & Moran, 2000), (Chakrabarti, et al., 2006) introducând astfel noţiunea de
comunitate. Un algoritm pentru identificarea paginilor cu rol bipartit a fost propus de (Kumar, et al.,
1999), iar definirea mai strictă a comunităţilor a fost propusă de (Ino, et al., 2005). Un algoritm de
indentificare a comunităţilor care se suprapun a fost propus de (Li, et al., 2006). La ora actuală
variaţii ale celor doi algoritmi se folosesc împreună cu tehnicile bazate pe conţinut pentru a obţine o
eficienţă mai ridicată a sistemelor de regăsire a informaţiei şi a motoarelor de căutare.
3.2 Stadiul actual în Web content mining
Modelarea documentelor este cheia pentru obţinerea unei eficienţe crescute a oricărui algoritm de
organizare. Pentru un sistem de regăsire a informaţiei, modelul unui document este strâns legat de
modelul interogării şi funcţia de clasare care leagă respectiva interogare de document. Este evident
că realizarea unui model optim de reprezentare duce la o calitate superioară atât a modului de
organizare cât şi a rezultatelor procesului de căutare.
Modele provenite din regăsirea informaţiei clasice se bazează exclusiv pe modelul spaţiului
vectorilor de caracteristici (VSM) (Salton, 1971) în care un document este reprezentat sub forma
unui vector n dimensional iar, similaritatea document-interogare este calculată după reguli
geometrice. Calcularea importanţei termenilor se face cu una din următoarele ponderi: ponderea
booleană (Pazzani & Billsus, 1997), ponderea (Hawking, et al., 2004), ponderea Okapi
BM25 (Robertson, et al., 2000) sau ponderea determinată prin algoritmi genetici.
18
Modelele din sistemele Web-IR, bazate pe trasăturile noi, specifice Web-ului cu ar fi legăturile
(Brin & Page, 1998), (Kleinberg, 1999) sau tag-uri (Molinari, et al., 2003) au ca bază tot conceptul
VSM dar modelarea se face ţinând cont de structura HTML, respectiv structura de legături a
documentelor. Aceaste modele reprezentă prima încercare de modelare orginală a Web-ului, odată ce
regăsirea informaţiei s-a orientat spre această colecţie de date. Modele de mai sus fac parte din
sisteme de regăsire a informaţiei web care exploatează caracteristicile specifice Web-ului atribuind o
pondere dependentă de poziţia (sistemul Indexing HTML Model (Molinari, et al., 2003)), structura
(sistemul WEBOR (Cutler, et al., 1999)), (sistemul Indexing HTML Model (Pereira, et al., 2005)),
persistenţa (Markov, et al., 2008), contextul (sistemul Indexing HTML Model (Pereira, et al., 2005))
şi rolul (sistemul IRIS) unui termen sau concept. (Geva & Sahama, 2005) au propus un model de
reprezentare pentru documentele semi-structurate de pe Web. Alte modele se bazează pe o abordare
conceptuală, numită Latent Semantic Indexing (Deerwester, et al., 1991), unde un document este
modelat pe baza unor concepte, iar alte modele se bazează pe principiile inteligenţei artificiale: retele
neuronale (Yang, et al., 2003), reţele Bayesiene. Modele bazate pe SVM vin cu ideea de a reprezenta
un document prin vectori suport care nu restricţionează numărul de caracteristici rezolvând astfel
problema dimensionalităţii şi neafectând eficienţa şi abititatea de a generaliza. (Joachims, 1999) a
demonstrat că clasificatorul SVM obţine rezultate superioare faţă de ceilalţi clasificatori. După cum
se poate observa, modelul VSM este încă foarte popular şi este la baza majorităţii sistemelor de
regăsire datorită, în principal, simplităţii şi eficacităţii lui.
În cadrul procesului de Web mining abordările actuale se axează pe utilizarea complementară a
unor clase de algoritmi – descriptivi sau predictivi – din cadrul domeniului de descoperire de
cunoştinţe. Clusterizarea este doar una dintre metodele de a organiza continutul web pentru a facilita
căutarea şi regăsirea informaţiilor de pe Web. Validarea, îmbunătăţirea şi compararea performanţelor
diferiţilor algoritmi de custerizare este complexă, deoarece este dificil să se gasească o masură
obiectivă a calităţii clusterilor rezultaţi. Cele mai importante aspecte care trebuie luate în considerare
sunt calitatea clusterilor rezultaţi şi complexitatea timp a algoritmilor.
În ceea ce priveşte clusterizarea paginilor web, majoritatea implementărilor au la bază
algoritmul k-means (Steinbach, et al., 2000) şi metodele ierarhice (Zhao, et al., 2005) sau variaţii ale
lor, dar folosind funcţii similaritate sau distanţă specifice pentru datele de tip text. Pentru ca procesul
de clusterizare a documentelor să fie posibl trebuie mai întâi ca informaţiile textuale din document să
fie transformate în informaţii cantitative de genul atribut-valoare. Ţinând cont de specificacitatea
documentelor s-au adus şi unele îmbunătăţiri asupra algoritmilor clasici. Clusterizarea este intens
folosită pentru regăsirea documentelor cu subiecte similare sau pentru a grupa rezultatele motoarelor
de căutare, putând astfel organiza rezultatele pe diferite subiecte sau teme (Kummamuru, et al.,
2004), (Zeng, et al., 2004).
În literatură, nu există încă un consens în privinţa celui mai bun algoritm de clusterizare a
documentelor. Există lucrări care arată că algoritmii ierarhici obţin o performanţă superioară
(Steinbach, et al., 2000), dar alte cercetări sugerează că algoritmii partiţionali sunt mai performanţi
(Zhao, et al., 2005).
19
4. Studiu metricilor de evaluare având în vedere modul în
care utilizatorii efectuează o căutare
4.1 Formularea problemei
Un sistem de regăsire a informaţiei este definit de modalitatea de reprezentare a unui document,
respectiv a unei interogări şi de funcţia care evaluează relevanţa document-interogare, care are drept
scop satisfacerea nevoii de informaţie a utilizatorului. Deşi majoritatea sistemelor IR au la bază
paradigma „bag of words” pentru modelarea documentelor şi interogărilor, ceea ce le diferenţiază
fundamental este procedura de estimare a probabilităţii de relevanţă a documentelor la interogările
utilizatorului. Cea mai utilizată metodă de evaluare a unui sistem în regăsirea informaţiei constă în
folosirea colecţilor de test, astfel: un set de interogări (sau subiecte) este rulat împotriva unei colecţii
statice de documente.
Din punctul de vedere al evaluării, o satisfacţie cât mai mare a nevoii de informaţie se traduce
printr-un indice de performanţă cât mai apropiat de valoarea 1. Ţinând cont de relevanţa judecăţilor,
o varietate de metrici pot fi calculate, cu scopul de a capta diferite aspecte din comportamentul
utilizatorului şi de a reprezenta indicele de performanţă al sistemului de regăsire. Pentru evaluarea
performanţelor unui sistem IR, în general, metricile propuse se bazează, pe două concepte
fundamentale: precizia unui sistem de regăsire, definită ca raportul dintre numărul de documente
relevante returnate şi numărul total de documente returnat, şi reapelul, definit ca raportul dintre
numărul de documente relevante returnate şi numărul total de documente relevante din colecţia de
test. Prin precizie se urmăreşte măsurarea acurateţei listei returnate, ţinându-se cont de proporţia
documentelor nerelevante, iar prin reapel se măsoară gradul de acoperire al subiectului, analizând-se
doar documentele relevante. Aşadar, atât precizia cât şi reapelul se bazează pe înţelegerea şi
măsurarea relevanţei unui document.
Deoarece experimentele de evaluare urmăresc, în general, performanţa sistemului pe baza unui
set de 50 sau mai multe interogări, se folosesc diverse măsuri unificatoare pentru a indica un indice
global de performanţă al sistemului. Cu toate acestea, pentru căutările care au drept scop precizia,
cercetările recente au arătat că unele metrici care cuantifică performanţa sistemului nu au o relaţie de
corespondenţă cu metricile care urmăresc performanţa sistemului din perspectiva utilizatorului.
Motivaţi de această constatare, dar şi pentru a justifica abordările viitoare şi a stabili câteva
referinţe ale cercetării, ne propunem să investigăm relaţiile dintre diferite metrici de evaluare pentru
cele două direcţii actuale ale regăsirii informaţiei prin intermediul celor 60 de experimente
prezentate la conferinţa TREC 2011 şi cu ajutorul unui model IR care nu implică existenţa unui
limbaj de modelarea a interogării (adică modelul care stă la baza sistemului de regăsire este unul
non-lingvistic). Prin analiza metricilor, urmărim să determinăm care mătrică trebuie folosită pentru a
răspunde cât mai bine aşteptărilor utilizatorului.
4.2 Metodologie şi metrici
Pentru a analiza dacă diferite metrici de evaluare măsoară lucruri similare sau diferite, vom compara
perfomanţa relativă a celor 60 de experimente care au fost prezentate la coferinţa TREC din 2011
20
pentru regăsirea ad-hoc şi diversificată. Aceste experimente au constat în rularea a 50 de interogări
împotriva colecţiei de test ClueWeb09. Celor 60 de experimente de la TREC 2011 li s-au adaugat 10
experimente noi, care au fost concepute fără un limbaj de modelare a interogării, cu scopul de a
produce câteva referinţe pentru viitoarele experimente.
Prin intermediul celor două direcţii de regăsire a informaţiei se doreşte obţinerea atât a unei
precizii ridicate, cât şi a unei acoperiri corespunzătoare a subiectului în cadrul listei returnate. Cele
două tipuri de regăsire folosesc un set de interogări comune, diferenţiindu-se numai prin
metodologia de evaluare. Interogările sunt create pe baza informaţiilor din log-urile unui motor de
căutare comercial, fiecare interogare fiind structurată sub forma unui set reprezentativ de
subintergări, fiecare subinterogare reflectând o nevoie diferită de informaţie a utilizatorului. Pentru
regăsirea ad-hoc documentele sunt judecate în raport cu un subiect, subiectul fiind considerat ca un
întreg. Procesul de evaluare se face pe baza câmpului de descriere utilizând o scală de 6 niveluri de
relevanţă. Regăsirea diversificată analizează documentele în raport cu sub-interogările, precum şi în
raport cu subiectul ca întreg. În cazul acesta, pentru fiecare sub-interogare, se face o evaluare binară
care stabileşte dacă un document satisface sau nu nevoia de informaţie asociată unei sub-interogări.
4.2.1 Regăsirea ad-hoc
Regăsirea ad-hoc analizează performanţele sistemelor care identifică un set static de documente cu
ajutorul unui set de subiecte necunoscute, cu scopul de a returna setul de documente ordonat
descrescător în funcţie de probabilitatea de relevanţă. În cadrul acestui proces, relevanţa
documentelor nu este dependentă de celelalte documente din cadrul listei returnate şi este analizată
pe baza câmpului de descriere a subiectului prin intermediul unei scale de 6 niveluri. Experimentele
pentru regăsirea ad-hoc sunt analizate prin intermediul a 4 metrici de evaluare din cadrul IR. Aceste
metrici sunt definite pentru o rulare dată, în cadrul căreia s-au executat toate cele 50 de interogări,
astfel: precizia în poziţia 20 (P@20), media preciziilor medii (MAP), câştigul cumulat redus
normalizat în poziţia 20 (nDCG@20), gradul de aşteptare reciproc în poziţia 20 (ERR@20).
4.2.2 Regăsirea diversificată
Regăsirea diversificată este similară celei ad-hoc, ceea ce le diferenţiază fiind criteriul de analiză şi
metricile de evaluare. Scopul acestei metode este de a returna o listă ordonată de documente care să
acopere toate aspectele unui subiect, printr-o redundanţă minimă. În cazul acesta, probabilitatea de
relevanţă a unui document este condiţionată de celelalte documente care apar înaintea lui în listă, iar
analiza se face în raport cu sub-interogările unui subiect printr-o judecată binară. Experimentele sunt
analizate prin intermediul a 4 metrici de evaluare de tipul „intent aware” în sensul definit de
(Agrawal, et al., 2009) din cadrul IR. Aceste metrici sunt definite pentru o rulare dată, în cadrul
căreia s-au executat toate cele 50 de subiecte, astfel: precizia în poziţia 20 (P-IA@20), media
preciziilor medii (MAP-IA), câştigul cumulat redus normalizat în poziţia 20 (α-nDCG@20), gradul
de aşteptare reciproc în poziţia 20 (ERR-IA@20) (Chapelle, et al., 2009).
21
5. Noi modele şi algoritmi pentru clusterizarea şi căutarea pe
Web
5.1 Modelarea documentelor Web
În continuare, se propune un nou model de reprezentare a unui de document Web, bazat pe tag-uri,
legături şi o structură ierarhică a Web-ului. Considerând că documentele Web sunt deja grupate în
site-uri şi ţinând cont de structura HTML a unui document Web, prezentăm o nouă abordare de
modelare a conţinutului Web. Mai mult, pentru reprezentarea unui document ținem cont de ultimile
tendințte din Search Engine Optimization (SEO) pentru a îmbunătăți acuratețea și eficiența regăsirii
informației. Cu acest model, intenționăm să construim o reprezentare a documentelor Web care să
fie folosită de aplicațiile care au ca scop procesarea informației intr-un mod automat. Având ca bază
acest nou model de document Web şi structura ierarhică a Web-ului, este propus un nou algoritm
partiţional de clusterizare.
5.1.1 Ponderea termenilor
Ponderea unui termen trebuie să reflecte utilitarea informaţiei şi este necesară pentru reprezentarea
corectă și regăsirea documentului care îl conține (Salton & McGill, 1983). O pondere adecvată a
termenului poate îmbunătăți considerabil performanța modelului VSM (Chisholm & Kolda, 1999).
O schema de pondere este compusă din trei ponderi: o pondere locală, o pondere globală și un factor
de normalizare. Astfel, ponderea unui termen poate fi definită ca fiind:
(5.1)
unde, este ponderea locală pentru termenul în documentul , este ponderea global a
termenului în colecție, și este factorul de normalizare.
În aproape toate tehnicile de regăsire a informației ponderea locală depinde de numărul de
apariții ale termenului în documentul și este evaluată în funcţie de termenii din respectivul
document. În acest sens, ponderea locală, , pentru termenul este o funcție de frecvență a
termenului în documentul :
( ) (5.2)
Ţinând cont de abordarea lui Cutler et al. (Cutler, Deng, Maniccam, & Meng, 1999), putem
defini un nou model de pondere locală bazându-ne pe rezultatele obținute. În abordarea sa, Clutler
reprezintă un document Web prin șase clase de taguri: (Plain Texts, Strongs, Lists, Headings,
Anchors, Titles). Ponderea locală este definită ca produsul scalar dintre doi vectori: Class
Importance Vector (CIV) și Term Frequency Vector ( ). În experimentele sale, Clutler a găsit trei
vectori CIV diferiți: (1, 8, 1, 8, 8, 2), (1, 8, 1, 7, 8, 2) și (1, 8, 1, 5, 8, 2). Considerând că unele clase
de tag-uri au același factor de importanță, putem reprezenta un document Web numai prin
intermediul a doar patru clase de taguri: (Titles, Headings, Strongs-Anchors, Plain Texts). Pentru
clasa Headings am luat valoarea medie din rezultatele lui Clutler. Astfel, vectorul CIV va avea
valorile: (1, 8, 7, 2) (a se vedea Tabelul 5.1).
22
Tabelul 5.1: Clasele şi tagurile asociate
Numele clasei Tag-uri HTML sau atribute ale lor Factorul de importanţă
Title title 1
Header h1, h2, h3, h4, h5, h6 8
Strongs-Anchors strong, b, em, i, u, a, a:href, a:alt 7
Plain Texts Nici unul din cele de mai sus 2
Pentru a reprezenta cât mai bine un document trebuie să procesăm fiecare cuvânt care nu se
găsește în lista stopwords, îl supunem unui proces de stemming, pentru a obține doar rădăcina
cuvântului iar termenul obținut este atribuit unei din cele patru clase, incrementând corespunzător
indecele clasei respective. Acum putem defini ponderea locală ca fiind:
(5.3)
unde, ( ) conține ponderea fiecărei clase și * + conține
frecvența de apariție a termenului în documentul pentru fiecare clasă de tag-uri.
Dacă ( ) ponderea locală devine:
( ) ( ) (5.4)
Cu aceste valori ale vectorului CIV obținem definiția consacrată a frecvenței unui termen care
nu ține cont de tagurile HTML. În continuare vom numi regăsirea cu aceste valori ale CVI ca fiind
regăsirea normală.
Ponderea globală este dată de numărul de apariție ale fiecărui termen în întreaga colecție de
documente și încearcă să dea o valoarea de discriminare pentru fiecare termen. Factorul de
normalizare este o variabilă de corectare care trebuie să compenseze discrepanțele dintre lungimile
documentelor. Pentru experimentele noastre vom folosi factorul de normalizare cosinus, definit în
(Molinari, Pereira, & Pasi, 2003), și factorul de normalizare cu pivot definit în (Kobayashi &
Takeda, 2000) cu slope de 0.2, numit și ponderea Lnu în sistemul Smart (Salton G. , 1971)
5.1.2 Reprezentarea documentelor web
Dacă considerăm definițiile anterioare pentru ponderea unui termen și relația specifică dintre
documentele web, putem crea o reprezentare abstractă a unui document Web care să fie folosită cu
scopul de a procesa informația în mod automat. Modelul unui document web din colecția poate
fi definit ca un ansamblu de doi vectori:
{( ) } (5.5)
unde, este marimea colecției , { } reprezintă vectorul de ponderi pentru
documentul j, document care are termeni și, * + vectorul care conține
toate legăturile documentului .
Fiecare legătură a unui document web are ca scop să pună în evidență legătura semantică a două
documente web și este creată cu scopul de a asocia documentele conexe. Această conexiune, odată
descoperită, poate fi folosită pentru a găsi legături strănse de semantică între documentele web, în
cazul nostru legături între documentele dintr-un anumit cluster.
23
5.2 Combinarea dependenţei, relevanţei şi structurii pentru
regăsirea pe Web eficientă
5.2.1 Formularea problemei
Regăsirea ad-hoc este o temă importantă de cercetare, iar aplicaţiile ei acoperă o varietate mare de
probleme din IR. Regăsirea ad-hoc investighează performanţa determinării unui set static de
documente care sunt relvante cu ajutorul unor subiecte standard şi nevăzute, ordonate descrescător
după probabilitatea de relevanţă. Se consideră că relevanţa unui document este independentă de
relevanţa altor documente care apar înainte, în lista ordonată (Clarke, et al., 2004).
Acest capitol se bazează pe rezultatele publicate în (Agavriloaei, et al., 2012), în care se
examinează mai multe tehnici de regăsire despre care s-a demonstrat în trecut că pot aduce un
anumit grad de performanţă - modelul dependenţei şi modelul relevanţei. Aceste două metode sunt
combinate pentru a oferi o bază puternică la care se adaugă modelul de regăsire bazat pe câmpuri. Se
studiază modul în care se modifică performanţa regăsirii ad-hoc dacă modelul bazat pe câmpuri este
combinat cu modelul dependenţei şi relevanţei în LM. Acest studiu are drept scop obţinerea unei
perspective asupra rolului pe care documentele structurate Web (care au în structura lor câmpuri
HTML sau adnotări definite) îl pot avea în creşterea eficienţei sistemelor actuale de regăsire a
informaţiei. Mai mult, se investighează şi efectul spam-ului asupra rezultatelor regăsirii. Scopul
acestui studiu este de a îmbunătăţi metrica MAP (mean average precision) şi precizia în poziţia 10
(P@10). Experimentele studiului sunt efectuatepe subsetul Category B al colecţiei ClueWeb09.
5.2.2 Model hibrid de regăsire ad-hoc a informaţiei
În această secţiune se descrie abordarea propusă pentru regăsirea ad-hoc. Se consideră patru
componente majore ale IR pentru Web: dependenţa termenilor interogării, expansiunea interogării,
filtrarea spam-ului şi regăsirea bazată pe câmpuri. Primele trei abordări s-au dovedit a fi o parte
importantă a sistemelor de regăsire Web de către participanţii ultimilor conferinţe TREC, în timp ce
ultima abordare nu este la fel de bine explorată atunci când este combinată cu modelele anterioare.
5.2.2.1 Modelarea dependinţei termenilor
Modelul de dependenţă (DM) (Metzler & Croft, 2005) este o structură formală de rescriere a unei
interogări folosind câmpuri aleatoare Markov (Markov Random Fields) cu scopul de a obţine o mai
bună reprezentare introgării originale. Modelul permite utilizarea mai multe tipuri de evidenţă ale
textului (caracteristici) cum ar fi prezenţa termenilor unici, expresii ordonate (ferestre ordonate) şi
expresii neordonate (ferestre neordonate) ca funcţii de caracteristici cu valori reale.
Termenilor singulari, expresiilor ordonate şi celor neordonate le sunt atribuite diferite ponderi
(λT pentru termeni, λO pentru expresiile ordonate şi λU pentru expresiile neordonate), care sunt
determinate pentru a optimiza impactul asupra eficienţei sistemului. Unul dintre principalele
rezultate ale acestui model este faptul că aceste trei caracteristici ale modelului surprind doar
aspectele generale ale textului deoarece ponderile asociate (λT=0,8, λO=0,1, λU=0,1) sunt valabile
peste mai multe colecţii Web.
24
5.2.2.2 Modelarea relevanţei şi expansiunea interogării
Modelul de relevanţă (RM) (Lavrenko & Croft, 2001) este o metodă efectiv formală pentru
estimarea probabilităţilor noilor termeni într-un set necunoscut de documente relevante la termenii
interogării fără date de antrenament. De obicei, metoda începe cu o interogare iniţială, apoi se
efectuează câteva operaţii asupra ei şi, la final, returnează o listă cu termeni pentru expansiune.
Aceşti termeni sunt apoi adăugaţi la interogarea originală şi sistemul este supus procesului de
regăsire cu noua interogare extinsă.
5.2.2.3 Modelarea câmpurilor specifice
Deoarece modelul de dependenţă acoperă aspectele generale ale unei interogări şi modelul de
relevanţă furnizează o extindere a interogării cu termeni de acelaşi tip, este o provocare în plus de a
analiza dacă mai multe caracteristici specifice pot aduce unele îmbunătăţiri eficienţei sistemului.
Documentele Web sunt pagini structurate care conţin elemente definite de autori sau adnotări
asociate de alte persoane sau procese (Zhai & Lafferty, 2001). Modelul regăsirii bazate pe câmpuri
(FM) ar putea fi o soluţie pentru o focalizare mai specifică cu privire la caracteristicile colecţiilor
Web, de exemlu formula BM25F (Robertson, et al., 2004). Mai mult, prin agregarea modelului bazat
pe câmpuri cu precedentele modele se aşteaptă ca eficienţa sistemului să crească. Cu aceste premise
se poate construi un model combinat care încorporează caracteristici ale dependenţei, relevanţei şi
aspectele bazate pe câmpuri. Prin urmare, putem lua în considerare cinci câmpuri specifice
documentelor HTML (adică body, title, heading, inlink şi strong) care au fost indexate la momentul
indexării documentelor.
5.2.2.4 Modelarea filtrului de spam
Deoarece colecţia ClueWeb09 conţine foarte multe documente considerate spam, rezultatele regăsirii
pot de asemenea să conţină documente spam, ceea ce ar avea o influenţă negativă asupra
performanţelor sistemului. Pentru detectarea şi stergerea documentelor spam din cadrul listei de
documente regăsite se foloseşte metoda propusă de (Cormack, et al., 2011), ca un pas de post
regăsire. Acest proces constă în asocierea unei valori procentuale ( ) fiecărui document din
colecţia ClueWeb09. Pentru Categoria B a colecţiei ClueWeb09 s-au exclus 10% din documente
care sunt considerate cel mai probabil spam prin metoda de fuziune. Această rată a fost determinată
experimental, cu scopul de a optimiza metrica MAP cu interogările Web Track 2009.
5.3 Algoritm de clusterizare a unui site
Implementarea eficientă a unui algoritm de clusterizare constă în găsirea unor relaţii intrinseci,
precum asemănările şi deosebirile dintre documentele web (Hou & Zhang, 2003).
Având modelul de document web propus şi ţinând cont că paginile web sunt grupate sub forma
unui site, putem proiecta un algoritm de clusterizare specific. Algoritmul de clusterizare propus
constă în două faze. Prima fază este dată de clusterizarea unui site, în care toţi termenii din colecţie,
respectiv matricea , sunt clusterizaţi pe acelaşi nivel fără, nici o ierarhie între documentele
aceluiaşi cluster. În acest punct un site este reprezentat sub forma unei colecţii de clustere, fiecare
cluster fiind compus dintr-un grup de termeni, care la rândul lor provin dintr-o mulţime de pagini
25
web. Faza a doua a algoritmului constă într-o sortare topologică a tuturor documentelor web din
fiecare cluster, anume luând în calcul lista de legături (in-site-links) din interiorul site-ului pentru
fiecare document. În Figura 5.1: Etapele algoritmului de clusterizare sunt ilustraţi grafic paşii
algoritmului.
Figura 5.1: Etapele algoritmului de clusterizare
Iniţial, se aplică procesul de clusterizare asupra unui site prin intermediul matricei de termeni
. Prin urmare, se poate observa că fiecare cluster poate fi reprezentat sub forma unui grup de
documente care conţin toţi termenii din clusterul respectiv. Această abordare are un mare avantaj şi
anume poate produce clustere care se suprapun, un singur document putând să aparţină mai multor
clustere.
Prima fază a algoritmului de clusterizare are la bază algoritmul K-Means în care site-ul este
reprezentat sub forma unei colecţii de clustere de bază (CL), fiecare cluster de bază fiind compus
dintr-un grup de termeni care aparţin unor pagini din site. Faza a doua a algoritmului constă în
sortarea topologică a tuturor documentelor dintr-un cluster. În mod obişnuit documentele web sunt
ordonate conform unei funcţii de similaritate, dar rolul fiecărui document în cadrul clusterului poate
fi pus în evidenţă şi de legăturile pe care le are un document cu documentele din acelaşi cluster, cu
documentele din celelalte clustere sau cu documentele din afara colecţiei. Luând în considerare lista
in-site-links de legături a fiecărui document dintr-un cluster şi faptul că un document este mai
important cu cât are mai multe legături cu documentele din acelaşi cluster sau cu documentele din
site, fiecare cluster de bază poate fi reprezentat ca o ierarhie de documente. Procesul de ordonare a
documentelor dintr-un cluster este descris în etapa a doua a algoritmului de clusterizare.
Provocare majoră a celei de a doua faze este dată de eliminarea unui număr de muchii din
digraful care contrazic proprietatea de a fi aciclic. În mod intuitiv, pentru a nu pierde
o cantitate mare din informaţia potenţial folositoare, numărul de muchii care trebuie eliminat trebuie
să fie minim. Pentru fiecare nod al gradului orientat se disting două tipuri de arce:
arce in-cluster, arcele unui nod, cu excepţia nodului out, care nu referă sau nu este referit de
nodul out,
muchii out-cluster, arcele care fac legătura dintre nodul out şi celelalte noduri ale digrafului.
Odată ce ciclul este rupt, putem sorta nodurile după criteriul “nodul cu cel mai mic număr de muchii
in-cluster primul”, adică o pagină care are cel mai mic număr de legături spre documentele din
26
acelaşi cluster este prima în listă. Când avem două noduri cu același număr de arce in-cluster,
definim un alt criteriu și anume “nodul cu cel mai mic număr de muchii out-cluster primul”. În acest
mod obținem o listă ordonată descrescător de documente web care poate fi accesată usor de către
utilizator.
Deoarece normalizarea documentului este facută odată cu ponderea termenilor, prin factorul de
normalizare cosinus sau pivot, putem observa faptul că algoritmul de clusterizare este independent
de ordinea documentelor obținută în urma sortării topologice. Nu este dificil de a demonstra că
algoritmul are complexitatea O(l*p*logp) + O(m +n), unde l este numărul de clustere, p este
numărul de documente supuse clusterizării, n este numărul de noduri și m este numărul de muchii
pentru toate digrafurile .
5.4 Concluzii
În acest capitol au fost prezentate principalele contribuţii originale aduse în cadrul acestei lucrări de
către autor. În primul subcapitol a fost studiată problema preprocesării informaţiei prin analiza
câtorva procedee de reducere a dimensiunii vectorului de reprezentare şi de creştere a ponderii
termenilor în cadrul acestui vector. În subcapitolul 2 s-a propus un nou model de reprezentare a unui
de document Web, bazat pe tag-uri, legături şi o structură ierarhică a Web-ului. În subcapitolul 3 s-a
abordat problema regăsirii informaţiei pe Web prin propunerea unui nou model hibrid de modelare a
unui sistem de regăsire a informaţiei, care cuprinde modelul de dependenţă, cel de relevanţă, cel
bazat pe câmpuri şi cel de filtrare a spamului. În final, a fost propus un algoritm de organizare a
conţinutului Web prin care s-a urmărit clusterizarea documentelor din cadrul unui site cu scopul de a
crea o ierarhie a documentelor în cadrul colecţiei.
27
6. Evaluare
6.1 Studiul metricilor de evaluare folosite în regăsirea informaţie
având în vedere modul în care utilizatorii efectuează o căutare
În cadrul acestui studiu, pentru studierea modului de satisfacere a nevoii de informaţie a
utilizatorului, s-au luat în considerare două tipuri de metrici: metrici care sunt utilizate pentru
regăsirea ad-hoc şi metrici folosite în regăsirea diversificată, după cum s-a văzut în secţiunea 4.2.
6.1.1 Comparaţia metricilor
Pentru început, se doreşte identificarea relaţiilor existente atât între metricile utilizate de către un
anumit tip de regăsire cât şi relaţiile dintre metricile celor două direcţii ale regăsirii informaţiei.
Pentru fiecare metrică, cele 70 de experimente pot fi ordonate descrescător (de la cea mai mare
valoare a unei metrici la cea mai mică valoare a aceleiaşi metrici), obţinând astfel 8 ordonări ale
experimentelor. Aceste ordonări, dintre diferite metrici, sunt apoi comparate folosind coeficientul de
corelaţie Kendall, . Coeficientul de corelaţie Kendall este o metrică care măsoară similaritatea
(nivelul de potrivire) dintre două seturi de date ordonate.
Tabelul 6.1: Coeficientul de corelaţie Kendall dintre diferite metrici de regăsire pentru cele 60 de
experimente TREC şi cele 10 experimente suplimentare. Toţi coeficienţii sunt semnificativi statistic
la un nivel de încredere de 95% (α=0,05).
P@20 MAP nDCG@20 ERR@20 α-nDCG@20 P-IA@20 MAP-IA
MAP 0,736 1
nDCG@20 0,790 0,649 1
ERR@20 0,577 0,425 0,725 1
α-nDCG@20 0,689 0,563 0,680 0,750 1
P-IA@20 0,855 0,738 0,730 0,542 0,679 1
MAP-IA 0,691 0,914 0,619 0,406 0,562 0,719 1
ERR-IA@20 0,662 0,540 0,653 0,755 0,945 0,648 0,551
Corelaţia dintre diferite perechi de metrici de regăsire este ilustrată în Tabelul 6.1. Dacă
presupunem că relaţia dintre metrici este liniară, se obţine o linie drepată care reprezintă cea mai
bună potrivire dintre metricile în cauză. Coeficientul de corelaţie Kendall nu face această
presupunere deoarece este bazat pe ordinea datelor analizate.
6.1.2 Rezultate şi discuţii
Deşi metricile au fost concepute pentru a măsura aspecte diferite ale unui proces de regăsire, figurile
6.12, 6.19 şi 6.29 indică faptul că există o relaţie puternică între metricile şi
( ), şi ( ), respectiv şi ( ).
Acest lucru nu este surprinzător, deoarece aceste metrici de tipul „intent aware” folosite pentru
regăsirea diversificată sunt bazate pe principiile definite în (Agrawal, et al., 2009), unde o metrică de
tipul „intent aware” analizează fiecare sub-interogare ca o interpretare distinctă a interogării
28
asociate. Metricile standard de evaluare sunt calculate separat în raport cu fiecare interpretare, iar
apoi sunt calculate mediile ponderate peste diversele interpretări pentru a obţine versiunile de tipul
„intent aware” ale metricilor standard. Deşi (Agrawal, et al.) permite atribuirea unei probabilităţi
fiecărei interpretări, experimentele derulate au tratat fiecare interpretare în mod egal. Metricile
şi măsoară acurateţea primelor 20 de poziţii din lista returnată în cazul regăsirii
ad-hoc, respectiv regăsirii diversificate şi încearcă să îmbunătăţească satisfacţia utilizatorului, luând
în considerare comportamentul lui (majoritatea utilizatorilor caută informaţii doar pe prima pagină a
unui motor de căutare). Metricile şi iau în calcul şi cantitatea de documnte
relevante returnate raportată la cantitatea de documente relevante existente pentru un anumit subiect,
adică reapelul. Dacă nu ma sunt documente relevante după o anumită poziţie , atât cât şi
îşi vor păstra valoarea din ultima poziţie care a avut un document relevant. Metricile
şi iau în calcul diferite grade de relevanţă ale documentelor şi reduc rapid
contribuţia documentelor care se află după un document foarte relevant. Probabilitatea ca un
utilizator să termine căutarea creşte odată ce a găsit unul sau mai multe documente foarte relevante.
Totodată, acest lucru presupune că utilizatorul nu este mulţumit de nici un document anterior
documentelor foarte relevante. În timp ce valorile sunt corelate, există diferenţe clare de performanţă
relativă ale experimentelor în raport cu aceste măsuri. Coeficienţii de corelaţie rezultaţi pentru
perechile de metrici de mai sus sugerează faptul că documentele relevante de pe primele 20 de
poziţii joacă un rol important atât în metricile care urmăresc returnarea celor mai relevante
documente în primele poziţii, cât şi metricile care iau în calcul toată lista de documente returnate de
către sistem. Între metricile şi nu există aceeaşi legătură puternică
( ), o posibilă explicaţie fiind faptul că metricile acumulează câştigul şi parametru are un
rol hotărâtor în calculul vectorului de câştig.
Cel mai mare coeficient de corelaţie îl are perechea de metrici şi
( ). Acest coefficient se datorează scopului comun pe care îl au cele două
metrici: returnarea celor mai relevante documente care să acopere toate sub-interogările unui subiect.
Prima metrică reduce rapid contribuţia documentelor care se află după un document foarte relevant,
deoarece interesul utilizatorului se reduce dramatic odată cu satisfacerea nevoii de informaţie, iar a
doua metrică consideră că documentele relevante sunt mai utile când apar mai repede în listă. Totuşi,
metrica reflectă mai bine comportamentul de navigare al utilizatorului şi cuantifică
mai precis satisfacţia lui decât metrica , prin faptul că nu mai ia în considerare
contribuţia documentelor relevante aflate după un document „perfect”.
Rezultatele prezentate sugerează cel puţin două categorii de metrici: metrici cu o puternică
tendinţă de a clasa documentele relevante cât mai sus ( , , şi
) şi metrici care surprind un aspect sumar al performanţei ( şi ).
Metricile şi par să împartă proprietăţi aparţinând ambelor categorii.
Deşi metrica este intens acceptată ca metrică de facto de evaluare a sistemelor de regăsire
a informaţiei, aceasta nu corespunde neapărat modului în care utilizatorii efectuează o căutare. Acest
lucru este îngrijorător deoarece rezultatele indică faptul că corelaţiile dintre cele două categorii de
metrici sunt slabe (coeficientul Kendall având valori mai mici de 0,7).
29
Pentru regăsirea informaţiei pe Web se poate trage următoarea concluzie: dacă obiectivul
utilizatorului nu este clar stabilit, precizia şi reapelul nu pot fi optimizate, fiind metrici contrare.
Astfel, sistemele de regăsire nu reuşesc întotdeauna să răspundă nevoilor, de cele mai multe ori,
ambigue ale factorului uman. Navigarea este o paradigmă puternică şi confortabilă, generând efectul
de serendipitate. Rezultatul unei căutări nu trebuie să fie neapărat foarte bun, foarte exact. Precizia
nu este importantă atâta timp cât cel puţin unele dintre rezultatele de pe prima pagină sunt bune, iar
reapelul nu este important atâta timp cât se obţin cel puţin câteva rezultate concludente.
6.2 Evaluarea modelării şi clusterizării documentelor web
6.2.1 Metrici folosite pentru comparaţie
Măsurarea eficienței şi eficacităţii unui algoritm de clusterizare este o sarcină dificilă. În cadrul
acestui studiu s-au folosit cinci metrici de performanță: precizia, reapelul, măsura F, precizia medie
şi media valorilor medii ale preciziei (MAP) pentru a măsura acurateţea abordării. Primele trei
metrici pot fi aplicate asupra clusterilor obţinuţi după prima fază a algoritmului întrucât nu ţin cont
de ordinea documentelor din cadrul clusterelor, ci se bazează doar pe apartenenţa documentelor la un
anumit cluster. Pentru algoritmii care returnează secvențe ordonate de documente este oportun să se
considere şi ordinea în care documentele sunt returnate. Precizia medie implică calcularea unei
precizii medii în fiecare poziţie care are un document relevant în lista returnată. Aceste metrici au
fost adaptate din regăsirea informaţiei pentru a măsura relevanţa documentelor aflate într-un cluster
la nevoile utilizatorului. Fiind dat un document web, notăm clusterul real de care aparţine cu şi
cel determinat experimental cu . Pentru un cluster determinat experimental, , definim
precizia, reapelul şi măsura F după cum urmează:
( )
(| |)
| | (6.1)
( )
(| |)
| | (6.2)
( ) ( ) ( )
( ) ( ) (6.3)
unde | | este numărul de documente din clusterul și | | este numărul de documente din
clusterul .
6.2.2 Rezultate şi discuţii
S-au efectuat experimente pentru a evalua îmbunătăţirile pe care le aduce algoritmul propus faţă de
regăsirea normală, utilizând ca metricile propuse în secţiunea anterioară. Pentru a evalua într-o
manieră sistematică rezultatele obţinute în urma celor doua faze ale algoritmului şi pentru a procesa
şi sorta manual graful orientat construit în faza a doua a algoritmului primul set de documente a fost
reprezentat de un mic site (S1), cu o colecție de 23 de pagini care are 867 de termeni unici şi 64 de
legături. Al doilea set de test a fost un site mai mare (S2), cu un număr total de documente şi legături
de 3240 şi respectiv 14291.
30
Algoritmul de clusterizare cu factorul de normalizare cosinus este notat cu SCLA(C), iar
algoritmul care folosește normalizarea documentului cu pivot cu SCLA(Lnu). Atunci când este
aplicată regăsirea normală algoritmul este notat cu SCLA(N-C) şi respectiv cu SCLA(N-Lnu).
Rezultatele obţinute în urma regăsirii normale sunt apoi comparate cu rezultatele obţinute în urma
aplicării modelului propus, cu cele două variante. Astfel, se demonstrează îmbunătăţirea obţinută
prin folosirea de ponderi distincte pentru fiecare clasă de tag-uri implicată în calcularea ponderii
unui termen în cadrul documentului web. Evaluarea este efectuată după prima fază a algoritmului şi
este reprezentată ca fiind valoarea medie a acurateței în clusterele de bază.
În cadrul experimentelor pe colecția S1 s-a verificat manual ca fiecare termen să fie clusterizat şi
s-a decis asupra asocierii corecte la un anumit cluster. În acestă etapă de analiză a algoritmului este
rezonabil să se folosească o asemena metodă întrucât s-a urmărit clusterizarea documentelor web cât
mai obiectiv posibil. Pentru prima fază a algoritmului, numărul de clustere (parametru l) a fost dat de
numărul de termeni din cadrul interogării. Site-ul S1 are 23 de documente şi conform relaţiei
precedente numărul de clustere este .
Figura 6.1: Precizia clusterelor de bază pentru colecţia S1
Figura 6.2: Reapelul clusterelor de bază pentru colecţia S1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
CL1 CL2 CL3 CL4 S1
Pre
cizi
a
Clusterele colecţiei S1 , respectiv colecţia S1
SCLA( C ) SCLA(Lnu) SCLA(N-C) SCLA(N-Lnu)
0
0.2
0.4
0.6
0.8
1
CL1 CL2 CL3 CL4 S1
Rea
pel
Clusterele colecţiei S1, respectiv colecţia S1
SCLA( C ) SCLA(Lnu) SCLA(N-C) SCLA(N-Lnu)
31
Cum era de aşteptat, rezultatele modelului care foloseşte factorul de normalizare a documentului
cu pivot sunt superioare rezultatelor obţinute cu regăsirea normală. Este interesant de observant
faptul că modelul de document cu factorul de normalizare cosinus furnizează rezultate mai bune faţă
de ambele modele normale de regăsire (cel cu factorul de normalizare cosinus şi cel cu pivot).
Aceste rezultate dovedesc utilitatea metodei abordate. Rezultate asemănătoare au fost obţinute şi
pentru colecţia S2.
Documentele din fiecare cluster obţinut în urma primei faze au fost evaluate şi cu precizia
medie. Rezultatele sunt ilustrate în Figura 6.3.
Figura 6.3: Precizia medie a clusterelor de bază pentru colecţia S1.
După prima fază a algoritmului documentele din acelaşi cluster reprezintă aceeşi arie de
informaţie şi au acelaşi factor de importanţă pentru interogarea utilizatorului. În consecinţă, în faza a
doua, am ordonat documentele dintr-un cluster prin construirea unui digraf şi sortarea topologică a
nodurilor lui, noduri care sunt reprezentate de documentele clusterului, ținând cont de hiper-
legăturile dintre documentele site-ului, care formează arcele digrafului. Sortarea topologică nu poate
fi aplicată asupra unui digraf care are cicluri, drept urmare, trebuie să eliminăm un număr minim de
arce pentru ca digraful să dobândească proprietatea de aciclicitate. În acest scop, considerăm că
arcele care fac legătura dintre nodurile din cluster cu nodurile care nu se află în interiorul clusterului
(nodul out) au o importanţă mai scăzută şi pot fi îndepărtate primele. Digraful pentru primul cluster
de bază din S1 este ilustrat în Figura 6.4.
Figura 6.4: Digraful pentru clusterul de bază CL1 din colecţia S1
0.175
0.18
0.185
0.19
0.195
0.2
0.205
0.21
0.215
0.22
CL1 CL2 CL3 CL4 S1
Pre
cizi
a m
edie
Clusterele colecţiei S1, respectiv colecţia S1
SCLA(Lnu) SCLA(N-Lnu)
32
Numerele asociate muchiilor reprezintă ordinea în care arcele sunt eliminate când sortăm
topologic documentele. Documentele cu cea mai mică importanţă sunt primele în listă. După cum se
observă, digraful are un ciclu reprezentat de nodurile ⟨ ⟩, numărul de arce care întră în
noduri (in-degree) fiind ⟨ ⟩. Deoarece nodul d4 are o muchie care provine de la nodul out,
acest nod este mai puţin important ca nodul d7 şi este ales pentru a sparge ciclul prin eliminarea
arcului care vine din nodul d7 (e74). Lista sortată de documente în clusterul CL1 după spargerea
ciclului este: ⟨ ⟩. Prin eliminarea unui arc se pierde şi o cantitate din
informaţia potenţial folositoare.
6.3 Evaluarea regăsirii informaţiei
6.3.1 Configurarea simulării
Pentru a putea evalua modelul propus în secţiunea 5.3.3, mai întâi, se descriu pe scurt modul de
indexare a colecţiei ClueWeb09, modul de determinare a parametrilor Dirichlet de uniformizare,
valorile ponderilor câmpurilor specifice şi valoarea procentuală optimă pentru filtru de spam. Apoi,
valorile optimie determinate sunt utilizate pentru a testa şi evalua fiecare model din cadrul modelului
agregat propus, precum şi combinaţiile lor.
Pentru experimente s-a utilizat subsetul Category B din colecţia ClueWeb09, care reprezintă un
eşantion de 50 de milioane de pagini în limba engleză din colecţie (5% din întreaga colecţie).
Această colecţie conţine majoritatea paginilor Web importante deoarece paginile Web au fost
colectate pe baza unei liste mari de URL-uri cu un scor PageRank ridicat. Această idee este susţinută
şi de concluziile conferinţei TREC 2010 care sugerează că subsetul Category B conţine, în general,
documente de o calitate mai ridicată faţă de restul colecţiei (Clarke, et al., 2011). În experimentele
prezentate, parametrii sunt determinaţi cu interogările de la TREC Web Track 2009, iar
experimentele sunt efectuate cu interogările oferite de TREC Web Track 2010.
Sistemul ales pentru efectuarea experimentelor a fost Indri 5.1 din cadrul proiectului Lemur,
care a fost modificat pentru indexarea colecţiei ClueWeb09. Indexul a fost construit prin intermediul
unei maşini de calcul având 1.4 GHz CPU, 30 GB de RAM şi aproximativ 5 TB spaţiu liber de
stocare. Construirea indexului pentru subsetul Category B a durat aproximativ 68 de ore. Pe durata
procesului de indexare s-a realizat îndepărtarea cuvintelor din lista stopwords şi efectuarea
procesului de stemming cu stemmerul Krovetz (Krovetz, 1993) deoarece acesta nu generealizează
aşa de mult precum stemmerul Porter. De asemenea, s-au indexat anumite tag-uri HTML sub formă
de câmpuri: tag-ul title sub forma câmpului title, tag-urile h1, h2, h3, h4, h5, h6 sub forma câmpul
heading, tag-ul a sub forma câmpului inlink şi tag-urile strong şi b sub forma câmpului strong. Cu
excepţia tag-ului title, conţinutul întregului document a fost indexat sub forma câmpului body.
Astfel, câmpurile indexate pot fi utilizate pentru regăsire în cadrul limbajului de interogare Indri. În
final, se obţine un index care conţine tot conţinutul text al unui document web şi câmpurile specifice,
supuse regăsirii.
Armstrong (2009) a demonstrat faptul că există şase tehnici care oferă unele îmbunătăţiri asupra
performanţei unui sistem de regăsire a informaţiei. Aceste tehnici sunt prezentate în primele 6
rânduri ale Tabelul 6.2 cu câteva modificări şi adaptări. Armstrong a observat că există o relaţie de
33
aditivitate între numărul de tehnici folosite şi eficienţa de regăsire realizată. Pentru experimentele
următoare se face următoarea presupunere: prin adăugarea modelului bazat pe câmpuri şi a
modelului de filtrare a spam-ului la metodele stabilite de Armstrong, caracteristica de aditivitate se
conservă, iar eficienţa de regăsire creaşte.
Tabelul 6.2: Tehnicile abordate în experimente
Tehnica Descriere
Stoparea
termenilor
Lista standard inclusă în Indri cu cele 418 de cuvinte din limba engleză care
trebuie eliminate (stopwords list).
Stemming Stemmerul Krovetz (Krovetz, 1993).
Uniformizarea
termenului
Uniformizarea Dirichlet (Zhai & Lafferty, 2004) cu parametru µ determinat
pentru fiecare metodă în parte.
Expresii ordonate Ferestre ordonate de proximitate – secvenţe de câte 2 sau 3 termeni de
interogare în care termenii trebuie să apară ordonaţi fără alţi termeni între
fiecare apariţie (Metzler & Croft, 2005).
Expresii
neordonate
Ferestre neordonate de proximitate – pentru fiecare combinaţie de 2 sau 3
termeni de interogare, termenii pot să apară în orice ordine în ferestre cu o
dimensiune maximă de patru ori numărul de termeni ai expresiei (Metzler &
Croft, 2005).
Pseudo-
relevanţa
feedback-ului
Modelul de relevanţă din cadrul sistemului Indri cu 20 de termeni selectaţi
automat din primele 10 documente, ponderea interogării originale fiind 0,5
iar a celei extinse de 0,5.
Expresii bazate pe
câmpuri
Model ponderat implementat pentru a construi interogări dependente de
câmpuri pentru regăsirea textului structurat.
Filtrarea spam-
ului
Filtrarea spam-ului ca pas de post-regăsire (Cormack, et al., 2011).
Primele două tehnici din Tabelul 6.2 – stoparea şi stemmingul termenilor – sunt aplicate tuturor
metodelor deoarece acestea sunt realizate în momentul indexării colecţiei de documente Web.
Metoda de uniformizare este realizată pentru fiecare model conform fazei de determinare a
parametrilor. Fiecare metodă prezentată în Tabelul 6.2 este testată separat obţinând-se experimentele
DM, RM, FM şi SFM. Apoi, se combină fiecare tehnică cu alta, obţinând exerimentele DM+RM,
denumit şi RM3 (Smucker, et al., 2009), DM+FM şi RM+FM. Într-un experiment final, se combină
toate cele patru metode rezultând rularea DRF3. Modelul de filtrare a spam-ului (SFM) este aplicat
opţional, ca un pas de post-regăsire.
6.3.2 Determinarea parametrilor optimi
Determinarea valorilor optime ale parametrilor utilizaţi în experimente se face prin maximizarea
directă a metricii . Deoarece metodele abordate au puţini parametrii, este posibil efectuarea unei
căutări liniare pentru: atingerea parametrului de uniformizare optim, determinarea ponderii
34
interogării de expansiune şi a nivelului optim pentru filtrul de spam. De asemenea, se poate efectua o
căutare de tipul „hill climbing” pentru a determina valorile ponderilor optime ale câmpurilor din
cadrul modelului bazat pe câmpuri, începând cu valorile implicite ale acestor parametrii (λBODY = 1,
λTITLE = 0, λHEADING = 0, λINLINK = 0, λSTRONG = 0).
Deoarece modelul lingvistic are la bază noţiunea de probabilitate, uniformizarea este o problemă
majoră în estimarea modelului lingvistic. Unele cercetări (Zhai & Lafferty, 2001) au concluzionat că
o schemă de uniformizare simplă bazată pe uniformizarea Dirichlet oferă o performanţă foarte bună,
datorită modului eficient în care normalizează termenii interogării în raport cu lungimea
documentului. Toate experimentele utilizează modelul lingvistic Indri şi regula de uniformizare
Dirichlet. De asemenea, (Zhai & Lafferty, 2001) au arătat că uniformizarea Dirichlet depăşeşte
semnificativ uniformizarea Jelinek-Mercer dacă este aplicată asupra activităţilor de regăsire
structurate. Pentru a determina parametru de uniformizare optim s-a efectuat o căutare liniară prin
parcurgerea intervalului 1000 – 8000, cu un pas de 500 şi cu scopul de a maximiza metrica .
Valorile optime sunt prezentate în Tabelul 6.3. Aşa cum se arată în continuare, motivul pentru care
valorile optime ale parametrului de uniformizare pentru subiectele Web Track 2009 şi 2010 sunt
diferite poate fi atribuit faptului că subiectele Web Track 2010 conţin cu 12% mai multe interogări
cu un singur termen decât subiectele WebTrack 2009.
Tabelul 6.3: Parametrul optim de uniformizare Dirichlet pentru interogările Web Track 2009 şi 2010
asupra colecţiei ClueWeb09 Categoria B.
Subiecte DM RM FM RM3 DM+FM RM+FM DRF3
Dirichlet (µ) WT2009 3000 1500 3000 2000 3000 2500 2000
WT2010 4000 2000 4000 2500 4000 3000 2500
Pentru determinarea ponderii optime pentru interogarea extinsă din cadrul modelului de
relevanţă se aplicată acelaşi principiu care este folosit în determinarea parametrului de uniformizare
Dirichlet. Ponderea interogării extinse este căutată în intervalul 0 – 0,9 cu un pas de 0,1. Valoarea
care furnizează cele mai bune rezultate pentru fiecare experiment care implică expansiunea
interogării s-a dovedit a fi . Valorile optime determinate cu ajutorul interogărilor Web
Track 2009 sunt utilizate în experimentele următoare.
Pentru a determina valorile ponderilor câmpurilor specifice se aplică o căutare de tipul „hill
climbing” având drept obiectiv maximizarea metricii MAP. Pe parcursul acestei căutări se foloseşte
parametru de uniformizare Dirichlet cu valoarea standard μ=2500. Valorile optime ale ponderilor
găsite pentru câmpurile specifice (body, title, heading, inlink şi strong) care maximizează metrica
MAP sunt prezentate în Tabelul 6.4. Prin câmpul body se face referire la conţinutul documentului
care este cuprins în tag-ul HTML body.
Nivelul optim al filtrului de spam este determinat în aceeasi manieră ca şi parametrul de
uniformizare. Valoarea procentuală care optimizează metrica MAP este 10%.
35
Tabelul 6.4: Valorile optime ale ponderilor pentru câmpurile specifice pentru interogările Web
Track 2009 şi 2010 împotriva colecţiei ClueWeb09 Category B.
Queries Body Title Heading Inlink Strong
Raw values wt2009 0.95 0.12 0.18 0.14 0.17
wt2010 1.12 0.21 0.13 0.15 0.17
Normalized values wt2009 0.6 0.08 0.12 0.09 0.11
wt2010 0.63 0.12 0.07 0.08 0.1
6.3.3 Rezultate şi discuţii
Din moment ce ne ocupăm de trei modele diferite, prin combinarea lor, vom obţine şapte combinaţii
unice care sunt apoi rulate împotriva colecţiei, iar seturile de documente rezultate sunt evaluate cu
ajutorul metricilor MAP şi P@10 înainte şi după etapa de post-regăsire a filtrării spam-ului. S-a ales
ca metodă de referinţă combinaţia dintre modelul de dependenţă şi modelul de relevanţă, adică
rularea RM3. De asemenea, este furnizată ca referinţă iniţială, pentru toate metodele şi metoda Indri
standard, denumită în continuare rularea Indri.base. Modelul Indri standard se bazează pe o
combinaţie a modelării lingvistice (Ponte & Croft, 1998) cu reţelele de inferenţă (Turtle & Croft,
1991). Rezultatele sunt prezentate în Tabelul 6.5. Semnificaţia statică a fost calculată utilizându-se
metoda Paired Randomization Test (Smucker, et al., 2007). În Tabelul 6.5 se folosesc simbolurile *
şi ** pentru a indica semnificaţia statistică la 90% şi respectiv 95% nivel de încredere.
Tabelul 6.5: Metricile MAP şi P@10 folosind valorile optime ale parametrilor pentru fiecare model
sau combinaţie şi valoarea procentuală optimă a filtrului de spam cu cea mai mare valoare a fiecărei
metrici evidenţiată1.
Runs No Spam Filter Spam Filter at 10%
MAP ∆RM3 P@10 ∆RM3 MAP ∆RM3 P@10 ∆RM3
Indri.base 0.0917 -12.95%**
0.2062 -20.8%**
0.1004 -12.1%* 0.2542 -15.28%
*
DM 0.0972 -7.6% 0.2354 -9.6% 0.1064 -6.86% 0.2833 -5.56%
RM 0.0941 -10.65%**
0.2250 -13.6% 0.1000 -12.42%**
0.2625 -12.5 %*
FM 0.1025 -2.6% 0.2583 -0.8% 0.1095 -4.14% 0.3083 +2.78%
RM3 0.1053 - 0.2604 - 0.1142 - 0.3000 -
DM+FM 0.1091 +3.6% 0.2979 +14.4% 0.1151 +0.75 0.3312 +10.42%
RM+FM 0.1048 -0.46% 0.2792 +7.2%* 0.1089 -4.64% 0.3062 +2.08%
DRF3 0.1181 +12.14%**
0.3188 +22.4%**
0.1246 +9.03%* 0.3438 +14.58%
*
După cum se poate observa, rularea DRF3 oferă cele mai bune rezultate şi conduce la
îmbunătăţiri semnificative ale metricilor MAP şi P@10 în raport cu rularea de referinţă RM3,
1 Coloanele ∆RM3 arată îmbunătăţirile relative ale fiecărei metrici în raport cu metoda de referinţă RM3. Stelele
indică semnificaţia statistică cu un nivel de încredere de 90% (*) şi respectiv 95% (**).
36
arătând astfel că structura documentelor Web poate fi utilizată pentru a îmbunătăţi regăsirea ad-hoc a
informaţiei. Toate rezultatele rulării DRF3 sunt semnificative din punct de vedere statistic. Înainte de
faza de filtrare a spam-ului nivelul de încredere este la 95%, în timp ce după îndepărtarea
documentelor considerate spam nivelul de încredere scade la 90%. Faza de filtrare a spam-ului aduce
o îmbunătăţire substanţială chiar şi celei mai bune rulări: metrica MAP creşte cu 5,5% de la 0,1181
la 0,1246, iar metrica P@10 creşte cu 7,84% de la 0,3188 la 0, 3438.
Figura 6.5: Evoluţia metricii MAP ca funcţie de modele combinate în cadrul mediului Indri
împotriva colecţiei ClueWeb09 Category B înainte şi după faza de filtrare a spam-ului.
Figura 6.6: Evoluţia metricii P@10 ca funcţie de modele combinate în cadrul mediului Indri
împotriva colecţiei ClueWeb09 Category B înainte şi după faza de filtrare a spam-ului.
Figura 6.5 şi Figura 6.6 ilustrează rezultatele obţinute de către metricile MAP şi P@10 ca funcţii
de tehnici combinateîn cadrul mediului Indri. Se poate observa că proprietatea de aditivitate se
conservă şi eficienţa sistemului creşte în mod corespunzător atunci când sunt combinate mai multe
modele.
0.09
0.095
0.1
0.105
0.11
0.115
0.12
0.125
Indri.base DM RM FM RM3 DM+FM RM+FM DRF3
MA
P (
%)
Model
No Spam Filter Spam Filter at 10%
0.2
0.22
0.24
0.26
0.28
0.3
0.32
0.34
0.36
Indri.base DM RM FM RM3 DM+FM RM+FM DRF3
P@
10 (
%)
Model
No Spam Filter Spam Filter at 10%
37
Modelul bazat pe câmpuri conţine câmpurile title, heading, inlink, strong şi body. Ponderile care
optimizează metrica MAP pentru fiecare câmp din modelul bazat pe câmpuri sunt enumerate în
Tabelul 6.4. Dacă se inspectează fiecare câmp în parte, se observă că câmpul inlink are o precizie
ridicată, fapt observat şi de altii (Koolen & Kamps, 2010), (Nguyen & Callan, 2010). Cu toate
acestea, metrica MAP obţinută de primele patru câmpuri este mult mai mică în comparaţie cu cea
obţinută prin câmpul body. Motivul pentru această valoare ar putea fi faptul că nu toate documentele
Web conţin aceste câmpuri şi faptul că câmpul body, pe lângă faptul că include câmpurile heading,
inlink şi strong mai include şi restul de informaţii utile. În plus, când se aplică filtrul de spam,
metrica P@10 a câmpului body se îmbunătăţeşte substanţial, în timp ce precizia câmpurilor title,
heading şi inlink se îmbunătăţeşte mult mai puţin. De asemenea, precizia câmpului strong scade
dupa etapa de filtrare a spam-ului. Aceste variaţii indică faptul că primele patru câmpuri conţin mult
mai puţin spam, în timp ce câmpul body este mult mai predispus la spam, chiar dacă încorporează
aceste câmpuri.
Per ansamblu, modelul DRF3, care combină toate cele patru modele, are performanţe excelente
în ceea ce priveşte eficacitatea regăsirii ad-hoc. În final, se poate observa că utilizarea filtrului de
spam îmbunătăţeşte semnificativ precizia tuturor rezultatelor obţinute.
6.3.4 Concluzii
Abordarea propusă, bazată pe patru modele distincte (denumită DRF3), pentru regăsirea ad-hoc
optimizează direct metrica MAP pentru un set de interogări. Tehnica abordată este evaluate folosind
colecţia ClueWeb09 Category B. În exprerimentele prezentate, metoda propusă, bazată pe patru
modele, depăşeşte semnificativ metoda standatd Indri şi metoda RM3.
În ceea ce priveşte eficienţa rezultatele sunt încurajatoare, dat fiind faptul că rezultatele nu se
bazează pe alte resurse externe, cum ar fi colecţiile specifice sau rezultatele motoarelor de căutare
comerciale pentru expansiunea interogării. Acest lucru dovedeşte faptul că modelul de regăsire bazat
pe câmpuri este competitiv atunci când este folosit împreună cu modelul de dependenţă şi cel de
relevanţă, în ciuda faptului că este simplu, poate fi construit cu uşurinţă folosind limbajul de
modelare Indri şi implică determinarea unor parametrii. Dar, pentru a obţine această îmbunătăţire,
parametrii modelului trebuie determinaţi cu are atenţie.
Studierea modelării bazate pe câmpuri şi agregarea tehnicii cu modelul de dependenţă şi cel de
relevanţă contribuie la stabilirea caracterului general al utilizării lui. În plus, metodele care includ
tehnica bazată pe câmpuri obţin rezultate bune pentru interogările formate dintr-un singur termen, în
comparaţie cu modelele de dependenţă şi de relevanţă care permit documentelor nerelevante să urce
în clasament. Mai mult, filtrarea spam-ului şi-a dovedit utilitatea prin îmbunătăţirea precizie tuturor
rezultatelor, chiar dacă s-a dovedit că, colecţia ClueWeb09 Category B cuprinde documente de
calitate superioară (Clarke, et al., 2011).
Astfel, rezultatele experimentale au confirmat afirmaţia făcută de Armstrong : prin adăugarea
modelului bazat pe câmpuri şi a modelului de filtrare a spam-ului la modelele de dependenţă şi cel
de relevanţă, aditivitatea îmbunătăţirilor asupra preciziei se conservă şi eficienţa sistemului creşte în
mod corespunzător.
39
7. Concluzii
7.1 Concluzii generale
Dezvoltarea haotică şi necontrolată a Web-ului din ultima perioadă a provocat o revoluţie culturală şi
tehnologica fără precedent devenind cea mai mare sursă de informaţii accesibilă publicului din lume.
Tehnicile care au susţinut acest sistem de informare au întâmpinat provocări majore în deservirea
tuturor cerinţelor şi nevoilor tot mai diverse apărute din partea utilizatorilor.
Cercetările desfăşurate în cadrul acestei lucrări au urmărit îmbunătăţirea tehnicilor actuale de
Web mining prin modelarea şi structurarea conţinutului web, precum şi analiza, modelarea şi
optimizarea sistemelor de regăsire a informaţiei.
Modelarea şi structurarea conţinutului web au fost abordate printr-un nou model de reprezentare
a unui document web, respectiv a unui algoritm de clusterizare a documentelor web. Prin ponderarea
corespunzătoare a termenilor şi îmbinarea modelelor de reprezentare web bazate pe tag-uri HTML
cu cele bazate pe legăturile dintre paginile web s-a propus un nou model care îmbunătăţeşte
semnificativ regăsirea informaţiei relevante pentru utilizator. Totodată, acest noul model de
reprezentare a unei pagini web este fructificat de către un algoritm de clusterizare care constă în
două etape distincte. În secţiunea 6.3 s-au studiat în detaliu performanţele algoritmului de
clusterizare în doi paşi propus aplicat peste colecţii limitate de documente web, anume două site-uri.
Pentru a demonstra eficienţa abordării propuse au fost utilizate diferite formule de calcul a ponderii
termenilor, care au avut un impact major asupra noului model de reprezentare a unei pagini web.
Experimentele au fost efectuate pe două seturi de date cu o mare varietate de pagini web şi termeni.
Calitatea rezultatelor a fost probată prin măsurarea a patru parametrii distincţi folosiţi în regăsirea
informaţiei. Astfel, s-a demonstrat experimental faptul că, prin implementarea unor noi abordări in
modelarea documentelor web bazate pe exploararea caracteristicilor limbajului HTML, precum şi
aplicarea unui algoritm de clusterizare adaptat acestora, se obţin rezultate evident îmbunătăţite.
Algoritmul de clusterizare propus este intuitiv, dar ia în considerare doar parţial semantica dintre
documentele web.
Pentru a putea aborda problema căutării pe Web în mod eficient, s-a efectuat un studiu
comparativ cu scopul de a investiga relaţiile dintre principalele metrici de evaluare pentru regăsirea
informaţiei. În acest studiu s-a urmărit determinea metricilor care măsoară în mod corespunzător
nevoia de informaţie a utilizatorului. Pentru a analiza cele două directii din cadrul regăsirii
informaţiei pe Web, s-au considerat atât metrici care se folosesc pentru regăsirea ad-hoc cât şi
metrici care evaluează diversitatea rezultatelor returnate. Rezultatele obţinute sugerează cel puţin
două categorii de metrici: metrici cu o puternică tendinţă de a clasa documentele relevante cât mai
sus ( , , şi ) şi metrici care surprind un aspect mai
general al performanţei ( şi ). Metricile şi par să împartă
caracteristici aparţinând ambelor categorii. Deşi metrica este în general acceptată ca metrică de
bază în evaluare sistemelor de regăsire, aceasta nu reflectă neapărat în totalitate modului în care
utilizatorii efectuează o căutare. Acest lucru este îngrijorător deoarece rezultatele indică faptul că
40
corelaţiile dintre cele două categorii de metrici sunt slabe (coeficientul Kendall având valori mai
mici de 0,7).
Modelarea unui sistem de regăsire s-a făcut printr-o metodă originală (denumită DRF3), bazată
pe patru modele distincte de regăsire, cu scopul de a optimiza direct metrica MAP prin intermediul
unui set de interogări dat. Tehnica abordată este evaluată folosind colecţia ClueWeb09 Category B.
În experimentele prezentate, metoda propusă, depăşeşte semnificativ metodele de referinţă Indri şi
RM3. În ceea ce priveşte eficienţa, rezultatele sunt încurajatoare, dat fiind faptul că rezultatele nu se
bazează pe alte resurse externe, cum ar fi colecţiile specifice sau rezultatele motoarelor de căutare
comerciale pentru expansiunea interogării. Acest lucru dovedeşte faptul că modelul de regăsire bazat
pe câmpuri este competitiv atunci când este folosit împreună cu modelul de dependenţă şi cel de
relevanţă, în ciuda faptului că este simplu, poate fi construit cu uşurinţă folosind limbajul de
modelare Indri şi implică determinarea unor parametrii. Dar, pentru a obţine această îmbunătăţire,
parametrii modelului trebuie determinaţi cu are atenţie. Studierea modelării bazate pe câmpuri şi
agregarea tehnicii cu modelul de dependenţă, cel de relevanţă şi cel de filtrare a spamului contribuie
la stabilirea caracterului general al utilizării lui. În plus, metodele care includ tehnica bazată pe
câmpuri obţin rezultate bune pentru interogările formate dintr-un singur termen, în comparaţie cu
modelele de dependenţă şi de relevanţă care permit documentelor nerelevante să urce în clasament.
Mai mult, filtrarea spam-ului şi-a dovedit utilitatea prin îmbunătăţirea precizie tuturor rezultatelor,
chiar dacă s-a dovedit că, colecţia ClueWeb09 Category B cuprinde documente de calitate superioară
(Clarke, et al., 2011).
Astfel, rezultatele experimentale au confirmat afirmaţia făcută de Armstrong : prin adăugarea
modelului bazat pe câmpuri şi a modelului de filtrare a spam-ului la modelele de dependenţă şi cel
de relevanţă, aditivitatea îmbunătăţirilor asupra preciziei se conservă şi eficienţa sistemului creşte.
7.2 Contribuţii ştiinţifice şi valorificarea rezultatelor
Rezumând cele prezentate în secţiunea 7.1, contribuţiile ştiinţifice şi elementele de originalitate
aduse în cadrul acestei lucrări referă următoarele aspecte din cadrul Web mining:
1. Model de reprezentare a unui document web. Un document web are nevoie de prelucrări
preliminare în vederea obţinerii informaţiei relevante într-un format eficient şi util, astfel
încât să fie apoi procesat automat de către un sistem de analiză a informaţiilor. Modelul de
reprezentare propus îmbunătăţeşte semnificativ regăsirea informaţiei relevante pentru
utilizator prin utilizarea unui factor de normalizare a termenilor din cadrul unui document, o
nouă formulă de calcul a ponderii locale a termenului, care ţine cont de tag-urile HTML şi
luând în considerare legăturile dintre documentele web. Studiul aplicării tehnicilor de pre-
procesare este descris în secţiunea 5.1, iar modelul de reprezentare este detaliat în secţiunea
5.2. Evaluarea experimentală a rezultatelor este prezentată detaliat în secţiunea 6.3. Această
contribuţie a fost iniţial prezentată în (Agavriloaei, et al., 2011a).
2. Algoritm de clusterizare a conţinutului web. Datorită volumului tot mai mare de
documente aflate pe Web, se impune găsirea unor modalităţi eficiente de satisfacere a
41
nevoilor de informaţie a utilizatorilor. Pe baza modelului de document web propus, se
propune un algoritm de clusterizare pentru structurarea unei colecţii de documente web, cu
scopul de a pune în valoare informaţia utilă. Algoritmul aduce în prim plan documentele utile
pentru a satisface nevoia de informaţie a utilizatorul prin clusterizarea ponderilor termnilor
din cadrul colecţiei şi prin sortarea topologică a documentelor din fiecare cluster rezultat.
Formalizarea matematică a algoritmului este introdusă în secţiunea 5.4 şi are la bază
cercetările din (Agavriloaei, et al., 2011a), iar evaluarea detaliată a algoritmului este
prezentată în (Agavriloaei & Craus, 2011b).
3. Determinarea relaţiilor dintre diferite metrici de regăsire a informaţiei luând în
considerare cum reflectă acestea performanţa de căutare a utilizatorului. Regăsirea
informaţiei este puternic fundamentată pe investigarea empirică: pe baza poziţiei unei resurse
relevante din cadrul unei liste ordonate returnate, o varietate de metrici de performanţă a
sistemului pot fi calculate. Studiul comparativ al metricilor din cele două tendinţe de regăsire
actuale (ad-hoc şi diversificată) şi al rezultatelor lor sugerează faptul că există două categorii
distincte de metrici: metrici care se concentrează pe o precizie ridicată în cadrul listei
returnate de un sistem de regăsire şi metrici care au drept scop captarea unui aspect mai
general al performanţei sistemului, de obicei prin includerea reapelului. Analiza critică a
experimentelor prezentate la TREC 2011, precum şi a celor de referinţă sugerează faptul că
performanţa relativă a unui sistem poate diferi în mod semnificativ în funcţie de grupul de
metrici utilizat. Contextul şi metodologia studiului sunt prezentate în capitolul 5 şi sunt
folosite pentru a examina experimentele prezentate la TREC 2011 şi a genera un punct de
pornire pentru experimentele viitoare în cadrul secţiunii 6.2.
4. Model hibrid pentru modelarea unui sistem de regăsire ad-hoc a informaţiei. Unele
tehnici de regăsire – modelul dependenţei (DM) şi cel al relevanţei (RM) – au demonstrat că
pot aduce un anumit grad de performanţă. Celor două modele li se adaugă un model propus,
bazat pe câmpuri (FM) şi un model de filtrare a spam-ului (SFM), pentru a îmbunătăţi
performanţele unui sistem de regăsire ad-hoc. Modelul rezultat, denumit DRF3, are drept
scop obţinerea unei perspective noi asupra rolului pe care structura documentelor web şi
filtrarea spam-ului îl pot avea în creşterea eficienţei sistemelor actuale de regăsire a
informaţiei. Înglobarea modelului bazat pe câmuri (FM) într-un ansamblu de modele de
regăsire este originală şi funrnizează rezultate superioare când este folosit împreună cu
modelele consacrate, dovedind astfel competitivitatea sa. În acelaşi timp, se urmăreşte
confirmarea proprietăţii de aditivitate în sensul propus de (Armstrong, et al., 2009): prin
adăugarea modelului bazat pe câmpuri şi a modelului de filtrare a spam-ului la modelele de
dependenţă şi cel de relevanţă, aditivitatea îmbunătăţirilor asupra preciziei se conservă şi
eficienţa sistemului creşte. Consecinţa directă a acestei proprietăţi este creşterea satisfacţiei
utilizatorului. Modelul propus este prezentat în secţiunea 5.3, iar performanţele soluţiei
propuse sunt amplu dezbătute în secţiunea 6.4. Această contribuţie a fost iniţial prezentată în
(Agavriloaei, et al., 2012).
42
7.3 Direcţii viitoare
În perioada următoare, adoptarea şi utilizarea Web-ului va continua să crească fără încetare, în
primul rând datorită potenţialului comercial uriaş pe care îl are Web-ul. Creşterea şi utilizarea lui tot
mai intensă, va genera un volum tot mai mare de date, care, la rândul său, va pretinde tehnici tot mai
complexe şi rafinate de Web mining. Cercetările viitoare în domeniul Web mining ar trebui să
clarifice câteva din problemele curente, dar să trateze şi unele noi, generate de noile tehnologii care
participă la expansiunea fenomenului web în momentul de faţă. Viitorul procesului de Web mining
ar trebuie să fie unul de analiza predictivă, care încetează să prezică comportamentul utilizatorului
doar pe baza istoricului său.
În primul rând, deşi la ora actuală există o sumedenie de metrici pentru evaluarea fenomenului
web, trebuie întreprinse cercetări mai aprofundate în dezvoltarea unui set cât mai corect de metrici
web, precum şi dezvoltarea procedurilor de măsurare a acestora, astfel încât diferitele fenomene web
să poată fi studiate în amănunt.
În direcţia modelării şi organizării documentelor web, o analiză suplimentară a poziţiilor tag-
urilor HTML în cadrul documentului şi a legăturilor dintre paginile aflate în clustere diferite ar putea
aduce îmbunătăţiri suplimentare ale eficienţei algoritmului de clusterizare. Determinarea numărului
optim de clustere dintr-o colecţie restrânsă, cum este un site, este o altă problema care ar trebui
analizată mai în detaliu.
În direcţia modelării sistemelor de regăsire, se doreşte identificarea unei modalităţi de a
îmbunătăţi eficienţa sistemelor de regăsire prin efectuarea pasului de filtrare a spam-ului înaintea
procesului de regăsire şi chiar a procesului de indexare, ca un pas de pre-procesare. O altă problemă
care trebuie abordată este reducerea valorilor marginale din expansiunea interogării din cadrul
modelului de relevanţă. În acest scop este de dorit identificarea unei modalităţi de a folosi în mod
eficient scorul PageRank pentru a identifica termenii nesemnificativi, dar care au totuşi o pondere
mare în documentele returnate pentru procesul de selecţie.
Tehnicile de data mining pot fi aplicate asupra serviciilor web pentru a le face mai robuste,
scalabile şi eficiente; pentru a înţelege mai bine comportamentul lor, iar cunoştinţele extrage pot fi
folosite pentru diferite optimizări.
43
Bibliografie
1. Adamo, J.-M. (2000). Data Mining for Association Rules and Sequential Patterns. New
York: SpringerVerlag.
2. Agavriloaei, I., & Craus, M. (2010). An Analysis of Web Clustering. Proceedings of 6th
European Conference on Intelligent Systems and Technologies (ECIT 2010), 1-6.
3. Agavriloaei, I., & Craus, M. (2011b). Performance Evaluation of a Two-Step Clustering
Method. Buletinul Institutului Politehnic din Iaşi, ome LVII (LXI)(2), 31–43.
4. Agavriloaei, I., Alexandrescu, A., & Craus, M. (2011a). Improving web clustering through a
new modeling for web documents.
5. Agavriloaei, I., Rauber, A., & Craus, M. (2012). Combination of Dependence, Relevance
and Structure for Effective Web Retrieval. (G. Alam, Ed.) Journal of Applied Sciences,
12(19), 2035-2043.
6. Agrawal, R., Gollapudi, S., Halverson, A., & Ieong, S. (2009). Diversifying search results.
Proceedings of the Second ACM International Conference on Web Search and Data Mining
(pg. 5-14). Barcelona, Spain: ACM.
7. Armstrong, T. G., Moffat, A., Webber, W., & Zobel, J. (2009). Improvements that don't add
up: ad-hoc retrieval results since 1998. CIKM '09 Proceedings of the 18th ACM conference
on Information and knowledge management. New York: ACM.
8. Baeza-Yates, R., Saint-Jean, F., & Castillo, C. (2002). Web Structure, Dynamics and Page
Quality. Proceedings of the 9th International Symposium on String Processing and
Information Retrieval (pg. 117-130). Springer-Verlag.
9. Brin, S., & Page, L. (1998). The anatomy of a large-scale hypertextual Web search engine.
Computer Networks and ISDN Systems 30(1-7), pg. 107-117.
10. Chakrabarti, S., Puniyani, K., & Das, S. (2006). Optimizing scoring functions and indexes
for proximity search in type-annotated corpora. Proceedings of the 15th international
conference on World Wide Web (WWW '06). Edinburgh, Scotland: ACM.
11. Chapelle, O., Metlzer, D., Zhang, Y., & Grinspan, P. (2009). Expected reciprocal rank for
graded relevance. 18th ACM Conference on Information and Knowledge Management, (pg.
621–630).
12. Chisholm, E., & Kolda, T. G. (1999). New Term Weighting Formulas For The Vector Space
Method In Information Retrieval.
13. Cho, J., & Roy, S. (2004). Impact of search engines on page popularity. Proceedings of the
13th international conference on World Wide Web (WWW '04) (pg. 20-29). New York, USA:
ACM.
14. Clarke, C. L., Craswell, N., Soboroff, I., & Cormack, G. V. (2011). Overview of the TREC
2010 Web Track. Proceedings of the Nineteenth Text REtrieval Conference (TREC 2010).
NIST.
15. Clarke, C., Craswell, N., & Soboroff, I. (2004). Overview of the TREC 2004 Terabyte Track.
Proceedings of the Thirteenth Text Retrieval Conference (TREC 2004).
44
16. Cooley, R. (2003). The use of web structure and content to identify subjectively interesting
web usage patterns. ACM Trans. Internet Techn. 3(2), 93-116.
17. Cormack, G. V., Smucker, M. D., & Clarke, C. L. (2011). Efficient and effective spam
filtering and re-ranking for large web datasets. Information Retrieval, 14(5), 441-465.
18. Cutler, M., Deng, H., Maniccam, S., & Meng, W. (1999). A new study on using HTML
structures to improve retrieval. Proceedings of the 11th IEEE International Conference on
Tools with Artificial Intelligence (ICTAI’99) (pg. 406–409). Chicago,: IEEE Computer
Society.
19. Deerwester, S., Dumais, S., Furnas, G., Landauer, T., & Harshman, R. (1991). Indexing by
latent semantic analysis. Journal of the American Society for Information Science 41, 391–
407.
20. Diaz, F. (2009). Integration of news content into web results. Proceedings of the Second
ACM International Conference on Web Search and Data Mining (pg. 182-191). Barcelona,
Spain: ACM.
21. Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (1996). Advances in
Knowledge Discovery and Data Mining. AAAI/MIT Press.
22. Fayyad, U., Reina, C., & Bradle, P. (1998). Initialization of Iterative Refinement Clustering
Algorithms. Knowledge Discovery and Data Mining, 194-198.
23. Fortunato, S., Flammini, A., Menczer, F., & Vespignani, A. (2006). Topical interests and the
mitigation of search engine bias. Proc. Natl. Acad. Sci. USA, 103(34), 12684-12689.
24. Geva, S., & Sahama, T. (2005). The NLP task at INEX 2004. SIGIR Forum 39(1), 50–53.
25. Grossman, D., & Frieder, O. (2004). Information Retrieval - algorithms and heuristics (ed.
2nd). The Information Retrieval Series. Springer.
26. Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data
Mining, Inference, and Prediction. (ed. 2nd). Springer-Verlag.
27. Hawking, D., Upstil, T., & Craswell, N. (2004). Toward better weighting of anchors.
Proceedingsof the 27th Annual International ACM SIGIR Conference on Research and
Development in Information Retrieval., (pg. 512–513).
28. Hou, J., & Zhang, Y. (2003). Utilizing hyperlink transitivity to improve web page clustering.
Proceeding ADC '03 Proceedings of the 14th Australasian database conference - Volume 17,
(pg. 49-57).
29. Ino, H., Kudo, M., & Nakamura, A. (2005). Partitioning of Web graphs by community
topology. Proceedings of the 14th international conference on World Wide Web (pg. 661-
669). Chiba, Japan: ACM.
30. Joachims, T. (1999). Making large-scale support vector machine learning practical. În
Advances in kernel methods (pg. 169-184). MIT Press.
31. Jones, K., Walker, S., & Robertson, S. (2000). A probabilistic model of information
retrieval: development and comparative experiments. Inf. Process. Manage., 36(6), 779-808.
45
32. Kamvar, S., Haveliwala, T., Manning, C., & Golub, G. (2003). Extrapolation methods for
accelerating PageRank computations. Proceedings of the 12th international conference on
World Wide Web (WWW '03). Budapest, Hungary: ACM.
33. Kleinberg, J. (1999). Authoritative sources in a hyperlinked environment. Journal of the
ACM46(5), 604-632.
34. Kobayashi, M., & Takeda, K. (2000). Information retrieval on the web. ACM Comput. Surv.
32, 2 (June 2000), pg. 144-173.
35. Koolen, M., & Kamps, J. (2010). The importance of anchor text for ad hoc search revisited.
Proceedings of the 33rd international ACM SIGIR conference on Research and development
in information retrieval, (pg. 122-129).
36. Krovetz, R. (1993). Viewing morphology as an inference process. SIGIR '93 Proceedings of
the 16th annual international ACM SIGIR conference on Research and development in
information retrieval, (pg. 191-202). New York.
37. Kumar, R., Raghavan, P., Rajagopalan, S., & Tomkins, A. (1999). Trawling the Web for
emerging cyber-communities. Proceedings of the eighth international conference on World
Wide Web (pg. 1481-1493). Toronto, Canada: Elsevier North-Holland, Inc.
38. Kummamuru, K., Lotlikar, R., Roy, S., Singal, K., & Krishnapuram, R. (2004). A
hierarchical monothetic document clustering algorithm for summarization and browsing
search results. Proceedings of the 13th international conference on World Wide Web (WWW
'04) (pg. 658-665). New York, USA: ACM.
39. Lancaster, F., & Fayen, E. (1973). Information Retrieval On-Line. Los Angeles, USA:
Melville Publishing Co.
40. Lavrenko, V., & Croft, W. B. (2001). Relevance based language models. SIGIR '01
Proceedings of the 24th annual international ACM SIGIR conference on Research and
development in information retrieval, (pg. 120-127).
41. Lempel, R., & Moran, S. (2000). The stochastic approach for link-structure analysis
(SALSA) and the TKC effect. Comput. Netw., 33(1-6), 387-401.
42. Li, X., Liu, B., & Yu, P. (2006). Discovering overlapping communities of named entities.
Proceedings of the 10th European conference on Principle and Practice of Knowledge
Discovery in Databases (pg. 593-600). Berlin, Germany: ACM.
43. Li, Y., & Chung, S. (2005). Text document clustering based on frequent word sequences.
Proceedings of the 14th ACM international conference on Information and knowledge
management (CIKM '05) (pg. 293-294). ACM.
44. Liu, B. (2011). Web Data Mining. Exploring Hyperlinks, Contents, and Usage Data (Second
Edition). New York: Springer.
45. Liu, Y., Gao, B., Liu, T.-Y., Zhang, Y., Ma, Z., He, S., și alții. (2008). BrowseRank: letting
web users vote for page importance. Proceedings of the 31st annual international ACM
SIGIR conference on Research and development in information retrieval (pg. 451-458).
Singapore, Singapore: ACM.
46
46. MacQueen, J. (1967). Some Methods for classification and Analysis of Multivariate
Observations. Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and
Probability (pg. 281-297). Berkeley: University of California Press.
47. Markov, A., Last, M., & Kandel, A. (2008). The hybrid representation model for web
document classification. Int. J. Intell. Syst., 23(6), 654-679.
48. McSherry, F. (2005). A uniform approach to accelerated PageRank computation.
Proceedings of the 14th international conference on World Wide Web (WWW '05). Chiba,
Japan: ACM.
49. Metzler, D., & Croft, W. B. (2005). A Markov random field model for term dependencies.
SIGIR '05 Proceedings of the 28th annual international ACM SIGIR conference on Research
and development in information retrieval, (pg. 472-479).
50. Molinari, A., Pereira, R., & Pasi, G. (2003). An indexing model of HTML documents.
Proceedings of the 2003 ACM Symposium on Applied Computing (SAC) (pg. 834–840).
Melbourne: ACM.
51. Nguyen, D., & Callan, J. (2010). Combination of evidence for effective web search. The
Nineteenth Text REtrieval Conference (TREC 2010). Gaithersburg, USA.
52. Nie, Z., Zhang, Y., Wen, J.-R., & Ma, W.-Y. (2005). Object-level ranking: bringing order to
Web objects. Proceedings of the 14th international conference on World Wide Web. Chiba,
Japan: ACM.
53. Ordonez, C., & Omiecinski, E. (2004). Efficient Disk-Based K-Means Clustering for
Relational Databases. IEEE Trans. on Knowl. and Data Eng., 16(8), 909-921.
54. Pazzani, M., & Billsus, D. (1997). Learning and revising user profiles: The identification of
interesting. Machine Learning 27, 313–331.
55. Pennock, D., Flake, G., Lawrence, S., Glover, E., & Giles, C. (2002). Winners don't take all:
Characterizing the competition for links on the web. Proc. Natl. Acad. Sci. USA, 5207-5211.
56. Pereira, R., Molinari, A., & Pasi, G. (2005). Contextual weighted representations and
indexing ieee computer society models for the retrieval of HTML documents. Soft
Computing 9(7), 481–492.
57. Ponte, J., & Croft, W. (1998). A language modeling approach to information retrieval.
Proceedings of ACM SIGIR Conf. on Research and Development in Information Retrieval
(SIGIR-1998).
58. Robertson, S., Walker, S., & Hancock-Beaulieu, M. (2000). Experimentation as a way of life
Okapi at TREC. Information Processing and Management 36(1), pg. 95-108.
59. Robertson, S., Zaragoza, H., & Taylor, M. (2004). Simple BM25 extension to multiple
weighted fields. Proceedings of the thirteenth ACM international conference on Information
and knowledge management (pg. 42-49). Washington, USA: ACM.
60. Salton, G. (1971). The Smart Retrieval System. Experiments in Automatic Document
Processing. Prentice Hall, Englewood Cliffs.
61. Salton, G., & McGill, M. (1983). An Introduction to modern information retrieval. Mc-Graw
Hill.
47
62. Smucker, M., Allan, J., & Carterette, B. (2007). A comparison of statistical significance tests
for information retrieval evaluation. Proceedings of the Sixteenth ACM Conference on In-
formation and Knowledge Management (CIKM 2007) (pg. 623-632). Lisboa, Portugal:
ACM.
63. Smucker, M., Clarke, C., & Cormack, G. (2009). Experiments with ClueWeb09: Relevance
Feedback and Web Tracks. Proceedings of the Eighteenth Text REtrieval Conference (TREC
2009).
64. Steinbach, M., Karypis, G., & Kumar, V. (2000). A comparison of document clustering
techniques. Proceedings of KDD Workshop on Text Mining.
65. Tomlin, J. (2003). A new paradigm for ranking pages on the world wide web. Proceedings of
the 12th international conference on World Wide Web (pg. 350-355). Budapest, Hungary:
ACM.
66. Turtle, H., & Croft, W. (1991). Evaluation of an inference network-based retrieval model.
Trans. Inf. Syst., 9, 187-222.
67. Vapnik, V. (1995). The nature of statistical learning theory. Springer-Verlag New York, Inc.
68. Wang, J. (2009). Encyclopedia of data warehousing and mining, Second Edition. New York:
IGI Global.
69. Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining: Practical Machine Learning
Tools and Techniques (Third Edition). Morgan Kaufmann.
70. Yang, C., Chen, H., & Hong, K. (2003). Visualization of large category map for Internet
browsing. Decision Support Systems 35(1), 89–102.
71. Zeng, H.-J., He, Q.-C., Chen, Z., Ma, W.-Y., & Ma, J. (2004). Learning to cluster web
search results. Proceedings of the 27th annual international ACM SIGIR conference on
Research and development in information retrieval (SIGIR '04) (pg. 210-217). Sheffield,
United Kingdom: ACM.
72. Zhai, C., & Lafferty, J. (2001). A study of smoothing methods for language models applied
to ad hoc information retrieval. Proceedings of the 24th annual international ACM SIGIR
conference on Research and development in information retrieval, (pg. 334-342). New
Orleans, Louisiana, United States.
73. Zhai, C., & Lafferty, J. (2004). A study of smoothing methods for language models applied
to information retrieval. ACM Transactions on Information Systems (TOIS), (pg. 179-214).
74. Zhao, Y., Karypis, G., & Fayyad, U. (2005). Hierarchical Clustering Algorithms for
Document Datasets. Data Min. Knowl. Discov., 10(2), 141-168.