motoare de cautare

16
Motoare de cautare Masterand: Valerian Stanciu IISC Profesor: Stefan Stancescu

Upload: carina

Post on 23-Feb-2016

45 views

Category:

Documents


0 download

DESCRIPTION

Motoare de cautare. Masterand : Valerian Stanciu IISC Profesor : Stefan Stancescu. 1. I ntroducere 2. Motoare de cautare 3. Web Crawling 4 . Indexare Web 5 . Interogari de cautare Web 6. Concluzii. CUPRINS. Software proiectat pentru cautare de informatii pe WWW - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Motoare  de  cautare

Motoare de cautare

Masterand: Valerian StanciuIISC

Profesor: Stefan Stancescu

Page 2: Motoare  de  cautare

2

CUPRINS

1. Introducere2. Motoare de cautare3. Web Crawling4. Indexare Web5. Interogari de cautare Web6. Concluzii

Page 3: Motoare  de  cautare

3

1. IntroducereSoftware proiectat pentru cautare de

informatii pe WWWPagini web, imagini, etcInitial cautau in site-uri FTP (fisiere share-

uite)Faciliteaza accesul si cautare ape InternetArchie: primul motor de cautare (Alan Emtage,

1990)Operatori booleeni: OR, AND, NOT

Page 4: Motoare  de  cautare

4

2. Motoare de cautare

Page 5: Motoare  de  cautare

5

Arhitectura unui motor de cautare

Proces front-end: se introduc cuvintele cheie, se parseaza cererea intr-o forma inteleasa de motorul de cautare, se cauta prin fisierele indexate, se returneaza rezultate, conform rankingului

Proces back-end: un spider realizeaza crawling, sunt parsate paginile si stocate sub forma de indecsi

Page 6: Motoare  de  cautare

6

Functionarea motoarelor de cautare

Stocheaza informatii despre multe pagini Web, regasite in codul HTML

Efectivitate: calitatea rezultatelorEficienta: timp de raspuns si cantitatea

rezultatelorCrawling, indexare, cautare

Page 7: Motoare  de  cautare

7

Functionarea motoarelor de cautare

Un crawler (spider) cauta paginileContinutul paginilor este parsat (titlurile

paginilor, continut, heading-uri, URL-uri, meta-tag-uri)

Indexul ajuta la gasirea rapida a informatiilor

Noi procese de crawling se fac periodic sau in timp real

Page 8: Motoare  de  cautare

8

3. Crawling

Page 9: Motoare  de  cautare

9

CrawlingDificultati in construirea unui crawler cu

adevarat eficient: design, I/O, robustete, flexibilitate

Detaliile acestora sunt pastrate secreteSe cauta cuvintele din pagina si locul unde au

fost gasitePuncte de plecare: servere foarte populare

Page 10: Motoare  de  cautare

10

CrawlingPolitica de selectie: care paginiPolitica de revizitare: cat de desPolitica de “politete”: pentru a evita

suprasolicitare paginilor prin cautarea URL-urilor

Politica de paralelizare: coordonarea crawler-elor distribuite

2005: 40-70% din Web era indexat

Page 11: Motoare  de  cautare

11

CrawlingParcurgere in latime (Breadth-first search):

Sunt parcurse intai nodurile de la nivelul curentPrin vizitarea unui link, se obtine acces la vecinii

acestuiaNu diferentiaza in functie de subiect sau calitate

Metoda PageRankInventata de Larry PageOfera ponderi link-urilor dintr-un set (WWW) pentru a

masura importanta relativaPageRank-ul unei pagini Web: probabilitatea ca printr-

un click random in WWW sa se acceseze acea pagina

Page 12: Motoare  de  cautare

12

4. IndexareColectarea, parsarea si stocarea datelorMajoritatea motoarelor de cautare: indexare

in intregime a textului documentelorIndexare: documente text, audio, video,

grafice, etcMetasearch engine: cauta in mai multe

motoare; nu stocheaza indecsi localiIndexare reduce foarte mult timpul de

cautare

Page 13: Motoare  de  cautare

13

Indexare inversata

Poate determina doar daca un cuvant se afla intr-o pagina web, nu ofera ranking documentelor gasite

Indexul inversat: matrice bidimensionala sparse (imprastiata)

O forma de hash table

Cuvinte Documente

Vaca Documentul 1, Documentul 3, Documentul 7

face Documentul 2, Documentul 4

muu Documentul 5

Page 14: Motoare  de  cautare

14

Indexare directa

Este mai bine sa se stocheze direct cuvintele din fiecare document

Este o lista de perechi documente-cuvinteAcest index se poate transforma in index inversat

prin gruparea perechilor dupa cuvinte

Document Cuvinte

Documentul 1 Vaca, face, muu

Documentul 2 Pisica, si, palaria

Documentul 3 Ana, are, mere

Page 15: Motoare  de  cautare

15

5. Interogari de cautare WebInterogari introduse de utilizatori in motoare

de cautare pentru a regasi informatii pe WWW

Pot avea operatori booleeni (AND, OR, NOT)Interogari informationale: subiect largInterogari navigationale: o pagina Web anumeInterogari tranzactionale: intentia de a indeplini o actiuneInterogari de conectivitate: referitoare la conectivitatea

grafului web indexat

Page 16: Motoare  de  cautare

16

6. ConcluziiO mica parte de termeni sunt folositi la

majoritatea cautarilorLungimea medie a interogarilor cresteGoogle ramane lider de piata (82.80% in

2011)Motoarele de cautare raman principala

“unealta” de navigare pe Internet SEO – Search Engine Optimization