internet-glosar de termeni uzuali

Cuprins

Glosar de termeni

Backlinks (Linkuri Inbound)

Linkuri (legături) provenite de la o altă pagina web către pagina proprie.

Cloaking

Modalitate prin care se serveste o versiune a unei pagini către un vizitator uman şi o versiune

diferită motoarelor de căutare.

Crawler (Spider)

Motoarele de căutare folosesc "crawlere" pentru a trece de la o pagină web la alta prin linkuri

întîlnite în pagini. Paginile descoperite sunt apoi indexate pe baza unui algoritm şi indexate în baza de

date.

Cuvînt cheie (Keyword)

Un cuvînt sau frază introdus în motoarele de cautare cu scopul de a găsi cele mai relevante

pagini web ce contin acest cuvant/fraza. O pagina web trebuie optimizata pentru aceste cuvinte cheie.

Index

Lista paginilor web indexate de un motor de cautare.

Linkuri Outbound

Linkuri din propria pagina către alte pagini web.

PageRank (PR)

O valoare (intre 1 si 10) atribuită de către Google fiecarei pagini web din baza de date.

PageRank-ul este calculat de către Google folosind un algoritm matematic, bazat pe numarul si

calitatea (determinata de acelasi motor de cautare) linkurilor către pagina respectiva.

PPC (Pay Per Click)

O modalitate de promovare a unui site (de obicei prin intermediul unui motor de cautare) ce

consta în plasarea unui link si o scurta descriere în SERP, alaturi de rezultatele "naturale". Aceste

linkuri sunt plasate separat, de obicei în partea dreapta. plata se face în functie de numarul de clickuri.

Robot

Un robot este un program care ruleaza automat si indeplineste o anumita sarcina fara interventie

umana si care stie sa reactioneze în diferite situatii. Un exemplu de robot este webcrawler-ul (program

folosit de motoarele de cautare pentru a descoperi noi pagini web).

SEO (Search Engines Optimization)

Optimizarea pentru motoarele de căutare. Se referă la optimizarea unui site web în vederea

obţinerii unui maxim de vizibilitate în motoarele de căutare.

SEM (Search Engines Marketing)

Marketing pentru motoarele de căutare. Totalitatea acţiunilor întreprinse pentru a atrage cît mai

mulţi vizitatori - potenţiali clienţi prin intermediul motoarelor de căutare.

SERP (Search Engine Results Pages)

Paginile cu rezultatele căutarii după un anumit cuvînt cheie. Se referă la rezultatele afişate de

motoarele de căutare în formatul ales de utilizator, ţinînd cont de opţinunile personale setate de acesta.

Taguri Alt

Scurt atribut al unei imagini. Textul afişat la pozitionarea cursorului peste o imagine. Acest text

este afisat în locul imaginii atunci cînd browserul este setat să nu afişeze imaginile dintr-o pagina web.

Tag-urile ALT (provenit din alternative) sunt utile atat vizitatorilor cît şi motoarelor de căutare.

Taguri Meta (Meta Tag)

O eticheta pentru documentele HTML, cu informaţii referitoare la acea pagina web. Tagurile

Meta nu afecteaza modul în care pagina este afisata, în schimb stocheaza informaţii precum autorul

paginii, data ultimei actualizari, limba în care este scrisa pagina, o descriere sumara a paginii precum si

cuvinte cheie pentru continutul paginii. Unele motoare de cautare folosesc informaţiile din meta pentru

a indexa paginile web.

Introducere

Societatea informaţională este societatea în care producerea şi consumul de informaţie este cel

mai important tip de activitate, informaţia este recunoscută drept resursă principală, tehnologiile

informaţiei şi comunicaţiilor sînt tehnologii de bază, iar mediul informaţional, împreună cu cel social şi

cel ecologic – un mediu de existenţă a omului.

Societatea informaţională reprezintă o nouă etapă a civilizaţiei umane, un nou mod de viaţă

calitativ superior, care implică folosirea intensă a informaţiei în toate sferele activităţii şi existenţei

umane. Societatea informaţională permite accesul larg la informaţie ai membrilor săi, un nou mod de

lucru şi de cunoaştere.

În secolul XX, cel mai mare eveniment tehnologic şi social în acelaşii timp a fost apariţia

Internetului. Drăgănescu [1] afirmă că „în esenţă societatea informaţională este societatea care se

bazează pe Internet”. Web-ul a devenit un nou mediu de publicare a informaţiei. Site-urile web sînt

folosite pentru a promova companiile şi produsele sale, presta servicii şi informaţii, facilita

comunicarea.

Motoarele de căutare sunt unele dintre cele mai populare destinatii de pe Web iar acest lucru

este de înteles, având în vedere cantitatile vaste de informaţii aflate la dispoziţia utilizatorilor şi nevoia

de ajutor în filtrarea conţinutului online. Rezultat al unor realizări tehnice semnificative, motoarele de

căutare sunt totodată înrudite cu procese sociale şi institutii care influenţează felul lor de funcţionare şi

utilizare.

Motoarele de căutare sunt printre cele mai accesate site-uri. Milioane de oameni recurg la ele

pentru a găsi continuturi în fiecare zi, introducând miliarde de termeni de căutare în fiecare luna. De

fapt, folosirea motoarelor de căutare rivalizează cu ail-ul pentru cea mai comună activitate întreprinsă

de utilizatorii de Internet. Oamenii se îndreaptă zi de zi către motoarele de căutare pentru a găsi

informaţii despre evenimente actuale, preocupări legate de sănătate, produse, servicii guvernamentale,

dezastre naturale, noii lor vecini, posibili angajaţi sau parteneri, şi o multitudine de alte subiecte,

variind de la mondene pâna la cele mai serioase. Cu toate acestea, în afara rolului lor central în

accesarea informatiei, puţine cercetari din domeniul optimizării şi promovării paginilor web s-au axat

pe dimensiunile non-tehnice ale motoarelor de căutare, pe companiile care le gestionează sau pe

practicile utilizatorilor care se bazeaza pe ele.

Un asemenea demers trebuie sa fie un efort interdisciplinar, datorită multiplelor dimensiuni ale

întrebărilor relevante, variind de la cine foloseşte motoare de căutare şi în ce scopuri până la distribuţia

abilităţilor necesare pentru utilizarea motoarelor de căutare, precum şi dacă tot conţinutul are şanse

egale de a fi inclus în listele de rezultate ale acestor instrumente sau dacă ele pot fi manipulate. În mod

deloc surprinzător, aria largă de problematici ridicate de motoarele de căutare atrage diverse grupuri de

cercetători[3].

Ce ştim deja? Graţie cercetărilor existente ştim că folosirea motoarelor de căutare e una dintre

activităţile favorite ale utilizatorilor de Internet[4]. Mai ştim şi că, atunci când sunt întrebaţi despre

abilităţile lor de căutare, mulţi utilizatori au tendinţa să fie încrezători în sine, deşi cercetări asupra

comportamentului persoanelor care caută informaţii online tind să observe discrepanţe în functie de

atributele utilizatorilor. Totodată, jurnalele căutărilor sugerează că majoritatea utilizatorilor nu au o

abordare prea sofisticată a actului de căutare, ci adesea se rezumă la a folosi doar unu sau doi termeni

pentru căutare.

În ceea ce priveste rolul motoarelor de căutare în canalizarea atentiei utilizatorilor, deşi

cercetatorii au început sa ia în considerare posibilele implicatii cruciale ale acestor servicii cu ani în

urma, puţine lucrări empirice au urmat pentru a examina gradul în care motoarele de căutare pot sau nu

să discrimineze între anumite tipuri de conţinut, favorizându-le, poate în mod injust, pe unele. Câteva

studii de caz au examinat cenzura anumitor tipuri de materiale, în special privind contexte naţionale,

din partea unora dintre motoare, dar există puţine lucrări sistematice care să analizeze materialele mai

puţin controversate şi respectiv şansele lor de a fi incluse.

Noile tendinţe arată că piaţa motoarelor de căutare se restrânge, şi mai puţini jucatori importanţi

ca niciodată ghideaza comportamentul online al utilizatorilor. Acest lucru sugerează ca deciziile luate

exclusiv de puţinii jucători din acest peisaj pot avea repercusiuni considerabile asupra materialelor care

sunt cu adevărat la îndemâna utilizatorilor. În consecinţă, o analiză critică asupra factorilor care

determină criteriile de includere şi excludere a rezultatelor căutării, precum şi asupra felului în care

utilizatorii le abordează devine din ce în ce mai importantă pentru a întelege mai bine cum accesul

utilizatorilor la conţinut e mediat de o mînă de servicii comerciale.

Acest studiu serveşte ca un îndrumar pentru optimizarea şi promovarea site-urilor în motoarele

de căutare. Concluziile deduse sunt bazate pe o cercetare şi culegere a datelor independentă. Din cauza

naturii proprii a relevanţei algoritmilor motoarelor de căutare, procesele evidenţiate pot să nu

încorporeze toate tehnicile de optimizare şi de spam.

Metoda de cercetare

În acest capitol este descrisă metodologia de cercetare. La început se explică alegerea unei

multiple cercetări pe o perioadă de timp. Mai tîrziu se elucidează conceptele teoretice. Întrebările

apărute în timpul cercetării sunt realizate operaţional în practică.

Abordarea cercetării

Primul pas în modelarea cercetării empirice a fost alegerea unei strategii generale de colecţie a

datelor. Din toate strategiile posibile ca studiile de caz, experimentele, analiza arhivelor şi

chestionarele, diferite opţiuni pot fi considerate utile. Este ştiut faptul că alegerea strategiei de cercetare

este bazată pe stabilirea a minimum trei ipoteze (condiţii) de cercetare, care la rîndul lor trebuie să aibă

o legătură explicită cu teoriile din partea teoretică. De asemenea, ipotezele nu trebuie să se suprapună,

trebuie să fie într-un raport de excluziune una faţă de cealaltă. În următoarele subcapitole vor fi

analizate trei ipoteze de cercetare ţînînd seama de premisele şi scopurile studiului cercetării, întrebări şi

mediu. Într-u realizarea acesteia, voi explica treptat de ce abordarea studiilor de caz este cea mai

potrivită.

În primul rînd, diferite întrebări de cercetare (cum?, de ce?, cine?, ce?, unde?, cîte?, cît de

mult?) în majoritatea cazurilor se referă la diferite strategii de cercetare. Întrebările utilizate în această

cerctare sunt de genul “cum?”, “cît”, “cît de mult” şi “în ce condiţii?”. Pentru aceste tipuri de întrebări

de cercetare, se consideră chestionarele, analiza arhivelor şi studiile de caz ca fiind strategii de

cercetare similare. În altă ordine de idei, datorită informatizării, mediul virtual în care are loc studiul,

denotă faptul că chestionarele nu sunt o opţiune realizabilă.

A doua condiţie ce determină potrivirea diferitelor strategii de cercetare este nivelul de control

al cercetătorului asupra comportamentului evenimentelor. Experimentele sunt realizate de obicei cînd

cercetătorul poate manipula variabilele independente într-o manieră directă, precisă şi sistematică. E

dificil, de exemplu, sa studiem zona de acoperire a motoarelor de căutare deoarece o selectie la

întâmplare a site-urilor e imposibila, datorită faptului ca nu dispunem de o listă comprehensiva a

tuturor site-urilor existente. Deoarece motoarele de căutare ţin în confindenţialitate algoritmii lor de

căutare şi mai mult, ansamblul de factori utilizaţi în algoritmii lor este pasibil unor schimbări continue

şi obscure, este imposibil să ştim ce este şi ce nu este acoperit de diversele servicii. De asemenea este

practic imposibil de a simula situaţiile actuale de cercetare într-un mediu controlabil. De fapt, în

anumite cazuri, rezultatele variaza în functie de utilizator şi localizarea acestuia, astfel încât, un studiu

efectuat pe un dispozitiv, într-o locatie şi de către un anumit utilizator, poate fi imposibil de reprodus

pe un alt dispozitiv, în alte circumstante, chiar şi la puţin timp dupa căutarea initiala. Acest lucru pune

probleme semnificative pentru reproducerea rezultatelor cautarii, principiu de baza al cercetarii

stiintifice. De asemenea, atît timp cît scopul principal al acestei cercetări este de a asigura specialiştii IT

şi marketologii cu cunoştinţe practice, este de a duce această cercetare în mediul actual al paginilor

web, sau altfel spus în Internet. Luînd toate aceste în consideraţie, experimentul pare a nu fi o strategie

potrivită de cercetare pentru acest studiu.

A treia condiţie care ar trebui de luat în consideraţie în determinarea strategiei de cercetare este

concentrarea asupra evenimenteleor curente. În acest caz, această condiţie favorizează în particular

utilizarea unui studiu de caz. Deoarece istoria motoarelor de căutare este relativ scurtă şi întrebuinţarea

şi caractersiticele motoarelor de căutare s-au schimbat de la prima apariţie a lor, datele şi documentele

istorice sunt insuficiente. Mai mult, deoarece această cercetare utilizează combinaţii de date noi şi

specifice atît asupra site-urilor web, cît şi motoarelor de căutare, ar fi dificil de găsit aceste combinaţii

în arhive.

În concluzie, s-a constatat că, avînd condiţiile particulare ale acestei cercetări putem spune că

abordarea stiudiului de caz este cea mai potrivită alegere; este potrivită pentru întrebările de cercetare,

culegerea de experimente nefiind o opţiune reală şi caracterul modern al cercetării face dificilă

utilizarea arhivelor.

Provocări metodologice

Toate domeniile se confrunta cu provocari metodologice, dar şi noile arii de cercetare trebuie sa

abordeze teren neexplorat, ceea ce adauga complexitate demersului lor. Exista puţine date necesare

pentru a examina chestiuni importante privind aspectele sociale ale motoarelor de căutare, în pofida

faptului ca motoarele însele genereaza seturi voluminoase de date bazate pe jurnalul actiunilor

efectuate de utilizatori. Motivele pentru care exista puţine date rezultate din cercetari academice sunt

diverse, iar acestea includ restrictii impuse de drepturile de proprietate precum şi alti factori discutati

mai jos.

Companiile care gestioneaza motoare de căutare au cantitati enorme de date despre utilizarea

serviciilor lor, dar aceste date sunt în general cu drept de proprietate şi sunt rareori puse la dispozitia

cercetatorilor. Companiile sunt foarte preocupate sa tina sub anonimat aceste date, proces nu fara

însemnatate şi care necesita eforturi considerabile. De exemplu, în 2006, cercetatori de la AOL au facut

public un set de date aparent anonime care continea peste 20 de milioane de termeni de căutare

introdusi de peste 650000 de utilizatori, în decursul a trei luni pentru a folosi drept resurse comunitatii

non-comerciale, în scopuri de cercetare. [4]

Totuşi, datorită detaliilor din setul de date (inclusiv numere de identificare atasate fiecarei

cautari), o analiză a condus la identificarea unora dintre utilizatori. Având în vedere reactiile

controversate şi repercusiunile acestui caz, e chiar mai puţin probabil ca pe viitor asemenea informaţii

sa mai fie puse de către companii la dispozitia cercetatorilor.

Chiar daca jurnalele de cautari ar fi mai lesne accesibile, tot ar exista limite referitor la câte am

putea afla despre utilizatori doar din studierea acestora. Asemenea date sunt rareori însotite de tipuri de

covariabile despre atributele utilizatorilor care fac posibile anumite tipuri de analiza minutioasa. Mai

mult, datorită faptului ca utilizatorii nu sunt distribuiti la întâmplare pe motoare de căutare, daca avem

informaţii despre utilizatorii unui site, nu înseamna ca putem neaparat sa generalizam la toti utilizatorii

de Internet.

La un nivel diferit al analizei - atunci când studiul se concentreaza pe motorul de căutare

cercetatorii se confrunta cu alte provocari. E dificil, de exemplu, sa studiem zona de acoperire a

motoarelor de căutare deoarece o selectie la întâmplare a site-urilor e imposibila, datorită faptului ca nu

dispunem de o listă comprehensivă a tuturor site-urilor existente.

Scopul acestei cercetări este de a dezvolta o mai bună viziune a efectelor cauzate de unii factori

ai site-urilor în listarea lor ulterioară pe primele pagini rezultate din motoarele de căutare.

Motoarele de căutare

Importanţa motoarelor de căutare în Internet este similară ca acea a sistemelor de operare pentru

calculatoare.

Problema principală în Internet nu o mai reprezintă accesul la informaţie ci modul în care

aceasta este filtrată şi selectată în mod optim. Deoarece Internetul este un vast rezervor de informaţie

care nu beneficiază de un bibliotecar sau catalog, o importanţă crescânda în selectarea informaţiilor o

au serviciile de căutare. Statisticile arată că peste 80% din totalul de trafic către site-uri în Internet este

generat de motoarele de căutare. Dacă 8 din 10 utilizatori apelează la un serviciu de căutare pentru a

găsi informaţiile dorite, acelaşii numar de utilizatori se declară frustraţi de inabilitatea de a le obţine.

De aici importanţa crescânda în selectarea informaţiilor atât a serviciilor de căutare cât şi a filtrării

conţinutului informaţional de către utilizator, subiecte tratate în prezenta lucrare.

Motoarele de căutare indexează miliarde de pagini web, implicînd un număr echivalent de

termeni distincţi. Acestea răspund la zeci de milioane de întrebari în fiecare zi[6].

Web-ul creeaza noi provocări pentru obţinerea de informaţii. Cantitatea de informaţii de pe web

creşte într-un ritm alert, pe măsura numărului de noi utilizatori lipsiţi de experienţă în arta căutarii pe

web. De obicei, oamenii navigheaza pe web folosind graficul acestuia de link-uri, adeseori incepand cu

indici superiori calitativ, mentinuti de interventia umana, cum ar fi Yahoo! sau cu motoare de căutare.

Listele unde intervine mintea umana acopera subiecte diverse şi populare, dar sunt subiective,

costisitoare de intretinut şi mentinut, greu de imbunatatit şi nu pot acoperi toate subiectele ce tin de

domenii specializate (ezoterice). Motoarele de căutare automate, care se bazează pe potrivirea de

cuvinte-cheie, oferă, în mod obişnuit, prea multe rezultate neconcludente.

Motorul de căutare Google

Motorul de căutare Google este caracterizat de două trăsături importante care ajuta la producerea

de rezultate cu un grad ridicat de precizie. În primul rand, Google se foloseşte de structura de link-uri a

Web-ului pentru a calcula un indice calitativ al fiecarei pagini web. Această estimare a nivelului

calitativ se numeste PageRank. În al doilea rînd, Google utilizează link-urile pentru a îmbunătăţi

rezultatele căutarii.

Modul de funcţionare al sistemului

Este important pentru un motor de căutare să parcurga şi să indexeze eficient. Astfel, informaţia

poate fi permanent actualizată şi modificările majore aduse sistemului pot fi testate relativ repede.

Pentru Google, operaţiunile importante sunt Crawling (parcurgerea), Indexing (indexarea) şi Sorting

(sortarea). Este dificil de masurat cat a durat crawling-ul în total din cauza ca discurile au fost în

intregime completate, numele serverelor nu mai sunt functionale sau din cauza oricarei probleme care

putea determina oprirea sistemului.

Google este proiectat sa fie un motor de căutare scalabil. Scopul principal este acela de a oferi

rezultate de calitate pe fondul dezvoltarii rapide a World Wide Web. Google foloseste o serie de tehnici

pentru ameliorarea calitatii cautarii incluzand PR, textul link-ului şi alte informaţii apropiate. Mai

departe, Google reprezinta o arhitectura completa pentru adunarea paginilor web, indexarea lor şi

efectuarea de interogari asupra lor.

Cea mai mare problema cu care se confrunta astazi utilizatorii de motoare de căutare o

reprezinta calitatea rezultatelor pe care le primesc. Pe cand rezultatele sunt deseori amuzante şi largesc

orizontul utilizatorului, ele pot deveni şi frustrante şi pot consuma timp pretios. Google este destinat sa

ofere rezultate de o calitate superioara astfel incat Web-ul sa continue sa se dezvolte rapid, iar

informaţia sa poata fi găsita usor. Pentru a putea realiza acest lucru, Google utilizeaza frecvent

informaţia hipertextuala ce consta din structura de link-uri şi din textul link-urilor. Google foloseşte de

asemenea aproximarea şi informaţia despre fonturi. Analiza structurii de link-uri prin PageRank

permite Google să evalueze calitatea paginilor web. Utilizarea textului link-ului ca o descriere a ceea ce

indica link-ul contribuie la relevanţa si, intr-o anumita masura, la inaltul standard calitativ al

rezultatelor. în cele din urma, utilizarea unor informaţii asemanatoare ajuta la marirea gradului de

relevanţa al multor interogari.

Relevanţa rezultatelor şi PageRank-ul

Page Rank-ul este o notă virtuală pe care o are fiecare pagina în Google pentru a determina

relevanţa ei. Este clar ca o pagina cu multe link-uri care trimit la ea este o pagina importanta. Page

rank-ul unei pagini este dat de numărul de pagini care trimit la ea, de valoarea lor, şi de numarul de

link-uri de pe paginile respective.

Graficul de link-uri al web-ului este o resursa importanta care a ramas în mare parte neutilizata de

motoarele de căutare. Sun realizate hărţi continînd nu mai puţin de 518 milioane din aceste hyperlink-

uri, o mostra semnificativa a totalului. Aceste hărţi permit calcularea rapidă a PageRank-ului unei

pagini web, o măsura obiectivă a importanţei link-urilor care corespunde cu ideea subiectivă de

importanţă a oamenilor. Datorită acestei corespondenţe, PageRank-ul reprezintă o metodă excelentă de

stabilire a gradului de importanţă a rezultatelor căutărilor bazate pe cuvinte cheie. Pentru cele mai

populare subiecte, un text simplu care se potriveste cu căutarea şi care este limitat la titluri ale paginii

web este foarte bine reprezentat atunci cand PageRank stabileşte importanţa rezultatelor. Pentru

căutarile ce au la baza un text integral în sistemul principal Google, PageRank-ul este, de asemenea, de

mare ajutor.

Descrierea calculului PageRank

Literatura de specialitate referitoare la link-uri a fost raportata la web, în general prin

numerotarea link-urilor sau backlink-urilor unei pagini date. Acest lucru stabileste cu aproximatie

importanta sau calitatea unei pagini. PageRank extinde aceasta idee nu prin efectuarea unei numerotari

a link-urilor din toate paginile, ci prin stabilirea numarului de link-uri dintr-o pagina. PageRank este

definit dupa cum urmează:

Presupunem că pagina A este formata din paginile T1…Tn care se refera la aceasta (adica sunt

link-uri). Parametrul d este un factor de nivelare care se afla intre 0 şi 1. De obicei, stabilim valoarea

0.85 pentru acest factor. Mai multe detalii despre d sunt oferite în sectiunea urmatoare. De asemenea,

C(A) este definit ca un numar de link-uri care nu fac parte din pagina A. PageRank-ul paginii A este

dupa cum urmeaza:

PR(A) = (1-d) + d(PR(T1) / C(T1) + … + PR(Tn) / C(Tn))

Trebuie retinut ca PageRank formeaza o distributie a probabilitatii paginilor web, astfel ca suma

tuturor paginilor web ce tin de PageRank este 1.

PageRank sau PR(A) poate fi calculat utilizand un simplu algoritm repetabil şi care corespunde

principalului vector propriu al matricii link-ului normalizat al web-ului. De asemenea, un PageRank

pentru 26 milioane de pagini web poate fi calculat în cateva ore intr-un punct de lucru de marime

medie. Exista multe alte detalii care depasesc intentia acestei lucrari.

PageRank poate fi considerat un model al comportamentului utilizatorului. Sa presupunem ca

exista un navigator oarecare care viziteaza o pagina web aleasa la intamplare şi care acceseaza link-

urile, fara a reveni la pagina initiala: în cele din urma se va plictisi şi se va orienta spre alta pagina web

aleasa la intamplare. Probabilitatea ca acest navigator sa viziteze o pagina este reprezentata de

PageRank. Iar d, factorul de nivelare, reprezinta probabilitatea ca navigatorul sa se plictiseasca la

fiecare pagina accesata şi sa continue căutarea paginilor la intamplare. O variatie importanta este aceea

de a adauga doar factorul de nivelare d unei singure pagini sau unui grup de pagini. Acest lucru permite

personalizarea şi poate face aproape imposibila inducerea deliberata în eroare a sistemului pentru

obtinerea unui calificativ superior.

O altă explicaţie intuitivă este că o pagină poate avea un PageRank ridicat dacă există mai multe

pagini care fac referire la aceasta sau dacă există cîteva pagini care au un PageRank ridicat şi care o

recomandă. în mod intuitiv, paginile la care se face referire din multe colturi ale web-ului sunt

considerate importante. De asemenea, paginile care probabil au o singura referire de la gazda a Yahoo!

sunt considerate importante. Daca o pagina nu are un nivel calitativ ridicat sau are un link insuficient,

este mai mult decat probabil ca pagina gazda a Yahoo! nu va avea nici un link pentru aceasta.

PageRank face fata ambelor situatii şi chiar mai mult de atat prin propagarea recursiva a gradului de

importanta în intreaga structura de link-uri a web-ului.

Textul link-ului tratat de sistem

Textul link-ului este tratat într-un mod cu totul special de Google. Majoritatea motoarelor de

căutare asociaza textul link-ului cu pagina de care se leaga. în plus, el este asociat cu pagina pe care

link-ul respectiv o indică. Acest sistem prezinta mai multe avantaje. În primul rand, link-urile ofera

deseori descrieri mai precise ale paginilor web decat o fac paginile respective. în al doilea rand, link-

urile pot face referire la documente care nu pot fi indexate de un motor de căutare bazat pe text, cum ar

fi: imagini, programe sau baze de date. Acest lucru face posibila returnarea paginilor web care nici

macar nu au fost parcurse. Trebuie retinut ca paginile care nu au fost parcurse pot cauza probleme din

moment ce nu le-a fost niciodata verificata validitatea inainte de a fi oferite utilizatorului. în acest caz,

motorul de căutare poate oferi o pagina care nu a existat niciodata cu adevarat, dar care are hyperlink-

uri care fac referire la ea. Totusi, este posibil ca rezultatele sa fie sortate, astfel ca aceasta problema

apare rareori.

Ideea corelării textului link-ului cu pagina web la care se referă a fost implementată în World

Wide Web Worm [9], în special pentru că ajută la căutarea informaţiei de tip non-text şi măreşte aria de

acoperire a cautarii prin numarul mai redus de documente descarcate. Folosim propagarea de link-uri

deoarece textul link-ului poate contribui la oferirea de rezultate mai bune. Utilizarea eficienta a text-

ului link-ului este dificila din punct de vedere tehnic din cauza cantitatilor mari de date care trebuie

procesate. în procesul de parcurgere a 24 milioane de pagini, am indexat peste 259 de milioane de link-

uri.

În afara de PageRank şi de utilizarea textului link-ului, Google are şi alte trasaturi. Prima este

aceea ca are informaţii de baza pentru toate cautarile şi astfel utilizeaza, în mod frecvent, proximitatea

în procesul de căutare. A doua se refera la faptul ca Google are în vedere detaliile vizuale ale

prezentarii cum ar fi marimea fonturilor. Cuvintele scrise cu un font mai mare sau cu caractere

ingrosate sunt percepute altfel decat celelalte cuvinte. A treia trasatura este aceea ca se tine o evidenta a

intregului sir al paginilor HTML.

Arhitectura Google

Cea mai mare parte din Google este realizata în C sau C++ pentru eficienta şi poate rula atat în

Solaris, cat şi în Linux.

În Google parcurgerea web-ului (descărcarea de pagini) este făcută de mai multe crawlere

diferite. Exista un server URL care trimite listele de URL-uri ce trebuie găsite de crawlere. Paginile

web care sunt găsite sunt apoi returnate serverului de stocare, care le memoreaza. Acesta comprima

paginile şi le depune intr-o biblioteca. Orice pagina web are un numar de identificare numit docID, care

este oferit ori de cate ori un nou URL este analizat şi extras dintr-o pagina web. Functia de indexare

este realizata de indexer şi de sorter. Indexer-ul indeplineste o serie de functii. Citeste documentele din

biblioteca, decomprima docu-mentele şi le analizeaza. Fiecare document este convertit intr-o serie de

asocieri de cuvinte numite hit-uri. Acestea inregistreaza cuvantul şi pozitia sa în document,

aproximeaza dimensiunea fontului şi tipurile de litere folosite. Indexer-ul distribuie aceste hit-uri intr-o

serie de categorii, creand un index partial dezvoltat de sortare. Indexer-ul mai indeplineste şi o alta

functie importanta. Anali-zeaza toate link-urile din fiecare pagina web şi stocheaza informaţii

importante despre acestea intr-un fisier de link-uri. Acest fisier contine infor-matii suficiente pentru a

stabili unde ne indreapta link-ul respectiv, precum şi textul link-ului.

Figura 2.1 – Arhitectura Google [8]

Sistemul de analizare a URL-urilor citeste fisie-rul de link-uri şi converteste URL-urile relative

în URL-uri absolute si, respectiv, în docID-uri. Plasea-za textul link-ului în indexul initial care este

asociat cu docID-ul la care se refera link-ul. Acesta gene-reaza de asemenea o baza de date de link-uri

care nu sunt altceva decat corespondentele docID-urilor. Aceasta baza de link-uri este folosita pentru

calcu-larea PageRank-urilor pentru toate documentele.

Sorter-ul preia categoriile care sunt sortate de docID şi le clasifica dupa wordID pentru a forma

un index complementar (inverted index). Un pro-gram numit DumpLexicon preia aceasta lista

împreună cu lexiconul produs de indexer şi formeaza un lexicon nou care poate fi utilizat de searcher.

Searcher-ul este rulat de un server şi foloseste lexiconul construit de DumpLexicon împreună cu

indexul complementar şi PageRank pentru a raspunde intrebarilor.

Structurile majore de date ale sistemului

Structurile de date ale sistemului Google sunt optimizate astfel încît o colecţie amplă de

documente poate fi parcursă şi indexată cu puţin efort. Desi CPU-urile şi majoritatea ratelor de input

output s-au imbunatăţit, de-a lungul anilor o simpla căutare pe disc tot necesita 10 ms pentru a fi

realizată. Google este proiectat sa evite acest gen de cautari de cate ori este posibil, iar acest lucru a

avut o influenta considerabila asupra formatului structurilor de date.

Biblioteca motorului de căutare

Biblioteca contine HTML-ul integral al fiecarei pagini web. Fiecare pagina este comprimata

prin folosirea zlib. Optarea pentru o tehnica de compresie reprezinta echilibrul intre viteza şi proportia

comprimarii. Am ales viteza zlib dintr-o serie de imbunatatiri semnificative aduse comprimarii de bzip.

Rata compresiei bzip era de aproximativ 4 la 1 în biblioteca, în comparatie cu zlib care oferea o rata de

3 la 1. în biblioteca, documentele sunt stocate unul dupa altul şi sunt prefixate de docID, precizandu-li-

se lungimea şi URL-ul. Biblioteca nu solicită alte structuri de date care sa fie folosite pentru ca aceasta

sa fie accesata. Acest lucru contribuie la consistenta informatiei usurand dez-vol-tarea; putem

reconstrui toate celelalte struc-turi de date doar din biblioteca şi dintr-un fisier care listeaza erorile

crawler-ului.

Indexul documentelor

Indexul documentelor pastreaza informaţii despre fiecare document. Acesta este un index ISAM

(Index sequential access mode) cu o latime fixa, ordonat de un docID. Informaţia continuta de fiecare

scurta introducere include statutul curent al documentului, un indicator către biblioteca, o evidenta a

documentului şi statistici variate. Daca documentul a fost parcurs atunci contine un indi-cator către un

fisier cu multe variabile numit docinfo şi care cuprinde URL-ul şi titlul docu-mentului. în caz contrar,

indicatorul se indreapta către lista URL-urilor care cuprinde numai URL-uri. Aceasta hotarare de

design a fost luata în confor-mitate cu dorinta de a avea o structura compacta de date, precum şi cu

abilitatea de stabili un record de accesare unica a discului în timpul unei cautari.

În plus, exista un fisier care este folosit în convertirea URL-urilor în docID-uri. Acesta contine

o lista cu URL-uri împreună cu docID-ul cores-pun-zator şi este sortat de suma de control. Pentru a

găsi docID-ul unui anume URL, suma de control a URL-ului este calculata şi o căutare binara este

realizata pe fisierul de sume de control pentru identificarea docID-ului. URL-urile pot fi convertite în

docID-uri luand mai multe simultan prin alipirea la acest fisier. Aceasta este tehnica pe care cel ce

solutioneaza URL-uri o foloseste pentru a trans-forma URL-urile în docID-uri. Aceasta metodă de

abordare este importanta pentru că altfel trebuie sa efectuăm o căutare pentru fiecare link care, ţinand

cont de disc, ar dura mai mult de o luna pentru o bază de 322 milioane de link-uri.

Listele de hit-uri

O listă de hit-uri corespunde unei liste de aparitii ale unui anumit cuvant intr-un document,

incluzand informaţii despre pozitia, fontul şi tipul de litera folosit. Listele de hit-uri explica cea mai

mare parte a spatiului utilizat atat în indicele primar (forward index), cat şi în indicele comple-mentar

(inverted index).

Din aceasta cauza, este important sa le repre-zentam cat mai eficient posibil. Am luat în calcul

mai multe alternative pentru pozitia de codificare, font şi tipul de litera – codificarea simpla (un grup de

trei numere inetgrale), codificarea compacta (o serie de biti optimizati manual) şi codificarea

Huffmann. în final, am ales codificarea compactă optimizată manual deoarece necesită de departe mai

puţin spaţiu decat codificarea simplă şi mult mai puţina manipulare a biţilor decat codificarea

Huffmann.

Codificarea compactă foloseşte doi biţi pentru fiecare hit. Există doua tipuri de hit-uri: hit-uri

complexe (fancy hits) şi hit-uri simple (plain hits). Hit-urile complexe includ aparitia hit-urilor intr-un

URL, titlu, textul link-ului sau meta tag. Hit-urile simple includ restul. Un hit simplu consta dintr-un bit

referitor la tipul de litera, marimea fontului şi 12 biti de pozitii ale cuvantului intr-un document (toate

pozitiile ce depasesc 4095 sunt catalogate 4096). Marimea fontului este reprezentata relativ fata de

restul documentului utilizand 3 biti (doar 7 valori sunt de fapt folosite deoarece 111 este simbolul care

semnaleaza aparitia unui hit com-plex). Un hit complex consta intr-un bit referitor la tipul de litera,

marimea fontului este setata la 7 pentru a indica ca este vorba de un hit complex, 4 biti pentru

codificarea tipului de hit complex şi 8 biti de pozitie. Pentru hit-urile de tip anchor, cei 8 biti ai pozitiei

sunt impartiti în 4 biti pentru pozitie în link şi 4 biti pentru continutul docID-ului în care link-ul apare.

Aceasta ne ofera o sintagma redusa de căutare din moment ce nu exista multe link-uri pentru un anumit

cuvant. Trebuie sa actualizam metoda de stocare a hit-urilor anchor pentru permiterea unei rezolutii

mai mari în cadrul pozitiei şi campurilor de docID-uri. Folosim mari-mea fontului în legatura cu restul

documentului deoarece, atunci cand cautam, nu dorim listarea diferita a unor documente identice doar

pentru ca unul din documente este scris cu un font mai mare.

Lungimea unei liste de hit-uri este stocata inainte chiar de hit-urile în sine. Pentru a economisi

spatiu, lungimea listei de hit-uri este combinata cu wordID-ul în indexul primar şi cu docID-ul în

indexul complementar. Acest lucru o limiteaza la 8 şi respectiv 5 biti (exista o serie de trucuri care

permit ca 8 biti sa fie imprumutati din wordID). Daca lungimea este mai mare şi nu se poate incadra în

respectivii biti, atunci un cod de rezerva este folosit în acesti biti, iar urmatorii 2 biti vor contine

lungimea actuala.

Indexul primar al paginilor Web

Indexul primar este deja parţial sortat şi este stocat intr-o serie de categorii (am folosit 64).

Fiecare categorie contine o serie de wordID-uri. Daca un document contine cuvinte care tin de un

anumit barrel, docID-ul este intregistrat în cate-gorie urmat de o listă de wordID-uri cu liste de hit-uri

care corespund cuvintelor respective. Aceasta schema necesita mai mult spatiu de stocare din cauza

docID-urilor duplicate, dar diferenta este foarte mica pentru un numar considerabil de categorii şi

economiseste timp şi complexitate de codificare în faza finala de indexare făcută de sorter. Mergand

mai departe, în loc de a stoca wordID-urile actuale, stocam fiecare wordID ca o diferenta relativa de la

wordID-ul minim care se gaseste în categoria în care se afla şi wordID-ul. Astfel, putem folosi 24 biti

pentru wordID-uri în categorii nesortate, lasand 8 biti pentru lungimea listelor de hit-uri.

Indexul complementar al paginilor Web

Indexul complementar constă din aceleasi categorii ca şi indexul primar, cu diferenta ca aces-tea

au fost procesate de sorter. Pentru fiecare wordID valid, lexiconul contine un indicator către categoria

în care wordID-ul este inclus. Acest indicator se refera la o listă de docID-uri luate împreună cu listele

de hit-uri corespunzatoare. Aceasta listă reprezinta toate aparitiile acelui cuvant în toate documentele.

Pentru a pacurge sute de milioane de pagini web, Google are un sistem rapid (fast distributed

crawling). Un singur server URL ofera liste de URL-uri unui numar de crawlers (in general folosim în

jur de 3). Atat server-ul URL, cat şi crawler-ele sunt realizate în Python. Fiecare crawler tine în jur de

300 de conexiuni (connections) deschise simultan. Acest lucru este necesar pentru regăsirea paginilor

web la o viteza suficient de rapida. La viteze mari sistemul poate sa parcurga peste 100 de pagini pe

secunda utilizand 4 crawlere. Acesta se ridica la aproximativ 600K de date pe secunda. O actiune

importanta este reprezentata de verificarea DNS. Fiecare crawler mentine un cache DNS propriu, astfel

ca nu este nevoie sa se faca un control DNS inainte de parcurgerea fiecarui document. Fiecare dintre

sutele de conexiuni se poate afla în stadii diverse: verificarea DNS, conectarea la gazda, transmiterea

solicitarilor şi primirea raspunsurilor. Acesti factori fac din crawler o componenta complexa a

sistemului. Acesta foloseste IO asincron pentru a face fata solicitarilor şi un numar de secvente pentru

mutarea preluarilor de pagini din sectiune în sectiune.

Se adevereste astfel că rularea unui crawler care se conecteaza la mai mult de jumatate de

milion de servere şi care genereaza zeci de milioane de fisiere jurnal implica o cantitate considerabila

de e-mailuri şi apeluri telefonice. Datorită numarului mare de persoane care sunt online, exista

intotdeauna aceia care nu stiu ce este un crawler deoarece acesta este primul pe care il vad. Datorită

variatiei ridicate în paginile web şi în servere, este practic imposibil sa testezi un crawler fara sa-l rulezi

pe o parte considerabila a Internetului. Invariabil, apar sute de probleme obscure care se pot ivi pe o

singura pagina din tot web-ul şi pot cauza distrugerea crawler-ului sau mai rau, poate cauza o reactie

imprevizibila sau incorecta. Sistemele care acceseaza parti mari din Internet trebuie sa fie foarte solide

şi testate cu multa atentie. Din moment ce sistemele complexe cum sunt crawler-ele vor duce în mod

invariabil la aparitia problemelor, trebuie sa existe resurse semnificative dedicate citirii de e-mail-uri şi

rezolvarii problemelor din momentul în care acestea apar.

Porcesul de căutare

Scopul căutarii este acela de a oferi rezultate concludente în timp util. Multe dintre motoarele de

căutare comerciale par sa fi facut progrese considerabile din punct de vedere al eficientei. De aceea, ne

concentram mai mult pe calitate în cercetarea noastra, desi suntem de parere ca solutiile noastre se afla,

cu puţin mai mult efort, în progresie cu volumele comerciale. Procesul de evaluare al unei interogari

Google este indicat de Figura 4.

Pentru marcarea unei limite a timpului de raspuns, odata ce un anumit numar de documente care

se potrivesc cu interogarea (40.000 de obicei) este găsit, cel care a initiat căutarea poate merge direct la

punctul 8 din Figura 4. Aceasta inseamna ca este posibil ca rezultate neconcludente sa fie oferite în

schimb. în prezent, investigam alte metode pentru rezolvarea acestei probleme. în trecut, am sortat hit-

urile în concordanta cu PageRank, lucru care pare sa fi imbunatatit situatia.

Sistemul de clasificare al paginilor Web

Google păstreaza mult mai multe informaţii despre documentele web decat motoarele tipice de

căutare. Fiecare listă de hit-uri include pozitia, fontul şi informaţii despre tipul de litera folosit. în plus,

luam în calcul hit-urile dupa textul link-ului şi PageRank-ul documentului. Combinarea tuturor acestor

informaţii intr-un singur rezultat este dificila. Am conceput functia de ordonare astfel incat nici un

factor particular sa nu aiba o influenta prea mare. Sa luam mai intai cazul cel mai simplu - o interogare

cu un singur cuvant.

Pentru afisarea unui document folosind o interogare cu un singur cuvant, Google parcurge toate

listele de hit-uri ale documentului pentru cuvantul respectiv. Google considera fiecare hit ca apartinand

unuia dintre diversele tipuri (titlu, link, URL, fonturi mari şi fonturi mici de text simplu etc.), fiecare

dintre acestea avand grade diferite de importanta în functie de tipul din care face parte. Aceste grade de

importanta formeaza un vector indexat în functie de tip. Google numara hit-urile fiecarui tip din listă de

hit-uri. Apoi fiecare pozitie este reorganizata intr-un clasament în functie de importanta. Gradele de

importanta cresc liniar în functie de primele pozitii, dar se reduc repede astfel incat este relevant numai

un anume numar de aparitii. Este preluat produsul scalar al vectorului de ponderi de aparitii împreună

cu vectorul de ponderi de tipuri pentru a calcula un scor IR al documentului. în final, scorul IR este

combinat cu PageRank pentru a oferi un rezultat final al documentului.

Pentru o interogare alcatuita din mai multe cuvinte, situatia este şi mai complicata. în acest caz,

listele multiple de hit-uri trebuie parcurse simultan astfel incat hit-urile care sunt apropiate intr-un

document sunt plasate pe pozitii superioare fata de cele care sunt departate unele de altele. Hit-urile din

listele multiple sunt potrivite astfel incat hit-urile apropiate sunt puse împreună. Pentru fiecare set de

potriviri de hit-uri, se calculeaza o apropiere. Aceasta apropiere se bazeaza pe cat de departate sunt hit-

urile în cadrul documentului (sau link-ului), dar este clasificata în 10 clase cu valori diferite, mergand

de la o sintagma apropiata pana la ‘nu foarte aproape'. Se fac contorizari nu numai pentru fiecare tip de

hit, dar şi pentru fiecare tip şi apropiere. Fiecare pereche de tip şi apropiere are o pondere tip-apropiere.

Contorizarile sunt clasificate în functie de ponderile de aparitii şi este preluat produsul scalar pentru

ponderile de aparitii şi ponderile de tip-apropiere pentru realizarea unui scor IR. Toate aceste numere şi

matrice pot fi afisate odata cu rezultatele cautarii folosind o metoda speciala de corectare. Toate aceste

afisari sunt de foarte mare ajutor în dezvoltarea sistemului de ordonare.

Directoarele Web

Un serviciu de directoare web (numit uneori şi “subject directory“- director de subiecte) este o

colecţie de pagini Web selecţionate şi organizate ierarhic în categorii de subiecte de către un editor

uman. Mai mult, un concept şi mai selectiv este cel de bibliotecă virtuală, care este un director web ce

include legături spre pagini cu informaţie de înaltă specializare, pe domenii alese de editor

(bibliotecarul virtual). Este evident faptul că serviciile de directoare acoperă şi indexează o porţiune

mult mai mică din paginile WEB existente, comparativ cu motoarele de căutare. Dar folosirea lor poate

duce la regăsirea unor rezultate ale căutării mult mai relevante pentru utilizator. Cele mai extinse

servicii de directoare web indexează cel mult câteva milioane de pagini, comparativ cu cele cîteva

miliarde indexate de către motoarele de căutare mai importante. Serviciile de directoare NU

interoghează direct paginile WEB, ci caută mai degrabă în interiorul bazei lor de date. Din acest motiv,

rezultatul căutării poate duce la returnarea unor rezultate expirate, care uneori nu mai au relevanţă,

pagina originală suferind între timp schmbări majore de conţinut sau chiar putând să dispară.

Trebuie menţionat însă că o serie de motoare de căutare sunt de fapt unelte hibride, fiind în

acelaşii timp atât motoare de căutare cât şi servicii de directoare (Google™, de exemplu, unul dintre

cele mai cunoscute motoare de căutare, are şi un serviciu de directoare, bazat pe soluţia Open Directory

Project).

Figura 2.2 – Serviciul de directoare Open Directory Project

Dintre serviciile de directoare Web, mai cunoscute sunt cele de mai jos:

1. Yahoo! (www.yahoo.com)

2. Google™ Directory (www.google.com)

3. Open Directory Project (ODP) (http://dmoz.org)

4. Zeal (www.zeal.com)

5. JoeAnt (www.joeant.com)

6. Gimpsy (www.gimpsy.com)

În Anexa B sunt prezentate mai detaliat cele mai populare directoare Web.

http://www.gimpsy.com/

http://www.joeant.com/

http://www.zeal.com/

http://dmoz.org/

http://www.google.com/

http://www.yahoo.com/

Medote de optimizare şi promovare a site-urilor în Web

Marketingul motoarelor de căutare

Search Engine Marketing (SEM) reuneste un numar de servicii şi produse de web marketing. La

baza acestui concept stau managementul informatiei prezentate de către motoarele de căutare şi

modalitatea de inscriere a acesteia în directoarele web.

Strategiile SEM includ metode specifice SEO („Search Engine Optimization”) şi programele

afiliate. SEO („Serch Engine Optimization”) reprezinta suma procedeelor care determina afisarea unui

site în lista generata de motoarele de căutare pentru cautari specifice, definitorii profilului site-ului în

cauza.

În mediul on-line toate activităţile de promovare care implică motoarele de căutare intră în

categoria marketingului motoarelor de căutare (Search Engine Marketing, SEM pe scurt).

Promovarea unei organizaţii/produs/ brand cu motoarele de căutare este importantă în primul rând

pentru că este o metodă neintruzivă de marketing on-line: nu întrerupe în nici un fel activitatea

navigatorului (vizitatorul primeşte ceea ce caută, în momentul în care caută). În al doilea rând, este o

metodă bazată în întregime pe voluntariatul utilizatorului de Internet. Acesta decide ce legătură

urmează. În al treilea rând, permite o identificare a organizaţiei/produsului/brandului cât mai uşoară,

oferind posibilitatea de a cere detalii. Şi, nu în ultimul rând, SEM-ul este folosit atât pentru atragerea de

noi clienţi, cât şi pentru păstrarea celor existenţi, deoarece un site de succes, care să atragă cât mai

mulţi vizitatori şi să-i determine să revină, presupune furnizarea de informaţii utile şi de calitate,

actualizare permanentă a contţinutului, navigare uşoară, încărcare şi feedback rapid.

Marketingul motoarelor de căutare cuprinde o serie de metode, dintre care cele mai importante

sunt:

a) Search Engine Submissions (SES – Înscrierea în motoarele de căutare) – cuprinde

serviciile necesare înscrierii web site-ului în toate motoarele de căutare majore.

b) Search Engine Optimization (SEO - Optimizarea pentru motoarele de căutare) – se referă

la poziţionarea de top în motoarele de căutare. SEO este doar o parte a strategiei de promovare pe

Internet, însă este cea mai importantă.

c) Site Linking and Link Popularity (SLLP - Legarea către alte web site-uri şi popularitatea

web site-ului pe motoarele de căutare şi pe Internet) – strategiile pentru legături aduc mai mult trafic şi

ridică clasificarea în motoarele de căutare.

d) Search Engine Ranking Reports (SER - Raportarea clasării în motoarele de căutare) –

cum este clasificat şi ce poziţie ocupă website-ul în motoarle de căutare. În ceea ce priveşte implicarea

în sectorul de business, studii recente au constatat că utilizarea motoarelor de căutare este pilonul pe

care se sprijină luarea unei decizii de cumpărare, atât la nivel de afacere cât şi la nivel de utilizator[12].

În continuare sunt prezentate principalele programe afiliere (Figura 3.1):

1. CPA – Cost Per Action: vei fi platit de fiecare data cand un vizitator care ajunge de pe site-

ul propriu pe cel al advertiser-ului completeaza o actiune predefinita (o vanzare sau

inscrierea pe o listă).

2. CPM – Cost Per Thousand Impressions (M este 1000 în Latina): esti platit pentru fiecare

1000 de vizitatori care vad pagina pe care se afla un banner al advertiser-ului. Functioneaza

cel mai bine pentru site-uri cu subiect general şi foarte multi vizitatori.

3. CPC – Cost Per Click: plata se face pentru oricare vizitator trimis pe site-ul advertiser-ului

de pe site-ul tau prin intermediul unui banner sau unui link. Această metoda functioneaza

cel mai bine pe un site cu un subiect bine definit.

Figura 3.1 – Programele afiliere

Optimizarea pentru motoarele de căutare

"Optimizare pentru motoarele de căutare" provine din englezescul "Search engine optimization"

sau SEO şi a aparut dupa dezvoltarea rapida a internetului, în anii 90. Serviciul a aparut urmarea a

numarului crescut al paginilor web, şi a concurentei din ce în ce mai ridicate în spatiul virtual.

Scopul optimizarii web este acela de a pozitiona pagina web cat mai aproape de primul loc în

rezultatele motoarelor de căutare, pentru anumite cuvinte cheie. în functie de concurenta, o campanie

SEO considerata reusita pozitioneaza un site intre pozitiile 30 şi 1. Beneficiul major al unei campanii

SEO il reprezinta cresterea în mod natural a numarului de vizitatori vizati, vizitatori care e posibil sa fie

convertiti în clienti mult mai usor decat pe cale artificiala.

Factorii ce influenţează poziţionarea în motoare de căutare

Optimizarea pentru motoarele de căutare poate fi determinată ca modificarile facute în pagina

web, scopul fiind clar ca pagina sa se plaseze în topul rezultatelor motareler de căutare. Însa este o linie

invizibila ce disparte optimizare de spam al motorului de căuatre. Orace pagine ce este supusă

optimizarii nu trebuie să facă abuz asa precum sa nu fie interpretă de motarele de căutare ca spam.Dacă

pagina web o să fie interpretată de motorul de căutare ca spam ultima poate sa fie penalizată.Pagina

poate să fie exclusă din indexul motoruli de căutare şi ca reyultaat nu va fi vizitată de Crawler şi

evident ca nu va apare în rezultatele afişate de motorul de căutare, atît timp pina nu va fi adăugată din

nou în index.

Optmizarea motorului de căutare se poate împarţi în două categorii:

1. Optimizarea paginii web

2. Optimizarea site-lui web

Aceste categorii sunt dependente receproc. Toţi factorii în cadrul fiecarii categorii trebuie să fie

echilibraţi pentru a obţine o optimizare cuvenită al site-lui web.

Factorii ce facilitează un plasament mai bun al paginii web în rezultatele motarelor de căutare:

1. Cuvintele cheie

2. Tagul Title

3. Tagurile Meta

4. Textul din corpul paginii

5. Tagul Alt

6. Tagurile H1-H6

7. Bara de meniu

8. Analiza densităţii cuvintelor cheie

9. Validarea codului HTML

10. URL-uri relative şi absolute

11. Tabele în cod HTML

Factorii ce duc nemijlocit la un plasamnet mai bun al site-lui web în topul motorului de căutare:

1. Sitemap

2. Linkurile Inbound

3. Linkurile Outbound

4. Construirea legăturilor

5. Numele domeniului

6. Pagina de eroare 404

7. Pagina de redirectare 301

8. Fişierul Robots.txt

9. Search engine submission

10. Analiza vizitatorilor

Aceşti factori nu sunt discutaţi în nici o comanda. Fiecare factor este important şi are un rol

important la plasamentul sute-liu în plasamentul motorului de căutare.

Cuvintele cheie

Cuvintele cheie se defeniesc ca fiind cererile utilizatorilor către motorul de căutare pentru a găsi

informaţia de care au nevoie. Cercetările trebuie efectuate pentru a determina cei mai folosiţi termeni

de căutare şi acei termeni ce sunt utilizaţi rar. Odată determinati cuvintele cheie trebuie utilizaţi în

pagina insă fara a face abuzz pentru motarele de căutare.Motarele de căuatare sunt duşi în eroare prin

marirea densitaşii al cuvintelor cheie. [15].

O densitate mai mare a cuvintelor cheie pot aduce la o relevanţa mai mare. Este de dorit de a

cumpăra domain name pentru site astfle încît sa fie identic cu cuvîntul cheie. Aşa precum nomele

domeniului este primul factor luat în consideraţie de către algoritmii motareleor de căutare ce

determină relevanţa site-lui web.

O sursă bună pentru a identifica cuvintele cheie este www.wordtracker.com. Wordtracker oferă

presupuneri pe baza a mai mult de 300 milioane de cuvinte cheie. Seface o statistică dupa rezultatele a

120 de zile unde se ia în consideraţie numarul de cuvinte cheie şi numarul de apariţii presupuse.

Tag-ul Title

Tag-ul Title este o componentă foarte importantă pentru algoritmii de relevanţă a motarelor de

căutare, pentru a determina plasamentul. De asemenea este utlizat de motarele de căutare la afişarea

rezultatelor căutarii . Tagul trebuie să fie calitativ , adică probalilitatea de căutare a anume acest tag

Title sa tindă la maxim.În acelaşi timp tagul trebuie să reflecte inforamaţia completă ce este disponibilă

pe pagina web ca utilizatorul sa fie captivate a face clic anume pe lincul acesta. Este binevenit sa fie

mai multe taguri Title diferite în cadrul unui site, aşa precum tagul Title sa reflecte la maxim conţinitul

paginii web.

Figura 3.2 - Relaţia dintre Tagul Title şi motorul de căutare

Tag-urile Meta

Etichetele Meta sunt acele informaţii care sunt situate în zona de început a paginii web. Aceste

informaţii, spre deosebire de titlul paginii, nu sunt vizibile şi nici interesante pentru utilizatori. Câteva

exemple:

1.<HEAD><TITLE>Stamp Collecting World</TITLE><META name="description" content="Everything you wanted to know about stamps,

from prices to history."><META name="keywords" content="stamps, stamp collecting, stamp history,

prices, stamps for sale"></HEAD>

2.

<HEAD><TITLE>Page I Don't Want în Search Engines</TITLE><META NAME="ROBOTS" CONTENT="NOINDEX"></HEAD> După cum putem observa această zonă conţine mai multe secţiuni, toate cuprinse între etichetele

<HEAD>(pentru începutul zonei) şi </HEAD>(pentru sfârşitul zonei).

Etichetele <TITLE > şi </TITLE> delimitează zona în care se află titlul HTML, titlu care va

apărea în bara de sus a ferestrei în care este deschisă pagina web, dar şi în lista de pagini favorite. De

asemenea acesta mai apare şi în titlul paginii respective din lista de rezultate, precum putem vedea în

urmatorul exemplu, în care, în lista de rezultate(listată de Teoma) apare o anume pagină despre

etichetele Meta, pagină care are titlul: “De exemplu” al site-ului: http://www.searchenginewatch.com

Precum am spus şi mai sus, titlul HTML este un element principal pentru motoarele de căutare

în vederea deciderii votului pentru relevanţa paginii. [17].

Etichetele Meta de descriere sunt de asemenea foarte importante deoarece permit descrierea

paginii pentru sistemele care suportă eticheta(majoritatea motoarelor suportă, însă, cele care folosesc

cel mai mult această etichetă sunt AltaVista, AllTheWeb şi Teoma. Se poate da şi un contraexemplu:

Google nu ia în considerare aceste etichete). Aceasta etichetă este reprezentată de cuvintele

<name="description"> iar descrierea în sine trebuie scrisă în interiorul ghilimelelor după cuvantul

<content=> conţinând în general între 200 şi 250 de caractere. Descrierea va apărea de asemenea,

după cum se poate observa şi în exemplul de mai sus, în lista de rezultate, sub titlul HTML al paginii.

Un alt element al exemplului de mai sus este eticheta Meta de cuvinte cheie. Aceasta ajută, doar

la unele motoare (Inktomi, Teoma), prin faptul că permite adăugarea de text descriptiv sistemului pe

langă conţinutul paginii respective. Trebuie menţionat că această etichetă va fi folosită doar pentru

adăugarea unor cuvinte care nu apar în conţinutul paginii. La fel ca mai sus, în exemplu, eticheta Meta

de cuvinte cheie este reprezentata de grupul <name="keywords">, iar cuvintele cheie propriu-zise sunt

scrise între ghilimele după < content=>.

Etichetele Meta roboţi sunt de asemenea foarte folosite, de aceea merită să le menţionez în

această scurtă listă. Aceste etichete sunt folosite pentru a specifica faptul că o anumită pagină nu dorim

să fie indexată, de aceea majoritatea sistemelor de căutare folosesc această etichetă. De aceea titlul

paginii este în concordanţă cu aceasta idee. Precum în cazurile precedente, eticheta în sine este

reprezentată prin grupul: < NAME="ROBOTS" >.

Textul Body

Body text, motoarele de căutare au obişnuinţă sa le placă codul pur HTML. Termenul falsificare

este folosit în contextul codului JavaScript inplementat, Flash şi Image files motarele de căutare nici nu

se starue a le interpreta necătind că aici ar pute fi o densitate sporită de Key terms. Ca exemplu logo- le

şi banerile al site-lor web unde în marea majoritate a cazurilor figurează numele domenului şi Key

terms.Cum am menţionat mai sus Key terms şi numele domenului jocă un rol important pentru

clasament , dar din păcate nu este interpretat conţinutul acestora de majoaritatea motarelpr de căutare.

Vorbind mai simplu “ce nu interpreteaza motorul de căutare tot asta nu exista pentru el ” .Aceste

conditii desugur nu se refră la utilizatorii ce accesază pajina, însa pentru crawler este regulă! Textul din

Flahs este interpretat doar de FAST Alltheweb.com. nici care alt motor de căutare nu face acest lucru

precum şi nu citeşte lincurile din Flash [9]. Asemenia lucruri se petrece cu codul JavaScript, incadrat în

fişiere HTML.Majoritatea motarelor de căutare ignora codul JavaScript şi lincurile ţin cadrul acestiu

cod [10]. Alt factor pentru interpretarea cuvintelor cheie ce figurează în body text, cu cît este mai mare

densitatea acestora cu atit este mai preeminc conţinutl raportat la cuvintele cheie.

Dacă am memorat factorii menţionaţi mai sus putem elabora o strategie. În continuare vor fi

descrise cîteva puncte:

1. Codul JavaScript trebuie inclus în fişier aparte. Aceasta e ste posibil prin utilizarea

tagului html<SCRIPT LANGUAGE="JavaScript" SRC="myJavaScript.js"></SCRIPT>

2. Este nevoie de minimizat numarul de utilizari al Flash în cadrul unei pagini web.

3. Permanent trebuie de losit ALT atribute în IMG tags. HTML IMG tag este

<img src="myImage.gif" alt="My Image" />. Aceasta este forma generală a tăgului. În

scopuri de optimizare cred că ar fi mai bine de folosit <img alt="My Image"

src="myImage.gif" /> scopul ar fi de a deplasa fraza cît este de posibil mai aproape de

inceputul fişierului HTML , pentru ca în pagina web să fie marită densitatea cuvintelor

cheie.

4. Listele de stiluri sunt utilizate oproape de fiecare site pentru a inbunătaţi designul paginii

web. Aceasta ar putea influnţa benefic asupra utilizatorului aşa cum utilizatorul poate

găsi designul paginii plăcut şi agriabil. Conţinutul paginii web poate fi optimizat prin a

include fişierul CSS utilizind LINK HTML tag: <LINK href="myStyleSheet.css" rel="stylesheet" type="text/css">

5. Tagurile Heading de asemenea joacă un rol important în conţinutul paginii web.Este de

dorit a include cuvintele cheie în interiorul H1 ...H6, deoarece 1-6 determină însenătatea

heading-liu. Utilizarea Font faces like bold, italic şi underline indică insemnatatea

textului şi este recomandat de a folosi este conţinut bogat 200-250 cuvinte [11].

Bara de meniu

Bara de meniu este legată de obicei cu cele mai importante pagini de pe site. Aşa precum

aproape fiecare pagină în cadrul site-lui dispune de meniu şi prin intermediul linkurilor au legatură cu

meniul. Acest fapt măreşte popularitatea acestor pagini în cadrul site-lui web. Aceste pagini trebuie să

aiba un conţinut bogat. Aceşti factori bineînţeles au o influenţă benefică la plasamnetul site-lui în topul

motarelor de căutare.

Analiza desităţii Cuvintelor Cheie

Fiecare motor de căutare deţine algoritmi proprii de analiză a densitaţii cuvintelor cheie

(keywords). Unele motare de căutare acceptă o densitate mai mare a cuvintelor cheie în cadrul paginii

web. Pe cînd altele, ca de exepmlu Google, pun restricţii mai reguroase la ce priveşte densitatea

acestora. Plasamentul cuvintelor cheie în diferite porţiuni de pagină web are efect diferit. Densitatea

cuvintelor cheie exagerată va fi interpretată de motorul de căutare ca spam şi site-ul va fi penalizat.

Google admite ca cel mult 2% din tot textul paginii să fie calificat ca cuvinte cheie. Pe cînd Yahoo şi

MSN Search admit ca densitatea cuvintelor cheie să nu depaşească 5% [12].

Un instrumentariu gratis pentru a verifica densitatea cuvintelor cheie în cadrul paginii web este

diponibil la www.searchengineworld.com/cgi-bin/kwda.cgi

Verificarea corectitudinea codului HTML

Esre forte bine ca codul HTML să fie verificat ănainte de a fi prezentat motareleor de căutare.

Chear dacă pagina vizual pare corectă aceasta poate sa aiba erori de sintasă, ce vor fi ignorate de

brauzericum ar fi Internet Explorer. Servicul gratuir disponibil pentru verificarea corectitudinii sintasei în

cadrul unei pagini web este disponibila pe validator.w3.org. Acest utilitar verifică W3C XHTML 1.0

şi returnează un mesaj detliat. Alt utilitar pentru verificarea corectetudinii de stiluluri este

disponibil la:

http://jigsaw.w3.org/css-validator/

URL-ul absolut şi cel relativ

Crawler-ul motarelor de căutare preferă URL-ul absolut inpotriva celiu relative. Crawler –le

motorelor de căutare pot ignora indexarea pajinilor web dacă se foloseste URL relativ. URL absolut

http://jigsaw.w3.org/css-validator/

considerabil micşorează flexibilitatea site-lor web ce işi schimbă numele domenului. Asta se poate depaşi

dacă folosim o variabilă globală, ce va conţine numele domenului site-lui web, pentru generarea URL

absolut în cadrul site-lui web.

Tabele în cod HTML

Tabelele sunt utilizate la construcţia paginilor web, pentru a face aplasamentul blocurilor mai

organizate. Unii proectanţi web utilizază tabele în cadrul altor tabele, cu scop de simplificarea structurii

paginii ce uşureaza deservirea acestei pagini.Aceasta duce la marira volumului textului

necorespunzator conţinutului, ce duce la micşorarea densitaţii al cuvintelor cheie. Multe site-uri

aplasează meniul meniul în partea stingă sau în partea de sus.Aşa aplasament al meniuliu de asemenea

poate duce la micsorarea densitaţii cuvintelro cheie.

Sitemap

Sitemap al paginii web este pagina cu referinţe la fiecare pagină web din cadrul site-lui. Aceasă

pagină are o insemnătate deosebită în cadrul site-lui web. Odată ce Sitemap a fost vitită de spider ne

putem convinge de faptul că a fost indexat tot site-ul pagină cu pagină. La proectarea Sitemap este bine

de reşinut.

Sitemap-ul trebuie neapărat să conţină tag-uri de ancorare HTML.

Rferinţele (link) textuale trebuie să conţină cuvinte cheie, ce ţin de adresa paginii web. Textul

referiţei poate conţine conţinefrază identică ca şi TITLE tag. Textul referinţei este important aşa

precum indică, conţinutul paginii la care face referinţa. Textul referinţei este important şi din cauza că

este luat în consideraţie de de algoritmii de relevanţă al motarelor de căutare.

Sitemap-ul trebuie să fie vizibil pentru motarele de căutare. Asta însamană că ar trebui să existe

referinţe de la ficare pagina web la Sitemap şi că crawler trebuie să aibă permisiune de a indexa

Sitemap.

O referinţă tipică la Sitemap poate fi modelată conform exeplului ce urmează

<a href=”http://mysite.com/gallery.htm”>Gallery</a>

De evitat :

JavaScrip în anchor tag

<a href=”#” onclick=”gotoURL(‘gallery’)”>Gallery</a>

Flash în sitemap

Imagini în loc de textul referinţei

<a href=”http://mysite.com/gallery.htm”>

<img alt=”Gallery” src=”gallery.gif” />

</a>

Text ce nu corespunde referinţei

<a href=”http://mysite.com/gallery.htm”>Apasa aici</a>

Dacă sitemap-ul conţine mai mult de 100.000 de referinţ, sau fişierul este mai mare de 10MB, e

cazul a separa sitemap în mai multe pagini diferite. Un ghid util la construcţia sitemap-lor este

prezentat de Google şi este disponibil la

http://www.google.com/webmasters/sitemaps/docs/en/about.html. Este preferabil de a ţine cont de

indicaţiile cînd creăm un sitemap.

Linkurile Inbound

Pentru Google referinţele “ Inbound links ” determină PageRank-ul site-lui web. Fără referinţele

“ Inbound links ” orce site web este practic invizibil pentru motarele de căutare. Unica cale pentru

crowlr-ul motarelor de căutare spre un site web este de a urma referinţele “ Inbound links ” primite de

la un alt site web deja indexat. O alternativă ar fi o prezentare manuală pentru crawler. Deşi acest

procedeu este binevenit în acelaşii timp nu garanteaza rezultat sigur ca site-ul web va fi totuşi indexat.

Referinţele Inbound links din urmatorele surse contribue la un plasament mai favorabil la

motarele de căutare:

1. Toate catoalogele majore şi cele locale Yahoo, DMOZ, LookSmart, trade, business şi

directoarele industriale.

2. Furnizori, clienţii mulţumiţi precum şi partenerii.

3. Site-urile web, ce oferă servicii de sustinere.De exeplu. Site web ce oferă hosting

pentru site web.

4. Site-uri ce au legaturi, insa nici decum cele concurente. De exeplu site-uri ce ofera

programe de instruire pentru web-design.

Însă trebuie să înţelegem că nu orşice Inbound links au aceaşi pondere. Evident că Inbound links

sosit de la un site web industrial autoritar are o pondere mai mare ca acel sosit de la un mic site web

particular. Unele referinţe pot să aibă efect invers ( negativ ) pentru PageRank.

1. Link-uri de la FFA (gratis pentru toţi ) fac legături între pagini.

2. Link-uri de la ferme.

3. Link-uri de la paginile doorway.

Paginile doorway sunt pagini web create cu scop de a genera referinţe de linkuri Inbound de la

site-uri web. Aceste induc în eroare crawler-ul motarelor de căutare ce duce la un plasament mai bun

caz în care nu a fost detectat spamul.

Link-uri de pe forumurile de discuţie

Forumurile de asemenea pot folosi abuziv linkurile pentru a mări numărul de linkuri Inbound.

Majoritatea motareleor detectează spamul intenţionat şi abuziv ce are scop de a mări plasamentul. Ca

urmare site-urile detectate cu un comportament inadecvat sunt lipsiţi de dreptul de indexare.

Linkurile Outbound

Linkurile Outbound pot influinţa benefic asupra plasamentului site-lui web atit timp cît

referinţele indică la site-uri bune[10]. Site-uri bune pot fi considerate de exeplu situri web industriale ce

au fost caracterizate ca site-ri ce merită încredere. Unile site web practică un comortament ne estetic

maschind URL –ul lincurilor Outbound, folosind cod JavaScipt sau utilizind NOINDEX NOFOLLOW

în tagul robot din Meta Tag. Trebuie de evitat site-urile ce practica mascarea URL pentru ca pote să ne

joace un rol prost în plasament.

Eroarea 404

Eroarea 404 indică că pagina Web nu pote fi găsită. Spider-ul primieşte acest raspuns de la

server ca urmare a cererii de URL. Această pagina web obţine o relevanţă scazută. Mai mult ca atît

spider-ul nu mai face încercări de a accesa această pagina web.

Redecţionarea 301

Rederecţionarea 301 pentru spidere şi vizitarori, este o starategie prietenoasă pentru a

redirecşiona o pagină web la alta. Este susţinută de serverile Apache. 301 redirecţionare este

implementată specificînd URL-ul sursă şi cel a destinătarului în fişierul .htaccess. Rderictionarea 301

este interpretată ca deplasare pemanentă “moved permanently”. Acest procedeu trebuie să asigure

stabilitate în PageRank pentru site. Googele interpretează http://www.mysite.com şi http://mysite.com

ca URL –uri diferite ca rezultat Google indică relevanţă diferită pentru acelesi pagini web în

dependenţă dacă persistă www în numele domenuliu. Acasta presupune ca relevanţa pentru mysite.com

va fi distribuită între http://mysite.com şi http://www.mysite.com ca URL-ri separate.Deci efecutarea

redirecţionării 301 de la http://mysite.com la

Robots.txt (standard de excludere a roboţilor) este un fişier cu un set de instruţiuni ce specifică

crawler-ul de a ignora paginile web. La acelaşi efect se pote de ajuns utilizînd Robots meta tag.

Diferenţa consta în faptul ca Robots.txt este fisier cu locaţie centralizată ce determină instrutiunile ce

pot reduce deservirea. Fişierul Robots.txt permite de a bloca anumite directorii pentru indexare.

Aceasta este de fols paginilor web cu “member access web pages”. Un instrument gratuity este

disponibil la www.searchengineworld.com/cgi-bin/robotcheck.cgi. Validarea robots.txt este imortantă

ca acesta pote fi cauza ca pagina web este indexată ori din contra inaccesibilă pentru spider.

1. Prezentarea site-lui.

2. Lista de control a site-urilor web.

3. Site-ul este finisat şi optimizat.

4. Codul HTML este validat.

5. Au fost stabilite linkurile de intrare .

6. Descrierea site-lui web în mai puţin de 25 de cuvinte cu nu mai mult de 2-3 cvinte cheie.

7. Lista cuvintelor cheie.

8. Adresă de email, preferabil cu acelaşi nume al domenului ca şi situl web, pentru

raspunsuri de notificare de exemplu [email protected].

Nu este necesar de a prezenta fiecare pagină pe site. Multe motare de căutare preferă doar

prezentare pentru paginile dint top. Prezentare manuală este mai preferabilă ca cea automată.

Majoritatea motarelor oferă recomndari pentru aseminea prezentări. Este nevoie de a le studia atent

înainte de a purcede la prezentarea propriu zisă. Deseori preyentarea site-lui web este înterpretată de

motor de căutare ca spam. şi pote cauza penlitaţi din partea motorului de căutare. Reese că situl trebuie

prezentat dor odate pentru fiecare motor de căutare. După ce a fost efectuată prezentarea se recomandă

de a verifica email unde pot sa vina raport despre o prezentare nereuşită cu indicaţii despre greşelele

comise ce necesita corectare. Mai mult ca atît unele motare de căutare vac verificarea corectitudinii

adresei dupa fiecare prezentare.

De asemenea este preferabil ca sitemap-ul să fie prezentat la în Google. Acest tip de prezentare

inbunătăţeşte parcurgerea de către crawler, ce pote aduce la rezultate noi şi mai bune.

Analiza vizitatorilor este o parte importantă în deservirea site-lui web. www.statcounter.com

(29 US$ lunar ) este un serviciu contra plată ce oferă servicii de statistică a site-lui. Statistica include

aşa parametri cum ar fi poziţionarea geografică a vizitatorului, cuvintele cheie utilizate, paginile web

populare, sitem de operare, rezoluţia monitorului, precum şi timpul petrecut pe pagina şi orele de cu

cea mai mare densitate de vizitatori pentru fiecare zi.Aşa informaţie poate fi defolos pentru a crea

condiţii favorabile grupurilor de vizitatori, ce ar duce la faptul că vizitatorii vor petrece mai mult timp

pe pagină. De exeplu dacă ar fi disponibila informaţia despre rezoluţia utilizatorilor sar putea face

modificări în pagina astfel, ca să fie nevoie de minim de scrolling pentru vizionarea paginii în

îmtregime.

Tehnici ilegale de optimizare web

Tehnicile "ilegale" de optimizare web fac referire la anumite practici utilizate pentru a

îmbunătăţi poziţionarea (rankingul) unui site în cadrul motoarelor de căutare pe care acestea însă le

consideră ca fiind "imorale" datorită faptului că limitează şi direcţionează greşit ariile de căutare ale

utilizatorilor.

Nu există reglementări legale în această privinţă, motiv pentru care ele pot fi şi sunt folosite însă

pe propria raspundere. În general, cînd vorbim de tehnici ilegale de optimizare pentru motoarele de

căutare, vorbim despre acele practici care au ca şi rezultat buna poziţionare a unui site într-un timp

foarte scurt însa care, pe termen lung au ca efect banarea site-urilor din SERP (Search Engine Result

Pages).

În pofida faptului că există foarte multe motoare de căutare, toate folosesc cam aceleaşi

principii cînd este vorba despre evitarea tehnicilor despre care vorbim, generic numite "SEO

spamming".

Cuvantul "spam", din punctul de vedere al motoarelor de căutare sau în acest context, se referă

la orice practică "imorala", ce este folosită cu scopul de a îmbunătăţi Page Rank-ul şi poziţiile în

motoarele de căutare după anumite cuvinte cheie.

În cele ce urmeaza este descrisă o listă a metodelor de optimizare web considerate ca fiind

generatoare de “SEO spam” din punctul de vedere al motoarelor de căutare.

Text ascuns

Este tehnica prin care o parte a textului se adreseaza utilizatorilor (textul vizibil în pagina) iar o

altă parte a textului (ascuns) se adresează motoarelor de căutare. De obicei, textul adresat motoarelor de

căutare are un continut bogat în cuvintele cheie pentru care webmasterul doreste sa ajunga pe primele

pozitii în SERP.

Pentru texte invizibile se folosesc fonturi care au aceeaşi culoare cu fondul paginii, invizibile

pentru utilizator însă detectate de către motoarele de căutare.

IP Cloaking

IP Cloaking-ul se realizează prin două modalităţi principale: textul invizibil şi cloaking după

agentul utilizator (user agent). În ceea ce priveşte cloaking-ul în funcţie de user agent, utlizatorului îi

este afişată o pagină în timp ce roboţilor motoarelor de căutare le este data o pagină cu o rată de

conţinut foarte ridicat.

Folosirea excesivă a cuvintelor cheie

Tehnica se refera la repetarea excesivă a cuvintelor cheie în tag-urile title, meta şi keywords

precum şi la folosirea lor abuzivă în cadrul conţinutului.

Cuvinte cheie irelevante

Aceasta practică utilizează cuvinte cheie irelevante pentru domeniul de activitate al site-ului

care sunt însă deosebit de uzuale în căutările de dată recentă. Este de menţionat că Google publică

săptămînal o listă cu cele mai frecvente căutări. Tehnica are ca şi rezultat doar inducerea în eroare a

utilizatorului care este direcţionat către un site fără legătură cu ceea ce caută iniţial.

Pagini doorway

Sint pagini realizate special pentru a atrage robotii motoarelor de căutare şi utilizatorii, în

vederea unor rezultate mai bune. De obicei sunt optimizate doar pentru o frază sau un singur cuvînt

ţintind spre spiderii şi crawlerii motoarelor de căutare.

Text micşorat / text în tagurile ALT

Textul micşorat este inserat intenţionat în conţinutul paginii fiind inaccesibil utilizatorului însă

vizibil pentru motoarele de căutare.

Utilizarea textului în tag-urile ALT se referă la inserarea unei cantităţi mari de text în descrierea

ALT de asemenea inaccesibilă marii majorităţi a utilizatorilor însa detectată de motoarele de căutare.

Popup-uri excessive

Yahoo consideră utilizarea excesivă a popup-urilor ca spam. Aceasta este considerată ca o

capcană. Deaceea un site web trebuie sa folosească maxim 1-2 popup-uri pe pagină.

Oglinzile

Oglinzile (mirrors) sunt pagini diferite cu acelaşii conţinut şi aceeaşi denumire, scopul fiind

acela de a fi afişat de mai multe ori în SERP. Metoda are sens dacă paginile duplicate sunt înscrise în

motoare de căutare diferite realizîndu-se o optimizare web distinctă pentru fiecare în parte.

Înscriere repetată în motoarele de căutare

Se ştie că una dintre tehnicile de optimizare web a unui site se referă la “directory submission”

cu scopul de a crea cît mai multe IBL-uri spre site-ul tintă. Înscrierea repetată a unui site în acelaşii

director se numară printre metodele cele mai sigure de a primi un ban sau de a aştepta indexarea în

directoarele respective.

Tehnicile de optimizare web “ilegale” sau, mai corect spus, ”imorale” au fost şi vor fi utilizate.

Din fericire, motoarele de căutare încearcă să aducă mereu soluţii noi pentru detectarea spamming-ului

şi diferenţierea acestuia de optimizarea pentru motoare de căutare corect realizată.

Factorii ce afectează poziţionarea în motorul de căutare Google

Sunt peste 100 de factori care influenteaza ordinea afisarii siturilor în cautarile cu Google. Care

sunt acestia? Mai jos este prezentată o listă cu presupusi factori, aceasta listă fiind alcatuita de

webmasteri din întreaga lume, care au studiat îndelung comportamentul Google.[9]

1. Factori pozitivi pe pagină (Tabelul 3.1).

2. Factori negativi pe pagină (Tabelul 3.2)

3. Factori pozitivi în afara paginii (Tabelul 3.3)

4. Factori negativi în afara paginii (Tabelul 3.4)

Tabelul 3.1. Factori pozitivi pe pagină

Factor Factori pozitivi aflaţi pe pagina

Nota

Cuvinte cheie în: 1 Densitatea cuvintelor cheie în

corpul paginii ()Trebuie sa aiba valori cuprinse între 5 şi 20 %.

2 Densitatea individuala a cuvintelor cheie

Între 1% şi 3 % din totalul cuvintelor de pe pagină

3 Cuvintele cheie din tagurile H1 şi H3

De folosit cuvinte cheie în H1

4 Marimea textului cuvintelor cheie

Sunt considerate mai importante cele ingrosate, subliniate, aplecate, etc.

5 Distanta dintre cuvintele cheie Cuvintele cheie adiacente dau rezultate mai bune.6 Ordinea cuvintelor cheie în

fraza.in functie de fraza cautata

7 Proeminenta cuvintelor cheie. Se obtin rezultate mai bune daca un cuvant cheie se afla pe primele randuri din pagina şi deasemenea în tagurile Meta.

Continuare Tabelul 3.1

Cuvinte cheie în Header8 Cuvintele cheie din titlu 10 - 60 caractere. Nu folositi caractere speciale. 9 Cuvinte cheie în tagul

"description"sa nu aiba mai mult de 200 de caractere.

10 Cuvinte acheie în tagul "keyword"

sa nu depaseasca 200 de caractere.

Alti factori legati de cuvintele cheie

11 Cuvinte cheie în tagul "alt" Trebuie sa descrie poza, nu trebuie sa fie prea mare.12 Cuvinte cheie în URL Primul cuvint este cel mai important13 Cuvinte cheie în numele de

domeniu-foarte important

14 Cuvinte cheie în linkurile către paginile sitului (anchor text)

Linkuri cu numele "Pagine urmatoare" nu va ajuta cu nimic la indexare.

Navigare - Linkuri interne 15 Toate paginile site-ului să fie

valide 16 Structura de arbore Să se poata ajunge din 2(maxim 4) clickuri în orice

pagina.17 Stuctura de linkuri De asemenea paginile mai puţin importante trebuie

sa aiba linkuri intre ele.Navigare - Linkuri externe

18 Cuvinte cheie în linkurile spre alte situri

sa fie doar linkui spre situri bune.

19 Toate linkurile externe valide20 In total trebuie sa fie cel mult

100 de linkuri pe pagina.Google spune limita este 100, dar recent a inceput sa accepte 2-300.

Alti factori de pe pagina 21 Marimea fisierului Sa nu depaseasca 100K. Sunt preferate cele mai mici

de 40K . 22 Liniuţe în URL Cea mai buna metoda de a indica un spatiu.

Una sau doua = excelent pentru a separa cuvintele cheie4 sau mai multe = suspicios

http://www.google.com/webmasters/guidelines.html

23 Pagini noi Google prefera paginile noi mai ales la siturile de stiri, licitatii, etc..

24 Frecventa update-urilor update-uri frecvente = indexare frecventa25 Varietatea cuvintelor cheie Substativele trebuie puse la singular, plural,

articulate, nearticulate, verbele se conjuga26 Cuvinte cheie şi sinonimele lor Sinonimele sunt tot cuvinte cheie.27 Lungimea URL-ului Sunt preferate cele mai mici.

Tabelul 3.2. Factorii negativi aflaţi pe pagină

Factor Factori negativi aflaţi pe pagina Nota

1 Textul care apare numai pe poze Motoarele de căutare nu sunt capabile sa citeasca textul din poze.

2 Situri afiliate In ultimul timp, siturile fara continut, care doar promoveaza ofertele altor situri sunt considerate "mai puţin importante".

3 Linkuri spre situri proaste. Evitati linkurile spre "fermele de linkuri", siturile porno, etc.

4 Furtul de imagini sau text de pe alt site.

Copyright - Google baneaza siturile care au furat continut, în cazul în care cineva raporteaza acest lucru.

5 Diluarea cuvintelor cheie Focalizarea asupra unui numar mare de cuvinte cheie intr-o singura pagina, duce la pierderea importantei adevaratelor cuvinte cheie,

6 Modificarea paginii Atunci cand editati o pagina(chiar şi cand schimbati tema şi lasati acelasi continut), trebuie sa va astepati la rezultate mai slabe la cautarile cu google pentru cuvintele cheie din pagina respectiva.

7 Pagini generate dinamic Trebuie sa scurtati URL-ul, sa reduceti numele variabilelor,sa nu mai afisati ID-ul sesiunii, etc.

8 Folosirea excesiva a JavaScriptului Nu folositi pentru a redirectiona pagina sau pentru a ascunde linkuri.

9 Pagini în Flash Motoarele de căutare nu sunt capabile sa citeasca Flash-uri. Redacati şi o varianta HTML cu acelasi continut.

10 Folosirea Frame-urilor Nu se indexeaza decat Frame-ul principal11 Folosirea tagului "no index" Auto-excludere intentionata.12 Linkuri de un singur pixel Este considerata tentativa de a pacali motoarele

de căutare.13 Text invizibil Google avertizeaza impotriva acestei practici.

Dar nimeni nu a fost penalizat pana acum. 14 Pagini intermediare Nu trebuie sa folositi mai multe pagini cu cuvinte

cheie pentru a atrage vizitatorii către aceeasi pagina principala.(Gateway, doorway page).

15 Duplicarea continutului Din mai multe pagini cu continut identic sau aproape identic, Google o afiseaza în topul rezultatelor pe cea mai veche.

Tabelul 3.3 - Factorii pozitivi aflaţi în afara paginii

Factor Factori pozitivi în afara paginii Nota

Pentru Linkuri:1 PageRank-ul paginilor care au link

spre pagina cercetată.

Conteaza calitatea linkurilor mai mult decat cantitatea.

2 Numarul de linkuri spre pagina cercetată ("backlinks")

Verificati pe Yahoo sau Google petru a afla numarul de "incoming links".

3 Numarul de linkuri cu pagerank >= 4.

4 Marirea vitezei cu care creste numarul de linkuri.

Cand nu mai apar linkuri noi spre situl tau, inseamna ca situl nu mai este activ.

Pentru fiecare link:5 PageRank-ul paginii referal Inainte conta foarte mult acest lucru. Acum, acest

lucru nu mai este o certitudine. 6 Textul ancora al linkurior spre

pagina ta. Pentru a fi numarul 1 în topul cautarilor pentru un cuvant, nici macar nu trebuie sa ai acel cuvant pe pagina. Care este explicatia?

7 Numarul de linkuri pe pagina Cu cat sunt mai puţine, cu atat mai bine... linkul spre tine devine mai important.

8 Pozitia linkului în pagina Cu cat este mai sus, cu atat mai bine.9 Densitatea cuvintelor cheie pe

pagina referal.Important pentru cautarile pentru cunintele cheie.

10 Titlul paginii referal Ar trebui sa aiba un titlu asemanator.11 Link de la un site "Expert" Da un plus în rezultatele cautarilor daca pagina are

ca referal şi un site renumit în categoria respectiva.12 Pagina referal sa fie din aceeasi

categorie.Un link dintr-un site porno spre un site care vinde flori nu are valoare prea mare.

13 Link din mapare de imagini Problematic...14 Javascript link Problematic- poate fi considerat ca o tentativa de a

ascunde linkul.Directoarele WEB:

15 Site listat în DMOZ? Siturile listate în DMOZ sunt selectate manual, deci Google are incredere mare în continutul acestor situri.

16 Categoria DMOZ? Daca este listat intr-o categorie gresita ar putea aparea probleme.

17 Site listat în Yahoo Directory Pentru afisarea rezultatelor în cautari cu Google.18 Site listed în LookSmart Directory Se da un plus la afisarea rezultatelor în cautari cu

Google.19 Site listed în inktomi Folositi Pure Search pentru a verifica locul sitului la

inktomi.20 Site listat în alte directoare(About,

etc.) Se da un plus la afisarea rezultatelor în cautari cu Google.

21 Site expert? (Hilltop) Site mare cu multe linkuri(incoming) de calitate.

http://www.cs.toronto.edu/~georgem/hilltop/

http://search.positiontech.com/InktomiSearch/PositionTechSearch.jsp

http://www.inktomi.com/

http://search.looksmart.com/

http://dir.yahoo.com/

http://dmoz.org/

22 Varsta sitului Un site vechi va avea paginile noi indexate mai repede.

23 Varsta sitului(pentru cele noi) Se da un plus siturilor foarte noi (in prima luna).

Continuare Tabelul 3.

24 Structura sitului Influenteaza cautarile în functie de consistenta, organizare, etc.

25 Site Map Harta sitului trebuie sa aiba cuvinte cheie în ancorele linkurilor.

26 Marimea sitului Sunt preferate siturile cu multe pagini.27 Tema sitului Nu uitati sa folositi cuvinte cheie acolo unde este

recomandat. Ati putea apela la o unealta de tipul "keyword suggfestion".

Traficul pe site Acest lucru se detecteaza şi prin tool-bar.28 Traficul numarul de vizitatori29 Timpul petrecut pe pagina Timp mai mare = relevanţa mai mare a paginilor30 Timpul petrecut pe domeniu Timp mai mare = relevanţa mai mare a domeniului.

Tabelul 3.4. Factorii negativi aflaţi în afara paginii

Factor Factori negativi în afara paginii Nota1 Zero referali Prin completarea forumularului pus la dispozitie de

Google, situl va fi indexat în cateva luni. Dar este singura solutie daca nu sunt referali spre siutul tau.

2 Cloaking Google promite ca va bana aceste situri3 Afilieri, referali de proasta

calitate.Google spune ca nu tine cont de linkurile care vin de pe situri proaste, pentru ca webmasterul nu poate controla acest lucru. Dar, practic, nu este chiar asa.

4 Furturile de domeniu Sunt unii care nu fura doar o pagina, ci intreg situl, pe care il posteaza pe alt domeniu. Daca vi s-a intamplat acest lucru, trimiteti o sesizare la Google şi situl respectiv va fi banat.

5 Supraincarcarea serverelor Google.

1000 de cautari (cu Google) pe zi de la acelasi IP este cel mai grav lucru pe care il poate face un webmaster. Google poate bloca IP-ul.

6 Server Up-time>99.9% "THE PAGE CAN NOT BE FOUND" reprezinta un motiv destul de bun pentru ca Google sa stearga din cache o pagina.

7 Se termină spaţiul Google are un spatiu limitat pentru fiecare site, care depinde în mare masura de toti factorii enumerati mai sus. Deci nu poate indexa un forum cu 100.000 de pagini.

Procesul de optimizare şi promovare a unui site

Fiecare profesionist independent sau firma specializata care ofera servicii de optimizare Web

are propria tehnica de optimizare şi implicit parcurge un traseu propriu.

Ideal, procesul de optimizare incepe cu o evaluare atenta a site-ului pentru care se executa

optimizarea şi a site-urilor concurente. Site-urile concurente pot fi site-uri care ofera acelasi tip de

servicii sau produse. în urma analizei acestor site-uri, se poate stabilii care vor fi cuvintele pentru care

se va optimiza.

Pentru a realiza optimizarea unui site, conţinutul acestuia trebuie să fie unic şi să fie bogat în

cuvinte cheie. După mai multe cercetări asupra proceselor SEO, am realizat unul propriu, după care ne

vom conduce în continuare pentru a optimiza şi promova un site (Figura 3.1)

Figura 3.1 – Procesul de Optimizare în Motoarele de căutare a unui site

În continuare sunt descrisi pasii ce descriu procesul de optimizare.

Pasul 1. Analiza site-ului Web

Este foarte necesar înainte de optimizare de realizat o analiză detaliată asupra site-ului.

Conţinutul, structura şi destinaţia traficului sunt verificate foarte atent.

Pasul 2. Identificarea şi definirea obiectivelor şi strategiei

Un lucru trebuie să fie clar — ce scop dorim să îndeplinim. Obiectivele, în special cele legate de

afaceri, variază de la generarea de noi comenzi, pentru a creşte vînzările. Obiectivul ar trebui de ţinut

mine în special la generarea cuvintelor cheie.

Pasul 3. Optimizarea cuvintelor cheie

O analiză extinsă este obligatorie la această fază. Selectăm o listă de cuvinte cheie doar după

analiza site-urilor concurenţilor, tag-urilor Meta, frazele ce conţin cuvintele cheie, etc. Doar atunci este

realizată o listă finală de cuvinte cheie.

Pasul 4. Optimizarea site-ului Web

Este necesar de optimizat paginile web cu cuvintele cheie selectate. Nu este obligatoriu şi

necesar de optimizat toate paginile. Site-ul Web trebuie să fie este "prietenos" cu motoarele de căutare.

Cît timp realizăm optimizarea paginii Web, este obligatoriul de cercetat cîmpurile ca “cuvintele cheie

Meta”, “descirierea Meta”, linkurile de pe pagină.

Pasul 5. Înregistrarea site-ului Web

Site-ul optimizat trebuie înregistrat în cele mai populare motoare de căutare şi directorii. În

acest mod site-ul va fi indexat. Odată ce este indexat, ne vom focaliza asupra ridicării poziţiei în

motoarele de căutare pentru cuvintele cheie selectate anterior.

Pasul 6. Construirea şi optimizarea legăturilor

Ridicarea vizibilităţii este ridicată prin construirea legăturilor Popularitatea site-ului este ridicată

la acest pas. Legăturile Inbound sunt unul din factorii esenţiali pentru optimizarea paginii Web.

Motoarele de căutare îşi îndreaptă atenţia asupra linkurilor Inbound al site-urilor populare în calcularea

rank-ului site-lui nostru.

Pasul 7. Rapoarte

Este necesare de creat rapoarte de pre-optimizare, la fel şi de post-optimizare. Unul este pentru

toate cuvintele cheie înainte de optimizare, cît şi după, pentru a înregistra şi a vedea foarte clar

schimbările ce au avut loc în timp (după optimizare).

Pasul 8. Planul analitic şi de acţiune

Este foarte important de analizat rapoartele principalelor motoare de căutare. Acestea ajută

foarte mult la realizarea planului de acţiuni. Cercetarea şi observarea asupra rapoartelor de poziţionare

este mai mult decît necesar datorită schimbărilor frecvente ce au loc în parametrii motoarelor de

căutare. Este riscul de a pierde popularitatea în orice moment.

Reluarea paşilor

Aceşti paşi urmează a fi repetaţi de fiecare dată cînd site-ul este schimbat, ori au loc schimbări

în motoarele de căutare. De asemenea trebuie sî fim siguri că motoarele de căutarea indexează site-ul

nostru, cît şi îl apreceează la nivel.

Studiu de caz. Portalul educaţional www.cuc.md

Promovarea şi optimizarea site-urilor pentru fiecare tematică are particularităţile sale. Site-ul

Clubului Moldovenesc de Jocuri Intelectuale www.cuc.md (Figura 4.1) face parte din categoria site-

urilor educaţionale. A fost lansat în februarie 2007 cu scopul de a populariza jocul intelectual Ce?

Unde? Cind? şi de a recruta noi membri.

Figura 4.1 – Portalul Educaţional www.cuc.md

În septembrie 2007 a ajuns să devină unul din cele mai populare portaluri educaţionale din

Republica Moldova, un factor decisiv fiind aplicarea tehnicilor de optimizare şi promovare.

În continuare este descris procesul de optimizare şi promovare a portalului, urmînd paşii

procesului de optimizare.

Pasul 1. Analiza site-ului

Portalul a fost creat şi este întreţinut în prezent cu ajutorul sistemului de management al

conţinutului Joomla, unul din cele mai puternice şi populare din lume. Deoarece iniţial site-ul conţinea

foarte puţină informaţie, analiza s-a axat în special pe design-ul paginii principale. A fost ales să fie

simplu, cu culori puţine, iar informaţia principală să fie accesibilă cît mai facil. În urma acestei analize

http://www.cuc.md/

http://www.cuc.md/

prealabile, s-a trecut la pasul 2, urmînd a fi formulate obiectivele şi strategiile.

Pasul 2. Definirea obiectivelor, strategiei

La această fază au loc definirea strategiei şi obiectivelor pe o perioadă anumită de timp. Astfel,

ca obiective au fost:

1. Indexarea paginii de principale motoare de căutare;

2. Ridicarea PageRank-ului la 2;

3. Ridicarea Rank-ului Alexa şi clasarea site-ului cît mai înaltă (să fie în topul primelor 50 site-

uri moldoveneşti);

4. Înscrierea în directoarele internaţionale şi moldoveneşti, în special DMOZ, Google, etc;

5. Creşterea numărului de linkuri indexate de principalele motoare de căutare: Google, MSN,

Yahoo;

6. Creşterea numarălui de linkuri inbound;

7. Promovarea offline;

Propunîndu-ne astfel aceste obiective pentru primele 6 luni, urmează în continuare a le îndeplini

prin diverse metode (cele ce sunt enunţate în fazele procesului de optimizare şi promovare)

Pasul 3. Analiza cuvintelor cheie

Au fost propuse iniţial pentru analiză şi promovare următoarele cuvinte cheie:

1) Ce Unde Cind;

2) Jocuri intelectuale;

3) Joc intelectual;

4) Jocuri Banalitati;

5) Cluburi intelectuale;

6) Cuc Moldova;

Cuvintele cheie au fost înscrise în MetaTag-uri, urmînd apoi a controla poziţia site-ului în

motoarele de căutare (în special Google). Desemenea s-a controlat ca densitatea cuvintelor să fie cît

mai mare, iar cele mai principale să fie evidenţiate prin bold

Pasul 4. Optimizarea site-ului

Optimizarea portalului a fost realizată prin:

1. Crearea unui design simplu;

2. Utilizarea cît mai puţină a obiectelor FLASH;

3. Indicarea în imagini a atributului ALT;

4. Folosirea MetaTag-urilor în fiecare pagină;

5. Mărimea paginilor să fie mai mică de 100K, încărcarea paginii să fie cît mai rapidă;

6. Adăugarea de conţinut;

Pasul 5. Înregistrarea în motoarele de căutare şi directoriile Web

La acest pas, care consider a fi unul din cele mai importante, s-a propus adăugarea portalului în

principalele motoare de căutare, cît şi în directoriile Web. Scopul acestui pas este ca site-ul să fie

indexat, urmînd apoi a ne focaliza asupra creşterii popularităţii site-ului.

Pentru aceasta, a fost nevoie de completarea datelor privind site-ul şi expedierea ulterioară a

informaţiilor administratorilor acestor directoare. Am ales în directorii ca portalul să fie înregistrat sub

categoria “Societate şi Cultură”. S-a observat că link-ul www.cuc.md a fost adăugat în Directoriul Web

DMOZ (Figura 4.2) după o lună din momentul înregistrării (a fost înregistrat pe 3 mai, a apărut la

începutul lunii iunie).

http://www.cuc.md/

Figura 4.2 – Înregistrarea linkului www.cuc.md în directoriul Web DMOZ

După încă trei luni, acest link a apărut şi în directoriul Google (Figura 4.3).

http://www.cuc.md/

Figura 4.3 – Link-ul www.cuc.md în directoriul Google

În directoarele moldoveneşti, a fost ales Ournet.md, care este cel mai mare şi cel mai popular

din Moldova. Dat fiind faptul că www.cuc.md este un portal educaţional care este realizat şi deţinut de

un grup de studenţi, categoria sub care va fi listat site-ul a fost aleasă “Organizaţii studenţeşti şi

grupuri” (Figura 4.4).

De menţionat că în urma adăugarii site-ului în directoriul DMOZ, a crescut brusc numarăul

link-urilor inbound în reţea, dat fiind faptul că numeroase directorii din lume folosesc informaţia listată

în directoriul DMOZ.

http://www.cuc.md/

http://www.cuc.md/

Figura 4.4 – Link-ul www.cuc.md în directoriul Ournet.md

Pasul 6. Constituirea şi optimizarea legăturilor

La această etapă a fost esenţial de constituit şi optimizat două tipuri de legături: externe şi

interne.

Cele externe se referă implicit la numărul de „backlink”-uri, crearea unei reţele de afiliaţi pentru

a aduce cît mai mulţi utilizatori externi pe site-ul propriu. Astfel, este definit „Programul de constituire

a legăturilor”, prin adăugarea de link-uri „outbound” ale altor site-uri, care la rîndul lor conţin link la o

pagină de pe site-ul nostru, de dorit pagina principală. Un exemplu este pagina Consilului Naţional al

Tineretului, unde este un link al site-ului nostru (Figura 4.5).

http://www.cuc.md/

Figura 4.5 – Link-ul www.cuc.md pe pagina CNTM

De asemenea este foarte important de realizat şi o structură foarte bine realizată a link-urilor

interne. Link-urile de pe site-ul www.cuc.md sunt ierarhic constituite din 3 nivele, astfel, propagarea

PR-ului de pe pagina principală la o pagină de nivelul 3 este destul de enormă.

Pasul 7. Rapoartele

Pentru a vedea rezultatele obţinute în urmă paşilor urmaţi anterior, se realizează o statistică prin

intemediul diverselor instrumentare Web. Astfel, se poate de evidenţiat în timp evoluţia numărului de

pagini indexate de motorul de căutare Google.

Pagini Indexate in Google

02004006008001000120014001600

Februarie

Martie

Aprilie

Mai

Iunie

Iulie

August

Septembrie

Nr. p

agin

i

Figura 4.6 – Evoluţia în timp a numărului de pagini indexate în Google

http://www.cuc.md/

http://www.cuc.md/

Se poate uşor de văzut că datorită şi creşterii link-urilor de pe site, are loc respectiv şi creşterea

numărului de pagini indexate de Google.

Cît priveşte evoluţia PR-ului, aici s-a observat unele evenimente. Astfel, din momentul indexării

site-ului pînă la atribuirea primului Rank au trecut aproximativ 4 luni, perioadă în care portalul era într-

o listă a site-urilor “suspecte” ale lui Google. Deoarece portalul este unul informativ şi nu de spam,

motorul l-a notat după această perioadă ca un site de încredere. La moment site-ul are PR-ul egal cu 2,

iar în timpul apropiat va ajunge şi la 4.

Este de menţionat evoluţia popularităţii site-ului în ratingul Alexa. La moment, în categoria

“Societate şi Cultură”, site-ul este situat pe locul 2. Per total, între site-urile moldoveneşti (cu conţinut

în limba română), www.cuc.md se situează pe locul 16. Acest rating este foarte important, deoarece

arată popularitatea site-ul în rîndul populaţiei din R.Moldova, iar poziţionarea curentă nu poate decît să

ne motiveze şi mai mult pentru realizarea altor tehnici de promovare şi optimizare.

Figura 4.7 – Popularitatea site-ului www.cuc.md după rating-ul Alexa

În tabelul 4.1 sunt enumerate principalele cuvinte cheie şi poziţia în SERP.

Tabelul 4.1 -- Cuvintele cheie şi poziţia în Google

Cuvîntele cheie Poziţia (Google)

http://www.cuc.md/

http://www.cuc.md/

Ce Unde Cind 1Cluburi Intelectuale 1Jocuri Banalitati 1Jocuri Intelectuale 2CUC Moldova 3CUC md 6

Afişarea grafică se poate de văzut şi în Anexa A.

În final putem enumera următoarele rezultate:

Indexarea în Google, Yahoo, MSN: Da

Înregistrarea în DMOZ: Da

Alexa Rank: 298,319

Google PageRank: 2

Pagini Indexate (Google): 1500

Link-uri Inbound (Google): 340

Observăm astfel că obiectivele propuse iniţial la pasul 2 au fost realizate.

Pasul 8. Planul analitic şi planul de acţiune

Analizînd paşii de mai sus, se poate de planificat următoarele acţiuni:

1. Ridicarea PR-ului la 4;

2. Crearea Hărţii Site-ului;

3. Construirea legăturilor;

Concluzii

Deseori o cercetare interesanta ridica mai multe întrebari decât reuseste sa gaseasca răspunsuri.

Atât din punct de vedere al procesarii rezultatelor căutarii, cât şi al contextului social, mai sunt foarte

multe de explorat.

Trecerea la societatea informaţională implică sporirea volumului de informaţii şi accelerarea

comunicării, problema căutării informaţiei devine tot mai importantă. Web-ul a devenit un nou mediu

de publicare a informaţiei. Site-urile web sînt folosite pentru a promova companiile şi produsele sale,

presta servicii şi informaţii, facilita comunicarea. Acest studiu serveşte ca un îndrumător pentru

optimizarea şi promovarea site-urilor în motoarele de căutare.

În teză au fost descrise metode de optimizare şi promovare a paginilor Web, în special în

motoarele de căutare. S-a pus ca obiectiv cercetarea:

• motoarelor de căutare, sistemul Google fiind descris mai detaliat;

• metodologiei de cercetare empirică;

• tehnicilor de optimizare pentru motoarele de căutare;

• factorilor ce influenţează apariţia site-ului Web pe primele pagini ale motoarelor de căutare

după introducerea unor cuvinte cheie;

• metodelor de promovare în motoarele de căutare;

• marketingului în motoarele de căutare;

În baza metodelor cercetate a fost realizat un model al procesului de promovare şi optimizare a

Site-urilor. Pe baza acestui model a fost optimizat şi promovat un portal educaţional. Succesul

implementării acestor metode conturează importanţa lor în aducerea în evidenţă a informaţiei necesare.

Bibliografie

1. Mihai Drăgănescu, „Societatea informaţională şi a cunoaşterii. Vectorii societăţii

cunoaşterii” – [Resursă electronică]

http://www.academiaromana.ro/pro_pri/pag_com01socinf_tem.htm

2. Gabriela Grosseck, “Căutarea informaţiilor pe Internet” – [Resursă electronică]

www.revistaie.ase.ro/content/39/Grosseck.pdf

3. O. Burlaca, “Sistem de management al conţinutului Web” – [Resursă electronică]

www.cnaa.acad.md/files/theses/2006/4735/oleg_ burlaca _thesis.pdf

4. D. Janssen, “The Effects of Affiliate Marketing Networks on Search Engine

Rankings” – [Electronic resource]

www.m4n.nl/documents/The_ Effects _of_ Affiliate _ Marketing .pdf

5. И. Ашманов, А. Иванов, “Продвижение сайта в поисковых системах”, –

Москва, 2007.

6. E. Hargittai, “Dimensiuni sociale, politice, economice şi culturale ale motoarelor de

căutare” – [Resursă electronică]

http://www.ris.uvt.ro/Numarul7%202007/EHargittai.pdf

7. S. Buraga, “Robotii Web” – [Resursă electronică]

http://thor.info.uaic.ro/~busaco/publications/articles/roboti.pdf

8. Lee Underwood, “A Brief History of Search Engines” – [Electronic resource]

www.webreference.com/authoring/search_history/

9. GVU’s 10th www user survey graphs, “How Users Find out About WWW Pages” –

[Electronic resource]

www.gvu.gatech.edu/user_surveys/survey-1998-10/graphs/use/q52.htm

10. iProspect, “iProspect Search Engine User Attitudes” – [Electronic resource]

www.iprospect.com/premiumPDFs/iProspectSurveyComplete.pdf

11. Bruce Clay, Inc, “Search Engine Relationship Chart” – [Electronic resource]

www.bruceclay.com/searchenginerelationshipchart.htm

12. Danny Sullivan, “comScore Media Metrix Search Engine Ratings” –

[Electronic resource] www.searchenginewatch.com/reports/article.php/2156431

13. Insite by Lycos, “Search engine marketing guide” – [Electronic resource]

http://insite.lycos.com/tutorial.asp

http://insite.lycos.com/tutorial.asp

http://www.searchenginewatch.com/reports/article.php/2156431

http://www.bruceclay.com/searchenginerelationshipchart.htm

http://www.iprospect.com/premiumPDFs/iProspectSurveyComplete.pdf

http://www.gvu.gatech.edu/user_surveys/survey-1998-10/graphs/use/q52.htm

http://www.webreference.com/authoring/search_history/

http://thor.info.uaic.ro/~busaco/publications/articles/roboti.pdf

http://www.ris.uvt.ro/Numarul7 2007/EHargittai.pdf

http://www.m4n.nl/documents/The_Effects_of_Affiliate_Marketing.pdf

http://www.cnaa.acad.md/files/theses/2006/4735/oleg_burlaca_thesis.pdf

http://www.revistaie.ase.ro/content/39/Grosseck.pdf

http://www.academiaromana.ro/pro_pri/pag_com01socinf_tem.htm

14. Searchenginewatch.com, “Ten tips to the top of Google” – [Electronic resource]

www.searchenginewatch.com/searchday/article.php/2198931

15. Wayne Hulbert, “Keyword Density: SEO Considerations” – [Electronic resource]

www.webpronews.com/news/ebusinessnews/wpn4520050501KeywordDensitySEOc

onsiderations.html

16. Chris Sherman, “131 (Legitimate) Link Building Strategies” –

[Electronic resource]

www.searchenginewatch.com/searchday/article.php/2160301

17. Alexa, “Top Sites” – [Electronic resource] www.alexa.com/site/ds/top_500

18. Danny Sullivan, “Major Search Engines and Directories” – [Electronic resource]

www.searchenginewatch.com/links/article.php/2156221

19. Danny Sullivan, “Other Global Search Engines” – [Electronic resource]

www.searchenginewatch.com/links/article.php/2156281

20. Debbie Flanagan, “Web Search Strategies” – [Electronic resource]

http://www.learnwebskills.com/search/main.html

http://www.learnwebskills.com/search/main.html

http://www.searchenginewatch.com/links/article.php/2156281

http://www.searchenginewatch.com/links/article.php/2156221

http://www.alexa.com/site/ds/top_500

http://www.searchenginewatch.com/searchday/article.php/2160301

http://www.webpronews.com/news/ebusinessnews/wpn4520050501KeywordDensitySEOconsiderations.html

http://www.webpronews.com/news/ebusinessnews/wpn4520050501KeywordDensitySEOconsiderations.html

http://www.searchenginewatch.com/searchday/article.php/2198931

Anexa A – Rezultatele afişate de Google în cazul unor cuvinte cheie

Figura A.1 – Rezultatele căutării după cuvîntul cheie „Jocuri Intelectuale”

Figura A.2 – Rezultatele căutării după cuvîntul cheie „CUC Moldova”

Figura A.3 – Rezultatele căutării după cuvîntul cheie „Ce Unde Cind”

Figura A.4 – Rezultatele căutării după cuvîntul cheie „Cluburi Intelectuale”

Figura A.5 – Rezultatele căutării după cuvîntul cheie „cuc md”

Figura A.6 – Rezultatele căutării după cuvîntul cheie „Jocuri Banalitati”

Anexa B – Lista directoarelor web

Tabelul B-1 - Cele mai importante directoare Web din lume

No URL Preţul Data PR1 www.dmoz.org/ Gratis 1999 82 dir.yahoo.com/ $299/an 1995 83 www.lii.org/ Gratis 1998 84 www.stpt.com/directory/ $99/an 1995 75 www.business.com/ $199/an 1998 76 www.cannylink.com/ $20 1997 07 www.americasbest.com/ $20 1998 08 www.joeant.com/ $40 2000 69 www.chiff.com/ $60/an 1998 610 www.jayde.com/ Gratis 1996 611 www.skaffe.com/ $45 2003 512 www.mavicanet.com/ Gratis 1999 413 www.ezilon.com/ $69 2002 614 www.botw.org/ $240 1996 715 www.avivadirectory.com/ $75/an 2005 616 www.elib.org/ $81 2003 717 directory.v7n.com/ $50 2004 618 www.rlrouse.com/ $50 2002 519 www.gimpsy.com/ $40 2001 520 www.goguides.org/ $40 2001 521 www.uncoverthenet.com/ $189 2004 622 www.qango.com/ $55 1998 523 www.bigall.com/ $15 2004 024 www.azoos.com/ $90 2001 525 www.clush.com/Dir/ $20/an 2004 726 www.illumirate.com/ Gratis 2003 527 www.businessseek.biz/ $12 2003 528 www.platinax.co.uk/directory/ $30 2004 629 www.informationoutpost.com/ $5 1998 430 www.thisisouryear.com/ $25 2000 531 www.abilogic.com/ $18 2003 532 www.sunsteam.com/ $75 1999 433 www.alivedirectory.com/ $50/an 2005 634 www.site-sift.com/ $50 2004 635 www.wowdirectory.com/ $43 2003 5

Tabelul B-2 – Cele mai importante directoare Web din Republica Moldova

No URL $ Data PR1 www.ournet.md Gratis 1999 82 www.point.md Gratis 1995 83 www.allmoldova.com Gratis 1998 84 compass.mcc.md/en/ Gratis 1995 7

http://compass.mcc.md/en/

http://www.allmoldova.com/

http://www.point.md/

http://www.ournet.md/

http://www.wowdirectory.com/

http://www.site-sift.com/

http://www.alivedirectory.com/

http://www.sunsteam.com/

http://www.abilogic.com/

http://www.thisisouryear.com/

http://www.informationoutpost.com/

http://www.platinax.co.uk/directory/

http://www.businessseek.biz/

http://www.illumirate.com/

http://www.clush.com/Dir/

http://www.azoos.com/

http://www.bigall.com/

http://www.qango.com/

http://www.uncoverthenet.com/

http://www.goguides.org/

http://www.gimpsy.com/

http://www.rlrouse.com/

http://directory.v7n.com/

http://www.elib.org/

http://www.avivadirectory.com/

http://www.botw.org/

http://www.ezilon.com/

http://www.mavicanet.com/

http://www.skaffe.com/

http://www.jayde.com/

http://www.chiff.com/

http://www.joeant.com/

http://www.americasbest.com/

http://www.cannylink.com/

http://www.business.com/

http://www.stpt.com/directory/

http://www.lii.org/

http://dir.yahoo.com/

http://www.dmoz.org/

5 super.md Gratis 1998 7

http://www.business.com/

internet-glosar de termeni uzuali

Documents