Cum se realizeaza indexarea unui site in Google

Google este cel mai folosit motor de cautare din lume, peste 88% dintre toate cautarile efectuate provin de pe acesta. Drept urmare, nu se poate vorbi de prezenta sau promovarea unui site in mediul online decat prin preajma modului in care Google detecteaza noile website-uri si paginile acestora si mai ales, modului in care paginile de pe web descoperite sunt clasificate in functie de importanta si relevanta lor tinand cont de prezenta anumitor cuvinte cheie. Al doilea cel mai folosit motor de cautare este Bing, cu putin peste 4% din totalul cautarilor. Alte motoare de cautare importante, impreuna cu evolutia gradului de folosire al acestora intre anii 2010-2015, gasesti in graficul de mai jos.
Statistic: Worldwide market share of leading search engines from January 2010 to April 2015 | Statista
Mai multe statistici pe Statista

Atunci cand pe web apare continut nou, de exemplu un nou site sau pagina web, pentru ca acel continut sa fie prezent si pe motoarele de cautare trebuie ca motorul de cautare sa acceseze continutul nou folosind crawler-ul propriu - denumit si robot, sa verifice daca site-ul pe care se afla continutul permite accesarea acestuia de catre crawlere, si, in cele din urma, sa stabileasca contextul in care continutul va fi expus printre rezultatele unei cautari pe respectivul motor de cautare - proces cunoscut si ca indexare. In cele ce urmeaza am sa prezint mai in detaliu ce este un crawler si cum se realizeaza indexarea.


  Ce este un crawler web?

Un crawler web, cunoscut si ca program spider sau robot, este un software specializat in descoperirea continutului nou de pe web. Cand acesta va accesa un site sau o pagina web, va retine toate linkurile continute pentru ca apoi sa le acceseze pe rand. Pentru fiecare pagina accesata se va stabili daca pagina exista sau nu inregistrata pe motorul de cautare, iar daca exista se va detecta daca aceasta a suferit modificari sau actualizari de la ultima accesare. Pe scurt, crawlerele web au rolul de a descoperi ce este nou pe web si de a detecta modificarile de continut de pe paginile deja existente pe motoarele de cautare. Odata ce s-a descoperit continut nou, se va trace la o noua etapa in care acesta va fi analizat cu scopul de a permite gasirea paginii de catre utilizatorul motorului de cautare atunci cand efectuareza cautari.


  Ce reprezinta indexarea unui site pe un motor de cautare?

Indexarea este un proces prin care informatiile de pe web sunt organizate astfel incat sa poata fi gasite cu usurinta in functie de anumiti termeni de cautare. Mai exact, motorul de cautare va prelucra paginile accesate cu crawlere pentru a crea un index relevant pentru acestea, scopul final fiind acela de a expune paginile potrivite celor care cauta informatii pe motorul de cautare. Sistemele de indexare iau in calcul numeroase aspecte ale paginilor precum momentul cand a fost expus online continutul, ce tip de date exista (text, imagini, videoclipuri),  PageRank-ul site-ului, frecventa unor cuvinte considerate relevante pentru intregul continut si multe altele.


Controlul webmasterului asupra crawlerelor

Exista situatii cand administratorul site-ului doreste ca anumite pagini sa nu fie expuse pe motoarele de cautare, de exemplu paginile in care exista informatii personale ale utilizatorilor. Tocmai de aceea motoarele de cautate au implementate mai multe filtre ce permit excluderea unor pagini in a fi accesate de catre crawlere atat la partea de webmaster - prin folosirea unor taguri html cum ar fi "nofollow" in cadrul linkurilor, folosirea unui fisier text numit "robots.txt" prin care se specifica modul in care se vor indexa paginile, dar si la partea de motor de cautare - fiecare motor de cautare avand platforme online de gestiune avansata a paginilor indexate.


Cat dureaza indexarea unui site?

Chiar daca un site este online si poate fi accesat atat de catre vizitatori dar si de catre crawlere, asta nu inseamna ca situl respectiv va fi automat accesat cu crawlere in vederea indexarii de catre Google, tocmai pentru ca motorul de cautare nu stie inca de existenta acestuia. Indexarea sitului va fi luata in considerare odata cu inscrierea site-ului pe Google folosind pagina de adaugare url sau atunci cand pe un website extern care este deja vizibil pe Google exista un link care face trimitere catre site.

In cazul in care site-ul este trimis catre indexare folosind pagina de inscrirere a noilor situri, poate dura pana la doua saptamani pana cand acesta va aparea pe motorul de cautare, iar acest lucru nu garanteaza ca toate paginile sale vor fi indexate. In schimb, daca un link catre site exista pe un alt site indexat de Google atunci acesta va fi indexat mult mai rapid, timpul indexarii scazand cu cat website-ul respectiv are Page Rank-ul mai mare. Bineinteles, se pot folosi si ambele metode in acelasi timp.

Un alt aspect al indexarii este frecventa accesarii sitului de catre crawlere, care este influentata de cat de actualizat este site-ul pe termen lung dar si de valoarea Page Rank pe care o va dobandi.

Pentru un mai bun control al indexarii este recomandata crearea unui cont de webmaster Google, care pe langa faptul ca ofera o unealta eficienta de gestiune a paginilor indexate pe motorul de cautare, este si un instrument de analiza a performantei si evolutiei vizibilitatii site-ului pe Google de-a lungul timpului. Accesarea platformei destinata webmasterilor se face la adresa www.google.com/webmasters/tools/home?hl=ro.


  Mai multe informatii despre procesul de indexare al paginilor si modul in care se realizeaza afisarea atunci cand se efectueaza cautari pe Google sunt prezentate in videoclipul de mai jos (subtitrare in limba romana).