La baza succesului motorului de căutare Google se află un proces destul de simplu şi complex denumit indexare. Încă de la început, indexarea a avut un principiu foarte simplu: să integreze tot ce e nou pe Internet la un moment dat, site-uri, pagini, actualizări de conţinut şi să afişeze mai apoi tot ce e integrat şi relevant pentru un subiect, la o căutare după cuvinte cheie.
Indexarea presupune includerea conţinutului site-urilor în Google Index. Dincolo de explicaţiile tehnice destul de complicate, Google Index se aseamănă foarte mult cu un index dintr-o bibliotecă, acea bază de date care conţine toate informaţiile despre cărţile de acolo şi care poate fi căutată de oricine doreşte un exemplar la împrumut sau la sala de lectură. Locul cărţilor este luat de liste mari cu pagini web despre care Google a „auzit”, tot conţinutul nou şi update-urile la pagini sunt imediat preluate şi indexate. Practic indexul este o bază de date uriaşă pe care Google o foloseşte pentru a stoca informaţii despre orice site analizat.
Analiza poartă numele de „crawling”, modul în care o pagină este analizată şi mai apoi indexată depinde de calitatea Spider crawler-ului Google, destul de bună, de vreme ce în prezent există actualizări ale indexului în permanență. Boții Google, care se ocupă de crawling urmăresc link-urile şi conţinutul actualizat de pe site, dar sunt cu ochii şi pe alte pagini care au legătură cu site-ul. Anumite părţi din site pot fi „ascunse” de aceşti boţi prin folosirea fişierului Robots.txt sau printr-un tag no-index. De obicei nu se indexează arhive, tag-uri, categoriile, pagini inutile pentru o căutare după cuvinte cheie. Toate rezultatele crawling-ului sunt adăugate în baza de date Google Index doar după o analiză atentă şi rapidă care spune clar dacă respectivul site este de calitate sau nu. Googlebot-ul procesează cuvintele de pe paginile web, analizează locul în care apar, atributele ALT şi tag-urile titlurilor sunt şi ele analizate pentru a se determina calitatea unui site.
Crawling-ul începe cu paginile web capturate deja în procesele anterioare, la care se adaugă date furnizate de sitemap-urile oferite de webmasteri. Când se găsesc link-uri noi şi conţinut se adaugă la Google Index. În analiza complexă făcută în timpul fiecărui proces de crawling se ţine cont de momentul expunerii online a conţinutului, de tipul de date existente acolo, de PageRank-ul site-ului, de frecvenţa cuvintelor relevante pentru tot conţinutul. Verificarea indexării unui site se realizează simplu, căutând pe motorul de căutare după site: numelesiteului.com, iar dacă se doreşte includerea mai multor pagini în Google Index se poate pune la dispoziţia crawler-ului un sitemap prin Webmaster Tools.
Indexarea unui site este completă când acesta este înscris pe Google cu ajutorul paginii de adăugare url, dar şi atunci când sunt link-uri pe website-uri externe care apar deja în Google Index. La înscrierea noilor site-uri folosind pagini de înscriere apariţia în motorul de căutare durează şi două săptămâni, însă o metodă mai rapidă este prezenţa unui link către website pe un al site deja indexat. Dacă website-ul are şi Page Rank mare, timpii scad şi mai drastic. Desigur, rapiditatea indexării depinde şi de frecvenţa accesării sitului de către crawlere, ea fiind influenţată de update-urile periodice de pe site şi de actualizările pe termen lung.
Factorii care pot afecta procesul de crawling sunt destul de mulţi, aşa că ne vom limita în a-i enumera doar pe cei mai importanţi din punct de vedere SEO.
· Numele domeniului – de când cu update-urile Google Panda importanța numelui de domeniu a devenit foarte mare, sunt luate în seama mai ales numele de domenii care includ şi cuvântul cheie principal care defineşte cumva site-ul;
· Backlinks – ai mai multe backlink-uri, eşti de încredere şi ai reputaţie mai bună în ochii motorului de căutare. Backlink-urile puţine se traduc în viziunea Google prin conţinut de slabă calitate pe site;
· Internal linking – dacă se foloseşte acelaşi achor text în acelaşi articol crawling-ul va fi mai „amănunţit”, analiza botilor va fi mult mai atentă;
· XML Sitemap – sitemap-urile sunt auto-generate dacă se foloseşte un XML Sitemap, Google este informat că un website este actualizat şi va dori să îşi trimită boții pentru crawling;
· Conţinutul duplicat – cu cât e mai puţin pe site, cu atât Google va fi mai tolerabil; dacă însă e foarte mult pe site, Google va înceta să mai indexeze ceva legat de site-ul respectiv;
· Canonicalizarea URL-urilor – este bine să avem URL-uri SEO friendly pentru fiecare pagină din site pentru indexare rapidă şi de calitate;
· Tag-urile Meta-tag-urile Meta unice şi non-competitive sunt începutul unei optimizări SEO de calitate şi a unei indexări potrivite;
· Pinging-ul – adăugarea tuturor site-urilor care fac pinging către site-ul tău asigura o informare corectă şi rapidă despre actualizările de pe site;
Se poate întâmpla de multe ori ca paginile unui site sau un întreg site să nu apară în Google Index. Cauzele pot fi multiple. Iată doar câteva dintre cele mai frecvente:
· Site-ul este indexat cu un domeniu www sau non-www – ambele nume de domenii ale unui site trebuie adăugate, se va seta domeniul preferat, însă e bine să se verifice chestiunile legate de proprietate în ambele cazuri;
· Google nu a reuşit să găsească site-ul – se poate rezolva uşor uploadand un sitemap corect realizat;
· Site-ul sau paginile lui sunt blocate cu robots.txt – se vor scoate toate intrările din robots.txt şi site-ul va apărea în indexări;
· Nu există sitemap.xml – acest tip de fişier oferă o lista de direcţii pentru Google, utile la indexare, el se poate realiza uşor după care se dă un submit şi site-ul va apărea în motorul de căutare;
· Erorile de crawl – cu Google Webmaster Tools se identifică uşor erorile, după care se remediază conform indicaţiilor Google;
· Setările privacy sunt active – debifarea lor poate duce la reindexarea site-ului în mod corect;
· Site-ul e blocat de către .htacces – fişierul respectiv face posibilă existenţa site-ului pe web, deblocarea lui se face simplă urmând ghidurile online legate de .htacces şi reindexări;
· Site-ul are noindex, nofollow în tag-ul Meta – se elimină linia de cod cu aceste atribute şi problema s-a rezolvat, site-ul e indexat corect;
· Încărcarea site-ului e greoaie – se pot verifica timpii de încărcare pentru anumite site-uri şi se poate schimba serverul pentru că botii Google să nu îşi piardă răbdarea în timpul procesului de crawling;
Indexarea mai rapidă a site-urilor noi sau a paginilor noi din site se poate face prin crearea unui sitemap mai complex, prin upload-ul sau în Google Webmaster Tools, prin instalarea Google Analytics, adăugarea url-urilor în motoarele de căutare, crearea sau actualizarea profilurilor sociale, sharing-ul link-ului noului website, prin social bookmarking de calitate, prin offsite content targetat, prin adăugarea site-ului în directoare deja indexate.
Foarte bun articolul, ofera niste informatii foarte valoroase pentru cei care fac seo.