Como o Google Funciona? – Análise sobre Crawlers, Spiders e bots

É muito curiosa a forma que os robôs dos mecanismos de buscas trabalham. A função deles é revirar a internet, procurando páginas onde eles possam estar gravando em um banco de dados em determinada empresa, para que posteriormente essas informações possam ser usadas nos mecanismos de buscas, aparecendo nas SERP’s (Resultados de buscas) quando uma pessoa fizer uma busca, sendo rankeadas através de uma classificação determinada por um algoritmo.

 

 

Página inicial do Google em 1999

O BOT (que também pode ser chamado de WebCrawler, Robô, ou Spider de buscas) mais famoso da internet é o GoogleBOT, mais famoso devido à dominação da sua empresa no ramo.

Primeiro servidor do Google

Vamos representá-lo com um logo da Android, da própria Google.

Vamos supor que não exista hoje nenhuma página na internet. Mas aí de repente surgiu 10 páginas, 5 em um site e 5 em outro. Para entender como eles funcionam, vamos ilustrar:

No primeiro site, a primeira página aponta para as outras quatro com um link, como se fosse um site que têm uma página inicial + outras páginas. E no outro site, também existe uma página que aponta para as quatro restantes do grupo.

Vem alguém, constrói um robô e o programa para ele achar cada página e indexá-las no banco de dados da empresa.

OK, mas essa pessoa que construiu o robô e o soltou na internet, só conseguiu indexar uma página só, porque ele o robô só foi programado para indexar, mas não conseguia ir para as outras páginas sozinho. Sempre tinha que ir alguém lá e mostrar a ele que também existia outras páginas para que ele pudesse também indexá-las. Então, o programador do robô decide escrever mais instruções para que, quando o robô estiver lendo a página e perceber um link nela, siga esse link (a palavra “link” significa “ligação”), para chegar àquela página de destino.

Com isso, na página inicial do nosso primeiro site que o robô percorreu, ele só encontrou 4 links nela, ou seja, ele indexou uma página, encontrou 4 links nela, seguiu esses links, e conseguiu chegar nas outras páginas e indexá-las (gravá-las num banco de dados) sozinho, porque ele estava programado para fazer isso.

Temos agora 5 páginas indexadas, no primeiro site.

Mas e o outro grupo de cinco páginas? O robô varreu toda a página (Página inicial do primeiro site) para o qual foi mostrado, indexou ela, seguiu os links e indexou também aquelas outras páginas que ele conseguiu chegar.

Aí foi que a pessoa que criou o robô, decidiu colocá-lo para ler a página inicial daquele outro grupo, e ele indexou aquela página e seguiu os quatro links que tinha nele, como na etapa anterior. Agora todas as páginas dos dois sites diferentes estão indexadas porque o robô já aprendeu que quando ele visse um link, ele seguisse e indexasse as outras.

 

Agora, vamos imaginar que nenhuma página está indexada nos mecanismos de busca. Vamos esquecer a etapa anterior e começar novamente.

Colocamos um link no primeiro site apontando para a página inicial do outro site. Quando o Robô for vasculhar o primeiro site, ele vai indexar todas as páginas da nossa internet.

Mas aí a pessoa que estava construindo os sites recebe uma ordem de seu chefe dizendo que quer que aquele link apontando para a página inicial de um site para a página inicial de outro continue ali, mas não quer que o robô indexe o segundo site quando ele passar pelo primeiro. É só a pessoa colocar o atributo rel=”nofollow” no link da página inicial, que o Bot não vai seguir.

Assim:

<a href=”enderecodestinodolink” rel=”nofollow”>Texto âncora (Clique pra ir para a página 6 do segundo site.)</a>

É como se você desse uma instrução ao robô para não seguir aquele link.

Muito cuidado com os comentários de spam em seu blog, ou qualquer outro link que aponte para sites de baixa qualidade, que não são do nicho do seu, pois se você os aprova, ele vai aparecer no seu site e se não houver o atributo nofollow nos links, seu site vai ficar mal visto pelos robôs de busca como um site com má vizinhança, que linka para sites suspeitos. Então certifique-se de que há o atributo nofollow nos links de comentários no seu site e não aprove comentários de spam nele.

Vamos supor que o robô viu em uma página desse site, um link apontando para um site desconhecido, que está hospedado em outro território. O BOT vai seguir e vai indexar também aquele link, mas o site que “recomendou” aquela página desconhecida, de outro território, está passando tipo um voto de confiança. É como se ele estivesse dizendo ao robô “aquele site ali é bom, pode indexar ele”. O BOT vai para ele, mas se o site for ruim, o BOT que confiou no site que recomendou vai ficar com raiva dele e sua reputação já baixa um pouquinho. Mas se o site referido pelo site indexado for bom, é como se o site que recomendou passasse sua relevância, um pouco de sua vida e poder para aquele site que foi linkado, fazendo com que ele (o referido) seja agora mais “bem visto” pelo robô, porque o robô de busca confiou no site que indicou.

É basicamente assim que funciona um robô de busca. Ele varre a internet procurando páginas para indexar em seu banco de dados. No Google, que é o maior e melhor buscador atualmente, tem a equipe de webspam que fica filtrando esse conteúdo indexado, procurando conteúdo duplicado (que agora é automatizado esse processo), sites que trapaceiam em seus códigos a fim de enganar os algoritmos de buscas para aparecer melhor no ranking, entre outros, o Google vai atrás deles e pune e em alguns casos até remove do índice.

Para uma pessoa que criou um site agora há pouco e quer que ele apareça mais rápido nas buscas do Google, é só essa pessoa dizer ao robô do Google que o site dela existe na internet, criando um Sitemap (mapa do site – aqui eu dou umas dicas de como criar o do seu site) e o enviando para o serviço de Webmasters para buscadores (no Google é só acessar a Central de Ferramentas para Webmasters, cadastrar seu site e procurar a opção de cadastrar um Sitemap). Com isso, você vai estar indicando as URLS do seu site, dando um dica ao Google de que aquele conteúdo existe e está disponível para ser indexado.

Mas se você não quer que esse conteúdo do seu site seja indexado, você tem que criar um robots.txt, (que é um arquivo de texto que você dá instruções ao BOT) e dizer a ele que não indexe o conteúdo. Se você quer que indexe seu conteúdo, caso o robot venha achar, pode deixar sem o arquivo robots.txt mesmo na raiz do site, que o padrão é que seu site seja indexado.

Agora se uma página sua indexou acidentalmente, é preciso colocar nela uma Metatag com “no-index”…

<meta name=”robots” content=”noindex, nofollow” />

… (ali diz que a página não deve ser indexada, e caso esteja no índice, retire dele e não siga os links que houver nela) dentro da tag <head></head> da página que você quer tirar do índice. O robô vai entender quando ele passar novamente naquela página, ele tem que tirar ela do índice. Essa mesma Metatag também pode ser usada para dizer ao robô que o conteúdo deve ser indexado…

<meta name=”robots” content=”index, follow” />

… (ali diz que a página deve ser indexada caso não esteja no índice e siga os links que houver nela). Mas como o padrão é que o BOT chegue no seu site e indexe ele, então deixar sem não vai afetar em nada.

Siga-me no Facebook

Comments

comments

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios são marcados com *