Robots txt - protocolo de exclusão de sites nos indíces

O robots.txt é um protolo assumido pelos principais motores de busca que permite excluir sites, directórios ou páginas dos mesmos dos índices dos motores de busca. Já aqui abordamos como excluir páginas individuais do índice do google e outros motores de busca, através das meta tags. A solução robots.txt não só é mais abrangente e uniforme na sua aplicabilidade por parte dos motores de busca (se bem que voluntária) como permite a gestão centralizada dos conteúdos nos índices de - basta editar um ficheiro e sem grandes dificuldades. Criar um robots.txt é bastante simples, vejamos alguns exemplos:

Num ficheiro robots-txt há dois caracteres a ter em conta: * e /.
O asterisco “*” identifica todos os robots.
“/” identica o directório de raiz. Qualquer ficheiro ou directoria deverá ser identificado no robots.txt a partir deste elemento da url. Exemplo: a página “http://www.foo.com/page.html” é identificada no robots.txt como “/page.html”

Alguns exemplos de código e sua interpretação:

User-agent: *
Disallow:

Autoriza todos os robots a indexar todas as páginas do site.

User-agent: *
Disallow: /

Exclusão: Todos os agentes estão Não autorizados (/) a indexar o site.

User-agent: googlebot
Disallow: /images/

Impede um agente, neste caso o googlebot, de indexar uma directoria e todos os seus ficheiros. Outros agentes estão autorizados a fazê-lo.

User-agent: *
Disallow: /floress/rosa.html
Disallow: /arvores/pinheiro.html

Todos os robots estão impedidos de indexar estes dois ficheiros.
Notem que o resultado é idêntico a utilizar “Noindex” nas meta tags dos respectivos ficheiros.

Para saber mais: Guia de exclusão em webservers (robotstxt.org).

Se gostou desta entrada subscreva o Marketing de Busca e SEO por RSS ou directamente para o seu email. Privacidade absoluta.

Partilhar

Comentários

Uma Resposta para “Robots txt - protocolo de exclusão de sites nos indíces”

  1. Os jornais e O Google News - Marketing de busca a Maio 25th, 2007 23:55

    [...] deste modo receber mais leitores e obter mais receitas de publicidade. Se o jornal não gosta impede o acesso do Google News ao seu site, [...]

Deixe uma Resposta






Fechar
E-mail It