Feliz Natal! Marenzo.net

AddThis Social Bookmark Button
Home Você está em: Home Dicas para Webdesigner

Pesquisa de Domínio

Veja se o domínio que você procura está disponível para registro: 

 

Dicas para o Google

Imprimir E-mail

 Robots.txt

Origem: Wikipédia, a enciclopédia livre.

 

Robot (ou robô) é um programa de computador que percorre automaticamente as páginas da Internet em busca de documentos, a fim de indexá-los, validá-los ou monitorar alterações de conteúdo. Para controlar as atividades desses robots durante suas buscas, opcionalmente, webmasters podem criar um arquivo chamado robots.txt no diretório raiz de um determinado endereço web. Robots.txt é um arquivo no formato texto (.txt) que funciona como "filtro" para os Crawlers e robots dos motores de busca da Internet, permitindo ou bloqueando o acesso a partes ou à totalidade de um determinado site.

Índice

 [esconder]

[editar]Conteúdo de um arquivo "robots.txt"

Um arquivo robots.txt se parece como descrito a seguir:

User-agent: *
Disallow: /

onde User-agent é o nome do robot e Disallow indica qual diretório deve estar impedido de ser vasculhado por este robot. No caso acima, o asterisco (*) indica "todos os robots" e a barra (/) indica que o diretório raiz deve estar bloqueado. Desse modo, sites que incluírem tais diretrizes em seu arquivo robots.txt estarão impedindo, automaticamente, todos os robots de procurar documentos a partir da raiz do sistema.

Se o parâmetro Disallow estiver vazio, significa que nenhum diretório está sendo bloqueado. Abaixo, um exemplo real de um arquivo robots.txt:

User-agent: Googlebot
Disallow: /confidencial
Disallow: /protegido

No exemplo acima, o robot de busca do Google (chamado Googlebot) pode vasculhar todo o site, exceto os diretórios /confidencial e /protegido.

[editar]Protocolo de Exclusão de Robôs

Protocolo de Exclusão de Robôs é um método empregado pelos administradores de sistemas para informar aos robots visitantes quais diretórios de um site não devem ser vasculhados por eles. Ao visitar um site, os robôs buscam primeiro pelo arquivo robots.txt. Se o conteúdo deste arquivo listar algo conforme segue:

 User-agent: *
 Disallow: /

então o robô saberá que deve deixar o local sem buscar por nada ali. Outra maneira de se conseguir algo semelhante é através de Meta Tags, colocadas estrategicamente nos cabeçalhos de páginas HTML:

 <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

O parâmetro NOINDEX diz ao robô que o conteúdo daquele site não deve ser indexado e NOFOLLOW indica que os possíveis links ali existentes não devem ser analisados.

Se o robô não encontrar o arquivo robots.txt e não houver nenhuma Meta Tag que o proíba formalmente de analisar um site, a decisão sobre o que fazer passa a ser do próprio robô. Dependendo do site de busca ao qual ele pertence, ele poderá ou não prosseguir com a busca. A maioria optará por prosseguir.

[editar]Origem do Robots.txt

O arquivo robots.txt foi criado por consenso em junho de 1994 por membros da lista de discussão Este endereço de e-mail está protegido contra spambots. Você deve habilitar o JavaScript para visualizá-lo. . Não há nenhuma organização oficial representativa ouRFC sobre o protocolo.

[editar]Ligações externas

 


blog comments powered by Disqus
 

Assuntos Relacionados

Copyright © 2013 Sites - Suporte e Otimização - Marenzo.NET. Todos os direitos reservados.
Top