Dicas para o Google |
|
|
|
Robots.txt Origem: Wikipédia, a enciclopédia livre.Robot (ou robô) é um programa de computador que percorre automaticamente as páginas da Internet em busca de documentos, a fim de indexá-los, validá-los ou monitorar alterações de conteúdo. Para controlar as atividades desses robots durante suas buscas, opcionalmente, webmasters podem criar um arquivo chamado robots.txt no diretório raiz de um determinado endereço web. Robots.txt é um arquivo no formato texto (.txt) que funciona como "filtro" para os Crawlers e robots dos motores de busca da Internet, permitindo ou bloqueando o acesso a partes ou à totalidade de um determinado site.
[editar]Conteúdo de um arquivo "robots.txt"Um arquivo robots.txt se parece como descrito a seguir: User-agent: * Disallow: / onde User-agent é o nome do robot e Disallow indica qual diretório deve estar impedido de ser vasculhado por este robot. No caso acima, o asterisco (*) indica "todos os robots" e a barra (/) indica que o diretório raiz deve estar bloqueado. Desse modo, sites que incluírem tais diretrizes em seu arquivo robots.txt estarão impedindo, automaticamente, todos os robots de procurar documentos a partir da raiz do sistema. Se o parâmetro Disallow estiver vazio, significa que nenhum diretório está sendo bloqueado. Abaixo, um exemplo real de um arquivo robots.txt: User-agent: Googlebot Disallow: /confidencial Disallow: /protegido No exemplo acima, o robot de busca do Google (chamado Googlebot) pode vasculhar todo o site, exceto os diretórios /confidencial e /protegido. [editar]Protocolo de Exclusão de RobôsO Protocolo de Exclusão de Robôs é um método empregado pelos administradores de sistemas para informar aos robots visitantes quais diretórios de um site não devem ser vasculhados por eles. Ao visitar um site, os robôs buscam primeiro pelo arquivo robots.txt. Se o conteúdo deste arquivo listar algo conforme segue: User-agent: * Disallow: / então o robô saberá que deve deixar o local sem buscar por nada ali. Outra maneira de se conseguir algo semelhante é através de Meta Tags, colocadas estrategicamente nos cabeçalhos de páginas HTML: <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> O parâmetro NOINDEX diz ao robô que o conteúdo daquele site não deve ser indexado e NOFOLLOW indica que os possíveis links ali existentes não devem ser analisados. Se o robô não encontrar o arquivo robots.txt e não houver nenhuma Meta Tag que o proíba formalmente de analisar um site, a decisão sobre o que fazer passa a ser do próprio robô. Dependendo do site de busca ao qual ele pertence, ele poderá ou não prosseguir com a busca. A maioria optará por prosseguir. [editar]Origem do Robots.txtO arquivo robots.txt foi criado por consenso em junho de 1994 por membros da lista de discussão Este endereço de e-mail está protegido contra spambots. Você deve habilitar o JavaScript para visualizá-lo. . Não há nenhuma organização oficial representativa ouRFC sobre o protocolo. [editar]Ligações externas
|



Dicas para Webdesigner







