No último post, discuti a importância de prevenir conteúdo duplicado em websites, visto os problemas que podem causar perante os buscadores.
Abaixo, listo duas técnicas de exclusão de conteúdo. A primeira é utilizando a tag META ROBOTS e a segunda utilizando o arquivo robots.txt
Uso da tag meta robots
Exemplo para determinados bots:
<meta name="googlebot" content="noindex, nofollow" />
<meta name="msnbot" content="noindex, nofollow" />
Exemplo para todos os bots:
<meta name="robots" content="noindex, nofollow" />
Uso do padrão de exclusão do robots.txt
Com o comando abaixo, os crawlers não irão acessar quaisquer páginas do site
Disallow: /
Com o comando abaixo, o googlebot não irá acessar determinado diretório do site:
User-agent: googlebot
Disallow: /diretorio/
Com o comando abaixo, nenhum crawler não irá acessar determinada página do site:
User-agent: *
Disallow: /arquivo.html
3 respostas
Existe alguma forma de não indexar apenas parte do conteúdo de uma página? Ex: um site que possui aulas online e que gostaria de que os comentários feitos pelos alunos sobre as aulas não fossem indexados pelos robôs de busca. É possível? Li alguma coisa a respeito de IFrame e de que os robôs o ignoram. Se o conteúdo dos comentários ficassem dentro de IFrames, seriam ignorados?
Obrigado.
Olá Leandro,
Não sei a resposta certa para a sua pergunta, mas algumas idéias vieram:
– Os comentários em iframe, como você sugeriu, poderia ser um modo de TENTAR evitar a indexação.
– Chamar os comentários por ajax, assim os search engines não conseguem indexá-los.
Espero ter ajudado
Eu gostaria de saber quanto ao detalhe de pasta raiz tipo nnn/ e o index tipo nnn/index.html, são vistos como conteudo duplicado, se sim, como resolver?