Excluindo conteúdo duplicado – Parte 2

No último post, discuti a importância de prevenir conteúdo duplicado em websites, visto os problemas que podem causar perante os buscadores.

Abaixo, listo duas técnicas de exclusão de conteúdo. A primeira é utilizando a tag META ROBOTS e a segunda utilizando o arquivo robots.txt

Uso da tag meta robots

Exemplo para determinados bots:

<meta name="googlebot" content="noindex, nofollow" />
<meta name="msnbot" content="noindex, nofollow" />

Exemplo para todos os bots:

<meta name="robots" content="noindex, nofollow" />

Uso do padrão de exclusão do robots.txt

Com o comando abaixo, os crawlers não irão acessar quaisquer páginas do site

Disallow: /

Com o comando abaixo, o googlebot não irá acessar determinado diretório do site:

User-agent: googlebot
Disallow: /diretorio/

Com o comando abaixo, nenhum crawler não irá acessar determinada página do site:

User-agent: *
Disallow: /arquivo.html

3 ideias sobre “Excluindo conteúdo duplicado – Parte 2”

  1. Existe alguma forma de não indexar apenas parte do conteúdo de uma página? Ex: um site que possui aulas online e que gostaria de que os comentários feitos pelos alunos sobre as aulas não fossem indexados pelos robôs de busca. É possível? Li alguma coisa a respeito de IFrame e de que os robôs o ignoram. Se o conteúdo dos comentários ficassem dentro de IFrames, seriam ignorados?

    Obrigado.

  2. Olá Leandro,

    Não sei a resposta certa para a sua pergunta, mas algumas idéias vieram:

    – Os comentários em iframe, como você sugeriu, poderia ser um modo de TENTAR evitar a indexação.
    – Chamar os comentários por ajax, assim os search engines não conseguem indexá-los.

    Espero ter ajudado

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *