Hoje vamos falar sobre gerenciamento de conteúdo duplicado dentro do seu próprio site. Este pode ser um desafio para quem possui websites com grande número de páginas internas, mais ainda se o site exige atualizações diárias, dando volume a quantidade de conteúdo, adicionando, alterando e excluindo recursos. Com o tempo os sites podem acumular páginas e duplicar o conteúdo de URLs que atendam ao mesmo conteúdo. Geralmente conteúdo duplicado em um site não é problemático, mas pode dificultar o rastreamento e a indexação destas páginas. Além disso, PageRank e outros dados semelhantes a linkagem interna do site podem se espalhar através das páginas que não são reconhecidas como duplicadas e isso pode fazer que seu site seja prejudicado no que se diz a posicionamento nos resultados de busca.
Dicas para lidar com conteúdo duplicado no seu site:
Reconhecer o conteúdo duplicado no seu site é o mais importante. Uma maneira fácil de fazer isso é ter um trecho do texto de uma de suas páginas e realizar uma pesquisa, limitando os resultados para páginas dentro de seu próprio website usando o operador “site:”. Se você receber vários resultados para o mesmo conteúdo, você pode começar a analisar estas páginas.
Antes de resolver qualquer problema de conteúdo duplicado, você deve determinar a sua URL preferida e responder a pergunta: Qual URL você prefere usar para esse conteúdo?
Uma vez que você escolheu a sua URL preferida, certifique-se de usá-la em todos os lugares possíveis dentro do seu website (incluindo o Sitemap).
Redirecionar URLs duplicadas para a URL preferida usando um código de resposta 301 pode ajudar e muito os usuários e ferramentas de busca localizar a URL de escolha no caso de visitarem as URLs duplicadas. Se seu site tem vários domínios, faça a escolha de um e utilize o redirecionamento 301 nos outros, garantindo que os usuários são levados para a página desejada, não apenas para a página principal. Se você tem nomes de host com e sem “www”, escolha um e use a ferramenta do WebmasterTools para redirecionar corretamente.
Quando não é possível fazer um redirecionamento 301, o atributo rel = “canonical” pode ajudar as ferramentas de busca compreenderem melhor o seu site e suas URLs favoritas. Usando este elemento de ligação você padroniza as pesquisas em seu site para outros motores de busca além do Google, como o Ask.com, Yahoo! e Bing.
Se todo ou parte do conteúdo duplicado no seu site vem de parâmetros de consulta de URL, essa o Google WebmasterTools pode ajudar a avisar quais parâmetros são importantes e quais deles são irrelevantes para o sua URL. Digamos que você tenha um site de produtos de beleza e um dos itens principais seja um creme. A página do produto pode ser acessada por meio de diferentes URLs, especialmente se você usar IDs de sessão ou outros parâmetros:
example.com.br/produtos/mulheres/creme/morango.htm
example.com.br/produtos/mulheres/creme?cor=vermelha&cruel=não
example.com.br/loja/indice.php?product_id=32&highlight=morango+creme&cat_id=1&sessionid=123&affid=431
example.com.br/creme/coquetel?gclid=X20382
Se as ferramentas de busca souberem que essas páginas tem o mesmo conteúdo, podem indexar somente uma versão para os resultados de pesquisa. No entanto, com a ferramenta do Google estas podem ser ignoradas para reduzir o conteúdo duplicado e tornar o seu site mais rastreável.
Então, por exemplo se você especificar que o parâmetro sessionid deve ser ignorado, o Google considerará example.com.br/creme/morango.htm?sessionid=273749 como o mesmo que example.com.br/creme/morango.htm.
Não recomendamos bloquear o acesso a conteúdo duplicado no seu site com robots.txt ou com outros métodos. Ao bloquear os robôs ao invés de usar o atributo rel = “canonical”, ferramentas de manipulação de parâmetros ou redirecionamentos 301, os motores de buscas podem tratar essas URLs em separado, como páginas simples, e eles não vão saber que são URLs diferentes para o mesmo conteúdo. É melhor que sejam rastreadas, mas que sejam tratadas como duplicadas, utilizando um dos métodos recomendados aqui. Se você permitir que essas URLs sejam rastreadas, o robô vai aprender as regras para a identificação de conteúdo duplicado somente com olhar a URL e evitar novas varreduras desnecessárias.
Quando o conteúdo duplicado faz rastrear muito o seu site, você pode ajustar a taxa de rastreamento no Google Webmaster Tools com o objetivo de rastrear o maior número possível de páginas em seu site a cada visita, sem sobrecarregar a largura de banda do seu servidor.
Esperamos que estes métodos possam ajudá-los a gerenciar o conteúdo duplicado em seu site. Você pode encontrar mais informações sobre o conteúdo duplicado no nosso Site.
Até a Próxima!
Uma pergunta de Funkman de um local reservado. “Muitos espaços” no código fonte HTML é ruim?. Fato, mito, ou entre os dois em algum lugar?
Nós realmente não ligamos. Nós somos bons sabe, toda vez que vemos espaços, separamos as coisas…
Nós podemos ignorar espaços, então isso não nos causa nenhum dano. A única coisa que se deve realmente prestar atenção é… eu vi algumas pessoas sorrateiras que tentaram fazer textos escondidos ou qualquer coisa do tipo e começar o html com 60 linhas em branco, certo.
Então quando você ver o código, você fica assim: “Cara, está vazio, não tem código fonte!”, “Ow, cara, você arrebentou a minha mente!”
E qualquer pessoa esperta vai pensar: “Ou eu posso usar a barra de rolagem, e ver o que está aqui em baixo”. Então, sabe, eu usaria os espaços que sejam razoáveis para você. Eu penso: html limpo e boa identação, e sabe. Todas essas coisas ficam boas. E fazem seu site fácil de dar manutenção e atualização e ver o que está acontecendo com seu código fonte.
E o Google é muito bom em achar separadores e quebrá-los. Então, não faça uma palavra para cada 200 linhas em branco, caso contrário, você sabe…
Enquanto você fizer coisas razoáveis eu não me preocuparia muito com isso. Eu faria o que é melhor pra você manter seu site.
Assim como já feito pelo Bing um tempo atrás, o Google anunciou em seu blog oficial sua parceria com o Twitter, e este feito o eleva no patamar de buscas em tempo real.

Sendo assim os tweets irão aparecer nos resultados de busca, porém ainda não sabemos como será aplicado o mecanismo de rankeamento para determinar o quão relevante é um tweet. Terão os tweets page rank? Uma notícia retweetada aparecerá melhor nos resultados de busca? Existe a possibilidade de sites ganharem e perderem relevância de acordo com os tweets, por exemplo, se um blog anuncia uma notícia, que por sua vez é muito retweetada, este site pode ganhar relevância sobre o assunto, e também pode perder esta relevância quando a noticia não for mais propagada.
Essas são questões que só com o tempo poderemos saber, porém já devemos começar a pensar em como tirar proveito disso. Estamos vendo que midias sociais estão cada vez mais fazendo parte do mundo das buscas, e com isso cada vez mais empresas estão entrando nesse ramo, em busca de divulgação de sua marca e produtos.
Comentários e discussões são muito bem vindos!
Aqui está uma pergunta de Londres, Katy Bairstow pergunta: “Parece de pouco impacto para visitantes humanos onde uma página está na estrutura de um site, então: É melhor manter páginas de conteúdo chave perto da raiz, ou ter ela numa estrutura funil de tópicos, exemplo: comida/comida-rápida/hambúrgueres/hambúrgueres.php”.
Bem, isto não é conselho de SEO, é só um conselho de comportamento. Se você pode ter as coisas à poucos cliques da página principal, visitantes acharão ela mais fácil. Se alguém tem que clicar 8 vezes para achar a página de registro para sua conferência, comparado a registro na página da raiz, poucas pessoas irão encontrá-la se ela está longe de muitos clicks.
Então não importa onde ela está no caminho, como: está na raiz ou 8 níveis depois. Pode importar pra outras ferramentas de busca. Mas pelo menos para o Google eu pensaria mais em: seus visitantes podem encontrá-la?
E isto não é um conselho para posicionamento em resultados de busca. É apenas um conselho geral para melhorar seu ROI (Retorno de Investimento).
Hoje vamos falar sobre a técnica Black Hat SEO para posicionamento de busca: as doorways (páginas de entrada). De acordo com Cristina Zurita da equipe de qualidade de busca do Google, esta é uma técnica não recomendada que serve para posicionar um site nos primeiros lugares das páginas de resultados de busca (SERP) e redirecionar (de maneira direta ou indireta) os usuários a algum web site ou página em concreto, com conteúdo que não agrega valores aos usuários.
As doorways podem ser de muitas formas, mas algumas características que vemos freqüentemente são as seguintes:
O único propósito destas páginas é o de posicionar-se nos primeiros lugares nas SERP para muitas combinações de palavras-chave. Estas páginas podem ser geradas dentro do mesmo domínio ou bem como pequenos sites. Resumindo, aos usuários mostram-se páginas de baixa qualidade orientadas unicamente aos mecanismos de busca.
Vejamos alguns exemplos fictícios de utilização de doorways:
E se damos uma olhada nas páginas de websitevendedoresdesaopaulo.br utilizando o operador site (ou seja, buscamos no Google [site:websitevendedoresdesaopaulo.br]) encontraremos algo similar a isto:
websitevendedoresdesaopaulo.br/
websitevendedoresdesaopaulo.br/vendedores
websitevendedoresdesaopaulo.br/vendedores_de_campinas.html
websitevendedoresdesaopaulo.br/vendedores_de_itajuba.html
websitevendedoresdesaopaulo.br/vendedores_de_curitiba.html
websitevendedoresdesaopaulo.br/vendedores_de_salvador.html
websitevendedoresdesaopaulo.br/vendedores_de_ribeirao.html
websitevendedoresdesaopaulo.br/vendedores_de_maresias.html
websitevendedoresdesaopaulo.br/vendedores_de_ubatuba.html
Esta técnica pode parecer uma ideia muito tentadora já que são relativamente fáceis de criar, de maneira automática, mas não devemos criar uma página web que não resulte útil aos usuários ou que lhes proporcione conteúdos de péssima qualidade, e menos ainda com páginas geradas automaticamente.

E como esta técnica não respeita algumas diretrizes de mecanismos de busca, os sites de busca podem atuar contra os websites que utilizam estas técnicas. Assim se você suspeita que o seu site contenha alguma característica dessa técnica recomendamos que faça uma revisão em seu conteúdo para que este não seja penalizado.
Até a Próxima!
HandH de Chichester pergunta: O Google mudou a relevância que ele dá para sites de mídia social nos últimos 6 meses?
Nós tendemos a não pensar sobre, tipo: “Oh, apenas links de um site de mídia social!” Nós tendemos a não pensar: “Oh, Marcas!” ou coisas assim. Nós tendemos a pensam em links, se são úteis, inúteis e usamos isso como medida. Nós tentamos, sabe, dar mais crédito, mais confiança, a links que pensamos ser realmente valiosos.
Então, por exemplo, nós fazemos de 300 a 400 mudanças por ano. Eu estava numa reunião bem antes dessa onde falavamos de uma mudança que… sabe, da um peso um pouco diferente para alguns tipos de links e âncoras.
Então, isso poderia afetar um site de mídia social? Poderia, mas essa não é a idéia. Então, se fizemos mudanças relevantes que poderiam mudar como vemos os links dos sites de mídia social e como damos peso a eles nos últimos 6 meses?
Sim, provavelmente fizemos. Mas não foi do tipo: “Oh, vamos mudar como vemos os sites de mídia social.” E é isso. Quando dissemos: “Diga o que você quer ver o time de Webspam fazendo em 2009.”
Eu fiquei surpreso como 6 pessoas diferentes num dia disseram: “Mudem o jeito que vocês dão peso aos links de mídia social.” Então nós estamos abertos, sabe, fazer o que temos que fazer para ter melhores resultados de busca e coisas que são realmente úteis aos usuários. Mas até agora não fomos atrás disso como um projeto dedicado ou algo assim.
Sobre o Site:
Assine Nosso Feed
Categorias:
Posts Mais Recentes
Posts Mais Visitados
Meta