Qu'est-ce que le duplicate content ?

Le duplicate content c’est lorsque l’on retrouve deux contenus similaires sur un même site ou sur divers sites externes.

On peut discerner plusieurs catégories de contenus dupliqués :

Les contenus dupliqués involontaires, de nature technique, la plupart du temps en raison des paramètres d’un système de gestion de contenu (CMS)
Le contenu dupliqué par mégarde par le Webmaster, comme l’utilisation de titre ou de texte en double
Le contenu volontairement plagié dans le but de tromper les moteurs de recherche afin, d’améliorer leur positionnement et de générer plus de trafic
Le contenu dupliqué dans le cadre d’une campagne de netlinking mal conduite ou d’annuaires

Le duplicate content a des conséquences, notamment sur la façon dont les moteurs de recherche référencent les sites. En cas de duplicate content, les navigateurs se verront choisir quelle version du contenu sera référencé. L’ordre d’indexation des contenus peut être altéré par les moteurs de recherche et potentiellement moins mettre en avant les contenus de valeurs. Cela peut impacter le positionnement d’un site dans les résultats de recherches et entrainer une perte de trafic.

En plus de ces petites gênes causées par le duplicate content, vous risquerez quelques pénalités…

La mise à jour de l’algorithme de Google Panda en 2011 a été déployée pour lutter contre le contenu dupliqué.

Cependant, la majorité des contenus dupliqués sont involontaires. Dans ce cas il sera nécessaire de les identifier ainsi que les corriger. Il existe des outils comme SiteLiner, KillDuplicate, Copyscape ou encore la Google Search Central qui crawl et détectent rapidement le plagiat.

Sinon vous pouvez vous-même réaliser des petits tests comme :

Repérer les duplicates contents http/ https
Répertorier des versions de développement d’un site
Analyser les duplicate content avec et sans www
Certaines pages présentes dans les CMS (tags, portfolio, catégories, etc)

Enfin, une fois détecté, résoudre ces problèmes de plagiat se portera vers un seul et même concept : indiquer aux moteurs de recherche quelle est la bonne version à prendre en compte.

Les deux manières les plus éfficaces d’orienter des moteurs de recherches sont la redirection 301 qui sera bénéfique pour votre référencement.

Ainsi que, la balise rel=canonical qui permet d’orienter le moteur vers la page étant considérée comme l’original, afin que des pages ayant repris son contenu ne soient pas indexer.

Enfin, nous avons pu constater qu’aujourd’hui une majorité des contenus web sont en parti dupliqués. Il est alors fondamental de réduire le duplicate content sur les moteurs de recherche afin d’apparaître dans les meilleures positions de recherches.