Le Contenu Dupliqué en SEO

Le contenu dupliqué ou « Duplicate content » en anglais, est un problème assez courant dans le monde du SEO. En effet, beaucoup de sites internet se voient pénalisés par des moteurs de recherche du fait du nombre considérable de pages faisant doublons. Découvrons les différents types de Duplicates contents, leurs dangers et les différentes solutions pour s’en débarrasser.

Définition du Duplicate content

Lorsque l’on copie et que l’on colle une portion de texte à plusieurs endroits sur un site, nous faisons ce qu’on appelle du contenu dupliqué ou Duplicate content. Ce contenu répété X fois constitue un problème pour les utilisateurs et pour les moteurs de recherche. En effet, le contenu n’étant pas forcément utile, et ressemblant beaucoup plus à du spam qu’à autre chose, nuit à la bonne compréhension et à l’expérience utilisateur au sein d’un site internet.

Il existe deux types de contenus dupliqués : le contenu dupliqué interne et externe.

Contenu dupliqué interne

Le contenu dupliqué interne constitue des doublons présents au sein d’un même site. Celui-ci peut intervenir lorsqu’il y a un problème de configuration, un problème lié à l’indexation et au crawl des pages, ou autre. On parlera de duplicate content partiel lorsqu’une petite portion du site est copiée et de duplicate content total lorsque l’ensemble du site fait doublon.

Contenu dupliqué externe

Le contenu dupliqué externe quant à lui est souvent du contenu volé, réutilisé à outrance… et qui se trouve sur un autre domaine que le site en question. Le contenu dupliqué externe est un peu plus difficile à gérer dans le sens où nous n’avons pas forcément le contrôle sur ce qui a été copié. De plus, les moteurs ne sont pas toujours à la hauteur pour identifier l’auteur original.

Même si pour beaucoup, tout cela est simplement une mauvaise information ou de l’ignorance, un certain nombre de personnes pensent profiter du système en volant du contenu chez les meilleurs pour ensuite les réutiliser. Heureusement, aujourd’hui, les règles ont bien changé et il n’est plus aussi facile de manipuler un moteur de recherche, surtout en ce qui concerne Google.

Copyscape
Copyscape : outil de détection de contenu plagié

Les dangers du contenu dupliqué

Aujourd’hui, faire trop de contenu dupliqué est sanctionné par les moteurs de recherche. Google notamment, a sorti un algorithme spécifique qui agit pour filtrer les bons et mauvais contenus : Google Panda. Celui-ci est greffé au processus d’indexation et analyse vos pages pour vérifier qu’elles sont de bonne qualité, qu’elles ne sont pas volées, et par la même occasion… qu’elles ne sont pas dupliquées.

En clair, si Google Panda, en scannant votre site, se rend compte que vous avez un nombre incalculable de copié-collé, il vous sanctionnera. Ainsi, vous pourrez perdre des places voire même dans de rares cas vous faire expulser de l’index pour spam.

Autre pénalité chez Google, la pénalité manuelle. Dans Google Webmaster tools, vous pouvez être notifié comme quoi une pénalité pour Duplicate content a été enregistrée à votre égard. Celle-ci peut être partielle ou totale. Généralement, cela dépend de la gravité de la situation.

Ensuite, il existe bien entendu une pénalité psychologique au niveau de vos utilisateurs. Si ceux-ci se rendent compte que votre site est une usine à duplicate content, ils vous ignoreront et vous feront une mauvaise réputation. Clairement, vous ne reverrez plus aussi souvent ces utilisateurs, ils se perdent dans les méandres d’un contenu sans aucun sens et répétitif.

Enfin, je ne peux pas m’empêcher de vous avertir à propos de la notion de « Negative SEO ». Si une ou plusieurs personnes volent votre contenu ou réutilisent une bonne partie de vos contenus sur le web (ce qui fera du duplicate content externe), il peut arriver que Google vous pénalise. Google ne s’exprime malheureusement pas à ce sujet dans le sens ou cela semble être une faille dans leur moteur. En effet, le negative SEO, c’est baisser le référencement d’un site en envoyant des signaux négatifs à Google à propos d’un site. Cela est d’ailleurs puni par la loi. Ne vous amusez pas à cela.

Supprimer le duplicate content

Dans un premier temps, nous verrons comment identifier du contenu dupliqué, puis je ferai le tour de quelques raisons principales pour lesquelles un site peut être en péril.

Identifier le contenu dupliqué

Tout d’abord, il faut savoir si nous sommes victimes d’une pénalité et/ou si nous sommes en présence de duplicate content. Pour ce faire, on peut commencer en regardant notre compte Google Webmaster Tools. En effet, celui-ci indique souvent s’il y a un problème/une erreur avec votre site. Ainsi, il se peut que vous receviez un message d’alerte. Votre site peut alors avoir été signalé comme site partiellement ou totalement spam. Si vous avez cette indication, mieux vaut considérer qu’il va falloir vous pencher sur votre contenu.

Aussi, vous avez la possibilité d’utiliser des outils comme Siteliner, Copyscape, sans parler de Google.

Siteliner scanne votre site et vous indique votre pourcentage de contenu dupliqué interne. Cet outil peut aussi vous aider pour comprendre vos contenus et l’architecture de votre site. On l’utilise pour le Duplicate content interne généralement. À noter que Siteliner dispose d’une version gratuite et d’une version payante sans limitation du nombre de pages scanné.

Siteliner
Siteliner : outil de détection de duplicate content internet

Copyscape quant à lui est le grand frère de Siteliner. En effet, cet outil bien connu des référenceurs vous servira à identifier si une personne possède le même contenu que vous sur le web. Il vous appartient après de savoir si c’est vous qui êtes l’auteur original ou non. Cet outil est surtout utilisé pour le Duplicate content externe. À noter que ce service est lui aussi gratuit avec une limitation et que vous pouvez acheter une licence payante qui pourra même vous avertir en ce qui concerne des contenus dupliqués.

Ensuite, en faisant une simple recherche Google indiquant quelques phrases de votre contenu, vous pouvez très bien voir si le géant a indexé des pages similaires. Cela peut être intéressant pour trouver l’auteur original aux yeux de Google ou autre.

Enfin, je passe rapidement sur les faits évidents. Si en explorant votre site, vous constatez qu’il y a souvent la même chose, que vos contenus apparaissent souvent sur plusieurs pages, c’est que vous avez un souci de contenu dupliqué. Personnellement, j’attends aujourd’hui qu’un site ait moins de 20 % de contenu dupliqué.

Supprimer le contenu dupliqué interne

Maintenant que nous savons comment identifier un contenu dupliqué, il ne nous reste plus qu’à nous en débarrasser. Comme cela est assez compliqué à adapter pour chaque site, je vais simplement me décharger en disant que les points suivants sont des points généralistes et qu’il vaut mieux y réfléchir à plusieurs fois avant de s’y coller. N’oubliez pas que consultant SEO est un métier et que comme dans tout métier, il y a des subtilités à connaître qu’on ne peut pas mettre dans un article.

Une URL pour chaque contenu

Évident, mais plus facile à dire qu’à faire. Lorsque vous ajoutez des paramètres d’URL, des ID, ou tout autre élément pouvant modifier l’URL d’un même contenu, vous faites du contenu dupliqué. En effet, http://www.domaine.com/page.php et http://www.domaine.com/page.php?post=2 constituent un doublon. Ainsi, je vous suggère :

  • D’éviter d’utiliser les ID de session
  • D’éviter d’utiliser les paramètres d’URL (ou de bien les indiquer dans Google Webmaster Tools, surtout en e-commerce)
  • De faire attention à bien utiliser soit le sous-domaine www soit le domaine seulement (en redirigeant en 301)
  • De faire attention à n’utiliser qu’un seul protocole. Soit HTTP, soit HTTPS (attention il existe des exceptions, notamment en e-commerce)
  • De régler votre CMS ou tout autre système de routing d’URL pour avoir de belles et uniques URL

Cette liste est probablement non-exhaustive et de nombreux cas particuliers peuvent survenir en fonction de la technologie utilisée, de la structure et de la conception du site. Vraiment, renseignez-vous !

Ne pas indexer tous les contenus

Depuis l’avènement des sites dynamiques, il est beaucoup plus facile de créer du contenu dupliqué. Ainsi, il vous appartient de sélectionner les pages qui ne doivent pas être indexées ou utilisées. En effet, si vous indiquez un noindex, follow au niveau de vos pages doubles, vous pourrez éviter les similitudes au niveau des résultats des moteurs de recherche et ainsi enlever les suspicions sur le duplicate content.

Éviter le copier-coller

Ce point aussi est évident :  éviter de copier et de coller ses contenus. Réutiliser des portions de code, de texte ou autre provoque une redondance que les moteurs n’aiment pas :  ce n’est pas qualitatif. Ainsi, essayez de proposer toujours quelque chose d’unique, je pense notamment aux fiches produits qui sont longues à rédiger et qui se ressemblent bien souvent. Le prochain point permet d’ailleurs de résoudre quelques soucis.

Mettre en place une balise canonical

Depuis quelque temps, il existe une nouvelle balise qui permet d’indiquer la page de référence d’un contenu :  la balise canonical. Celle-ci se présente sous cette forme :

<link rel="canonical" href="http://www.domaine.com/page-de-reference/" />

Cette balise vous permet de dire aux moteurs : « Cette page B ressemble beaucoup à une autre page A qui est la référence sur ce site. Nous t’informons que cette page n’est pas forcément qualitative et qu’il vaut mieux indexer l’autre. ».

En clair, cela veut dire que vous pouvez indiquer une page « maitresse » qui fera office de page référente à un groupe. Par exemple, si j’ai un site e-commerce sur lequel je vends un téléphone qui se décline en 10 couleurs avec une page pour chaque couleur, je peux indiquer dans chacune de ces pages que la page de référence, la page canonique, est le modèle en noir.

À noter qu’il ne faut pas abuser de cette balise et qu’il y a d’autres moyens pour éviter le problème énoncé.

Éviter les fonctionnalités à répétition

Autre chose auquel il faut faire attention, c’est le fait d’utiliser des fonctionnalités, modules, widget, code… qui répètent plusieurs fois la même chose. En effet, si sur une page, vous avez un système qui affiche la même chose partout, vous créez encore une fois du Duplicate content. Il faut donc éviter toutes ces choses. Pour désigner quelques exemples, vous avez les générateurs de PDF, les systèmes d’impression, les modules de texte et de commentaires, et pleins d’autres choses. Vérifiez donc bien tout cela avant d’installer une fonctionnalité définitivement.

Définir le domaine par défaut dans Google Webmaster Tools

Il peut être intéressant d’envoyer un autre signal à Google en ce qui concerne le domaine principal. Il pourra ainsi être persuadé que le domaine de référence pour le site indiqué est bien celui qui a un contenu qualitatif. Rendez-vous dans les paramètres du site dans votre outil pour les webmasters.

Attention à toutes les autres formes de duplicate content

Comme affirmé en introduction, je ne peux pas tout lister. En fonction du CMS, du framework, du code, du site, de la thématique, des produits, de la manière dont est conçu le site, il y a une multitude de manières de créer du duplicate content. C’est à vous ou à un consultant SEO de mettre en place une stratégie anti-DC.

Supprimer le contenu dupliqué externe

Comme dit plus haut, le contenu dupliqué externe est un contenu hors de votre site internet. Le problème avec ce genre de contenu est que nous n’avons pas toujours le contrôle et qu’il est plus difficile de l’éradiquer. Cependant, il existe des méthodes qui vous permettront d’éviter les pénalités et les conséquences d’actes comme le negative seo (qui n’existent pas selon les moteurs, c’est un long débat).

Evitez d’utiliser le même contenu sur plusieurs sites d’un réseau

Vous êtes webmaster et vous avez plusieurs sites ? Il arrive fréquemment, sous la montagne de contenu à produire, de vouloir utiliser l’instrument de la facilité : CTRL C +  CTRL V. En effet, lorsque l’on a des centaines de pages à concevoir, nous préférons réutiliser nos contenus tel un recyclage. Malheureusement, cela n’est pas une bonne pratique. À moins de vraiment utiliser quelques phrases et d’avoir 90% de contenu original à côté, votre contenu sera considéré comme de mauvaise qualité. Faites donc attention à ne pas utiliser le même contenu sur vos sites.

Faites attention aux migrations et refontes

Lorsque l’on est amené à changer de nom de domaine ou à refaire notre site internet, il nous arrive souvent de devoir changer la structure, faire des redirections dans tous les sens ou autre. Cependant, lorsque les actions ne sont pas bien effectuées, un ancien site peut très bien causer des problèmes. Par exemple, il est courant de voir un ancien blog sur une adresse et un nouveau sur une autre, cela fait doublon et il faudrait procéder à une redirection 301.

N’utilisez pas de contenu indexé

Ce point est très large, mais permet de poser une règle bien stricte. Que vous achetiez du contenu, que vous invitiez quelqu’un sur votre site pour écrire, que vous hébergiez un document PDF, Word, PowerPoint ou autre, vous créez du contenu dupliqué. La meilleure façon est sans doute de demander la non-indexation de ces contenus ou de tout simplement ne pas les mettre en ligne.

Agrégateur et autres plateformes

Parfois, certaines personnes utilisent des agrégateurs de contenu afin d’avoir toutes les actualités centralisées au même endroit. De plus, dans le but d’améliorer le référencement d’un site, certains sites hébergent vos contenus. Faites très attention à tous ces outils ! Faites bien attention à ce qu’un contenu externe pointe vers une source, qu’un flux RSS ne propose qu’un extrait de vos contenus, etc.

Demander la suppression ou la désindexation de vos contenus

Clairement, faites valoir vos droits d’auteur. Une personne qui reprend vos écrits ou vos images sans votre consentement commet une atteinte à vos droits de non distribution, de non diffusion, etc. Sans pour autant aller à l’extrême en contactant un tribunal, faites un simple mail au créateur du site pour demander la suppression ou la non-indexation des contenus à l’aide d’une directive noindex, follow.

Si vous n’avez aucune réponse, vous pouvez tout à fait vous servir de l’outil de plainte de Google afin de demander la suppression du contenu.

Conclusion

Le duplicate content est quelque chose de compliqué, car pouvant être provoqué de toute part. Le tout est d’avoir du bon sens et de proposer quelque chose d’unique, aussi bien sur votre site que sur le web.

S’il existe du contenu dupliqué sur la totalité des sites, c’est toujours la même chose : il ne faut pas en abuser. Les meilleures solutions sont de bien se renseigner, de bien observer ce que l’ont fait, et de contacter un consultant pour faire un checkup complet.