Contenu dupliqué (duplicate content) : causes, risques et solutions

Définition

On parle de contenu dupliqué (ou duplicate content) quand un même texte (ou un texte très similaire) est accessible depuis plusieurs URLs différentes. Cela peut se produire sur un même site (duplication interne) ou entre plusieurs sites (duplication externe).

Ce n'est pas nécessairement une pratique délibérée. La majorité des cas de duplicate content sont involontaires, causés par la configuration technique du site.

Les deux formes de duplicate content

La duplication interne

C'est la plus courante et la plus facilement corrigeable. Elle se produit quand plusieurs URLs de votre propre site affichent le même contenu :

https://monsite.com/page/ et http://monsite.com/page/ (HTTP vs HTTPS)
https://www.monsite.com/page/ et https://monsite.com/page/ (www vs sans www)
Pages de filtres e-commerce : /chaussures/?couleur=rouge et /chaussures/?couleur=bleu avec le même texte
Pages de pagination : /blog/ et /blog/page/2/ avec des introductions identiques
Versions print (/page/?print=1) ou versions mobiles séparées
Fiches produits copiées d'un fabricant sans réécriture

La duplication externe

Un même texte apparaît sur plusieurs sites différents. Cas typiques : un article publié sur votre blog, puis republié tel quel sur un autre site (syndication), ou du contenu volé par scraping. Dans ce cas, Google doit choisir quelle version est "l'originale", et il ne choisit pas toujours la bonne.

Pourquoi c'est un problème SEO

Le duplicate content dilue l'autorité et crée de la confusion dans l'index Google :

Cannibalisation : plusieurs pages de votre site se font concurrence sur la même requête, au lieu d'une seule page forte.
Dilution de l'autorité : les backlinks qui pointent vers la page sont répartis entre plusieurs URLs au lieu de se concentrer sur une seule.
Mauvais choix d'indexation : Google peut décider d'indexer la "mauvaise" version, celle avec l'URL la moins propre ou la moins accessible.
Gaspillage du budget de crawl : Google passe du temps à explorer plusieurs versions du même contenu au lieu de découvrir de nouvelles pages.

Duplicate content = pénalité Google ?

Non, pas automatiquement. Google ne pénalise pas le duplicate content involontaire : il choisit simplement l'une des versions à indexer et ignore les autres. La pénalité n'intervient que dans les cas de manipulation délibérée et massive. Mais l'impact SEO négatif existe bien, même sans pénalité explicite.

Comment y remédier

Cause	Solution
HTTP vs HTTPS ou www vs sans www	Redirection 301 systématique vers la version canonique
URLs avec paramètres (filtres, tri, pagination)	Balise canonical pointant vers la version principale
Fiches produits dupliquées	Réécrire les descriptions ou ajouter une balise canonical
Pages de tags ou catégories vides	Noindex sur ces pages ou suppression + redirection
Syndication de contenu sur d'autres sites	Demander l'ajout d'un canonical vers votre version originale
Contenu copié par des tiers	Demande de retrait DMCA ou désaveu si présence de liens

La balise canonical : l'outil principal

La balise canonical indique à Google quelle est la version "officielle" d'une page parmi plusieurs URLs similaires. Elle se place dans le <head> :

<link rel="canonical" href="https://monsite.com/page-principale/">

Toutes les versions dupliquées portent cette balise pointant vers la version principale. Google transfère l'autorité vers cette URL et n'indexe que celle-là. C'est la méthode recommandée pour les situations où la redirection 301 n'est pas possible (par exemple pour les pages de filtres e-commerce qui doivent rester accessibles).

Comment détecter le duplicate content

Screaming Frog : liste toutes les pages avec le même contenu exact ou quasi-identique via la fonction "Near Duplicate".
Google Search Console : le rapport "Pages" signale les pages en doublon et celles dont la canonical a été remplacée par Google.
Siteliner.com : outil gratuit pour détecter le contenu dupliqué interne sur les petits sites.