Pourquoi l'indexation de la préprod est un problème
Lors d'une refonte ou d'un nouveau projet, il est courant de travailler sur un sous-domaine ou une URL temporaire comme preprod.monsite.com ou staging.monsite.com. Si cette URL est accessible sans restriction, les robots de Google peuvent la trouver et l'indexer.
Les conséquences sont concrètes :
- Duplicate content : le même contenu existe sur deux URLs différentes (préprod et prod). Google doit choisir quelle version indexer, ce qui dilue l'autorité.
- Confusion dans l'index : si la préprod est référencée avant le site final, des URLs temporaires peuvent apparaître dans les résultats de recherche.
- Signaux parasites : des pages incomplètes, des erreurs 404 en masse ou du contenu placeholder ("Lorem ipsum") envoyés à Google créent une mauvaise première impression.
Google peut indexer un site en quelques heures si un lien externe y pointe déjà. Ce délai est souvent plus court que la durée d'un projet de refonte.
Comment bloquer l'indexation d'un environnement de test
Plusieurs méthodes existent, avec des niveaux de protection différents. Je recommande de les combiner :
| Méthode | Comment ça fonctionne | Niveau de protection |
|---|---|---|
| Authentification HTTP (htpasswd) | Accès protégé par mot de passe côté serveur. Les robots ne peuvent pas s'identifier. | Très élevé |
| Balise meta robots noindex | <meta name="robots" content="noindex"> dans le head de chaque page. |
Élevé (si Google passe malgré tout) |
| Fichier robots.txt bloquant | Disallow: / pour tous les robots dans robots.txt. |
Moyen (déclaratif, pas contraignant) |
| Liste blanche IP | Seules certaines adresses IP peuvent accéder au serveur. | Très élevé |
Le robots.txt seul ne suffit pas. Il indique aux robots de ne pas indexer, mais certains bots ignorent cette consigne. L'authentification HTTP est la protection la plus fiable car elle bloque physiquement l'accès.
Vérifications SEO avant la mise en ligne
Avant de passer un site en production, voici les points SEO à contrôler systématiquement :
- Vérifier que les balises
noindexde la préprod ont bien été retirées (ou désactivées via la configuration). - S'assurer que le fichier
robots.txtde production n'est pas restrictif (ne bloque pas Googlebot). - Vérifier que les balises canoniques pointent vers les bonnes URLs finales.
- Contrôler que le sitemap XML liste les bonnes URLs et est accessible.
- Tester les redirections 301 si des URLs ont changé par rapport à l'ancien site.
- Soumettre le sitemap dans la Google Search Console dès la mise en ligne.
Cas particulier de WordPress
WordPress dispose d'une option native "Demander aux moteurs de recherche de ne pas indexer ce site" dans Réglages > Lecture. Elle ajoute une balise noindex sur toutes les pages. C'est pratique, mais il faut veiller à la décocher avant la mise en ligne. Oublier ce réglage est une erreur fréquente après une migration de site : le nouveau site part en production mais reste en noindex pendant des semaines.