Configurez vos règles de crawl visuellement et téléchargez votre fichier robots.txt prêt à déployer à la racine de votre site.
Moteurs de recherche
Bots IA (scraping de données d'entraînement)
Bloquer ces bots empêche l'utilisation de votre contenu pour entraîner des modèles IA.
Chemins à bloquer (tous bots)
Le fichier robots.txt se place à la racine de votre site (monsite.fr/robots.txt) et indique aux robots d'exploration quelles parties du site ils peuvent ou ne peuvent pas visiter. Il ne garantit pas le blocage : un bot malveillant peut ignorer les règles. Pour les bots bien élevés (Google, Bing), c'est généralement respecté.
| Directive | Rôle | Exemple |
|---|---|---|
User-agent | Désigne le bot concerné (* = tous) | User-agent: * |
Disallow | Interdit l'accès à un chemin | Disallow: /admin/ |
Allow | Autorise explicitement un chemin (même si parent bloqué) | Allow: /public/ |
Sitemap | Indique l'URL du sitemap XML | Sitemap: https://monsite.fr/sitemap.xml |
Crawl-delay | Délai entre deux requêtes du bot (en secondes) | Crawl-delay: 1 |
Bloquer une URL dans robots.txt empêche Google de la crawler, mais pas forcément de l'indexer si elle reçoit des liens. Une page peut apparaître dans les résultats sans jamais avoir été visitée par Google, si d'autres sites y pointent. Pour exclure définitivement une page de l'index, utilisez la balise <meta name="robots" content="noindex"> directement dans le HTML de la page.
C'est une décision personnelle. Bloquer GPTBot (OpenAI), CCBot (Common Crawl), ou anthropic-ai empêche théoriquement ces entreprises d'utiliser votre contenu pour entraîner leurs modèles. Dans la pratique, ces bots respectent généralement le robots.txt. Si la protection de votre contenu contre l'usage IA vous importe, il est raisonnable de les bloquer. En revanche, certains de ces bots alimentent aussi des fonctionnalités de recherche IA qui peuvent vous apporter du trafic.
Les chemins les plus couramment bloqués sont les zones d'administration (/wp-admin/, /admin/), les pages de résultats de recherche interne (/search/, /?s=), les pages de connexion et d'inscription, les répertoires contenant des fichiers système ou des scripts (/cgi-bin/), et les pages de panier ou de commande sur les e-commerces. Bloquez aussi les URLs avec paramètres de tri/filtres qui génèrent du contenu dupliqué.
Google Search Console propose un outil de test de robots.txt dans la section "Anciens outils et rapports". Saisissez une URL et il vous indique si elle est bloquée ou autorisée pour Googlebot. Vous pouvez aussi consulter directement votre fichier sur monsite.fr/robots.txt pour vérifier qu'il est bien en ligne et accessible.