Moteurs de recherche

Bots IA (scraping de données d'entraînement)

Bloquer ces bots empêche l'utilisation de votre contenu pour entraîner des modèles IA.

Chemins à bloquer (tous bots)

Aperçu en temps réel

      

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt se place à la racine de votre site (monsite.fr/robots.txt) et indique aux robots d'exploration quelles parties du site ils peuvent ou ne peuvent pas visiter. Il ne garantit pas le blocage : un bot malveillant peut ignorer les règles. Pour les bots bien élevés (Google, Bing), c'est généralement respecté.

DirectiveRôleExemple
User-agentDésigne le bot concerné (* = tous)User-agent: *
DisallowInterdit l'accès à un cheminDisallow: /admin/
AllowAutorise explicitement un chemin (même si parent bloqué)Allow: /public/
SitemapIndique l'URL du sitemap XMLSitemap: https://monsite.fr/sitemap.xml
Crawl-delayDélai entre deux requêtes du bot (en secondes)Crawl-delay: 1

robots.txt ≠ noindex

Bloquer une URL dans robots.txt empêche Google de la crawler, mais pas forcément de l'indexer si elle reçoit des liens. Une page peut apparaître dans les résultats sans jamais avoir été visitée par Google, si d'autres sites y pointent. Pour exclure définitivement une page de l'index, utilisez la balise <meta name="robots" content="noindex"> directement dans le HTML de la page.

Questions fréquentes

Dois-je bloquer les bots IA comme GPTBot ?

C'est une décision personnelle. Bloquer GPTBot (OpenAI), CCBot (Common Crawl), ou anthropic-ai empêche théoriquement ces entreprises d'utiliser votre contenu pour entraîner leurs modèles. Dans la pratique, ces bots respectent généralement le robots.txt. Si la protection de votre contenu contre l'usage IA vous importe, il est raisonnable de les bloquer. En revanche, certains de ces bots alimentent aussi des fonctionnalités de recherche IA qui peuvent vous apporter du trafic.

Quels chemins bloquer en priorité ?

Les chemins les plus couramment bloqués sont les zones d'administration (/wp-admin/, /admin/), les pages de résultats de recherche interne (/search/, /?s=), les pages de connexion et d'inscription, les répertoires contenant des fichiers système ou des scripts (/cgi-bin/), et les pages de panier ou de commande sur les e-commerces. Bloquez aussi les URLs avec paramètres de tri/filtres qui génèrent du contenu dupliqué.

Comment vérifier que mon robots.txt fonctionne ?

Google Search Console propose un outil de test de robots.txt dans la section "Anciens outils et rapports". Saisissez une URL et il vous indique si elle est bloquée ou autorisée pour Googlebot. Vous pouvez aussi consulter directement votre fichier sur monsite.fr/robots.txt pour vérifier qu'il est bien en ligne et accessible.