Question 1

Dois-je bloquer les bots IA comme GPTBot ?

Accepted Answer

C'est une décision personnelle. Bloquer GPTBot (OpenAI), CCBot (Common Crawl), ou anthropic-ai empêche théoriquement ces entreprises d'utiliser votre contenu pour entraîner leurs modèles. Dans la pratique, ces bots respectent généralement le robots.txt. Si la protection de votre contenu contre l'usage IA vous importe, il est raisonnable de les bloquer. En revanche, certains de ces bots alimentent aussi des fonctionnalités de recherche IA qui peuvent vous apporter du trafic.

Question 2

Quels chemins bloquer en priorité ?

Accepted Answer

Les chemins les plus couramment bloqués sont les zones d'administration (/wp-admin/, /admin/), les pages de résultats de recherche interne (/search/, /?s=), les pages de connexion et d'inscription, les répertoires contenant des fichiers système ou des scripts (/cgi-bin/), et les pages de panier ou de commande sur les e-commerces. Bloquez aussi les URLs avec paramètres de tri/filtres qui génèrent du contenu dupliqué.

Question 3

Comment vérifier que mon robots.txt fonctionne ?

Accepted Answer

Google Search Console propose un outil de test de robots.txt dans la section "Anciens outils et rapports". Saisissez une URL et il vous indique si elle est bloquée ou autorisée pour Googlebot. Vous pouvez aussi consulter directement votre fichier sur monsite.fr/robots.txt pour vérifier qu'il est bien en ligne et accessible.

Question 4

Faut-il déclarer le sitemap dans le robots.txt ?

Accepted Answer

Oui, c'est une bonne pratique. Ajouter la ligne Sitemap: https://votresite.fr/sitemap.xml en fin de fichier robots.txt aide les moteurs à le découvrir, même s'ils ne sont pas connectés à la Search Console. Si vous avez plusieurs sitemaps (sitemap index), déclarer le fichier index principal qui les liste tous.

Directive	Rôle	Exemple
`User-agent`	Désigne le bot concerné (* = tous)	`User-agent: *`
`Disallow`	Interdit l'accès à un chemin	`Disallow: /admin/`
`Allow`	Autorise explicitement un chemin (même si parent bloqué)	`Allow: /public/`
`Sitemap`	Indique l'URL du sitemap XML	`Sitemap: https://monsite.fr/sitemap.xml`
`Crawl-delay`	Délai entre deux requêtes du bot (en secondes)	`Crawl-delay: 1`

Générateur de robots.txt

Qu'est-ce que le fichier robots.txt ?

robots.txt ≠ noindex

Questions fréquentes