Ce qu'est le crawl budget

Tableau comparatif : ce qui gaspille le crawl budget à gauche, ce qui l'optimise à droite

Le crawl budget (ou budget de crawl) désigne la quantité de pages que Googlebot est prêt à explorer sur votre site lors de ses visites. Ce n'est pas un chiffre fixe que Google vous attribue : c'est le résultat de deux facteurs combinés.

Google lui-même le définit dans sa documentation officielle comme la combinaison de deux éléments (source : Google Search Central) :

Composant Définition Ce qui l'influence
Crawl rate limit (limite de taux de crawl) La vitesse maximale à laquelle Google explore votre site sans surcharger votre serveur La capacité de votre serveur, la vitesse de réponse, les erreurs serveur (500, 503)
Crawl demand (demande de crawl) L'intérêt que Google porte à vos pages, c'est-à-dire combien il veut les explorer La popularité de vos pages, la fréquence de mise à jour, les liens internes et externes qui pointent vers elles

En résumé : Google ne crawlera pas plus vite que votre serveur ne le permet (crawl rate), et il ne crawlera pas plus que ce qui l'intéresse (crawl demand). Le crawl budget est l'intersection des deux.

Qui est concerné ?

Google est très clair sur ce point : le crawl budget n'est un enjeu que pour les grands sites. Si votre site fait moins de quelques milliers de pages, Googlebot n'aura aucun mal à toutes les explorer régulièrement.

En revanche, le crawl budget devient critique pour :

Sur ces sites, si Googlebot passe son temps à explorer des pages inutiles (filtres à facettes, pages de résultats internes, paramètres d'URL en double), il ne lui reste plus de budget pour les pages qui comptent vraiment.

Ce qui gaspille le crawl budget

Le principal problème n'est pas que Google crawle trop peu, c'est qu'il crawle les mauvaises pages. Les causes les plus fréquentes de gaspillage :

Comment savoir si vous avez un problème de crawl budget ?

Allez dans la Google Search Console, section "Paramètres" puis "Statistiques d'exploration". Vous y verrez le nombre de requêtes de crawl quotidiennes, le temps de réponse moyen et les types de réponses. Si Googlebot explore surtout des pages que vous ne voulez pas indexer, ou si des pages importantes mettent des semaines à être découvertes, vous avez un problème de crawl budget. Pour aller plus loin, l'analyse des fichiers logs serveur permet de voir exactement quelles URLs Googlebot crawle, à quelle fréquence et avec quel code de réponse.

Comment optimiser son crawl budget

  1. Nettoyer les URLs inutiles

    Identifiez les pages sans valeur SEO (filtres, doublons, résultats de recherche interne) et empêchez leur crawl. Utilisez le fichier robots.txt pour bloquer les répertoires inutiles et la balise canonical pour consolider les doublons. L'objectif est que chaque URL crawlée soit une URL que vous souhaitez voir indexée.

  2. Améliorer la vitesse du serveur

    Plus votre serveur répond vite, plus Google peut crawler de pages dans le même temps. Optimisez le temps de réponse serveur (TTFB), utilisez un CDN si nécessaire, assurez-vous que votre hébergement tient la charge. La performance du site a un impact direct sur le crawl rate.

  3. Soigner son maillage interne

    Le maillage interne guide Googlebot vers vos pages importantes. Une page qui reçoit beaucoup de liens internes sera crawlée plus souvent. À l'inverse, une page orpheline (sans aucun lien interne) a peu de chances d'être découverte, quelle que soit sa qualité.

  4. Tenir son sitemap à jour

    Le sitemap XML est un signal direct envoyé à Google : "voici les pages que je considère importantes". Incluez uniquement les pages que vous voulez voir indexées, avec leur date de dernière modification. Supprimez les URLs obsolètes.

  5. Gérer proprement les redirections

    Chaque redirection 301 consomme du crawl budget. Les chaînes de redirections (A redirige vers B qui redirige vers C) en consomment encore plus. Vérifiez régulièrement que vos redirections pointent directement vers la destination finale.

Le rôle du fichier robots.txt

Le fichier robots.txt est l'outil principal pour contrôler ce que Googlebot explore. En bloquant l'accès aux répertoires qui ne contiennent que des pages à faible valeur (résultats de recherche interne, pages de filtres, espaces d'administration), vous orientez le crawl budget vers les pages qui comptent.

Attention cependant : bloquer une URL dans le robots.txt empêche le crawl mais pas nécessairement l'indexation. Si une page bloquée dans le robots.txt reçoit des liens depuis d'autres sites, Google peut quand même l'indexer (en affichant un résultat sans description). Pour empêcher à la fois le crawl et l'indexation, utilisez la directive noindex dans l'en-tête HTTP ou la balise meta robots, combinée avec une exclusion robots.txt.

Crawl budget et migration de site

Les migrations de site sont le moment où le crawl budget est le plus sollicité. Google doit explorer toutes les anciennes URLs pour découvrir les redirections, puis explorer les nouvelles URLs pour les indexer. Sur un site de plusieurs dizaines de milliers de pages, ce processus peut prendre des semaines.

Pendant une migration, il est essentiel de soumettre un sitemap à jour dès le premier jour, de s'assurer que les redirections sont en place et de surveiller les statistiques d'exploration dans la Search Console pour vérifier que Google progresse normalement.

Sources et références