Crawl budget : définition et optimisation SEO

Ce qu'est le crawl budget

Tableau comparatif : ce qui gaspille le crawl budget à gauche, ce qui l'optimise à droite

Le crawl budget (ou budget de crawl) désigne la quantité de pages que Googlebot est prêt à explorer sur votre site lors de ses visites. Ce n'est pas un chiffre fixe que Google vous attribue : c'est le résultat de deux facteurs combinés.

Google lui-même le définit dans sa documentation officielle comme la combinaison de deux éléments (source : Google Search Central) :

Composant	Définition	Ce qui l'influence
Crawl rate limit (limite de taux de crawl)	La vitesse maximale à laquelle Google explore votre site sans surcharger votre serveur	La capacité de votre serveur, la vitesse de réponse, les erreurs serveur (500, 503)
Crawl demand (demande de crawl)	L'intérêt que Google porte à vos pages, c'est-à-dire combien il veut les explorer	La popularité de vos pages, la fréquence de mise à jour, les liens internes et externes qui pointent vers elles

En résumé : Google ne crawlera pas plus vite que votre serveur ne le permet (crawl rate), et il ne crawlera pas plus que ce qui l'intéresse (crawl demand). Le crawl budget est l'intersection des deux.

Qui est concerné ?

Google est très clair sur ce point : le crawl budget n'est un enjeu que pour les grands sites. Si votre site fait moins de quelques milliers de pages, Googlebot n'aura aucun mal à toutes les explorer régulièrement.

En revanche, le crawl budget devient critique pour :

Les sites e-commerce avec des milliers de fiches produit, de filtres et de pages de pagination
Les sites de petites annonces ou les marketplaces avec du contenu généré en masse
Les forums et sites communautaires avec des milliers de fils de discussion
Les sites média qui publient quotidiennement et ont un historique volumineux
Les sites après une migration qui ont accumulé des URLs obsolètes

Sur ces sites, si Googlebot passe son temps à explorer des pages inutiles (filtres à facettes, pages de résultats internes, paramètres d'URL en double), il ne lui reste plus de budget pour les pages qui comptent vraiment.

Ce qui gaspille le crawl budget

Le principal problème n'est pas que Google crawle trop peu, c'est qu'il crawle les mauvaises pages. Les causes les plus fréquentes de gaspillage :

Contenu dupliqué : pages accessibles via plusieurs URLs, versions avec et sans paramètres, HTTP et HTTPS, avec et sans slash final
Pages à faible valeur : résultats de recherche interne, pages de filtres sans contenu unique, pages de tags quasi vides
Erreurs 404 et redirections en chaîne : chaque URL en erreur consomme une requête de crawl pour rien
Pages piégées (spider traps) : calendriers infinis, paramètres d'URL qui génèrent des combinaisons exponentielles
Ressources lourdes : un serveur lent fait baisser le crawl rate limit, Google ralentit pour ne pas le surcharger

Comment savoir si vous avez un problème de crawl budget ?

Allez dans la Google Search Console, section "Paramètres" puis "Statistiques d'exploration". Vous y verrez le nombre de requêtes de crawl quotidiennes, le temps de réponse moyen et les types de réponses. Si Googlebot explore surtout des pages que vous ne voulez pas indexer, ou si des pages importantes mettent des semaines à être découvertes, vous avez un problème de crawl budget. Pour aller plus loin, l'analyse des fichiers logs serveur permet de voir exactement quelles URLs Googlebot crawle, à quelle fréquence et avec quel code de réponse.

Comment optimiser son crawl budget

Nettoyer les URLs inutiles
Identifiez les pages sans valeur SEO (filtres, doublons, résultats de recherche interne) et empêchez leur crawl. Utilisez le fichier robots.txt pour bloquer les répertoires inutiles et la balise canonical pour consolider les doublons. L'objectif est que chaque URL crawlée soit une URL que vous souhaitez voir indexée.
Améliorer la vitesse du serveur
Plus votre serveur répond vite, plus Google peut crawler de pages dans le même temps. Optimisez le temps de réponse serveur (TTFB), utilisez un CDN si nécessaire, assurez-vous que votre hébergement tient la charge. La performance du site a un impact direct sur le crawl rate.
Soigner son maillage interne
Le maillage interne guide Googlebot vers vos pages importantes. Une page qui reçoit beaucoup de liens internes sera crawlée plus souvent. À l'inverse, une page orpheline (sans aucun lien interne) a peu de chances d'être découverte, quelle que soit sa qualité.
Tenir son sitemap à jour
Le sitemap XML est un signal direct envoyé à Google : "voici les pages que je considère importantes". Incluez uniquement les pages que vous voulez voir indexées, avec leur date de dernière modification. Supprimez les URLs obsolètes.
Gérer proprement les redirections
Chaque redirection 301 consomme du crawl budget. Les chaînes de redirections (A redirige vers B qui redirige vers C) en consomment encore plus. Vérifiez régulièrement que vos redirections pointent directement vers la destination finale.

Le rôle du fichier robots.txt

Le fichier robots.txt est l'outil principal pour contrôler ce que Googlebot explore. En bloquant l'accès aux répertoires qui ne contiennent que des pages à faible valeur (résultats de recherche interne, pages de filtres, espaces d'administration), vous orientez le crawl budget vers les pages qui comptent.

Attention cependant : bloquer une URL dans le robots.txt empêche le crawl mais pas nécessairement l'indexation. Si une page bloquée dans le robots.txt reçoit des liens depuis d'autres sites, Google peut quand même l'indexer (en affichant un résultat sans description). Pour empêcher à la fois le crawl et l'indexation, utilisez la directive noindex dans l'en-tête HTTP ou la balise meta robots, combinée avec une exclusion robots.txt.

Crawl budget et migration de site

Les migrations de site sont le moment où le crawl budget est le plus sollicité. Google doit explorer toutes les anciennes URLs pour découvrir les redirections, puis explorer les nouvelles URLs pour les indexer. Sur un site de plusieurs dizaines de milliers de pages, ce processus peut prendre des semaines.

Pendant une migration, il est essentiel de soumettre un sitemap à jour dès le premier jour, de s'assurer que les redirections sont en place et de surveiller les statistiques d'exploration dans la Search Console pour vérifier que Google progresse normalement.

Sources et références

Questions fréquentes

Qu'est-ce que le crawl budget ?

C'est la quantité de ressources que Google alloue à l'exploration de votre site : combien de pages Googlebot peut crawler par jour et à quelle fréquence il revient sur chaque URL. Sur les petits sites (sous 1000 pages), le crawl budget n'est pas un problème. Sur les gros sites (e-commerce, médias, forums), c'est une notion stratégique : gérer mal son crawl budget = pages stratégiques mal indexées.

Comment Google calcule le crawl budget d'un site ?

Deux facteurs principaux : la "crawl capacity" (combien votre serveur peut supporter sans ralentir, Google adapte) et la "crawl demand" (combien Google a envie de crawler votre site, dépend de l'autorité du domaine, de la fraîcheur des contenus, de la popularité des URLs). Plus le site est rapide, fiable, et plus son contenu est valorisé par Google, plus le crawl budget augmente.

Quand le crawl budget devient-il un problème ?

Trois symptômes : pages importantes peu crawlées dans Search Console > Statistiques sur l'exploration, nouvelles pages mises en ligne qui mettent plus de 2 semaines à être indexées, fortes proportions de pages "Découverte mais non indexée" dans le rapport Pages. Sur les sites de moins de 10 000 URLs, c'est rarement un vrai problème. Sur les gros catalogues e-commerce, c'est une priorité.

Comment optimiser son crawl budget ?

Quatre actions principales : bloquer le crawl des pages sans valeur SEO (filtres, tris, paramètres URL) via robots.txt, éliminer les redirections en chaîne et les pages 404, accélérer le serveur (TTFB faible permet à Google de crawler plus de pages dans le même temps), consolider les pages thin via canonicals ou suppressions. Vérifier les logs serveur pour identifier où Googlebot perd son temps.

Crawl budget