Ce qu'est vraiment Googlebot
Googlebot est le nom générique donné au robot d'exploration (crawler) de Google. Son rôle : parcourir le web, analyser les pages et alimenter l'index à partir duquel sont générés les résultats de recherche. Il fonctionne en permanence, visitant des milliards de pages chaque jour.
Mais Googlebot n'est ni un logiciel autonome, ni un programme monolithique. En réalité, l'infrastructure de crawl de Google fonctionne comme un service interne centralisé (comparable à un SaaS), accessible via des API. Quand un service Google a besoin du contenu d'une page web, il appelle cette infrastructure en transmettant des paramètres : URL cible, user-agent, délai d'attente, token robots.txt à respecter (source : ThanksLucas).
Quand vous voyez "Googlebot" dans vos logs serveur, vous voyez en fait Google Search. Mais des dizaines d'autres clients (Google Shopping, Google News, AdSense, Google Ads) utilisent la même infrastructure sous des noms de crawlers différents.
Les 4 types de crawlers Google
Google distingue officiellement quatre catégories d'agents qui explorent le web. Chaque catégorie a un fonctionnement et des plages IP différents (source : Google for Developers) :
| Type | Fonctionnement | Exemples |
|---|---|---|
| Common Crawlers (crawlers généraux) | Traitent des flux continus d'URLs par lots, de manière autonome et en arrière-plan. C'est le crawl classique. | Googlebot (Search), Googlebot Image, Googlebot Video, Googlebot News, Storebot (Shopping) |
| Special Crawlers (crawlers spéciaux) | Crawlers automatiques mais ciblés sur des tâches spécifiques, souvent liées à la publicité. | AdsBot (vérifie les pages de destination des annonces), APIs-Google |
| User-Triggered Fetchers (récupérateurs déclenchés) | Traitent les URLs une par une, déclenchés par une action utilisateur. Réponse synchrone attendue. | Google Site Verifier, Feedfetcher (Google Podcasts) |
| User-Triggered Agents (agents IA) | Agents d'IA qui naviguent sur le web pour exécuter des tâches au nom de l'utilisateur. | Google-Agent (ajouté en mars 2026, dédié au browsing IA) |
Google-Agent : le nouveau venu (mars 2026)
En mars 2026, Google a ajouté Google-Agent à sa liste officielle de crawlers. C'est un agent d'IA déclenché par l'utilisateur, conçu pour naviguer sur le web et exécuter des tâches. Il dispose de son propre user-agent et de ses propres plages IP, distinctes de celles de Googlebot classique (source : Google for Developers). C'est un signal concret de l'intégration croissante de l'IA dans la recherche Google.
Comment Googlebot explore le web
-
Découverte via les liens et le sitemap
Googlebot suit les liens hypertextes d'une page à l'autre. C'est pourquoi le maillage interne est fondamental : un bon réseau de liens aide le robot à découvrir toutes vos pages. Le sitemap XML complète ce processus en fournissant une liste directe d'URLs à explorer.
-
Lecture du robots.txt
Avant d'explorer un site, Googlebot consulte le fichier robots.txt à la racine du domaine. Ce fichier indique quelles sections sont autorisées et lesquelles sont interdites. Une mauvaise configuration peut empêcher l'indexation de pages importantes.
-
Récupération et rendu
Googlebot télécharge le HTML de la page, puis exécute le JavaScript pour obtenir le rendu final. Ce rendu est différé : les contenus chargés dynamiquement peuvent mettre plus de temps à être indexés que le HTML statique. Google ne récupère que les 2 premiers Mo d'un document HTML. Au-delà, le contenu est tronqué.
-
Mise en cache inter-produits
Google utilise un cache interne agressif. Si Google News a déjà récupéré une page, Google Search peut réutiliser cette copie en mémoire sans refaire une requête vers votre serveur. Ce cache est indépendant du cache HTTP standard.
Les plages IP de Googlebot
Googlebot crawle principalement depuis des adresses IP situées aux États-Unis (Mountain View, Californie). Google publie ses plages IP officielles dans des fichiers JSON mis à jour quotidiennement, généralement autour de minuit UTC.
Les crawlers généraux (comme Googlebot Search) utilisent des adresses IP avec un DNS inversé qui correspond à :
crawl-***.googlebot.compour les crawlers standardsgeo-crawl-***.geo.googlebot.compour les points de sortie géographiques alternatifs
Les points de sortie géographiques permettent à Google de contourner le géo-blocage sur certains sites qui restreignent l'accès aux adresses IP américaines. Mais ces points ne sont pas conçus pour le crawl à grande échelle : l'essentiel du trafic passe par les IP américaines.
Pour vérifier qu'un accès provient bien de Googlebot, Google recommande la vérification par DNS inversé (host puis host sur le résultat). Les plages IP seules ne suffisent pas, car elles peuvent être usurpées (source : Google Search Central).
Le throttling : comment Google protège votre serveur
L'infrastructure de crawl impose automatiquement un ralentissement adaptatif pour ne pas surcharger les serveurs web :
- Ralentissement progressif si la latence du site augmente (le serveur met plus de temps à répondre)
- Ralentissement accru en cas d'erreur 503 (surcharge serveur) : Google interprète ce code comme un signal de ralentir
- Pas d'impact des erreurs 403 (accès interdit) ou 404 (page non trouvée) sur le rythme de crawl
Ces protections sont intégrées au niveau de l'infrastructure et ne peuvent pas être contournées par les équipes internes de Google. C'est un garde-fou systématique.
Le budget de crawl
Googlebot ne peut pas explorer indéfiniment un site. Le crawl budget est la combinaison de la capacité de crawl (ce que votre serveur supporte) et de la demande de crawl (ce que Google veut explorer). Sur les grands sites, optimiser ce budget devient un levier SEO technique majeur.
| Ce qui gaspille le crawl budget | Ce qui l'optimise |
|---|---|
| URLs avec paramètres non canonicalisées | Balises canonical correctement configurées |
| Pages en erreur 404 non redirigées | Redirections 301 propres vers les bonnes URLs |
| Pages dupliquées accessibles | Fichier robots.txt bloquant les sections sans valeur |
| Contenu paginé sans structure claire | Sitemap XML à jour soumis via la Search Console |
| Serveur lent (TTFB élevé) | Hébergement performant, CDN si nécessaire |
Les limites de taille du crawl
Google impose des limites sur la taille des fichiers récupérés par ses crawlers. Ces limites s'appliquent à l'ensemble de l'infrastructure, tous produits confondus :
- HTML (Google Search) : 2 Mo maximum. Au-delà, le contenu est tronqué. Si vos informations importantes se trouvent après les 2 premiers Mo, elles ne seront pas vues par Google.
- PDF : environ 64 Mo
- Limite par défaut (autres types) : 15 Mo
En pratique, la limite de 2 Mo en HTML n'est un problème que pour les pages exceptionnellement lourdes (pages générées dynamiquement avec du contenu inline massif, par exemple). Une page web classique fait entre 50 et 500 Ko.
Guider ou bloquer Googlebot
Vous disposez de plusieurs outils pour contrôler ce que Googlebot explore et indexe :
- robots.txt : bloque l'exploration (le robot ne visite pas la page, mais elle peut quand même apparaître dans l'index si d'autres liens pointent vers elle)
- Balise meta robots (
noindex) : autorise le crawl mais demande de ne pas indexer la page - Balise canonical : indique quelle version d'une page doit être la référence pour l'indexation
- Google Search Console : permet de soumettre des sitemaps, de demander l'indexation d'une page et de voir les erreurs de crawl détectées
- Screaming Frog : permet de simuler un crawl Googlebot pour identifier les problèmes techniques avant que Google ne les rencontre
Je vérifie systématiquement le comportement de Googlebot lors d'un audit SEO. C'est souvent là qu'on découvre des blocages invisibles qui expliquent pourquoi certaines pages ne sont jamais indexées.
Sources et références
- Google Search Central : What Is Googlebot
- Google for Developers : Overview of Google Crawlers
- Google for Developers : Common Crawlers
- Google Search Central Blog : Inside Googlebot (mars 2026)
- ThanksLucas : Googlebot n'existe pas, comment Google crawle vraiment le web
- Abondance : Crawlers Google, fonctionnement interne et plages IP