Googlebot : définition, fonctionnement interne et types de crawlers Google

Ce qu'est vraiment Googlebot

Les 4 familles de crawlers Google : Common Crawlers, Special Crawlers, User-triggered Fetchers et Agents IA

Googlebot est le nom générique donné au robot d'exploration (crawler) de Google. Son rôle : parcourir le web, analyser les pages et alimenter l'index à partir duquel sont générés les résultats de recherche. Il fonctionne en permanence, visitant des milliards de pages chaque jour.

Mais Googlebot n'est ni un logiciel autonome, ni un programme monolithique. En réalité, l'infrastructure de crawl de Google fonctionne comme un service interne centralisé (comparable à un SaaS), accessible via des API. Quand un service Google a besoin du contenu d'une page web, il appelle cette infrastructure en transmettant des paramètres : URL cible, user-agent, délai d'attente, token robots.txt à respecter (source : ThanksLucas).

Quand vous voyez "Googlebot" dans vos logs serveur, vous voyez en fait Google Search. Mais des dizaines d'autres clients (Google Shopping, Google News, AdSense, Google Ads) utilisent la même infrastructure sous des noms de crawlers différents.

Les 4 types de crawlers Google

Google distingue officiellement quatre catégories d'agents qui explorent le web. Chaque catégorie a un fonctionnement et des plages IP différents (source : Google for Developers) :

Type	Fonctionnement	Exemples
Common Crawlers (crawlers généraux)	Traitent des flux continus d'URLs par lots, de manière autonome et en arrière-plan. C'est le crawl classique.	Googlebot (Search), Googlebot Image, Googlebot Video, Googlebot News, Storebot (Shopping)
Special Crawlers (crawlers spéciaux)	Crawlers automatiques mais ciblés sur des tâches spécifiques, souvent liées à la publicité.	AdsBot (vérifie les pages de destination des annonces), APIs-Google
User-Triggered Fetchers (récupérateurs déclenchés)	Traitent les URLs une par une, déclenchés par une action utilisateur. Réponse synchrone attendue.	Google Site Verifier, Feedfetcher (Google Podcasts)
User-Triggered Agents (agents IA)	Agents d'IA qui naviguent sur le web pour exécuter des tâches au nom de l'utilisateur.	Google-Agent (ajouté en mars 2026, dédié au browsing IA)

Google-Agent : le nouveau venu (mars 2026)

En mars 2026, Google a ajouté Google-Agent à sa liste officielle de crawlers. C'est un agent d'IA déclenché par l'utilisateur, conçu pour naviguer sur le web et exécuter des tâches. Il dispose de son propre user-agent et de ses propres plages IP, distinctes de celles de Googlebot classique (source : Google for Developers). C'est un signal concret de l'intégration croissante de l'IA dans la recherche Google.

Comment Googlebot explore le web

Découverte via les liens et le sitemap
Googlebot suit les liens hypertextes d'une page à l'autre. C'est pourquoi le maillage interne est fondamental : un bon réseau de liens aide le robot à découvrir toutes vos pages. Le sitemap XML complète ce processus en fournissant une liste directe d'URLs à explorer.
Lecture du robots.txt
Avant d'explorer un site, Googlebot consulte le fichier robots.txt à la racine du domaine. Ce fichier indique quelles sections sont autorisées et lesquelles sont interdites. Une mauvaise configuration peut empêcher l'indexation de pages importantes.
Récupération et rendu
Googlebot télécharge le HTML de la page, puis exécute le JavaScript pour obtenir le rendu final. Ce rendu est différé : les contenus chargés dynamiquement peuvent mettre plus de temps à être indexés que le HTML statique. Google ne récupère que les 2 premiers Mo d'un document HTML. Au-delà, le contenu est tronqué.
Mise en cache inter-produits
Google utilise un cache interne agressif. Si Google News a déjà récupéré une page, Google Search peut réutiliser cette copie en mémoire sans refaire une requête vers votre serveur. Ce cache est indépendant du cache HTTP standard.

Les plages IP de Googlebot

Googlebot crawle principalement depuis des adresses IP situées aux États-Unis (Mountain View, Californie). Google publie ses plages IP officielles dans des fichiers JSON mis à jour quotidiennement, généralement autour de minuit UTC.

Les crawlers généraux (comme Googlebot Search) utilisent des adresses IP avec un DNS inversé qui correspond à :

crawl-***.googlebot.com pour les crawlers standards
geo-crawl-***.geo.googlebot.com pour les points de sortie géographiques alternatifs

Les points de sortie géographiques permettent à Google de contourner le géo-blocage sur certains sites qui restreignent l'accès aux adresses IP américaines. Mais ces points ne sont pas conçus pour le crawl à grande échelle : l'essentiel du trafic passe par les IP américaines.

Pour vérifier qu'un accès provient bien de Googlebot, Google recommande la vérification par DNS inversé (host puis host sur le résultat). Les plages IP seules ne suffisent pas, car elles peuvent être usurpées (source : Google Search Central).

Le throttling : comment Google protège votre serveur

L'infrastructure de crawl impose automatiquement un ralentissement adaptatif pour ne pas surcharger les serveurs web :

Ralentissement progressif si la latence du site augmente (le serveur met plus de temps à répondre)
Ralentissement accru en cas d'erreur 503 (surcharge serveur) : Google interprète ce code comme un signal de ralentir
Pas d'impact des erreurs 403 (accès interdit) ou 404 (page non trouvée) sur le rythme de crawl

Ces protections sont intégrées au niveau de l'infrastructure et ne peuvent pas être contournées par les équipes internes de Google. C'est un garde-fou systématique.

Le budget de crawl

Googlebot ne peut pas explorer indéfiniment un site. Le crawl budget est la combinaison de la capacité de crawl (ce que votre serveur supporte) et de la demande de crawl (ce que Google veut explorer). Sur les grands sites, optimiser ce budget devient un levier SEO technique majeur.

Ce qui gaspille le crawl budget	Ce qui l'optimise
URLs avec paramètres non canonicalisées	Balises canonical correctement configurées
Pages en erreur 404 non redirigées	Redirections 301 propres vers les bonnes URLs
Pages dupliquées accessibles	Fichier robots.txt bloquant les sections sans valeur
Contenu paginé sans structure claire	Sitemap XML à jour soumis via la Search Console
Serveur lent (TTFB élevé)	Hébergement performant, CDN si nécessaire

Les limites de taille du crawl

Google impose des limites sur la taille des fichiers récupérés par ses crawlers. Ces limites s'appliquent à l'ensemble de l'infrastructure, tous produits confondus :

HTML (Google Search) : 2 Mo maximum. Au-delà, le contenu est tronqué. Si vos informations importantes se trouvent après les 2 premiers Mo, elles ne seront pas vues par Google.
PDF : environ 64 Mo
Limite par défaut (autres types) : 15 Mo

En pratique, la limite de 2 Mo en HTML n'est un problème que pour les pages exceptionnellement lourdes (pages générées dynamiquement avec du contenu inline massif, par exemple). Une page web classique fait entre 50 et 500 Ko.

Guider ou bloquer Googlebot

Vous disposez de plusieurs outils pour contrôler ce que Googlebot explore et indexe :

robots.txt : bloque l'exploration (le robot ne visite pas la page, mais elle peut quand même apparaître dans l'index si d'autres liens pointent vers elle)
Balise meta robots (noindex) : autorise le crawl mais demande de ne pas indexer la page
Balise canonical : indique quelle version d'une page doit être la référence pour l'indexation
Google Search Console : permet de soumettre des sitemaps, de demander l'indexation d'une page et de voir les erreurs de crawl détectées
Screaming Frog : permet de simuler un crawl Googlebot pour identifier les problèmes techniques avant que Google ne les rencontre

Je vérifie systématiquement le comportement de Googlebot lors d'un audit SEO. C'est souvent là qu'on découvre des blocages invisibles qui expliquent pourquoi certaines pages ne sont jamais indexées.

Googlebot