Googlebot

Ce qu'est vraiment Googlebot

Les 4 familles de crawlers Google : Common Crawlers, Special Crawlers, User-triggered Fetchers et Agents IA

Googlebot est le nom générique donné au robot d'exploration (crawler) de Google. Son rôle : parcourir le web, analyser les pages et alimenter l'index à partir duquel sont générés les résultats de recherche. Il fonctionne en permanence, visitant des milliards de pages chaque jour.

Mais Googlebot n'est ni un logiciel autonome, ni un programme monolithique. En réalité, l'infrastructure de crawl de Google fonctionne comme un service interne centralisé (comparable à un SaaS), accessible via des API. Quand un service Google a besoin du contenu d'une page web, il appelle cette infrastructure en transmettant des paramètres : URL cible, user-agent, délai d'attente, token robots.txt à respecter (source : ThanksLucas).

Quand vous voyez "Googlebot" dans vos logs serveur, vous voyez en fait Google Search. Mais des dizaines d'autres clients (Google Shopping, Google News, AdSense, Google Ads) utilisent la même infrastructure sous des noms de crawlers différents.

Les 4 types de crawlers Google

Google distingue officiellement quatre catégories d'agents qui explorent le web. Chaque catégorie a un fonctionnement et des plages IP différents (source : Google for Developers) :

Type Fonctionnement Exemples
Common Crawlers (crawlers généraux) Traitent des flux continus d'URLs par lots, de manière autonome et en arrière-plan. C'est le crawl classique. Googlebot (Search), Googlebot Image, Googlebot Video, Googlebot News, Storebot (Shopping)
Special Crawlers (crawlers spéciaux) Crawlers automatiques mais ciblés sur des tâches spécifiques, souvent liées à la publicité. AdsBot (vérifie les pages de destination des annonces), APIs-Google
User-Triggered Fetchers (récupérateurs déclenchés) Traitent les URLs une par une, déclenchés par une action utilisateur. Réponse synchrone attendue. Google Site Verifier, Feedfetcher (Google Podcasts)
User-Triggered Agents (agents IA) Agents d'IA qui naviguent sur le web pour exécuter des tâches au nom de l'utilisateur. Google-Agent (ajouté en mars 2026, dédié au browsing IA)

Google-Agent : le nouveau venu (mars 2026)

En mars 2026, Google a ajouté Google-Agent à sa liste officielle de crawlers. C'est un agent d'IA déclenché par l'utilisateur, conçu pour naviguer sur le web et exécuter des tâches. Il dispose de son propre user-agent et de ses propres plages IP, distinctes de celles de Googlebot classique (source : Google for Developers). C'est un signal concret de l'intégration croissante de l'IA dans la recherche Google.

Comment Googlebot explore le web

  1. Découverte via les liens et le sitemap

    Googlebot suit les liens hypertextes d'une page à l'autre. C'est pourquoi le maillage interne est fondamental : un bon réseau de liens aide le robot à découvrir toutes vos pages. Le sitemap XML complète ce processus en fournissant une liste directe d'URLs à explorer.

  2. Lecture du robots.txt

    Avant d'explorer un site, Googlebot consulte le fichier robots.txt à la racine du domaine. Ce fichier indique quelles sections sont autorisées et lesquelles sont interdites. Une mauvaise configuration peut empêcher l'indexation de pages importantes.

  3. Récupération et rendu

    Googlebot télécharge le HTML de la page, puis exécute le JavaScript pour obtenir le rendu final. Ce rendu est différé : les contenus chargés dynamiquement peuvent mettre plus de temps à être indexés que le HTML statique. Google ne récupère que les 2 premiers Mo d'un document HTML. Au-delà, le contenu est tronqué.

  4. Mise en cache inter-produits

    Google utilise un cache interne agressif. Si Google News a déjà récupéré une page, Google Search peut réutiliser cette copie en mémoire sans refaire une requête vers votre serveur. Ce cache est indépendant du cache HTTP standard.

Les plages IP de Googlebot

Googlebot crawle principalement depuis des adresses IP situées aux États-Unis (Mountain View, Californie). Google publie ses plages IP officielles dans des fichiers JSON mis à jour quotidiennement, généralement autour de minuit UTC.

Les crawlers généraux (comme Googlebot Search) utilisent des adresses IP avec un DNS inversé qui correspond à :

Les points de sortie géographiques permettent à Google de contourner le géo-blocage sur certains sites qui restreignent l'accès aux adresses IP américaines. Mais ces points ne sont pas conçus pour le crawl à grande échelle : l'essentiel du trafic passe par les IP américaines.

Pour vérifier qu'un accès provient bien de Googlebot, Google recommande la vérification par DNS inversé (host puis host sur le résultat). Les plages IP seules ne suffisent pas, car elles peuvent être usurpées (source : Google Search Central).

Le throttling : comment Google protège votre serveur

L'infrastructure de crawl impose automatiquement un ralentissement adaptatif pour ne pas surcharger les serveurs web :

Ces protections sont intégrées au niveau de l'infrastructure et ne peuvent pas être contournées par les équipes internes de Google. C'est un garde-fou systématique.

Le budget de crawl

Googlebot ne peut pas explorer indéfiniment un site. Le crawl budget est la combinaison de la capacité de crawl (ce que votre serveur supporte) et de la demande de crawl (ce que Google veut explorer). Sur les grands sites, optimiser ce budget devient un levier SEO technique majeur.

Ce qui gaspille le crawl budget Ce qui l'optimise
URLs avec paramètres non canonicalisées Balises canonical correctement configurées
Pages en erreur 404 non redirigées Redirections 301 propres vers les bonnes URLs
Pages dupliquées accessibles Fichier robots.txt bloquant les sections sans valeur
Contenu paginé sans structure claire Sitemap XML à jour soumis via la Search Console
Serveur lent (TTFB élevé) Hébergement performant, CDN si nécessaire

Les limites de taille du crawl

Google impose des limites sur la taille des fichiers récupérés par ses crawlers. Ces limites s'appliquent à l'ensemble de l'infrastructure, tous produits confondus :

En pratique, la limite de 2 Mo en HTML n'est un problème que pour les pages exceptionnellement lourdes (pages générées dynamiquement avec du contenu inline massif, par exemple). Une page web classique fait entre 50 et 500 Ko.

Guider ou bloquer Googlebot

Vous disposez de plusieurs outils pour contrôler ce que Googlebot explore et indexe :

Je vérifie systématiquement le comportement de Googlebot lors d'un audit SEO. C'est souvent là qu'on découvre des blocages invisibles qui expliquent pourquoi certaines pages ne sont jamais indexées.

Sources et références