Indexation Google

Qu'est-ce que l'indexation Google ?

Pipeline de l'indexation Google en 5 étapes : découverte, crawl, rendu JS, traitement et ajout à l'index

L'indexation, c'est le processus par lequel Google enregistre une page dans sa base de données (son "index") après l'avoir explorée et analysée. Une page indexée peut potentiellement apparaître dans les résultats de recherche. Une page non indexée, elle, est invisible, quelle que soit la qualité de son contenu.

L'index de Google contient des centaines de milliards d'URLs. À chaque requête d'un internaute, Google pioche dans cet index pour afficher les résultats les plus pertinents. Si votre page n'est pas dans l'index, elle ne sera jamais affichée.

Les trois étapes du processus

  1. Le crawl (exploration)

    Les robots de Google, appelés Googlebot, parcourent le web en suivant les liens d'une page à l'autre. C'est comme ça qu'ils découvrent de nouvelles pages. Sans liens entrants vers votre page (ni depuis un sitemap, ni depuis d'autres pages), Googlebot a peu de chances de la trouver.

  2. Le rendu (rendering)

    Une fois une page découverte, Google l'analyse : il lit le HTML, exécute le JavaScript, charge les ressources. C'est à cette étape qu'il comprend le contenu réel de la page. Les sites construits entièrement en JavaScript peuvent poser des problèmes à cette étape si Google ne parvient pas à exécuter le code correctement.

  3. L'indexation

    Si la page passe les critères de qualité de Google (contenu original, pas de balise noindex, pas de blocage robots.txt), elle est ajoutée à l'index. Ce n'est qu'à ce stade qu'elle devient éligible à l'affichage dans les résultats de recherche.

Combien de temps pour être indexé ?

Ça dépend de plusieurs facteurs :

Situation Délai indicatif
Site neuf, peu d'autorité, pas de sitemap Plusieurs semaines à quelques mois
Site établi avec sitemap soumis à la Search Console Quelques jours à deux semaines
Page demandée manuellement via la Search Console Quelques jours
Site à très forte autorité (actualités, grands médias) Quelques minutes à quelques heures

Ce que dit la Search Console sur l'indexation

Le rapport "Pages" de la Google Search Console est la source de référence pour comprendre l'état d'indexation d'un site. Il classe les URLs en plusieurs catégories qu'il faut savoir lire :

Statut GSC Ce que ça signifie Action à envisager
Indexé Page présente dans l'index Google, éligible à l'affichage Aucune, sauf si la position est décevante
Crawlée, actuellement non indexée Google a visité la page mais a décidé de ne pas l'indexer Améliorer le contenu, vérifier la valeur apportée
Découverte, actuellement non indexée Google connaît l'URL mais n'a pas encore eu la capacité de la crawler Renforcer le maillage interne, vérifier le budget de crawl
Exclue par la balise "noindex" La page a une balise noindex, Google respecte l'instruction Vérifier si le noindex est intentionnel
URL alternative avec balise canonique correcte Page reconnue comme doublon d'une autre, la canonique est indexée Vérifier que la canonical pointe vers la bonne URL
Page avec redirection L'URL redirige vers une autre, elle n'est pas indexée elle-même Normal si la redirection est voulue

Le statut "Crawlée, actuellement non indexée" est le plus courant sur les sites qui produisent du contenu en volume. Il signifie presque toujours que Google considère la page comme peu différenciante ou peu utile au regard de ce qui existe déjà dans l'index. La solution n'est pas technique : c'est éditoriale.

Comment accélérer l'indexation

Quand bloquer volontairement l'indexation

Toutes les pages d'un site ne doivent pas être indexées. Les pages suivantes ont généralement intérêt à rester hors index :

Pour bloquer l'indexation d'une page, on utilise la balise <meta name="robots" content="noindex"> dans le <head>. Pour bloquer le crawl complet d'un répertoire, on passe par le fichier robots.txt. Attention toutefois, bloquer le crawl n'empêche pas l'indexation si Google connaît déjà la page.

Crawl ≠ Indexation

Google peut crawler une page sans l'indexer (s'il juge le contenu de faible valeur), et peut connaître l'existence d'une URL sans l'avoir crawlée. Ce sont deux étapes distinctes. Pour savoir si une page est bien indexée, tapez site:votredomaine.com/votre-page/ dans Google, ou vérifiez dans la Search Console.

Comment vérifier si une page est indexée

Trois méthodes :