Indexation Google

Qu'est-ce que l'indexation Google ?

Pipeline de l'indexation Google en 5 étapes : découverte, crawl, rendu JS, traitement et ajout à l'index

L'indexation, c'est le processus par lequel Google enregistre une page dans sa base de données (son "index") après l'avoir explorée et analysée. Une page indexée peut potentiellement apparaître dans les résultats de recherche. Une page non indexée, elle, est invisible, quelle que soit la qualité de son contenu.

L'index de Google contient des centaines de milliards d'URLs. À chaque requête d'un internaute, Google pioche dans cet index pour afficher les résultats les plus pertinents. Si votre page n'est pas dans l'index, elle ne sera jamais affichée.

Les trois étapes du processus

  1. Le crawl (exploration)

    Les robots de Google, appelés Googlebot, parcourent le web en suivant les liens d'une page à l'autre. C'est comme ça qu'ils découvrent de nouvelles pages. Sans liens entrants vers votre page (ni depuis un sitemap, ni depuis d'autres pages), Googlebot a peu de chances de la trouver.

  2. Le rendu (rendering)

    Une fois une page découverte, Google l'analyse : il lit le HTML, exécute le JavaScript, charge les ressources. C'est à cette étape qu'il comprend le contenu réel de la page. Les sites construits entièrement en JavaScript peuvent poser des problèmes à cette étape si Google ne parvient pas à exécuter le code correctement.

  3. L'indexation

    Si la page passe les critères de qualité de Google (contenu original, pas de balise noindex, pas de blocage robots.txt), elle est ajoutée à l'index. Ce n'est qu'à ce stade qu'elle devient éligible à l'affichage dans les résultats de recherche.

Combien de temps pour être indexé ?

Ça dépend de plusieurs facteurs :

Situation Délai indicatif
Site neuf, peu d'autorité, pas de sitemap Plusieurs semaines à quelques mois
Site établi avec sitemap soumis à la Search Console Quelques jours à deux semaines
Page demandée manuellement via la Search Console Quelques jours
Site à très forte autorité (actualités, grands médias) Quelques minutes à quelques heures

Comment accélérer l'indexation

Quand bloquer volontairement l'indexation

Toutes les pages d'un site ne doivent pas être indexées. Les pages suivantes ont généralement intérêt à rester hors index :

Pour bloquer l'indexation d'une page, on utilise la balise <meta name="robots" content="noindex"> dans le <head>. Pour bloquer le crawl complet d'un répertoire, on passe par le fichier robots.txt. Attention toutefois, bloquer le crawl n'empêche pas l'indexation si Google connaît déjà la page.

Crawl ≠ Indexation

Google peut crawler une page sans l'indexer (s'il juge le contenu de faible valeur), et peut connaître l'existence d'une URL sans l'avoir crawlée. Ce sont deux étapes distinctes. Pour savoir si une page est bien indexée, tapez site:votredomaine.com/votre-page/ dans Google, ou vérifiez dans la Search Console.

Comment vérifier si une page est indexée

Trois méthodes :