Qu'est-ce que l'indexation Google ?
L'indexation, c'est le processus par lequel Google enregistre une page dans sa base de données (son "index") après l'avoir explorée et analysée. Une page indexée peut potentiellement apparaître dans les résultats de recherche. Une page non indexée, elle, est invisible, quelle que soit la qualité de son contenu.
L'index de Google contient des centaines de milliards d'URLs. À chaque requête d'un internaute, Google pioche dans cet index pour afficher les résultats les plus pertinents. Si votre page n'est pas dans l'index, elle ne sera jamais affichée.
Les trois étapes du processus
-
Le crawl (exploration)
Les robots de Google, appelés Googlebot, parcourent le web en suivant les liens d'une page à l'autre. C'est comme ça qu'ils découvrent de nouvelles pages. Sans liens entrants vers votre page (ni depuis un sitemap, ni depuis d'autres pages), Googlebot a peu de chances de la trouver.
-
Le rendu (rendering)
Une fois une page découverte, Google l'analyse : il lit le HTML, exécute le JavaScript, charge les ressources. C'est à cette étape qu'il comprend le contenu réel de la page. Les sites construits entièrement en JavaScript peuvent poser des problèmes à cette étape si Google ne parvient pas à exécuter le code correctement.
-
L'indexation
Si la page passe les critères de qualité de Google (contenu original, pas de balise noindex, pas de blocage robots.txt), elle est ajoutée à l'index. Ce n'est qu'à ce stade qu'elle devient éligible à l'affichage dans les résultats de recherche.
Combien de temps pour être indexé ?
Ça dépend de plusieurs facteurs :
| Situation | Délai indicatif |
|---|---|
| Site neuf, peu d'autorité, pas de sitemap | Plusieurs semaines à quelques mois |
| Site établi avec sitemap soumis à la Search Console | Quelques jours à deux semaines |
| Page demandée manuellement via la Search Console | Quelques jours |
| Site à très forte autorité (actualités, grands médias) | Quelques minutes à quelques heures |
Ce que dit la Search Console sur l'indexation
Le rapport "Pages" de la Google Search Console est la source de référence pour comprendre l'état d'indexation d'un site. Il classe les URLs en plusieurs catégories qu'il faut savoir lire :
| Statut GSC | Ce que ça signifie | Action à envisager |
|---|---|---|
| Indexé | Page présente dans l'index Google, éligible à l'affichage | Aucune, sauf si la position est décevante |
| Crawlée, actuellement non indexée | Google a visité la page mais a décidé de ne pas l'indexer | Améliorer le contenu, vérifier la valeur apportée |
| Découverte, actuellement non indexée | Google connaît l'URL mais n'a pas encore eu la capacité de la crawler | Renforcer le maillage interne, vérifier le budget de crawl |
| Exclue par la balise "noindex" | La page a une balise noindex, Google respecte l'instruction | Vérifier si le noindex est intentionnel |
| URL alternative avec balise canonique correcte | Page reconnue comme doublon d'une autre, la canonique est indexée | Vérifier que la canonical pointe vers la bonne URL |
| Page avec redirection | L'URL redirige vers une autre, elle n'est pas indexée elle-même | Normal si la redirection est voulue |
Le statut "Crawlée, actuellement non indexée" est le plus courant sur les sites qui produisent du contenu en volume. Il signifie presque toujours que Google considère la page comme peu différenciante ou peu utile au regard de ce qui existe déjà dans l'index. La solution n'est pas technique : c'est éditoriale.
Comment accélérer l'indexation
- Soumettre un sitemap XML à la Search Console : c'est le signal le plus direct que vous pouvez envoyer à Google pour lui indiquer toutes vos pages. Un sitemap bien tenu réduit considérablement les délais d'indexation.
- Utiliser l'outil "Inspecter l'URL" dans la Search Console : vous pouvez demander manuellement l'indexation d'une page. Utile après une publication ou une mise à jour importante.
- Renforcer le maillage interne : une page liée depuis plusieurs autres pages de votre site sera crawlée plus vite qu'une page orpheline.
- Obtenir des backlinks : un lien depuis un site à forte autorité est souvent crawlé très régulièrement. Un lien depuis ce type de site peut indexer votre page en quelques heures.
- S'assurer que la page n'est pas bloquée : vérifier qu'aucune balise
noindexn'est présente et que le fichier robots.txt ne bloque pas le Googlebot pour cette URL.
Quand bloquer volontairement l'indexation
Toutes les pages d'un site ne doivent pas être indexées. Les pages suivantes ont généralement intérêt à rester hors index :
- Pages de confirmation (formulaire envoyé, merci pour votre achat)
- Pages de politique de confidentialité et mentions légales
- Pages de filtres ou de tri sur les e-commerces (crée du contenu dupliqué)
- Environnements de préproduction
- Pages d'administration ou de connexion
Pour bloquer l'indexation d'une page, on utilise la balise <meta name="robots" content="noindex"> dans le <head>. Pour bloquer le crawl complet d'un répertoire, on passe par le fichier robots.txt. Attention toutefois, bloquer le crawl n'empêche pas l'indexation si Google connaît déjà la page.
Crawl ≠ Indexation
Google peut crawler une page sans l'indexer (s'il juge le contenu de faible valeur), et peut connaître l'existence d'une URL sans l'avoir crawlée. Ce sont deux étapes distinctes. Pour savoir si une page est bien indexée, tapez site:votredomaine.com/votre-page/ dans Google, ou vérifiez dans la Search Console.
Comment vérifier si une page est indexée
Trois méthodes :
- Opérateur site: dans Google :
site:josselinleydier.com/balise-title/: si la page apparaît, elle est indexée. - Search Console, rapport "Pages" : liste toutes les pages indexées et celles qui ne le sont pas, avec les raisons du blocage.
- Outil "Inspecter l'URL" dans la Search Console : donne le statut exact d'une URL précise et la dernière date de crawl.