Définition de la directive Allow

Le fichier robots.txt contient des instructions destinées aux robots d'exploration (Googlebot, Yandexbot, Bingbot, etc.). La directive Disallow interdit l'accès à un chemin ou une section, tandis que la directive Allow crée une exception en autorisant explicitement l'accès à une URL précise au sein d'une zone bloquée.

La directive Allow n'est pas une directive universelle du standard robots.txt d'origine. Elle a été introduite par Google et est aujourd'hui reconnue par la plupart des moteurs modernes. Son absence dans le standard initial explique pourquoi elle est parfois absente de configurations de robots.txt plus anciennes ou générées automatiquement.

Syntaxe et exemples d'utilisation

La syntaxe est identique à celle de Disallow :

User-agent: Googlebot
Disallow: /espace-client/
Allow: /espace-client/mentions-legales/

Dans cet exemple, tout le répertoire /espace-client/ est bloqué sauf la page des mentions légales. Google respectera cette règle et n'explorera que ce chemin spécifique dans cette section.

Autre cas typique : bloquer un répertoire entier mais autoriser ses ressources CSS et JavaScript pour que Google puisse quand même rendre les pages correctement.

User-agent: Googlebot
Disallow: /assets/
Allow: /assets/styles/main.css
Allow: /assets/scripts/app.js

Allow vs Disallow : règles de priorité

Quand les deux directives s'appliquent à la même URL, Google applique la règle la plus spécifique (c'est-à-dire celle dont le chemin est le plus long).

Règle 1 Règle 2 URL testée Résultat
Disallow: /dossier/ Allow: /dossier/page.html /dossier/page.html Autorisé (Allow plus spécifique)
Disallow: /dossier/page.html Allow: /dossier/ /dossier/page.html Bloqué (Disallow plus spécifique)
Disallow: / Allow: /page/ /page/ Autorisé (Allow plus spécifique)

En cas d'égalité de longueur, Google donne la priorité à Allow. Ce comportement est documenté dans les consignes officielles pour les développeurs.

Limites et précautions

Quelques points importants à garder en tête sur la directive Allow :

Pour une configuration sans erreur du robots.txt, un outil comme Screaming Frog permet d'auditer les directives appliquées à l'ensemble du site et de repérer les pages utiles bloquées par inadvertance.