Définition de Spider Trap

2 minutes de lecture
definition de spider trap

Un spider trap, littéralement « piège à araignée » est un phénomène de boucle infinie créé intentionnellement ou non dans le but de tromper ou de piéger les robots des moteurs de recherche. Le but final de cette manœuvre est d’empêcher les crawlers d’explorer en profondeur un site web.

Spider trap volontaire ou involontaire

En général, un crawler trap est d’origine involontaire. Il peut par exemple être généré par :

  • Un calendrier utilisant un lien qui pointe continuellement vers jour précédant/suivant ou année précédente/suivante ;
  • La création d’une URL avec des structures de répertoires en boucle (http://example.com/eco/bar/ eco/bar/ eco/bar/…) ;
  • Différents identifiants de session basés sur des cookies à chaque visite du crawler ;
  • Des documents avec un très grand nombre de caractères qui font planter l’analyseur lexical du robot de recherche, etc.

Un crawler trap peut aussi être créé volontairement pour piéger un robot spam (spam bot) qui tenterait d’ignorer le fichier robots.tx qui lui défend l’accès à certaines zones d’un site web. Le but du piège est de diminuer la productivité du spider en gaspillant ses ressources.

De nombreux « pièges à araignée » peuvent être détectés automatiquement. Toutefois, de nouvelles catégories apparaissent constamment et il n’existe encore aucun algorithme pour les repérer. Par ailleurs, les crawlers des moteurs de recherche ne sont que peu affectés par les pièges, car ils ne s’adressent au même serveur qu’une unique fois toutes les secondes. De même, ils alternent leurs requêtes entre des hôtes distincts.