Jonathan Vinial bio photo

Jonathan Vinial

Administrateur Linux dans le domaine du web, passionné d'Open Source et de photographie.

Email Curriculum Vitae Twitter Facebook Google+

Il existe des crawlers agressifs et des crawlers très agressifs. 80legs en fait parti. Je n’ai toujours pas compris à quoi celà servait de scanner un site web à une telle fréquence avec des milliers d’adresses IP simultanées. Voici en tout cas la solution pour vous prémunir de ces scans.

Anticiper l'arrivée de ces crawlers

Il suffit simplement d’ajouter dans votre robot.txt les lignes suivantes (en début de fichier)

User-agent: 008
Disallow: /
Si les crawlers sont déjà en train de scanner votre site

Il faudra en plus d’ajouter les lignes dans le robot.txt ajouter dans votre vhost ou sur votre .htaccess les lignes suivantes :

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*80legs.* [NC]
RewriteRule ^(.*)$ - [F,L]

Ces lignes auront pour effet d’envoyer les crawlers dans les étoiles en leur servant une 403 (Forbidden). Vous voilà débarassé du crawler … jusqu’au prochain ;)