Existe-t-il un proxy Web avancé qui vérifie et obéit robots.txt sur les domaines distants?

Existe-t-il un server proxy avancé qui search et obéit aux files robots.txt sur des domaines Internet distants et les applique au nom des requesturs via le proxy?

Par exemple, imaginez un site Web à l'adresse www.example.com qui dispose d'un file robots.txt qui restreint certaines URL et applique des retards de suivi aux autres.

Plusieurs clients automatiques (p. Ex., Crawlers, scrapers) pourraient alors, via le proxy, accéder au site Web à l'adresse www.example.com sans violer les directives robots.txt ET sans avoir à accéder au file eux-mêmes (=> clients plus simples et less de requests pour get robots.txt )

(Plus précisément, je regarde la version "GYM2008" de la spécification – http://nikitathespider.com/python/rerp/#gym2008 – car elle est largement utilisée)

    Je ne suis pas sûr de savoir pourquoi appliquer la conformité avec robots.txt serait le travail d'un proxy: le robot (robot) est supposé tirer robots.txt et suivre les instructions contenues dans ce file, de sorte que le proxy renvoie le bon robots.txt données robots.txt et le robot d'exploration font la bonne chose avec ces données, et tant que l'engin d'exploration utilise une proxy, vous obtiendrez tous les avantages d'un proxy sans aucun travail requirejs.

    **

    Cela dit, je ne connais aucun proxy qui fait ce que vous semblez requestr (parsingz robots.txt à partir d'un site et renvoyez seulement les choses qui seraient autorisées par ce file – sans doute pour contrôler un robot de chenilles qui ne fonctionne pas robots.txt ?). L'écriture d'un proxy qui gère ce qui nécessiterait un mappage user-agent-to-robots.txt / vérification pour chaque request que le proxy reçoit, ce qui est certainement possible (Vous pouvez le faire dans Squid, mais vous devriez regrouper un script pour transformer robots.txt en règles de configuration squid et mettre à jour périodiquement ces données), mais serait sans aucun doute un coup d'efficacité sur le proxy.
    La réparation du robot d'exploration est la meilleure solution (il évite également que datatables «viciées» soient envoyées au robot par le proxy. Notez qu'un bon robot de démarrage vérifiera les time de mise à jour dans les en-têtes HTTP et ne récupérera que les pages s'ils ont changé … )