gitweb und die robots.txt
Donnerstag, 5. März 2020
In den letzten paar Monaten fiel mir auf, daß unterschiedlichste Hosts ziemlich fleißig meine Gitweb-Site crawlten, und zwar allesamt mit der Crawler-Kennung „MJ12Bot“. Dieser Crawler wird tatsächlich dezentral betrieben, das heißt, wer mag, kann sich das Ding auf seinem Host installieren und ihn dann fleißig laufen lassen. Gemeldet werden die Daten dann wohl an eine zentrale Datenbank.
Weil ich das nicht wollte, hatte ich den MJ12Bot in die robots.txt für die Gitweb-Site eingetragen. Den MJ12Bot schien das nicht weiter zu stören. Ich nahm ihn dann vor einiger Zeit in den badbots-Filter von fail2ban auf, weil ich ihn offenbar nicht anders loswerden konnte.
Heute stellte ich dann „endlich“ fest, daß ich hier mal wieder ein PEBCAK produziert hatte … (mehr …)