Froschs Blog

Computer und was das Leben sonst noch so zu bieten hat

Zur Website | Impressum

gitweb und die robots.txt

5. März 2020 um 0:02 Uhr von Atari-Frosch

In den letzten paar Monaten fiel mir auf, daß unterschiedlichste Hosts ziemlich fleißig meine Gitweb-Site crawlten, und zwar allesamt mit der Crawler-Kennung „MJ12Bot“. Dieser Crawler wird tatsächlich dezentral betrieben, das heißt, wer mag, kann sich das Ding auf seinem Host installieren und ihn dann fleißig laufen lassen. Gemeldet werden die Daten dann wohl an eine zentrale Datenbank.

Weil ich das nicht wollte, hatte ich den MJ12Bot in die robots.txt für die Gitweb-Site eingetragen. Den MJ12Bot schien das nicht weiter zu stören. Ich nahm ihn dann vor einiger Zeit in den badbots-Filter von fail2ban auf, weil ich ihn offenbar nicht anders loswerden konnte.

Heute stellte ich dann „endlich“ fest, daß ich hier mal wieder ein PEBCAK produziert hatte …

Was ich nämlich die ganze Zeit über übersehen hatte, war die Tatsache, daß die Bots zwar die robots.txt anforderten, aber daß sie sie gar nicht bekamen. Der Webserver lieferte den Statuscode 404 zurück, also: File not found. Als ich das heute endlich bewußt registriert hatte, kam das nächste Problem: Alle anderen Websites, die hier auf derselben Maschine laufen, haben eine robots.txt – und die wird bei allen ausgeliefert. Außer bei der Gitweb-Installation.

Das klingt erstmal nach falsch gesetzten Dateirechten. Aber: Die Dateirechte waren zu denen der robots.txt auf den anderen Sites identisch. Owner, Group, Permissions – alles genau so wie bei den anderen. Trotzdem, wenn ich die Datei mit curl von meinem Heim-PC aus anforderte, bekam ich ebenfalls den 404.

Der einzige Unterschied zu den anderen Websites: Das ist eine Gitweb-Installation. Die anderen sind statische Websites, ClassicPress- und eine OwnCloud-Installation.

Und dann fiel mir dieses Verzeichnis namens ~gitweb im Website-Verzeichnis dieser Installation auf. Genau genommen ist das ein symbolischer Link nach /usr/share/gitweb, wo gitweb seine index.cgi stehen hat.

Ja, das war's dann. Ich kopierte die robots.txt dort hinein, und auf einmal bekam ich auf meine curl-Anforderung hin die Datei ausgeliefert. 🙃

Ich bin sicher, das steht irgendwo. Ganz bestimmt. Das hilft allerdings nur, wenn man weiß, wo man suchen muß. Daß die Datei in diesem Fall nicht ins Website-Verzeichnis gehört, sondern in ein völlig anderes, war mir absolut nicht in den Sinn gekommen …


History

Kommentieren

Bitte beachte die Kommentarregeln!

XHTML: Du kannst diese Tags verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>