Froschs Blog

Computer und was das Leben sonst noch so zu bieten hat

Zur Website | Impressum

Welche Suchmaschine klaut wo?

1. Februar 2011 um 22:04 Uhr von Atari-Frosch

Auf diversen Websites steht zu lesen, daß Google meint, die Suchmaschine Bing würde dort Ergebnisse abgreifen, um seine eigenen zu verbessern. So berichten das zum Beispiel Heise (Google: Bing guckt ab) und Golem (Google: Microsoft schummelt bei Bing). Nur: Die Betreiber von Google sollten, was das Thema „klauen” angeht, lieber mal ganz stille sein.

Die Sache sieht hier nämlich so aus:

Ich habe hier auf meinem Webserver via robots.txt ein Verzeichnis für diverse Suchmaschinenbots gesperrt, unter anderem für Yahoo und Google. Google hatte sich auch zunächst immer schön brav dran gehalten. Yahoo, so mußte ich irgendwann feststellen, hat(te) das offenbar nicht nötig.

Nun bekomme ich generell nicht so viele Anfragen via Yahoo wie via Google herein, auch wenn Yahoo wesentlich aggressiver spidert. Es dauerte also eine Weile, bis Yahoo tatsächlich Suchanfragen mit Links in dieses Verzeichnis beantwortete.

Aber: Kaum waren diese Yahoo-Links in meinen Logs, griff auch Google bei entsprechenden Suchbegriffen dorthin schamlos zu und ignoriert seitdem seinerseits die robots.txt. Das heißt: Google greift da zu, wo es feststellt, daß andere Suchmaschinen dürfen (oder die robots.txt schlicht ignorieren).

Das ist übrigens vor allem deshalb selten dämlich, weil in diesem Verzeichnis unter anderem die Suchbegriffs-Statistiken stehen (ich linke da jetzt bewußt nicht drauf, damit nicht noch mehr Bots aufmerksam werden). Die darf zwar gerne jeder angucken, aber Suchmaschinen-Bots sollten diese Listen gerade nicht abgreifen — was ist nochmal Rekursion?

Da ich nicht von allen Bots die Kennungen und IP-Bereiche kenne bzw. die sich ja auch mal ändern können, werde ich wohl doch einen primitiven Login davorsetzen, den dann wirklich nur noch Menschen aufkriegen.

... das heißt übrigens nicht, daß ich Microsoft hier irgendwie in Schutz nehmen will. Deren IP-Bereich 65.55. sollte man beispielsweise, wenn man keinen unnötigen Traffic und ggf. Urheberrechtsverletzungen haben will, per .htaccess für jedes Bilderverzeichnis sperren. Sonst greift M$ hier nämlich gnadenlos jedes Bild in höherer Auflösung — die Thumbnails werden ausgelassen! — etwa alle 6 Wochen mit GET und Status-Code 200 immer wieder ab, völlig sinnbefreit. Zwischendurch hatten sie es auch noch aus dem IP-Bereich 207.46.92. versucht, den ich auch bereits geblockt habe; daß auch aus dem Bereich 65.55. regelmäßig herzhaft zugegriffen wird, war mir erst danach aufgefallen.

Die Suchmaschinen geben sich also nichts, was das Klauen angeht.

Kommentieren

Bitte beachte die Kommentarregeln!

XHTML: Du kannst diese Tags verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>