robots.txt und unerwünschte Crawler

tsk · Sep 28, 2011

Hallo zusammen,

ich bemühe mich derzeit darum, meinen kleinen vServer zu verschlanken und zu entlasten – und, im nächsten Schritt, vor ungewünschten Crawlern, Robots, Harvestern und ähnlichem Digitalgesocks zu befreien. Die technischen Möglichkeiten dafür sind mir bekannt - und auch bereits weitgehend umgesetzt.

Meine heutige Frage betrifft robots.txt. Betrachte ich meine Logs, so geht ein nicht unerheblicher Teil meiner Serverleistung in die Befriedigung von Baidu, Bildersammeldiensten und ähnlichen Crawlern und Robots, die nicht zu den Schädlingen gehören, mir dennoch keinerlei Mehrwert für den Betrieb meiner Seiten bieten. Ich meine speziell Crawler, die Angaben in der robots.txt respektieren.

Baidu z.B. besucht mich mehrmals pro Tag und führt jedes mal zu einem „mod_fcgid: ap_pass_brigade failed in handle_request function“ - fordert also exzessiv alle Serverresourcen, um später vielleicht chinesischen Script-Kiddies das Auffinden meines Servers zu erleichtern. Während eines solchen „Besuchs“ geht für gewünschte und legitime Besucher meines Servers nichts mehr – die Ladezeiten sind dann unzumutbar.

Die Frage an alle, die den Asiatischen Raum nicht als Teil ihres Geschäftsmodells betrachten: Wie geht Ihr mit Baidu und Konsorten um? Aussperren? Ausbremsen? Crawl-delay z.B. scheint Baidu nicht zu respektieren.

Kennt Ihr eine Auflistung von weiteren, aktuellen (robots.txt-obeying) Crawlern, Spydern und Robots, die man (als Europäer mit Zielmarkt Europa) nicht wirklich auf seinem Server antreffen will? Die tägliche Kontrolle der Logs mit folgender Einzelfallprüfung ist ausgesprochen mühsam. Alle Auflistungen, die ich im Web finden kann, sind älter als 4 Jahre, und damit wahrscheinlich unbrauchbar.

Danke für allen Input,

Thomas

GwenDragon · Sep 28, 2011

Alle Bots, die sich nicht an die in der robots.txt beschriebenen Regeln halten werden bei mir auf eine Unsinnseite (andere nehmen localhost) umgeleitet.

Ein Liste der Robots gibt es als XML auf http://www.user-agents.org/
Eine TExtdatei auf http://www.robotstxt.org/dbexport.html

Außerdem kannst du auch eine Falle bauen.
In die robots.txt eine URL einbauen, die du verbietest, das Log regelmäßig per Python, PHP oder Perl auslesen, und wer sich nicht an die Regeln hält, gleich per .htaccess und ModRewrite blockieren.

tsk · Sep 28, 2011

Ja, so (bzw. ähnlich) gehe ich auch mit Dingen um, die sich NICHT an robots.txt halten. Mir geht es aber gerade um die, welche sich dran halten, aber dennoch unnütz oder mittelbar unangenehm oder belastend sind.

blupp1 · Sep 28, 2011

GwenDragon said:
Außerdem kannst du auch eine Falle bauen.
In die robots.txt eine URL einbauen, die du verbietest, das Log regelmäßig per Python, PHP oder Perl auslesen, und wer sich nicht an die Regeln hält, gleich per .htaccess und ModRewrite blockieren.

Und wenn ein Besucher diesen Link aufruft, wird er gesperrt?

GwenDragon · Sep 28, 2011

@blupp1
Das ist ein Argument, wenn der Nutzer diesen seltsamen Link findet. Er könnte ja zuerst in die robots.txt sehen und dann klicken. Gibt es solche Nutzer?

@tsk
Die Bots die unnütz sind, kannst du doch in den Logs erkennen.
Sperr sie aus, wenn du sie nicht willst und sie die Resourcen zu stark belasten. Es ist dein Server.
Du kannst die ja auch eine gewisse Zeit über ein Skript für iptables sperren, wenn sie zu oft kommen.

tsk · Sep 28, 2011

Ja, so mache ich es derzeit. Meine Hoffnung war nur, dass es bereits eine Liste mit Bots gibt, die zwar die robots.txt respektieren, aber dennoch keinen wirklichen Nutzen bringen (FunWebProducts, WebReaper..). Ich habe eine Liste nutzloser Bots, die 2007 endet. Von den dort aufgeführten Bots scheint keiner mehr wirklich aktuell - möglicherweise genau wegen dieser Liste.

@blupp1: Eine Botfalle, in Form eines in der robots.txt gesperrten Directories, hat primär den Zweck, Bots zu packen, die gezielt die gesperrten Bereiche (be)suchen. Dies tun sie auch unabhängig von realen Links, auf die reguläre Besucher klicken könnten. Ein Besucher, der gezielt die robots.txt aufruft, gesperrte Bereiche sucht - und aufruft, kann kein wirklich gutartiger Besucher sein.

Ich weiß jedoch nicht, ob es auch legitime Bots gibt, die bewusst die robots.txt ignorieren.

GwenDragon · Sep 28, 2011

tsk said:
Ich weiß jedoch nicht, ob es auch legitime Bots gibt, die bewusst die robots.txt ignorieren.

Nein, ein korrekt gemachter Spider ignoriert die nicht.

tsk · Sep 29, 2011

Sodelle, kleine Nachlese zu Baidu

Es scheint mehrere unterschiedliche Versionen zu geben. Ein Teil respektiert die robots.txt, der 20x häufiger auftretende "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" hingegen nicht. Da hilft nur ein Reject:

Code:

# Blocked IPs and IP Ranges w. kind reject
# Excessive Baidu spider not obeying robots.txt
# uses 119.63.196.*, 123.125.71.*, 180.76.5.*, 220.181.108.*
iptables –A INPUT –s 119.63.196.0/24 –j REJECT
iptables –A INPUT –s 123.125.71.0/24 –j REJECT
iptables –A INPUT –s 180.76.5.0/24 –j REJECT
iptables –A INPUT –s 220.181.108.0/24 –j REJECT

Vielleicht hilfts ja wem.

robots.txt und unerwünschte Crawler

tsk

Member

GwenDragon

Registered User

tsk

Member

blupp1

Guest

GwenDragon

Registered User

tsk

Member

GwenDragon

Registered User

tsk

Member

We value your privacy