robots.txt und unerwünschte Crawler

tsk

Member
Hallo zusammen,

ich bemühe mich derzeit darum, meinen kleinen vServer zu verschlanken und zu entlasten – und, im nächsten Schritt, vor ungewünschten Crawlern, Robots, Harvestern und ähnlichem Digitalgesocks zu befreien. Die technischen Möglichkeiten dafür sind mir bekannt - und auch bereits weitgehend umgesetzt.

Meine heutige Frage betrifft robots.txt. Betrachte ich meine Logs, so geht ein nicht unerheblicher Teil meiner Serverleistung in die Befriedigung von Baidu, Bildersammeldiensten und ähnlichen Crawlern und Robots, die nicht zu den Schädlingen gehören, mir dennoch keinerlei Mehrwert für den Betrieb meiner Seiten bieten. Ich meine speziell Crawler, die Angaben in der robots.txt respektieren.

Baidu z.B. besucht mich mehrmals pro Tag und führt jedes mal zu einem „mod_fcgid: ap_pass_brigade failed in handle_request function“ - fordert also exzessiv alle Serverresourcen, um später vielleicht chinesischen Script-Kiddies das Auffinden meines Servers zu erleichtern. Während eines solchen „Besuchs“ geht für gewünschte und legitime Besucher meines Servers nichts mehr – die Ladezeiten sind dann unzumutbar.

Die Frage an alle, die den Asiatischen Raum nicht als Teil ihres Geschäftsmodells betrachten: Wie geht Ihr mit Baidu und Konsorten um? Aussperren? Ausbremsen? Crawl-delay z.B. scheint Baidu nicht zu respektieren.

Kennt Ihr eine Auflistung von weiteren, aktuellen (robots.txt-obeying) Crawlern, Spydern und Robots, die man (als Europäer mit Zielmarkt Europa) nicht wirklich auf seinem Server antreffen will? Die tägliche Kontrolle der Logs mit folgender Einzelfallprüfung ist ausgesprochen mühsam. Alle Auflistungen, die ich im Web finden kann, sind älter als 4 Jahre, und damit wahrscheinlich unbrauchbar.

Danke für allen Input,

Thomas
 
Alle Bots, die sich nicht an die in der robots.txt beschriebenen Regeln halten werden bei mir auf eine Unsinnseite (andere nehmen localhost) umgeleitet.

Ein Liste der Robots gibt es als XML auf http://www.user-agents.org/
Eine TExtdatei auf http://www.robotstxt.org/dbexport.html

Außerdem kannst du auch eine Falle bauen.
In die robots.txt eine URL einbauen, die du verbietest, das Log regelmäßig per Python, PHP oder Perl auslesen, und wer sich nicht an die Regeln hält, gleich per .htaccess und ModRewrite blockieren.
 
Last edited by a moderator:
Ja, so (bzw. ähnlich) gehe ich auch mit Dingen um, die sich NICHT an robots.txt halten. Mir geht es aber gerade um die, welche sich dran halten, aber dennoch unnütz oder mittelbar unangenehm oder belastend sind.
 
Außerdem kannst du auch eine Falle bauen.
In die robots.txt eine URL einbauen, die du verbietest, das Log regelmäßig per Python, PHP oder Perl auslesen, und wer sich nicht an die Regeln hält, gleich per .htaccess und ModRewrite blockieren.

Und wenn ein Besucher diesen Link aufruft, wird er gesperrt?
 
@blupp1
Das ist ein Argument, wenn der Nutzer diesen seltsamen Link findet. Er könnte ja zuerst in die robots.txt sehen und dann klicken. Gibt es solche Nutzer?

@tsk
Die Bots die unnütz sind, kannst du doch in den Logs erkennen.
Sperr sie aus, wenn du sie nicht willst und sie die Resourcen zu stark belasten. Es ist dein Server.
Du kannst die ja auch eine gewisse Zeit über ein Skript für iptables sperren, wenn sie zu oft kommen.
 
Ja, so mache ich es derzeit. Meine Hoffnung war nur, dass es bereits eine Liste mit Bots gibt, die zwar die robots.txt respektieren, aber dennoch keinen wirklichen Nutzen bringen (FunWebProducts, WebReaper..). Ich habe eine Liste nutzloser Bots, die 2007 endet. Von den dort aufgeführten Bots scheint keiner mehr wirklich aktuell - möglicherweise genau wegen dieser Liste.

@blupp1: Eine Botfalle, in Form eines in der robots.txt gesperrten Directories, hat primär den Zweck, Bots zu packen, die gezielt die gesperrten Bereiche (be)suchen. Dies tun sie auch unabhängig von realen Links, auf die reguläre Besucher klicken könnten. Ein Besucher, der gezielt die robots.txt aufruft, gesperrte Bereiche sucht - und aufruft, kann kein wirklich gutartiger Besucher sein.

Ich weiß jedoch nicht, ob es auch legitime Bots gibt, die bewusst die robots.txt ignorieren.
 
Sodelle, kleine Nachlese zu Baidu

Es scheint mehrere unterschiedliche Versionen zu geben. Ein Teil respektiert die robots.txt, der 20x häufiger auftretende "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" hingegen nicht. Da hilft nur ein Reject:

Code:
# Blocked IPs and IP Ranges w. kind reject
# Excessive Baidu spider not obeying robots.txt
# uses 119.63.196.*, 123.125.71.*, 180.76.5.*, 220.181.108.*
iptables –A INPUT –s 119.63.196.0/24 –j REJECT
iptables –A INPUT –s 123.125.71.0/24 –j REJECT
iptables –A INPUT –s 180.76.5.0/24 –j REJECT
iptables –A INPUT –s 220.181.108.0/24 –j REJECT

Vielleicht hilfts ja wem.
 
Back
Top