Hallo zusammen,
ich bemühe mich derzeit darum, meinen kleinen vServer zu verschlanken und zu entlasten – und, im nächsten Schritt, vor ungewünschten Crawlern, Robots, Harvestern und ähnlichem Digitalgesocks zu befreien. Die technischen Möglichkeiten dafür sind mir bekannt - und auch bereits weitgehend umgesetzt.
Meine heutige Frage betrifft robots.txt. Betrachte ich meine Logs, so geht ein nicht unerheblicher Teil meiner Serverleistung in die Befriedigung von Baidu, Bildersammeldiensten und ähnlichen Crawlern und Robots, die nicht zu den Schädlingen gehören, mir dennoch keinerlei Mehrwert für den Betrieb meiner Seiten bieten. Ich meine speziell Crawler, die Angaben in der robots.txt respektieren.
Baidu z.B. besucht mich mehrmals pro Tag und führt jedes mal zu einem „mod_fcgid: ap_pass_brigade failed in handle_request function“ - fordert also exzessiv alle Serverresourcen, um später vielleicht chinesischen Script-Kiddies das Auffinden meines Servers zu erleichtern. Während eines solchen „Besuchs“ geht für gewünschte und legitime Besucher meines Servers nichts mehr – die Ladezeiten sind dann unzumutbar.
Die Frage an alle, die den Asiatischen Raum nicht als Teil ihres Geschäftsmodells betrachten: Wie geht Ihr mit Baidu und Konsorten um? Aussperren? Ausbremsen? Crawl-delay z.B. scheint Baidu nicht zu respektieren.
Kennt Ihr eine Auflistung von weiteren, aktuellen (robots.txt-obeying) Crawlern, Spydern und Robots, die man (als Europäer mit Zielmarkt Europa) nicht wirklich auf seinem Server antreffen will? Die tägliche Kontrolle der Logs mit folgender Einzelfallprüfung ist ausgesprochen mühsam. Alle Auflistungen, die ich im Web finden kann, sind älter als 4 Jahre, und damit wahrscheinlich unbrauchbar.
Danke für allen Input,
Thomas
ich bemühe mich derzeit darum, meinen kleinen vServer zu verschlanken und zu entlasten – und, im nächsten Schritt, vor ungewünschten Crawlern, Robots, Harvestern und ähnlichem Digitalgesocks zu befreien. Die technischen Möglichkeiten dafür sind mir bekannt - und auch bereits weitgehend umgesetzt.
Meine heutige Frage betrifft robots.txt. Betrachte ich meine Logs, so geht ein nicht unerheblicher Teil meiner Serverleistung in die Befriedigung von Baidu, Bildersammeldiensten und ähnlichen Crawlern und Robots, die nicht zu den Schädlingen gehören, mir dennoch keinerlei Mehrwert für den Betrieb meiner Seiten bieten. Ich meine speziell Crawler, die Angaben in der robots.txt respektieren.
Baidu z.B. besucht mich mehrmals pro Tag und führt jedes mal zu einem „mod_fcgid: ap_pass_brigade failed in handle_request function“ - fordert also exzessiv alle Serverresourcen, um später vielleicht chinesischen Script-Kiddies das Auffinden meines Servers zu erleichtern. Während eines solchen „Besuchs“ geht für gewünschte und legitime Besucher meines Servers nichts mehr – die Ladezeiten sind dann unzumutbar.
Die Frage an alle, die den Asiatischen Raum nicht als Teil ihres Geschäftsmodells betrachten: Wie geht Ihr mit Baidu und Konsorten um? Aussperren? Ausbremsen? Crawl-delay z.B. scheint Baidu nicht zu respektieren.
Kennt Ihr eine Auflistung von weiteren, aktuellen (robots.txt-obeying) Crawlern, Spydern und Robots, die man (als Europäer mit Zielmarkt Europa) nicht wirklich auf seinem Server antreffen will? Die tägliche Kontrolle der Logs mit folgender Einzelfallprüfung ist ausgesprochen mühsam. Alle Auflistungen, die ich im Web finden kann, sind älter als 4 Jahre, und damit wahrscheinlich unbrauchbar.
Danke für allen Input,
Thomas