Gute Crawler, Böse Crawler

Hallo Liebe Gemeindemitglieder, :D

Ich stelle seit ein paar Wochen, besser gesagt seit 2-3 Monaten einen rasant ansteigenden Traffic auf unserem Server fest. Das gleiche Problem bei einer Firma mit einigen Servern die ein ERP anbieten.

Wenn ich so die Logs durchsehen, erkenne ich oder glaube zu erkennen, das der stark angestiegene Traffic hauptsächlich durch Crawler verursacht wurde und wird.

Nun meine Frage, gibt es eine Liste mit Guten und Bösen Crawlern die auch einigermaßen aktuell ist und aktuell gehalten wird?

Warum frage ich? Ich möchte die bösen Crawler so gut es geht vom Server verbannen um den Traffic wieder in normale Bahnen zu lenken.

Im September hatte ich im gesamten Monat 50 GB Traffic, im Oktober 66 GB, im November 76 GB und im Dezember bisher 25 GB.

Bemerkt habe ich, das es seit geraumer Zeit viele Crawler gibt, die den Server nach Bildern absuchen. Gerade diese Burschen möchte ich gerne vom Server fern halten oder ihnen ihre Arbeit schwer machen, sind sie doch diejenigen, die den meisten Traffic erzeugen.

Der Traffic wird nicht von Seitenbesuchern generiert, die Besucherzahlen der Homepages sind seit Jahren fast identisch. Eher im Gegenteil sind doch 2 Onlineshops auf einen eigenen Server gezogen.

Also kurz und knapp, gibt es eine Liste mit bösen Crawlern inkl. deren dazugehörigen IP´s?

Gruß

Ulf
 
ja, alle, die sich nicht an die robots.txt halten :-)

... die es hoffentlich auf dem System auch gibt, oder?

... denn: was gut und was böse ist definert vermutlich jeder anders - ich würde einfach versuchen, es "per se" so schwer wie möglich zu machen, z.B. Bilder nur bei vorhandemem Referrer abrufen lassen, ...

... bei allem anderen kommst Du vermutlich mit der Pflege der entsprechenden Sperr-Liste nicht mehr nach.
 
Eine solche Liste ist mir nicht bekannt. Die einfachste Möglichkeit die mir einfällt, wäre, einfach alle Bots mit sowas wie NGINX + Roboo zu blocken und alle IP-Blöcke von Google, Yahoo, M$, usw. zu whitelisten. Dafür gibt es Listen.

Die andere Möglichkeit wäre, sich ein Perl-Skrip o.Ä. zu schreiben, welches per File::Tail die Access-Logs ausliest, bei mehr als X Zugriffen auf statische Inhalte in X Minuten die PTR Zonen von der Client IP auf Muster wie "google", "yahoo", usw. überprüft, bei einem Treffer nichts tut und bei keinem Treffer die IP in eine (Block-)Liste einfügt.
 
So banal es klingt - ich würde erst mal mit einer robots.txt anfangen.
Erst wenn die Crawler die nachweislich ignorieren, sollte man schwerere Geschütze auffahren.
Du sagst, Dich stören besonders die Bilder-Crawler. Da kann man z.B ansetzen und nur die Bild-Verzeichnisse (oder die entsprechenden Dateitypen) schärfer kontrollieren und z.B. nur mit gültigem Referrer, User-Agenten oder Zugriffshistorie freigeben - oder andernfalls zumindest die Zugriffe stark ausbremsen.
Auch könnte man Crawler-Fallen (im Stile der Webseiten für Mail-Harvester) mit Hidden Links bauen, die bei Zugriff dann ein Fail2Ban für diese IP triggern.
In jedem Fall kommst Du wohl am Anfang nicht umhin, den Erfolg ständig zu monitoren und die Filterkriterien anzupassen, um gewünschte Besucher nicht zu verprellen.
 
d z.B. nur mit gültigem Referrer,
Referrer ist nach RFC _nicht_ Pflicht und wird von clientseitigen FIrewalls modifiziert oder rausgefiltert. Nur Zugriffe durch zu lassen welche einen Referrer haben ist demnach problematisch.
Referrer hilft nur gegen Hotlinking - da _viele_ Clients die richtigen Referrer mitschicken kann man externe Links verweigern und nur nicht gesetzte oder lokale Referrer zulassen. Gegen Bots hilft das aber nicht.
 
Back
Top