Robots Blocken

Slant

New Member
Ich habe ein Problem mit Baidu, die machen manchmal so viele Anfragen, dass mein kleiner Server überlasted wird. Die letzten Eitnragungne sind dann nur Baidu, Baidu, Baidu, etc ...

Also habe ich ein wenig nachgelesen und meine /etc/httpd/conf/httpd.conf geändert und folgendes in den entsprechenden Sektionen hinzugefügt.

Code:
LoadModule setenvif_module modules/mod_setenvif.so

<Directory "/var/www/html">
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

    Order Allow,Deny
    Allow from all
    Deny from env=bad_bot
</Directory>

Das modul scheint auch geladen zu sein:

Loaded Modules:
core prefork http_core mod_so mod_auth_basic mod_auth_digest mod_authn_file mod_authn_alias mod_authn_anon mod_authn_dbm mod_authn_default mod_authz_host mod_authz_user mod_authz_owner mod_authz_groupfile mod_authz_dbm mod_authz_default util_ldap mod_authnz_ldap mod_include mod_log_config mod_logio mod_env mod_ext_filter mod_mime_magic mod_expires mod_deflate mod_headers mod_usertrack mod_setenvif mod_mime mod_dav mod_status mod_autoindex mod_info mod_dav_fs mod_vhost_alias mod_negotiation mod_dir mod_actions mod_speling mod_userdir mod_alias mod_rewrite mod_proxy mod_proxy_balancer mod_proxy_ftp mod_proxy_http mod_proxy_connect mod_cache mod_suexec mod_disk_cache mod_file_cache mod_mem_cache mod_cgi mod_version mod_bw mod_fcgid mod_jk mod_perl mod_php5 mod_proxy_ajp mod_python mod_ssl

Aber Baidu kann weiterhin dort zugreifen auch andere Bots die ich dort eingetragen habe werden nicht geblockt.
119.63.196.34 - - [04/Jul/2011:16:52:16 +0200] "GET /3-3-shaman-changes-fire-nova/ HTTP/1.1" 200 19647 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

Ich bin im moment etwas überfragt wo ich nach einem Fehler suchen soll. Ich habe gestern den ganzen Tag damit verbracht, aber kenne mich eben nicht so gut mit linux aus um weiterzukommen.

Das System ist ein VServer mit centos/plesk. Kann mir jemand auf die Sprünge helfen? Danke.
 
Last edited by a moderator:
Eine robots.txt im Hauptverzeichnis anlegen mit folgendem Text:

Danke, aber es geht nicht nur um Baidu, wenn ich schonmal dabei bin, will ich noch weitere spider und bots blocken. MJ12bot, wget, Xenu's Link Sleuth 1.1, etc etc

Denk über die drei Zeilen nochmal genau nach ;)

Ich habe folgende Versionen auch getestet, aber keine davon hat baidu (oder die anderen bots) geblockt.

Code:
        order Deny,Allow
        Allow from all
        Deny from env=bad_bot

Code:
        order Deny,Allow
        Deny from env=bad_bot
        Allow from all

Code:
        order Allow,Deny
        Allow from all
        Deny from env=bad_bot

Code:
        order Allow,Deny
        Deny from env=bad_bot
        Allow from all

Laut apache doku, wenn ich sie richtig verstehe (http://httpd.apache.org/docs/2.0/mod/mod_access.html):

"Allow,Deny" & "Match both Allow & Deny" -> Final match controls: Denied, also würde es doch so auch funktionieren.
 
Macht mal, ich denke in der Zwischenzeit über diese Zeilen nach
Code:
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot
Code:
119.63.196.34 - - [04/Jul/2011:16:52:16 +0200] "GET /3-3-shaman-changes-fire-nova/ HTTP/1.1" 200 19647 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
 
Ich habe es gelöst, nach den ganzen Versuchen dachte ich mir schon,d ass der Fehler irgendow anders liegen musste. Ich hatte dies in der httpdconf eignetragen, dort wo die allgemeinen allow/deny bedingungen stehen.
Diese galten aber für /vaw/www/html und die vhosts ligen unter /var/www/vhosts :D Manchmal sieht man den wald vor lauter bäumen nicht.

Um das ganze übersichtler zu machen habe ich die datei /etc/httpd/conf.d/bots.conf angelegt und dort alles eingetragen.

Code:
<Directory /var/www/vhosts>
SetEnvIfNoCase user-Agent ^$ bad_bot
SetEnvIfNoCase user-Agent "^AESOP_com_SpiderMan" bad_bot
SetEnvIfNoCase user-Agent "^Alexibot" bad_bot
SetEnvIfNoCase user-Agent "Anonymouse.org" bad_bot
SetEnvIfNoCase user-Agent "^asterias" bad_bot
SetEnvIfNoCase user-Agent "^attach" bad_bot
SetEnvIfNoCase user-Agent "^BackDoorBot" bad_bot
SetEnvIfNoCase user-Agent "^BackWeb" bad_bot
SetEnvIfNoCase user-Agent "bandit" bad_bot
SetEnvIfNoCase user-Agent "Baiduspider" bad_bot
SetEnvIfNoCase user-Agent "^BatchFTP" bad_bot
SetEnvIfNoCase user-Agent "^Bigfoot" bad_bot
SetEnvIfNoCase user-Agent "^Black.Hole" bad_bot
SetEnvIfNoCase user-Agent "^BlackWidow" bad_bot
SetEnvIfNoCase user-Agent "^BlowFish" bad_bot
SetEnvIfNoCase user-Agent "^BotALot" bad_bot
SetEnvIfNoCase user-Agent "Buddy" bad_bot
SetEnvIfNoCase user-Agent "^BuiltBotTough" bad_bot
SetEnvIfNoCase user-Agent "^Bullseye" bad_bot
SetEnvIfNoCase user-Agent "^BunnySlippers" bad_bot
SetEnvIfNoCase user-Agent "^Cegbfeieh" bad_bot
SetEnvIfNoCase user-Agent "^CheeseBot" bad_bot
SetEnvIfNoCase user-Agent "^CherryPicker" bad_bot
SetEnvIfNoCase user-Agent "^ChinaClaw" bad_bot
SetEnvIfNoCase user-Agent "Collector" bad_bot
SetEnvIfNoCase user-Agent "Copier" bad_bot
SetEnvIfNoCase user-Agent "^CopyRightCheck" bad_bot
SetEnvIfNoCase user-Agent "^cosmos" bad_bot
SetEnvIfNoCase user-Agent "^Crescent" bad_bot
SetEnvIfNoCase user-Agent "^Curl" bad_bot
SetEnvIfNoCase user-Agent "^Custo" bad_bot
SetEnvIfNoCase user-Agent "^DA" bad_bot
SetEnvIfNoCase user-Agent "^DISCo" bad_bot
SetEnvIfNoCase user-Agent "^DIIbot" bad_bot
SetEnvIfNoCase user-Agent "^DittoSpyder" bad_bot
SetEnvIfNoCase user-Agent "^Download" bad_bot
SetEnvIfNoCase user-Agent "^Download\ Demon" bad_bot
SetEnvIfNoCase user-Agent "^Download\ Devil" bad_bot
SetEnvIfNoCase user-Agent "^Download\ Wonder" bad_bot
SetEnvIfNoCase user-Agent "Downloader" bad_bot
SetEnvIfNoCase user-Agent "^dragonfly" bad_bot
SetEnvIfNoCase user-Agent "^Drip" bad_bot
SetEnvIfNoCase user-Agent "^eCatch" bad_bot
SetEnvIfNoCase user-Agent "^EasyDL" bad_bot
SetEnvIfNoCase user-Agent "^ebingbong" bad_bot
SetEnvIfNoCase user-Agent "^EirGrabber" bad_bot
SetEnvIfNoCase user-Agent "^EmailCollector" bad_bot
SetEnvIfNoCase user-Agent "^EmailSiphon" bad_bot
SetEnvIfNoCase user-Agent "^EmailWolf" bad_bot
SetEnvIfNoCase user-Agent "^EroCrawler" bad_bot
SetEnvIfNoCase user-Agent "^Exabot" bad_bot
SetEnvIfNoCase user-Agent "^Express\ WebPictures" bad_bot
SetEnvIfNoCase user-Agent "Extractor" bad_bot
SetEnvIfNoCase user-Agent "^EyeNetIE" bad_bot
SetEnvIfNoCase user-Agent "^FileHound" bad_bot
SetEnvIfNoCase user-Agent "^FlashGet" bad_bot
SetEnvIfNoCase user-Agent "^Foobot" bad_bot
SetEnvIfNoCase user-Agent "^flunky" bad_bot
SetEnvIfNoCase user-Agent "^FrontPage" bad_bot
SetEnvIfNoCase user-Agent "^GetRight" bad_bot
SetEnvIfNoCase user-Agent "^GetSmart" bad_bot
SetEnvIfNoCase user-Agent "^GetWeb!" bad_bot
SetEnvIfNoCase user-Agent "^Go!Zilla" bad_bot
SetEnvIfNoCase user-Agent "Google\ Wireless\ Transcoder" bad_bot
SetEnvIfNoCase user-Agent "^Go-Ahead-Got-It" bad_bot
SetEnvIfNoCase user-Agent "^gotit" bad_bot
SetEnvIfNoCase user-Agent "Grabber" bad_bot
SetEnvIfNoCase user-Agent "^GrabNet" bad_bot
SetEnvIfNoCase user-Agent "^Grafula" bad_bot
SetEnvIfNoCase user-Agent "^Harvest" bad_bot
SetEnvIfNoCase user-Agent "^hloader" bad_bot
SetEnvIfNoCase user-Agent "^HMView" bad_bot
SetEnvIfNoCase user-Agent "^httplib" bad_bot
SetEnvIfNoCase user-Agent "^HTTrack" bad_bot
SetEnvIfNoCase user-Agent "^humanlinks" bad_bot
SetEnvIfNoCase user-Agent "^ia_archiver" bad_bot
SetEnvIfNoCase user-Agent "^IlseBot" bad_bot
SetEnvIfNoCase user-Agent "^Image\ Stripper" bad_bot
SetEnvIfNoCase user-Agent "^Image\ Sucker" bad_bot
SetEnvIfNoCase user-Agent "Indy\ Library" bad_bot
SetEnvIfNoCase user-Agent "^InfoNaviRobot" bad_bot
SetEnvIfNoCase user-Agent "^InfoTekies" bad_bot
SetEnvIfNoCase user-Agent "^Intelliseek" bad_bot
SetEnvIfNoCase user-Agent "^InterGET" bad_bot
SetEnvIfNoCase user-Agent "^Internet\ Ninja" bad_bot
SetEnvIfNoCase user-Agent "^Iria" bad_bot
SetEnvIfNoCase user-Agent "^Jakarta" bad_bot
SetEnvIfNoCase user-Agent "^JennyBot" bad_bot
SetEnvIfNoCase user-Agent "^JetCar" bad_bot
SetEnvIfNoCase user-Agent "^JOC" bad_bot
SetEnvIfNoCase user-Agent "^JustView" bad_bot
SetEnvIfNoCase user-Agent "^Jyxobot" bad_bot
SetEnvIfNoCase user-Agent "^Kenjin.Spider" bad_bot
SetEnvIfNoCase user-Agent "^Keyword.Density" bad_bot
SetEnvIfNoCase user-Agent "^larbin" bad_bot
SetEnvIfNoCase user-Agent "^LeechFTP" bad_bot
SetEnvIfNoCase user-Agent "^LexiBot" bad_bot
SetEnvIfNoCase user-Agent "^lftp" bad_bot
SetEnvIfNoCase user-Agent "^libWeb/clsHTTP" bad_bot
SetEnvIfNoCase user-Agent "^likse" bad_bot
SetEnvIfNoCase user-Agent "^LinkextractorPro" bad_bot
SetEnvIfNoCase user-Agent "^LinkScan/8.1a.Unix" bad_bo
SetEnvIfNoCase user-Agent "^LNSpiderguy" bad_bott
SetEnvIfNoCase user-Agent "^LinkWalker" bad_bot
SetEnvIfNoCase user-Agent "^lwp-trivial" bad_bot
SetEnvIfNoCase user-Agent "^LWP::Simple" bad_bot
SetEnvIfNoCase user-Agent "^Magnet" bad_bot
SetEnvIfNoCase user-Agent "^Mag-Net" bad_bot
SetEnvIfNoCase user-Agent "^MarkWatch" bad_bot
SetEnvIfNoCase user-Agent "^Mass\ Downloader" bad_bot
SetEnvIfNoCase user-Agent "^Mata.Hari" bad_bot
SetEnvIfNoCase user-Agent "^Memo" bad_bot
SetEnvIfNoCase user-Agent "^Microsoft.URL" bad_bot
SetEnvIfNoCase user-Agent "^Microsoft\ URL\ Control" bad_bot
SetEnvIfNoCase user-Agent "^MIDown\ tool" bad_bot
SetEnvIfNoCase user-Agent "^MIIxpc" bad_bot
SetEnvIfNoCase user-Agent "^Mirror" bad_bot
SetEnvIfNoCase user-Agent "^Missigua\ Locator" bad_bot
SetEnvIfNoCase user-Agent "^Mister\ PiX" bad_bot
SetEnvIfNoCase user-Agent "MJ12bot" bad_bot
SetEnvIfNoCase user-Agent "^moget" bad_bot
SetEnvIfNoCase user-Agent "^Mozilla/3.Mozilla/2.01" bad_bot
SetEnvIfNoCase user-Agent "^NAMEPROTECT" bad_bot
SetEnvIfNoCase user-Agent "^Navroad" bad_bot
SetEnvIfNoCase user-Agent "^NearSite" bad_bot
SetEnvIfNoCase user-Agent "^NetAnts" bad_bot
SetEnvIfNoCase user-Agent "^Netcraft" bad_bot
SetEnvIfNoCase user-Agent "^NetMechanic" bad_bot
SetEnvIfNoCase user-Agent "^NetSpider" bad_bot
SetEnvIfNoCase user-Agent "^Net\ Vampire" bad_bot
SetEnvIfNoCase user-Agent "^NetZIP" bad_bot
SetEnvIfNoCase user-Agent "^NextGenSearchBot" bad_bot
SetEnvIfNoCase user-Agent "^NG" bad_bot
SetEnvIfNoCase user-Agent "^NICErsPRO" bad_bot
SetEnvIfNoCase user-Agent "^NimbleCrawler" bad_bot
SetEnvIfNoCase user-Agent "^Ninja" bad_bot
SetEnvIfNoCase user-Agent "^NPbot" bad_bot
SetEnvIfNoCase user-Agent "^Octopus" bad_bot
SetEnvIfNoCase user-Agent "^Offline\ Explorer" bad_bot
SetEnvIfNoCase user-Agent "^Offline\ Navigator" bad_bot
SetEnvIfNoCase user-Agent "^Openfind" bad_bot
SetEnvIfNoCase user-Agent "^OutfoxBot" bad_bot
SetEnvIfNoCase user-Agent "^PageGrabber" bad_bot
SetEnvIfNoCase user-Agent "^Papa\ Foto" bad_bot
SetEnvIfNoCase user-Agent "^pavuk" bad_bot
SetEnvIfNoCase user-Agent "^pcBrowser" bad_bot
SetEnvIfNoCase user-Agent "^PHP\ version\ tracker" bad_bot
SetEnvIfNoCase user-Agent "^Pockey" bad_bot
SetEnvIfNoCase user-Agent "^ProPowerBot/2.14" bad_bot
SetEnvIfNoCase user-Agent "^ProWebWalker" bad_bot
SetEnvIfNoCase user-Agent "^psbot" bad_bot
SetEnvIfNoCase user-Agent "^Pump" bad_bot
SetEnvIfNoCase user-Agent "^QueryN.Metasearch" bad_bot
SetEnvIfNoCase user-Agent "^RealDownload" bad_bot
SetEnvIfNoCase user-Agent "Reaper" bad_bot
SetEnvIfNoCase user-Agent "Recorder" bad_bot
SetEnvIfNoCase user-Agent "^ReGet" bad_bot
SetEnvIfNoCase user-Agent "^RepoMonkey" bad_bot
SetEnvIfNoCase user-Agent "^RMA" bad_bot
SetEnvIfNoCase user-Agent "Siphon" bad_bot
SetEnvIfNoCase user-Agent "sitecheck.internetseer.com" bad_bot
SetEnvIfNoCase user-Agent "^SiteSnagger" bad_bot
SetEnvIfNoCase user-Agent "^SlySearch" bad_bot
SetEnvIfNoCase user-Agent "^SmartDownload" bad_bot
SetEnvIfNoCase user-Agent "^Snake" bad_bot
SetEnvIfNoCase user-Agent "^Snapbot" bad_bot
SetEnvIfNoCase user-Agent "^Snoopy" bad_bot
SetEnvIfNoCase user-Agent "^sogou" bad_bot
SetEnvIfNoCase user-Agent "^SpaceBison" bad_bot
SetEnvIfNoCase user-Agent "^SpankBot" bad_bot
SetEnvIfNoCase user-Agent "^spanner" bad_bot
SetEnvIfNoCase user-Agent "^Sqworm" bad_bot
SetEnvIfNoCase user-Agent "Stripper" bad_bot
SetEnvIfNoCase user-Agent "Sucker" bad_bot
SetEnvIfNoCase user-Agent "^SuperBot" bad_bot
SetEnvIfNoCase user-Agent "^SuperHTTP" bad_bot
SetEnvIfNoCase user-Agent "^Surfbot" bad_bot
SetEnvIfNoCase user-Agent "^suzuran" bad_bot
SetEnvIfNoCase user-Agent "^Szukacz/1.4" bad_bot
SetEnvIfNoCase user-Agent "^tAkeOut" bad_bot
SetEnvIfNoCase user-Agent "^Teleport" bad_bot
SetEnvIfNoCase user-Agent "^Telesoft" bad_bot
SetEnvIfNoCase user-Agent "^TurnitinBot/1.5" bad_bot
SetEnvIfNoCase user-Agent "^The.Intraformant" bad_bot
SetEnvIfNoCase user-Agent "^TheNomad" bad_bot
SetEnvIfNoCase user-Agent "^TightTwatBot" bad_bot
SetEnvIfNoCase user-Agent "^Titan" bad_bot
SetEnvIfNoCase user-Agent "^toCrawl/UrlDispatcher" bad_bot
SetEnvIfNoCase user-Agent "^True_Robot" bad_bot
SetEnvIfNoCase user-Agent "^turingos" bad_bot
SetEnvIfNoCase user-Agent "^TurnitinBot" bad_bot
SetEnvIfNoCase user-Agent "^URLy.Warning" bad_bot
SetEnvIfNoCase user-Agent "^Vacuum" bad_bot
SetEnvIfNoCase user-Agent "^VCI" bad_bot
SetEnvIfNoCase user-Agent "^VoidEYE" bad_bot
SetEnvIfNoCase user-Agent "^Web\ Image\ Collector" bad_bot
SetEnvIfNoCase user-Agent "^Web\ Sucker" bad_bot
SetEnvIfNoCase user-Agent "^WebAuto" bad_bot
SetEnvIfNoCase user-Agent "^Webbandit" bad_bot
SetEnvIfNoCase user-Agent "^Webclipping.com" bad_bot
SetEnvIfNoCase user-Agent "^WebCopier" bad_bot
SetEnvIfNoCase user-Agent "^WebEMailExtrac.*" bad_bot
SetEnvIfNoCase user-Agent "^WebEnhancer" bad_bot
SetEnvIfNoCase user-Agent "^WebFetch" bad_bot
SetEnvIfNoCase user-Agent "^WebGo\ IS" bad_bot
SetEnvIfNoCase user-Agent "^Web.Image.Collector" bad_bot
SetEnvIfNoCase user-Agent "^WebLeacher" bad_bot
SetEnvIfNoCase user-Agent "^WebmasterWorldForumBot" bad_bot
SetEnvIfNoCase user-Agent "^WebReaper" bad_bot
SetEnvIfNoCase user-Agent "^WebSauger" bad_bot
SetEnvIfNoCase user-Agent "^WebSite" bad_bot
SetEnvIfNoCase user-Agent "^Website\ eXtractor" bad_bot
SetEnvIfNoCase user-Agent "^Website\ Quester" bad_bot
SetEnvIfNoCase user-Agent "^Webster" bad_bot
SetEnvIfNoCase user-Agent "^WebStripper" bad_bot
SetEnvIfNoCase user-Agent "^WebWhacker" bad_bot
SetEnvIfNoCase user-Agent "^WebZIP" bad_bot
SetEnvIfNoCase user-Agent "Whacker" bad_bot
SetEnvIfNoCase user-Agent "^Widow" bad_bot
SetEnvIfNoCase user-Agent "^WISENutbot" bad_bot
SetEnvIfNoCase user-Agent "^WWWOFFLE" bad_bot
SetEnvIfNoCase user-Agent "^WWW-Collector-E" bad_bot
SetEnvIfNoCase user-Agent "^Xaldon" bad_bot
SetEnvIfNoCase user-Agent "^Zeus" bad_bot
SetEnvIfNoCase user-Agent "^Zyborg" bad_bot

<Files *>
    Order Allow,Deny
    Allow from all
    Deny from env=bad_bot
</Files>
</Directory>

Sicher hält das nicht alle Bots ab, aber es ist ein guter Anfang :D
 
Warum einfach machen wenn es auch schwer geht .... :rolleyes:

User-agent: AESOP_com_SpiderMan
Disallow: /

User-agent: Alexibot
Disallow: /

User-agent: Anonymouse.org
Disallow: /

User-agent: asterias
Disallow: /

User-agent: attach
Disallow: /

User-agent: BackDoorBot
Disallow: /

User-agent: BackWeb
Disallow: /

User-agent: bandit
Disallow: /

User-agent: Baiduspider
Disallow: /

User-agent: BatchFTP
Disallow: /

User-agent: Bigfoot
Disallow: /

User-agent: Black.Hole
Disallow: /

User-agent: BlackWidow
Disallow: /

User-agent: BlowFish
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: Buddy
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: Bullseye
Disallow: /

usw usw

btw du hast Fehler in deinem Listing:

SetEnvIfNoCase user-Agent "Buddy" bad_bot
SetEnvIfNoCase user-Agent "Collector" bad_bot
SetEnvIfNoCase user-Agent "Copier" bad_bot

usw usw
 
Warum einfach machen wenn es auch schwer geht .... :rolleyes:

btw du hast Fehler in deinem Listing:

Nicht alle Bots halten sich an die Robots.txt, ist oft nut ein Häkchen das man setzen muss, user agent strings zu ändern is schon "forgeschrittenes" benutzen. Daher ist es mir so lieber.

Die Einträge sind nicht anders wie bei askapache.com, dort beginngen auch nicht alle Strings mit "^"

http://www.askapache.com/htaccess/fight-blog-spam-with-apache.html

Baiduspider funktionierte nicht mit "^Baiduspider" wohl aber mit "Baiduspider" ... dotme hatte mich ja obenfdarauf aufmerksam gemacht.
 
Back
Top