Gibt es denn, in den vom Bot effektiv aufgerufenen Seiten, eine robots.txt? Gibt es Zugriffe auf die robots.txt (Berechtigungen überprüfen, kann der Bot sie überhaupt auslesen?).

Normalerweise hält sich Yahoo an den Standard. Also würde ich doch erst einmal versuchen, die über die dafür vorgesehne Methode zu realisieren:
User-Agent: Slurp
Crawl-Delay: 10
Ggf. den Delay Wert an deine Bedürfnisse anpassen.

Man beachte, dass die robots.txt. aber auch nicht ständig von den Bots gelesen wird. Wenn jeder Crawler immer erstmal die robots.txt lesen würde bevor er eine Seite zieht, wäre dies auch nicht gerade erfreulich. ;)

Aufgrund der gleichzeitigen hohen Anzahl an MySQL-Verbindungen, tippe ich darauf, dass es auch nicht am KeepAlive liegt sondern echte Scripte gezogen werden und diese die entsprechend hohe Performance fordern.
Dies könnte z.B. ein schlecht (unperformant) programmiertes Script sein, aber auch eine mangelnde MySQL-Performance.
Für letzteres einfach mal http://www.huschi.net/12_302_de-mysql-tuning.html ausprobieren.

Evtl. verrät uns Tobusa ja mal seine Domain oder zumindest welche Scripte dort so laufen. Evtl. sind es auch größere Downloads?

Wordpress mit ein paar Plugins, die Download sind. ca 250 MB groß. Daran kann es aber nicht legen, da es ja den großteil des Tages geht. Domain ist wiiare.in

Yahoo ist trotz robots.txt (chmod 664) in allen public_html Ordnern weiterhin aktiv. Die IPs sind wie oben vorgeschlagen auch per Route blockiert

Die Webseite zum optimieren hab ich mir angeguckt, hier erstmal der Log des MySQLTuners
MySQL Version 5.0.51a-3ubuntu5.4 i486

Uptime = 1 days 22 hrs 46 min 51 sec
Avg. qps = 3
Total Questions = 571608
Threads Connected = 13

Warning: Server has not been running for at least 48hrs.
It may not be safe to use these recommendations

To find out more information on how each of these
runtime variables effects performance visit:
Visit http://www.mysql.com/products/enterprise/advisors.html
for info about MySQL's Enterprise Monitoring and Advisory Service

The slow query log is NOT enabled.
Current long_query_time = 10 sec.
You have 0 out of 571629 that take longer than 10 sec. to complete
Your long_query_time may be too high, I typically set this under 5 sec.

The binary update log is NOT enabled.
You will not be able to do point in time recovery
See http://dev.mysql.com/doc/refman/5.0/en/point-in-time-recovery.html

Current thread_cache_size = 8
Current threads_cached = 1
Current threads_per_sec = 0
Historic threads_per_sec = 0
Your thread_cache_size is fine

Current max_connections = 100
Current threads_connected = 13
Historic max_used_connections = 35
The number of used connections is 35% of the configured maximum.
Your max_connections variable seems to be fine.

Max Memory Ever Allocated : 133 M
Configured Max Per-thread Buffers : 262 M
Configured Max Global Buffers : 42 M
Configured Max Memory Limit : 304 M
Physical Memory : 971 M
Max memory limit seem to be within acceptable norms

Current MyISAM index space = 4 K
Current key_buffer_size = 16 M
Key cache miss rate is 1 : 483
Key buffer free ratio = 81 %
Your key_buffer_size seems to be fine

Query cache is enabled
Current query_cache_size = 16 M
Current query_cache_used = 13 M
Current query_cache_limit = 1 M
Current Query cache Memory fill ratio = 83.45 %
Current query_cache_min_res_unit = 4 K
However, 25316 queries have been removed from the query cache due to lack of memory
Perhaps you should raise query_cache_size
MySQL won't cache query results that are larger than query_cache_limit in size

Current sort_buffer_size = 2 M
Current read_rnd_buffer_size = 256 K
Sort buffer seems to be fine

Current join_buffer_size = 132.00 K
You have had 0 queries where a join could not use an index properly
Your joins seem to be using indexes properly

Current open_files_limit = 1024 files
The open_files_limit should typically be set to at least 2x-3x
that of table_cache if you have heavy MyISAM usage.
Your open_files_limit value seems to be fine

Current table_cache value = 64 tables
You have a total of 0 tables
You have 64 open tables.
Current table_cache hit rate is 7%, while 100% of your table cache is in use
You should probably increase your table_cache

Current max_heap_table_size = 16 M
Current tmp_table_size = 32 M
Of 17729 temp tables, 27% were created on disk
Effective in-memory tmp_table_size is limited to max_heap_table_size.
Perhaps you should increase your tmp_table_size and/or max_heap_table_size
to reduce the number of disk-based temporary tables
Note! BLOB and TEXT columns are not allow in memory tables.
If you are using these columns raising these values might not impact your
ratio of on disk temp tables.

Current read_buffer_size = 128 K
Current table scan ratio = 330 : 1
read_buffer_size seems to be fine

Current Lock Wait ratio = 0 : 571812
Your table locking seems to be fine

19:00 Uhr schon wieder alles zu:

top - 20:07:47 up 1 day, 22:39,  1 user,  load average: 75.01, 74.99, 72.50
Tasks: 155 total,  76 running,  79 sleeping,   0 stopped,   0 zombie
Cpu(s): 20.7%us,  0.7%sy,  0.0%ni, 77.9%id,  0.4%wa,  0.1%hi,  0.2%si,  0.0%st
Mem:    994632k total,   921864k used,    72768k free,     9020k buffers
Swap:   522104k total,    13344k used,   508760k free,   712632k cached

 8045 www-data  20   0 68252  25m  18m R  3.9  2.6   0:20.26 apache2
 8541 www-data  20   0 65480 6900 2208 R  3.9  0.7   0:18.18 apache2
 8542 www-data  20   0 65480 6928 2228 R  3.9  0.7   0:18.16 apache2
12089 www-data  20   0 65480 6932 2228 R  3.9  0.7   0:17.78 apache2
12579 www-data  20   0 65480 6924 2220 R  3.9  0.7   0:23.92 apache2
12629 www-data  20   0 65480 6924 2220 R  3.9  0.7   0:23.68 apache2
12630 www-data  20   0 65480 6900 2208 R  3.9  0.7   0:23.64 apache2
12643 www-data  20   0 65480 6924 2220 R  3.9  0.7   0:23.50 apache2
12645 www-data  20   0 65480 6924 2220 R  3.9  0.7   0:23.48 apache2
12646 www-data  20   0 65480 6932 2228 R  3.9  0.7   0:23.48 apache2
12649 www-data  20   0 65480 6924 2220 R  3.9  0.7   0:23.44 apache2
12793 www-data  20   0 65480 6928 2228 R  3.9  0.7   0:19.76 apache2
 8539 www-data  20   0 65480 7152 2440 R  2.0  0.7   1:57.76 apache2
 8543 www-data  20   0 65480 7180 2460 R  2.0  0.7   1:57.70 apache2
 8544 www-data  20   0 65480 7152 2440 R  2.0  0.7   1:57.69 apache2
11793 www-data  20   0 65480 6928 2228 R  2.0  0.7   0:36.91 apache2
11828 www-data  20   0 65480 6920 2220 R  2.0  0.7   0:36.53 apache2

Deine Robots.tst hat irgendwie keinen Zeilenumbruch:
User-Agent: Slurp Crawl-Delay: 5
Sollte so aussehen:
User-Agent: Slurp
Crawl-Delay: 5
Wenn du (testweise) Robots komplett aussperren willst:
User-Agent: *
Disallow: /
Ich habe die Seite gerade mal testweise aufgerufen. Reagiert aber verhältnismäßig schnell.

falsches Lineending, danke habs gerade geändert. Ich sag doch normalerweiße läuft der Server ganz rund... mal sehen ob sich nun was ändert
Eventuell noch temporär Apache mod_status aktivieren und die Apache Direktive ExtendedStatus On setzten. Dann kann man zumindest mal schauen, wass auf den Server überhaupt los ist.

sry, vorschnell gepostet ;)

Wenn also das nächste mal das Problem vorbekommt, könnte ich den log von da posten. Das wird aber nicht funktionierne, da das Apache total ausgelastet ist...
You have a total of 0 tables
Da scheint das Script wohl etwas falsch zu berechnen... ;)

Dennoch sind die Vorschläge ernst zu nehmen:
long_query_time = 5
query_cache_size = 32 M
table_cache = 512
open_files_limit = 2048
max_heap_table_size = 32 M

Und nicht vergessen: Regelmäßig nachsehen.

Zu den Downloads:
Du solltest zumindest die DLs in der robots.txt verbieten.

In meiner my.cnf stehen einige Werte nochgarnicht drin (open_files_limit), einfach eintragen?

Jo Download sind schon verboten: Disallow: /wp-content/
Einfach in die [mysqld]-Sektion eintragen.
MySQL braucht danach aber einen restart. (Reload reicht bei diesen Werten nicht.)

Also ich hab das Problem 1-2 mal pro Tag, Apache völlig ausgelastet. Woran es genau liegt weiß ich nicht. Doch sind die Yahoo Bots immer noch da... warum?

ich hab genau das gleiche Problem, konnte auch noch nicht feststellen ob ein bestimmter BOT dafür verantwortlich ist.

Aber der Server lief über 2 Jahre problemlos, jetzt seit 2 oder 3 Wochen hab ich 2x am Tag diese Spitzenzeiten, in dem die Prozessanzahl von standardmäßig ca. 180 auf 380 ansteigt.

Dann fängt Apache an halt den ganzen RAM und SWAP Speicher aufzufressen.

Ist das erledigt laggt das ganze System so brutal, dass nur noch RESET weiter hilft.

gibts einen Befehl, der die Process-Anzahl abfragt? So könnte ich versuchen bei erreichen von 300 Prozessen das System automatisiert neustarten zu lassen.

Ist zwar nicht so toll, aber wenigstens hängt es sich dann nie komplett auf. Kann ja nicht den ganzen Tag vor dem Server sitzen und ihn beobachten.

Kurz die Daten: Ubuntu 9.04, 1 GB RAM, 2 GB Swap, Apache2.2, MySQL.

Ansonsten läuft natürlich noch ein Mailserver, FTP-Server, SSH usw...

Proxy-Server und DNS Server wurden als erste Gegenmaßnahme abgeschaltet.

Wie gesagt, mit all diesen Servern lief das System 2 Jahre lang ohne Probleme.

Gruesse und Danke.
Dann fängt Apache an halt den ganzen RAM und SWAP Speicher aufzufressen.
Dann verhindere das! Reduzier die MaxClients entsprechend Deinem Speicher. Bei 1GB sollte der Wert bei maximal 80 liegen. Besser noch etwas weniger.

gibts einen Befehl, der die Process-Anzahl abfragt?
ps aux|wc -l

So könnte ich versuchen bei erreichen von 300 Prozessen das System automatisiert neustarten zu lassen.
Du kannst auch einen "Hau den Lukas" davor stellen... ;)
Im Ernst: es ist Linux und kein Windows!
