Root mit wenig Ram hängt sich auf

samy-delux

New Member
Hey Leute,

Ich habe im Moment ein kleines Problem. In den letzen Tagen hat sich einer meiner Server mehrmals ins Nirvana geschossen und konnte nur mit einem Hard-Reset wieder in Betrieb genommen werden.
Der Server steht bei 1und1 und es läuft ein normaler Debian-LAMP drauf. Der Server hat 2GB Ram und ist relativ stark belastet mit 60GB Webseiten und ca. 2 Millionen Hits pro Tag.

Das Problem stellt sich so dar: Ich kann mich weder über HTTP noch über SSH zum Server verbinden. Wenn ich auf die serielle Konsole gehe, rattern dort jede Sekunde mehrere Hundert Zeilen durch die wie folgt aussehen:
Code:
Write-error on swap-device (8:0:11200038)
Write-error on swap-device (8:0:11200046)
Write-error on swap-device (8:0:11200054)

Ab und zu kommt folgendes dazwischen hervor:
Code:
sd 0:0:0:0: SCSI error: return code = 0x00040000
end_request: I/O error, dev sda, sector 1073127
EXT3-fs error (device md1): ext3_find_entry: reading directory #53798 offset 0
sd 0:0:0:0: SCSI error: return code = 0x00040000
end_request: I/O error, dev sda, sector 11301502

Ich habe ein bisschen gegoogelt und das Problem schien zu sein, dass durch einen Kernel-Bug die Festplatten readonly neu gemountet werden und dadruch auch kein SWAP mehr geschrieben werden kann.
Ich habe 2 Platten im Raid 1 und auch extra Partitionen für den Swap. Kernel ist 2.6.20.20.

Der Server ist wie gesagt von 1und1 und wurde von deren Debian 3.1 auf Debian 4.0 geupgraded. Ich glaube irgendwie nicht an einen Hardware Fehler, aber man kann nie wissen.
Was würdet ihr an meiner Stelle als erstes Testen?
Nachts mal in den Recovery Modus und nen Festplatten Belastungstest machen? Mit welchem Tool würde ich das am besten machen?

Danke schonmal für jegliche Hilfe!

so long,
Samy
 
=> extended offline self test mit smartctl
Das ist der erste Test. Danach weißt du, ob die Platten sich evtl. selbst defekt finden.

Den sollte man auch mit smartd einmal die Woche laufen lassen.
(der kann im normalen Betrieb laufen - man sollte nur die Platten nicht gleichzeitig testen lassen, da das sonst auf die IO-Performance durchschlagen kann.)
 
Mach viele Backups bis du genau weisst was los ist!
Bei I/O Error und Write Error koennte auch ne Platte kaputt sein.
Mach nicht denselben Fehler wie ich es mal machte, und denk dir: "Ach, passiert schon nix" ;-)
 
Back
Top