Server fallen ständig aus, Grund drbd?

TAiS46

Registered User
Hallo,

ich habe 2 gleiche Server Konfigurationen:

Quad Core Xeon L5410 2.33GHz
8GB DDR2
24 x 1500GB SATA2
Debian Lenny
1 x 1Gbits Anbindung

Ich habe auf beiden Servern jeweils 4 Platten in einem Raid0 Verbund laufen, und dann so zu sagen beide Server auf Primary geschaltet, um von beiden lesen zu können.

Nun habe ich das Problem, das die Server in unregelmäßigen Abständen ständig rebooten.

Leider kann ich auch anhand der Logs nichts rausfinden.
Hier mal einige Statistiken aus munin:

Server1
df
cpu
speicher
netzwerk

Server2
df
cpu
speicher
netzwerk

Komisch finde ich, das bei Server1 die Bandbreite immer in den Petabyte bereich ausschlägt.
Die Server rebooten beide immer zum gleichen Moment.

Kann mir irgendjemand Anhaltspunkte geben wo ich nach dem "Fehler" suchen kann?

Danke, Gruß
 
Heartbeat habe ich nicht installiert.

syslog (sagt nicht wirklich was aus):
Code:
May  2 17:32:03 NTPR002 postfix/qmgr[3026]: AC3903EA309: removed
May  2 17:36:09 NTPR002 kernel: imklog 3.18.6, log source = /proc/kmsg started.
May  2 17:36:09 NTPR002 rsyslogd: [origin software="rsyslogd" swVersion="3.18.6" x-pid="2791" x-info="http://www.rsyslog.com"] restart
May  2 17:36:09 NTPR002 kernel: [    0.000000] Initializing cgroup subsys cpuset
May  2 17:36:09 NTPR002 kernel: [    0.000000] Initializing cgroup subsys cpu
May  2 17:36:09 NTPR002 kernel: [    0.000000] Linux version 2.6.26-2-amd64 (Debian 2.6.26-21lenny4) (dannf@debian.org) (gcc version 4.1.3 20080704 (prerelease) (Debian 4.1.2-25)) #1 SMP Tue Mar 9 22:29:32 UTC 2010
May  2 17:36:09 NTPR002 kernel: [    0.000000] Command line: root=/dev/md2 ro
May  2 17:36:09 NTPR002 kernel: [    0.000000] BIOS-provided physical RAM map:

dmesg:
http://pastebin.com/dJvdnVdS
 
kern.log noch bitte.

grob gesagt tippe ich entweder auf das DRBD mount umount Script welches einen Bug hat oder das der Kernel ein wenig buggy ist.

Ich würde hier erstmal ein Kernel Update machen.

Gerade bei neuerer Hardware kann es zu Bugs kommen mit älteren Kerneln.

Namespace, Speicherbelegung, Filesystem, da gibt es seit Release des 26er massig massig Bugfixes.

Aus dem syslog bitte ein wenig mehr vor dem Reboot posten...
 
In den Backports findest du einen 32er.

Ansonsten würde ich hier einen aktuellen 33 von Hand bauen.

Kannst du testweise mal active - passive fahren?

Schon mal Kontakt mit den Drbd Entwicklern gesucht?

Sieht so aus als ob die Logs nichts auffälliges zeigen, meistens ein Hinweis auf einen Bug welcher mit einem Kernelupdate in den Griff zu kriegen sein könnte.
 
Das mit active und passive würde ich versuchen, wenn das kernel update nichts gebracht hat.

Ich habe jetzt mal den backport kernel genommen.
Wo finde ich nun dafür das drbd module für 2.6.32?
 
Gerade wieder abgeraucht.

dmesg:
http://debian.pastebin.com/R4qbJZti

in der syslog steht 2 min vor dem reboot:
Code:
May  6 22:47:59 NTPR002 kernel: [360653.118621] sd 1:0:1:0: WARNING: (0x06:0x002C): Command (0x2a) timed out, resetting card.

Wie es ausschaut verursacht mein raid controller ein timeout, welches die drbd zum absturz bringt?
 
Last edited by a moderator:
Back
Top