organix
New Member
Hallo Forum,
ich bzw. wir haben eine Root Server auf Basis AMD-64 von Webperoni, der aber jüngst zu Server4you umgezogen wurde, da die ja Webperoni übernommen haben.
So, seit dem Umzug beklagen wir stetige Systemausfälle. Anfangs hat man bei Server4you gleich schon Fehler des Netzteils und des Rams festgstellt, was dann getauscht wurde. Im Log tauchten damals sehr viele segfaults unterschiedlicher Prozesse auf.
Trotzdem hängt sich die Kiste immer noch sporadisch auf. Mal alle 2-3 Tage, dann mal wieder einige Tage fast täglich, dann ist wieder mal ein paar Tage ruhe... also halt einfach absolut sporadisch.
Das zeigt sich dann so, dass die Maschine in keinster Weise mehr erreichbar ist. Sie reagiert auch nicht auf Soft-Reboot, sondern nur auf Hard-Reboot. In den Logs zeigt sich dann auch, dass die Protokollierung auch ab dem Zeitpunkt des Stillstands gestoppt hat. Es ist also eine Lücke im Log.
Hier ein kurzer Auszug aus dem Log:
Bis 07:25 alles ok, dann nix mehr. Um 09:38 wurde dann ein Hardware-Reboot durchgeführt.
Würden nur bestimmte Tasks abstürzen, würde ja zumindest noch irgendwas anderes protokolliert werden. Aber schon das zeigt, dass die Maschine einfach vollständig hängt, einfriert.
Für mich eigentlich ein Indiz auf ein Hardwareproblem.
Jetzt kämpfen wir natürlich mit dem Premium Support von S4Y. Dieser macht einen Hardwarecheck mit dem Ergebnis, dass die Hardware aber in Ordnung sei. Man schiebt die Ursache damit auf die Software. Nur, wir haben an der Software schon länger nichts mehr geändert und die Logs geben auch keinen deutlicheren Hinweis darüber.
Das die Probleme just nach dem Umzug des Servers angefangen haben, will man bei Server4you scheinbar nicht berücksichtigen.
Jetzt bin ich hier mal darauf aus, Meinungen darüber zu hören, was Fachleute hier zu dieser Problematik meinen.
Softwareproblem oder Hardware?
Was muss eine Software unter Linux (Debian-4) machen, um einen Server zum absoluten Einfrieren zu treiben? Das müssten doch dann eigentlich schon irgendwelche sehr nahe am Kernel liegende Teile sein, oder bin ich da als Halb-Linux-Jünger auf dem Holzweg und schon ein nicht optimal konfigurierter Apache, Spamassasin oder Postfix treibt einen Linux Server zum einfrieren?
Was es hier und da mal aussergewöhnliches im Log gab war folgendes:
Das System lief dabei aber immer weiter. Nur wie interpretiere ich das. Ein Kollege meinte mal zu mir, dass Segfaults oft ein Indiz für Hardwareprobleme sind, wenn diese sporadisch auftauchen.
Heute gab es aber zum ersten mal, nach dem der Hardwarecheck von S4Y durchgeführt wurde, auch so was hier:
Aber auch hierbei lief die Maschine ansonsten unbeeindruckt dann weiter.
Nur wie interpretiere ich das jetzt?
Bislang habe ich solche Meldungen nicht im Log gesehen, sondern diese gibt es erst seit heute.
Das eigentliche Problem mit dem Einfrieren des Servers, damit kämpfen wir schon seit Wochen rum.
Also, wie sind so eure Meinungen? Wie kann ich die Fehlerquelle besser eingrenzen?
Vorschläge und vernünftige Meinungen willkommen.
Danke schon mal im vorraus.
Gruss
Markus
ich bzw. wir haben eine Root Server auf Basis AMD-64 von Webperoni, der aber jüngst zu Server4you umgezogen wurde, da die ja Webperoni übernommen haben.
So, seit dem Umzug beklagen wir stetige Systemausfälle. Anfangs hat man bei Server4you gleich schon Fehler des Netzteils und des Rams festgstellt, was dann getauscht wurde. Im Log tauchten damals sehr viele segfaults unterschiedlicher Prozesse auf.
Trotzdem hängt sich die Kiste immer noch sporadisch auf. Mal alle 2-3 Tage, dann mal wieder einige Tage fast täglich, dann ist wieder mal ein paar Tage ruhe... also halt einfach absolut sporadisch.
Das zeigt sich dann so, dass die Maschine in keinster Weise mehr erreichbar ist. Sie reagiert auch nicht auf Soft-Reboot, sondern nur auf Hard-Reboot. In den Logs zeigt sich dann auch, dass die Protokollierung auch ab dem Zeitpunkt des Stillstands gestoppt hat. Es ist also eine Lücke im Log.
Hier ein kurzer Auszug aus dem Log:
Code:
Mar 20 03:45:20 piripiri057 -- MARK --
Mar 20 04:05:20 piripiri057 -- MARK --
Mar 20 04:25:20 piripiri057 -- MARK --
Mar 20 04:45:20 piripiri057 -- MARK --
Mar 20 05:05:20 piripiri057 -- MARK --
Mar 20 05:25:20 piripiri057 -- MARK --
Mar 20 05:45:20 piripiri057 -- MARK --
Mar 20 06:05:20 piripiri057 -- MARK --
Mar 20 06:25:18 piripiri057 syslogd 1.4.1#17: restart.
Mar 20 06:45:21 piripiri057 -- MARK --
Mar 20 07:05:21 piripiri057 -- MARK --
Mar 20 07:25:21 piripiri057 -- MARK --
Mar 20 09:38:13 piripiri057 syslogd 1.4.1#17: restart.
Mar 20 09:38:13 piripiri057 kernel: klogd 1.4.1#17, log source = /proc/kmsg started.
Mar 20 09:38:13 piripiri057 kernel: Cannot find map file.
Mar 20 09:38:13 piripiri057 kernel: No module symbols loaded - kernel modules not enabled.
Mar 20 09:38:13 piripiri057 kernel: 6 7 10 11 12 14 15) *0, disabled.
Mar 20 09:38:13 piripiri057 kernel: ACPI: PCI Interrupt Link [LNKH] (IRQs 3 4 5 6 7 10 11 12 14 15) *0, disabled.
Mar 20 09:38:13 piripiri057 kernel: ACPI: Power Resource [URP1] (off)
Mar 20 09:38:13 piripiri057 kernel: ACPI: Power Resource [URP2] (off)
Mar 20 09:38:13 piripiri057 kernel: ACPI: Power Resource [FDDP] (off)
Mar 20 09:38:13 piripiri057 kernel: ACPI: Power Resource [LPTP] (off)
Mar 20 09:38:13 piripiri057 kernel: Linux Plug and Play Support v0.97 (c) Adam Belay
Bis 07:25 alles ok, dann nix mehr. Um 09:38 wurde dann ein Hardware-Reboot durchgeführt.
Würden nur bestimmte Tasks abstürzen, würde ja zumindest noch irgendwas anderes protokolliert werden. Aber schon das zeigt, dass die Maschine einfach vollständig hängt, einfriert.
Für mich eigentlich ein Indiz auf ein Hardwareproblem.
Jetzt kämpfen wir natürlich mit dem Premium Support von S4Y. Dieser macht einen Hardwarecheck mit dem Ergebnis, dass die Hardware aber in Ordnung sei. Man schiebt die Ursache damit auf die Software. Nur, wir haben an der Software schon länger nichts mehr geändert und die Logs geben auch keinen deutlicheren Hinweis darüber.
Das die Probleme just nach dem Umzug des Servers angefangen haben, will man bei Server4you scheinbar nicht berücksichtigen.
Jetzt bin ich hier mal darauf aus, Meinungen darüber zu hören, was Fachleute hier zu dieser Problematik meinen.
Softwareproblem oder Hardware?
Was muss eine Software unter Linux (Debian-4) machen, um einen Server zum absoluten Einfrieren zu treiben? Das müssten doch dann eigentlich schon irgendwelche sehr nahe am Kernel liegende Teile sein, oder bin ich da als Halb-Linux-Jünger auf dem Holzweg und schon ein nicht optimal konfigurierter Apache, Spamassasin oder Postfix treibt einen Linux Server zum einfrieren?
Was es hier und da mal aussergewöhnliches im Log gab war folgendes:
Code:
Mar 11 08:27:05 piripiri057 kernel: php-cgi[6602] general protection rip:635df6 rsp:7fff0c05a270 error:0
Mar 11 08:48:35 piripiri057 -- MARK --
Mar 11 08:58:22 piripiri057 kernel: php-cgi[7879]: segfault at 00002ae35a155050 rip 000000000065e07a rsp 00007fff94ff9b80 error 4
Das System lief dabei aber immer weiter. Nur wie interpretiere ich das. Ein Kollege meinte mal zu mir, dass Segfaults oft ein Indiz für Hardwareprobleme sind, wenn diese sporadisch auftauchen.
Heute gab es aber zum ersten mal, nach dem der Hardwarecheck von S4Y durchgeführt wurde, auch so was hier:
Code:
Mar 18 16:16:27 piripiri057 kernel: CPU 0
Mar 18 16:16:27 piripiri057 kernel: Modules linked in: ipv6 dm_mod w83627hf hwmon_vid k8temp eeprom i2c_viapro
Mar 18 16:16:27 piripiri057 kernel: Pid: 16737, comm: apache2 Not tainted 2.6.22.1-amd64-09082007-1 #2
Mar 18 16:16:27 piripiri057 kernel: RIP: 0010:[<ffffffff80255c3b>] [<ffffffff80255c3b>] vma_prio_tree_add+0x87/0xac
Mar 18 16:16:27 piripiri057 kernel: RSP: 0018:ffff8100121c1df0 EFLAGS: 00010206
Mar 18 16:16:27 piripiri057 kernel: RAX: 4600000000000048 RBX: ffff81001ff7eb10 RCX: ffff81001ff7eb58
Mar 18 16:16:27 piripiri057 kernel: RDX: 0000000000000009 RSI: ffff81000bfdb7c8 RDI: ffff81001ff7eb10
Mar 18 16:16:27 piripiri057 kernel: RBP: ffff810000aa1740 R08: 0000000000000000 R09: 0000000000000000
Mar 18 16:16:27 piripiri057 kernel: R10: 0000000000000000 R11: 0000000000000020 R12: ffff81000bfdb7c8
Mar 18 16:16:27 piripiri057 kernel: R13: 0000000000000000 R14: ffff810015d155c0 R15: 0000000000000001
Mar 18 16:16:27 piripiri057 kernel: FS: 00002b6ec82a3b30(0000) GS:ffffffff80980000(0000) knlGS:0000000000000000
Mar 18 16:16:27 piripiri057 kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Mar 18 16:16:27 piripiri057 kernel: CR2: 00002b6ec8d15110 CR3: 000000001473d000 CR4: 00000000000006e0
Mar 18 16:16:27 piripiri057 kernel: Process apache2 (pid: 16737, threadinfo ffff8100121c0000, task ffff810007b90960)
Mar 18 16:16:27 piripiri057 kernel: Stack: ffffffff80225f89 ffff81001ff7e8a0 ffff81001ff7e8a8 ffff81001ff7e888
Mar 18 16:16:27 piripiri057 kernel: ffff81002625c920 ffff81002625c920 0000000001200011 0000000000000000
Mar 18 16:16:27 piripiri057 kernel: ffff81002ee29620 00002b6ec82a3bc0 ffffffff80226161 0000000000000000
Mar 18 16:16:27 piripiri057 kernel: Call Trace:
Mar 18 16:16:27 piripiri057 kernel: [<ffffffff80225f89>] dup_mm+0x1f8/0x35e
Mar 18 16:16:27 piripiri057 kernel: [<ffffffff80226161>] copy_mm+0x72/0xa4
Mar 18 16:16:27 piripiri057 kernel: [<ffffffff80226ca9>] copy_process+0x74b/0xc23
Mar 18 16:16:27 piripiri057 kernel: [<ffffffff8022724e>] do_fork+0xbc/0x1f9
Mar 18 16:16:27 piripiri057 kernel: [<ffffffff8027928c>] d_instantiate+0x3a/0x3d
Mar 18 16:16:27 piripiri057 kernel: [<ffffffff8020944e>] system_call+0x7e/0x83
Mar 18 16:16:27 piripiri057 kernel: [<ffffffff80209767>] ptregscall_common+0x67/0xb0
Mar 18 16:16:27 piripiri057 kernel:
Mar 18 16:16:27 piripiri057 kernel:
Mar 18 16:16:27 piripiri057 kernel: Code: 48 8b 50 08 48 89 47 48 48 89 48 08 48 89 0a 48 89 51 08 c3
Mar 18 16:16:27 piripiri057 kernel: RSP <ffff8100121c1df0>
Aber auch hierbei lief die Maschine ansonsten unbeeindruckt dann weiter.
Nur wie interpretiere ich das jetzt?
Bislang habe ich solche Meldungen nicht im Log gesehen, sondern diese gibt es erst seit heute.
Das eigentliche Problem mit dem Einfrieren des Servers, damit kämpfen wir schon seit Wochen rum.
Also, wie sind so eure Meinungen? Wie kann ich die Fehlerquelle besser eingrenzen?
Vorschläge und vernünftige Meinungen willkommen.
Danke schon mal im vorraus.
Gruss
Markus