Ubuntu 10.04 Serverabsturz ohne Fehlermeldung

pragmaonce

New Member
Hallo,

ich habe einen Ubuntu 10.04 Server, der 1-2 Mal in der Woche abstürzt.
Wenn es passiert finde ich folgendes Szenario:

- Versuche mich über ssh einzuloggen oder ihn anzupingen scheitern.
- Wenn ich dann in den Keller gehe, finde ich ihn angeschaltet vor.
- Die Lämpchen auf dem Gerät leuchten und blinken. Der Bildschirm ist schwarz und es lassen sich weder Num noch Capslock aktivieren, diese Lämpchen sind aus.
( Also keine blinkende Capslock Taste )
- Keine Reaktion auf alle Tastatureingaben.

Die einzige Möglichkeit ist dann den Server neu zu starten. Er fährt hoch und im
/var/log Verzeichnis stehen keine Auffälligkeiten von unmittelbar vor dem Absturz.

Hier eine kleine Liste von Dingen die ich bereits untersucht, bzw. versucht habe.

1. memtest (x86 ) Dabei wurden keine Fehler gefunden
2. Festplatten sind noch neu und es ist mehr als 95% freier Platz verfügbar.
3. Die temperatur innderhalb des Servers beträgt 23°C, er ist an einer sehr gut
funktionierenden Kühlanlage angeschlossen.
4. Es laufen keine selbst entwickelten C/C++ Anwendungen auf dem Server, die
Speicherlecks verursachen
5. Es finden sich wenige bis keine Prozessleichen

6. Ich möchte noch hinzufügen, dass der Server immer zu verschiedenen
Zeiten abstürzt, folgt also keinem Muster und es passiert oft wenn
niemand etwas daran arbeitet. Also scheinbar völlig willkürlich.

Hat jemand ein ähnliches Szenario erlebt oder eine Idee woran es liegen könnte, bzw.
was ich noch überprüfen könnte?
Da ich meistens nur über ssh zugreife sind natürlich besonders Kommandozeilenoptionen
erwünscht, aber natürlich bin ich dankbar jeden Ansatz, der zur Lösung führen könnte.

Ich freue mich auf eure Antworten! :)


---------------------------------------------------------------------------------------------------------------------------------------------

Update: Nach dem Abschalten von "anacron" ist der Fehler (bis jetzt) nicht mehr aufgetaucht.
Leider warte ich immer noch darauf, dass der Server mindestens 3 Wochen fehlerfrei
durchläuft, da es leider im Moment öfters zu Stromausfällen gekommen ist und
der Rechner so zwangsläufig neu gestartet wurde.
 
Last edited by a moderator:
Schalte einfach mal ab, dass der Bildschirm schwarz wird (z.b. mit setterm) - dann siehst du die letzte Ausgabe und vielleicht gibt diese dir weitere Hinweise.
 
Google mal nach dem Chipsatz und Ubuntu. Wenn du da nichts findest, ist die Wahrscheinlichkeit hoch, dass es ein Hardwareproblem ist.

Erster Verdacht: Temperaturproblem. Schau mal mit lmsensors nach. Gegebenenfalls Kühler mit neuer Paste montieren.

Dann: Kondensatoren am Board auf Aufwölbungen überprüfen. Gegebenenfalls Board tauschen.

Zuletzt CPU tauschen.
 
Das Netzteil kann auch eine Macke haben, sich überhitzen.

Ansonsten Lüfter?
Hast du dir mal angesehen, ob die Lüfter und Ansaugöffnungen auf deinem Rechner einigermaßen fussel-/staubfrei sind?
 
Google mal nach dem Chipsatz und Ubuntu. Wenn du da nichts findest, ist die Wahrscheinlichkeit hoch, dass es ein Hardwareproblem ist.

Erster Verdacht: Temperaturproblem. Schau mal mit lmsensors nach. Gegebenenfalls Kühler mit neuer Paste montieren.

Dann: Kondensatoren am Board auf Aufwölbungen überprüfen. Gegebenenfalls Board tauschen.

Zuletzt CPU tauschen.

Ich werde mal Google durchforsten, was den Chipsatz angeht.

Da der Server nicht mir gehört, darf ich ihn nicht einfach öffnen. D.h. ohne einen Beweis werde ich Hardwareeingriffe vermeiden. Und liege ich da richtig, wenn es bei Hitzeproblemen (was übrigens auch mein erster Gedanke war) einen Eintrag in /var/log/ geben müsste? Dort habe ich nämlich nichts davon gefunden.

Nach einem Update lief er merkwürdigerweise länger, bevor der nächste Absturz passierte.
Ich denke immer noch an einen Bug oder daran, dass irgendetwas vollläuft.
Dazu habe ich ein paar Skripts geschrieben, die einige Ausgaben überprüfen werden solange ich keine Zugriff auf den Server habe. Ich bin mal auf das Ergebnis gespannt.
 
Das Netzteil kann auch eine Macke haben, sich überhitzen.

Ansonsten Lüfter?
Hast du dir mal angesehen, ob die Lüfter und Ansaugöffnungen auf deinem Rechner einigermaßen fussel-/staubfrei sind?

Danke :)

Der Server steht in einer sehr sauberen Umgebung, d.h. in einem Serverraum, der möglichst Staubfrei gehalten wird.
Also vor kurzem habe ich die Blade mal angefasst und die Temperatur lag bei gefühlten 10°C
Trotzdem werde ich es einmal überprüfen.

Auch das mit dem Netzteil werde ich versuchen zu überprüfen.
Beziehst Du dich in diesem Zusammenhang auf Hitzeentwicklung durch das Netzteil.
Da ich den Server nach einem Absturz noch angeschaltet und Blinkend vorfinde, glaube ich nicht an einen Stromausfall.

Viele Hardwarefehler hinterlassen Spuren im Betriebssystem. Noch eine Idee wo ich suchen muss, um eine Überhitzung auszuschließen?

Da der Server so nicht einwandfrei "dienen" kann findet auch keine Belastung statt. Das ist der Punkt den ich einfach nicht verstehe!
Er "stirbt" sozusagen aus heiterem Himmel einfach weg. :mad:
 
bei Macke im Netzteil beziehe ich mich auf diverse Fehler: Defekte Kondensatoren, teilweiser Ausfall irgendeiner Ausgangsspannung, Überhitzung des Netzteils, Defekte Bauteile durch Überspannung etc.
Sterbende Netzteile können manchmal so reagieren, dass der Rechner abstürzt.

Das Netzteil lässt sich nicht monitoren?

Du hast nirgendwo irgendeinen kernelpanic in den Logs?
 
Bisher hatte ich bei seltsamen, unerklärlichen Ausfällen immer Probleme mit dem Netzteil. Es reicht ja bereits ein Spannungsschwankung in der Versorgung, um das System derart aus dem Tritt zu bringen, dass es noch nicht mal einen Kernelpanic loggen und anzeigen könnte.

Ich denke das wäre die erste Komponente, die ich probeweise mal austauschen würde.
 
Hallo danke für die Tipps, ich hatte gerade eben wieder einen Absturz und meine Scripts haben mir ein paar sehr interessante Daten geliefert.

Timestamp: Thu Jun 21 07:04:26 CEST 2012

Code:
root      3123  0.0  0.1   6148  3560 pts/1    S+   Jun20   0:00 /bin/bash
root      4082  0.0  0.0   4224  1348 pts/3    S    Jun20   0:00 /bin/bash ./diagnostic.sh 20120620
root      4277  0.0  0.0   4208  1344 pts/1    S    Jun20   0:00 /bin/bash ./crashindicator.sh 20120620
root      7675  0.0  0.0   3232   640 pts/1    S    07:03   0:00 sleep 60
root      7684  0.0  0.0   2712  1068 pts/3    R    07:04   0:00 ps auxwww

Hier ist die Ausgabe eine halbe Stunde später und zugleich die Letzte.
Timestamp: Thu Jun 21 07:34:26 CEST 2012

Code:
root      3123  0.0  0.1   6148  3560 pts/1    S+   Jun20   0:00 /bin/bash
root      4082  0.0  0.0   4224  1348 pts/3    S    Jun20   0:00 /bin/bash ./diagnostic.sh 20120620
root      4277  0.0  0.0   4208  1344 pts/1    S    Jun20   0:00 /bin/bash ./crashindicator.sh 20120620
root      7751  0.0  0.0   1764   592 ?        Ss   07:30   0:00 anacron -s
root      7759  0.0  0.0   3232   640 pts/1    S    07:33   0:00 sleep 60
root      7768  0.0  0.0   2712  1068 pts/3    R    07:34   0:00 ps auxwww

Das letzte Lebenssignal kam: Thu Jun 21 07:37:50 CEST 2012

Ich denke also es gibt einen Zusammenhang zwischen dem Start von "anacron -s" und dem Absturz. Neue Ideen? :)
 
Na dann schau doch einfach mal alle Cronjobs durch.

Pass aber auf, dass dich das nicht auf eine falsche Fährte lockt. Zum einen startet Cron ziemlich regelmäßig durch, so ca. minütlich, und taucht daher auch oft plötzlich in der Prozesstabelle auf. Zum anderen wären deine Abstürze dann in einem regelmäßigen Zyklus.
 
Es könnte natürlich sein, dass das die falsche Fährte ist, aber es muss ja nicht sein, dass anacron der Verursacher ist, sondern nur der Auslöser.
Nichtsdestotrotz ist die Zeile "exec anacron -s" jetz auskommentiert.
Ich werde zunächst abwarten, was passiert und hier Bericht erstatten.

Soweit ich das gelesen habe, will ich dir was Cron angeht nicht widersprechen, aber anacron ist doch ein unabhängiger Dienst, der dafür da ist, dass Cronjobs auch ausgeführt werden, wenn ein Computer zum eingetragenem Zeitpunkt ausgeschaltet ist und das auch nur 1 mal täglich durchführen kann. Widersprecht mir, wenn ich mich irre. :)
 
Fehler ist wieder aufgetreten

Der Fehler ist nicht behoben.
Mir gehen langsam die Ideen aus. Ich habe die meisten Vorschläge schon umgesetzt und bin zu keinem Ergebnis gekommen.
Der Server ist im Moment sozusagen außer Betrieb, d.h. niemand greift drauf zu außer 2 User per ssh.
Ich verstehe es nicht.
:confused:
 
Wenn Du nicht direkt an die Hardware darfst hast Du kaum Möglichkeiten, denn in solchen Fällen kommt man meistens nur per Ausschlussverfahren weiter.
 
Hast Du schonmal versucht das Verhalten durch einen gezielten und ggf. länger dauernden Lasttest zu provozieren? Wir wissen ja nicht, was alles auf der Kiste läuft. Kernel debug logging schonmal ausprobiert?
 
Last edited by a moderator:
Hast Du schonmal versucht das Verhalten durch einen gezielten und ggf. länger dauernden Lasttest zu provozieren? Wir wissen ja nicht, was alles auf der Kiste läuft. Kernel debug logging schonmal ausprobiert?

Zu dem Lasttest:
Das kann ich probieren. Auch wenn er eben unter nicht-Last abstürzt.

Kernel debug logging: Was ist das? Mit "gdb" oder Ähnlichem?

Was auf der Kiste läuft ist schnell gesagt:
Normalerweise nichts, weil sie eben nicht voll funktionstüchtig ist. Wenn ich sie explizit starte laufen darauf ein paar Java Anwendungen und ein paar Skritps, aber sonst nichts. Er ist sozusagen so gut wie neu und meine Diagnoseskripts zeigen mir auch keine Last oder Ähnliches. Es ist so, als wäre er an, hat irgendwann keine Lust mehr und stürzt dann ab.

Merkwürdigerweise ist er noch nie abgestürzt als er gerade "gearbeitet" hat (d.h. über mehrere Stunden Java + Bash Skritps ausführt. ).
 
Es liegt an der Netzwerkkarte

Hallo liebe Forenmitglieder,

ich habe gehört, dass die Netzwerkkarte ( eine HP NC375T mit 4 Ports ) nachträglich eingebaut wurde. Jetzt habe ich die Erlaubnis bekommen sie auszubauen und seitdem
läuft das System stabil.
Ein Freund sagte mir, er habe ähnliche Probleme mit demselben Modell und Ubuntu.
 
Back
Top