pragmaonce
New Member
Hallo,
ich habe einen Ubuntu 10.04 Server, der 1-2 Mal in der Woche abstürzt.
Wenn es passiert finde ich folgendes Szenario:
- Versuche mich über ssh einzuloggen oder ihn anzupingen scheitern.
- Wenn ich dann in den Keller gehe, finde ich ihn angeschaltet vor.
- Die Lämpchen auf dem Gerät leuchten und blinken. Der Bildschirm ist schwarz und es lassen sich weder Num noch Capslock aktivieren, diese Lämpchen sind aus.
( Also keine blinkende Capslock Taste )
- Keine Reaktion auf alle Tastatureingaben.
Die einzige Möglichkeit ist dann den Server neu zu starten. Er fährt hoch und im
/var/log Verzeichnis stehen keine Auffälligkeiten von unmittelbar vor dem Absturz.
Hier eine kleine Liste von Dingen die ich bereits untersucht, bzw. versucht habe.
1. memtest (x86 ) Dabei wurden keine Fehler gefunden
2. Festplatten sind noch neu und es ist mehr als 95% freier Platz verfügbar.
3. Die temperatur innderhalb des Servers beträgt 23°C, er ist an einer sehr gut
funktionierenden Kühlanlage angeschlossen.
4. Es laufen keine selbst entwickelten C/C++ Anwendungen auf dem Server, die
Speicherlecks verursachen
5. Es finden sich wenige bis keine Prozessleichen
6. Ich möchte noch hinzufügen, dass der Server immer zu verschiedenen
Zeiten abstürzt, folgt also keinem Muster und es passiert oft wenn
niemand etwas daran arbeitet. Also scheinbar völlig willkürlich.
Hat jemand ein ähnliches Szenario erlebt oder eine Idee woran es liegen könnte, bzw.
was ich noch überprüfen könnte?
Da ich meistens nur über ssh zugreife sind natürlich besonders Kommandozeilenoptionen
erwünscht, aber natürlich bin ich dankbar jeden Ansatz, der zur Lösung führen könnte.
Ich freue mich auf eure Antworten!
---------------------------------------------------------------------------------------------------------------------------------------------
Update: Nach dem Abschalten von "anacron" ist der Fehler (bis jetzt) nicht mehr aufgetaucht.
Leider warte ich immer noch darauf, dass der Server mindestens 3 Wochen fehlerfrei
durchläuft, da es leider im Moment öfters zu Stromausfällen gekommen ist und
der Rechner so zwangsläufig neu gestartet wurde.
ich habe einen Ubuntu 10.04 Server, der 1-2 Mal in der Woche abstürzt.
Wenn es passiert finde ich folgendes Szenario:
- Versuche mich über ssh einzuloggen oder ihn anzupingen scheitern.
- Wenn ich dann in den Keller gehe, finde ich ihn angeschaltet vor.
- Die Lämpchen auf dem Gerät leuchten und blinken. Der Bildschirm ist schwarz und es lassen sich weder Num noch Capslock aktivieren, diese Lämpchen sind aus.
( Also keine blinkende Capslock Taste )
- Keine Reaktion auf alle Tastatureingaben.
Die einzige Möglichkeit ist dann den Server neu zu starten. Er fährt hoch und im
/var/log Verzeichnis stehen keine Auffälligkeiten von unmittelbar vor dem Absturz.
Hier eine kleine Liste von Dingen die ich bereits untersucht, bzw. versucht habe.
1. memtest (x86 ) Dabei wurden keine Fehler gefunden
2. Festplatten sind noch neu und es ist mehr als 95% freier Platz verfügbar.
3. Die temperatur innderhalb des Servers beträgt 23°C, er ist an einer sehr gut
funktionierenden Kühlanlage angeschlossen.
4. Es laufen keine selbst entwickelten C/C++ Anwendungen auf dem Server, die
Speicherlecks verursachen
5. Es finden sich wenige bis keine Prozessleichen
6. Ich möchte noch hinzufügen, dass der Server immer zu verschiedenen
Zeiten abstürzt, folgt also keinem Muster und es passiert oft wenn
niemand etwas daran arbeitet. Also scheinbar völlig willkürlich.
Hat jemand ein ähnliches Szenario erlebt oder eine Idee woran es liegen könnte, bzw.
was ich noch überprüfen könnte?
Da ich meistens nur über ssh zugreife sind natürlich besonders Kommandozeilenoptionen
erwünscht, aber natürlich bin ich dankbar jeden Ansatz, der zur Lösung führen könnte.
Ich freue mich auf eure Antworten!
---------------------------------------------------------------------------------------------------------------------------------------------
Update: Nach dem Abschalten von "anacron" ist der Fehler (bis jetzt) nicht mehr aufgetaucht.
Leider warte ich immer noch darauf, dass der Server mindestens 3 Wochen fehlerfrei
durchläuft, da es leider im Moment öfters zu Stromausfällen gekommen ist und
der Rechner so zwangsläufig neu gestartet wurde.
Last edited by a moderator: