Server stürzt mitunter täglich ab. Bitte um Hilfe, Rat, Ideen.

Frank Clausen

New Member
Hallo.

Unser Server läuft zwar (gerade), aber bei täglichen Abstürzen kann man wohl von Notfall sprechen.
Ich versuche mal alles detailreich zu schildern und hoffe, dass jemand von Euch weiterhelfen kann, ich bin da ziemlich verzweifelt.

Kurzinfo: Unser Server bei 1und1 stürzt zwischen täglich und alle drei Tage ab. Ping geht noch, sonst nichts (also auch kein SSH)

Erst ein paar Daten:

Suse 9.3
Linux 2.6.14.3-051207a
CPU: AuthenticAMD, AMD Opteron(tm) Processor 148
PLESK: psa v7.5.4_build75051209.14 os_SuSE 9.3
Samba (aktuell)
MySQL, PHP
ImageMagick


Seit einiger Zeit stürzt der Server ohne weitere Vorwarnung ab. Erst haben wir das Samba in die Schuhe geschoben, denn wir mounten die Festplatte eines zweiten 1und1 Servers, um dort auf Daten zuzugreifen (intensiv). Im /var/log/messages log traten regelmässig "SMBFS timed out" Fehlermeldungen auf, die anzeigten, dass Samba die Daten nicht schnell genug finden und ausliefern konnte. Wir haben dann auf Rat im Netz den Zugridd auf CFIS umgestellt, was die Fehlermeldungen nun beseitigt hat (und die Daten auch wieder zeitgerecht ausliefert).
Nur leider bleiben die plötzlichen Abstürze bestehen.

Im log gibt es nun keinerlei Vorwarnung, die ein Indikator wäre. Anpingen kann man den Rechner dann noch, allerdings kommt man weder über Plesk oder SSH noch an den Rechner ran, also hilft nur die Recovery Konsole bei 1und1, was mir jedesmal einen Schauer über den Rücken laufen lässt.

Wenn ich mir die Serverauslastung ansehe, dann kann ich nichts verdächtiges feststellen, der dümpelt (wenn nicht gerade ein convert Prozeß bei ImageMagick läuft) so zwischen 3 und 20 Prozent.

Uns gehen nun die Ideen aus, wie man noch weiter analysieren kann, was diesen Fehler verursacht.
Ich wäre sehr dankbar, wenn Ihr Serverprofis mir Ratschläge geben könntet, eventuell Handlungsanweisungen zur Bestimmung der Fehlerquelle.

Über jede hilfreiche Antwort würde ich mich sehr freuen, ich möchte mal wieder nen Tag Urlaub haben... ;(

Danke,
Frank
 
Hmm, ich habs mal gehabt, daß sich wegen eines fehlerhaften Skripts der vserver totgerechnet hat. Wenn er dann hart am Speicherlimit rumknackst, geht da nix mehr. (und die Recovery-Konsole gibt ja keine Auskunft über die laufenden Prozesse zur Zeit der Nichterreichbarkeit mehr an, oder?)

Ich hatte nur das Glück, daß der durch nen automatisches Prozeß-Timeout dann irgendwann abgeschaltet wurde. Wenn das nicht ist, biste weg ..
 
Hallo.

Ja, anscheinend sind dann alle Dienste weg.
Selten kommt es vor dass z.B. Plesk noch kurz läuft.

Ein Speicherproblem können wir inzwischen ausschliessen, denn wir hatten mal eines und haben diesbezüglich alles geändert und haben daher einen ganz guten Überblick.

Ich sollte noch hinzufügen dass wir einen Root Server mit 2 Gig RAM nutzen.
 
Schon einmal geschaut, ob der Befehl dmesg etwas Auffälliges während des Betriebes ausspuckt? Den Symptomen nach könnte es ein Hardware-Problem sein. Besonders dieses "Seit einiger Zeit" ist verdächtig, wenn das Ding ohne Änderung an der Konfiguration vorher lief.

Hardware-Probleme kündigen sich teilweise über dmesg an, zum Beispiel mit Zeitüberschreitungen beim Zugriff auf die Festplatten.

Wenn Ram und Überlastung nicht in Frage kommen, dann würde ich als nächstes die Festplatten angehen. Wenn die spinnen, dann krepieren die Serverdienste nach und nach. Das Pingen geht dann meistens noch, weil der Kernel durch eine kaputte Festplatte nicht abstürzt und Pingen direkt vom Kernel beantwortet wird.

Ansonsten wäre die Frage, inwieweit man bei dem Server auf den "Bildschirm" schauen kann, zum Beispiel über eine Fernwartungkonsole oder einen Techniker vor Ort. Hier stehen nach einem Absturz manchmal noch nützliche Meldungen.

Wie sieht es mit einem Hardwaretest aus? Wurde der schon einmal gemacht?

Eine andere Möglichkeit wäre, dass irgendwelche Software-Instabilitäten zu Tage treten. Das hoffe ich allerdings nicht, weil so ein Fehler ist sehr schwer zu finden und Ratschläge aus der Ferne sind da schwer möglich.
 
Hallo,

ich danke Dir für Deine Tipps. Inzwischen habe ich auch die Vermutung, es könne ein Hardwareproblem sein. Da der Server bei 1und1 steht wird das testen der Hardware schwer.

Wenn ich mehr weiss werde ich es hier posten, vielleicht haben andere ja ein ähnliches Problem.

Danke,
Frank
 
Dachte das wäre ein gemieteter Server. Da ist so etwas normalerweise möglich, dass ein Techniker einen Hardwaretest macht. Wobei ich den Service von 1&1 nicht kenne.
 
Back
Top