Hetzner Rz14 Server Ausfall

Unifex

New Member
Ein Server von mir aus dem RZ14 ist sein 13:14 Uhr nicht mehr erreichbar. Auch ein Reset hat nichts gebracht.

Das Hetzner Rechenzentrum ist telefonisch nicht wirklich erreichbar. HAbe ne Meldung aus dem Robots Menü versendet.
Natürlich wird keine Störung angezeigt im Menü.

Komisch, ich hatte nun wirklich viele Monate Ruhe vor Serverproblemen aber heute ein Absturz eines Servers und vor ein paar Tagen schon einmal einer aus dem RZ19 von Hetzner.

Ohne, dass ich was an der Konfiguration geändert hätte.

Kann jemand von gleichen Problemen berichten?

Update 1: Es ist so klasse. Man braucht hier nur eine Meldung zu schreiben und schon geht es wieder.
Ich sehe bei denen, dass die viele "Wartungsarbeiten" in den Rechenzentren machen.

Da scheint wohl einiges im Argen zu liegen. Jedenfalls hätte man als Kunde ja gerne irgendwie einmal eine Vorab Information.
Bisher habe ich auch noch keine Mail von denen erhalten, was das Problem war aber mein Gefühl sagt mir, dass es nicht mein Server war.
 
Last edited by a moderator:
Ich habe folgende Meldung von denen jetzt bekommen.

"Ihr Server zeigte keine Bildschirmausgabe und reagierte nicht auf Tastatureingaben.
Wir haben ihn neugestartet und nun ist er wieder online und erreichbar."

Gut, nach einem Jahr Dauerbetrieb kann so ein Server auch mal abstürzen (sollte er aber nicht).
Allerdings macht es mich stutzig, dass mir der zweite Server bei denen in einer Woche abgestürzt ist obwohl ich fast ein Jahr keine Problem mehr mit denen hatte.
 
Ich sehe bei denen, dass die viele "Wartungsarbeiten" in den Rechenzentren machen. Da scheint wohl einiges im Argen zu liegen.
Ist dir zu warm geworden? :confused: Hetzner wartet laut Statusseite die USV-Anlagen des RZ 10 aktuell, und natürlich kommen auch die anderen Rechenzentren da mal dran. Was hat regelmäßige Wartung der Kerninfrastruktur damit zu tun, dass etwas "im Argen zu liegen" scheint? :rolleyes:

Allerdings macht es mich stutzig, dass mir der zweite Server bei denen in einer Woche abgestürzt ist obwohl ich fast ein Jahr keine Problem mehr mit denen hatte.
Gerade in zwei unterschiedlichen Rechenzentren wird das keinerlei Hetzner-spezifischen Zusammenhang haben. Erst recht nicht, wenn du mit dem Problem alleine bist. Hardware-Check durchgeführt? Ist der Kernel aktuell? Logeinträge?
 
Gerade in zwei unterschiedlichen Rechenzentren wird das keinerlei Hetzner-spezifischen Zusammenhang haben. Erst recht nicht, wenn du mit dem Problem alleine bist. Hardware-Check durchgeführt? Ist der Kernel aktuell? Logeinträge?


Was hat denn ein Kernel damit zu tun, wenn sich seit einem Jahr nichts an der Hardware oder Software geändert hat?

Warum sollte der plötzlich Probleme machen, wenn dort keine Anwendung läuft, die nicht auch schon 300 Tage davor gelaufen ist ohne Probleme?

Zwei Server in einer Woche hängen geblieben und davor monatelang nichts. Du magst da ja an Zufall glauben aber die Wahrscheinlichkeit spricht doch erheblich dagegen.
 
Was sagt denn dein Monitoring der Hard- und Software?

Ansonsten lass dir LARA kurzffristig vom Technkiteam einrichten und schau was hakt.
 
Zwei Server in einer Woche hängen geblieben und davor monatelang nichts. Du magst da ja an Zufall glauben aber die Wahrscheinlichkeit spricht doch erheblich dagegen.

Hmm...Deine beiden Server stehen zwar in derselben Stadt, aber in zwei unterschiedlichen Gebäuden.
Wo vermutest du denn da einen Zusammenhang?
 
Was hat denn ein Kernel damit zu tun, wenn sich seit einem Jahr nichts an der Hardware oder Software geändert hat?
Wenn dir der Kernel tatsächlich abgeschmiert ist (Kernel Panic), solltest du nicht unbedingt von einem ohne Weiteres reproduzierbaren Ereignis ausgehen. Der Code ist schließlich nicht ganz unkomplex und erst durch solche Komplexität entstehen "komische" Fehler.
Ich hatte durchaus schon Server, die nach einem Kernelupdate Ruhe gegeben haben, obwohl diese ebenfalls vor erstmaligem Auftreten etwaiger Probleme keine Änderungen abbgekommen haben, die ich jetzt als möglicherweise ausschlaggebend klassifiziert hätte. Sicher ist das auch im Detail analysierbar, wenn man denn will; aber ob man die Zeit hat...
(Anmerkung: Wenn wirklich seit einem Jahr nichts an der Software geändert wurde, dürften deine Server nicht gerade aktuell gehalten sein.)

Zwei Server in einer Woche hängen geblieben und davor monatelang nichts. Du magst da ja an Zufall glauben aber die Wahrscheinlichkeit spricht doch erheblich dagegen.
Ich bin nicht besonders fit in der Wahrscheinlichkeitsrechnung; meine aber, dass die Wahrscheinlichkeit eines Serverabsturzes bei einem einzelnen Server nicht sinkt, nur weil ein anderer Server ebenfalls abgestürzt ist. Mit anderen Worten: Die Wahrscheinlichkeit des Crashs ist an allen Tagen gleich.
 
Hmm...Deine beiden Server stehen zwar in derselben Stadt, aber in zwei unterschiedlichen Gebäuden.
Wo vermutest du denn da einen Zusammenhang?

Ich schloss den daraus, dass ich auf deren Wartungsseiten in der letzten Zeit sehr viel Aktivitäten für Wartungsarbeiten sehe in verschiedenen RZ.

Für mich sieht es so aus, als wenn dort bei ganz Hetzner ziemlich viel an Hardware ausgetauscht wird.

Aber ich will denen hier auch nichts unterstellen. Es kann natürlich auch ein ganz blöder Zufall sein nur an Zufälle glaube ich grundsätzlich nicht.

Ich habe jetzt mal die Logs durchforstet und was mir aufgefallen ist, ist diese Meldung 3 Stunden vor dem Absturz in der kernl.log

Code:
kernel: [33648481.623488] Peer 93.208.xxx.xx:1252/80 unexpectedly shrunk window 2552687282:2552696831 (repaired)


Insgesamt gab es davon die letzten drei Tage 6 Meldungen aber keine unmittelbar vor dem Absturz. Der Server ist aber auch gut besucht, kommt aber nie ins schwitzen da sehr stark ausgestattet.

Ein Grund sich Sorgen zu machen?
 
Die Meldung hat nichts damit zu tun, nein.

Hast du kein Munin auf dem Server? Manchmal lässt sich damit noch erahnen, was vor dem Crash so passiert sein könnte (z.B. hohe Temperaturen).
 
Ein Server von mir aus dem RZ14 ist sein 13:14 Uhr nicht mehr erreichbar. Auch ein Reset hat nichts gebracht.

Das Hetzner Rechenzentrum ist telefonisch nicht wirklich erreichbar. HAbe ne Meldung aus dem Robots Menü versendet.
Natürlich wird keine Störung angezeigt im Menü.

Komisch, ich hatte nun wirklich viele Monate Ruhe vor Serverproblemen aber heute ein Absturz eines Servers und vor ein paar Tagen schon einmal einer aus dem RZ19 von Hetzner.

Ohne, dass ich was an der Konfiguration geändert hätte.

Kann jemand von gleichen Problemen berichten?

Update 1: Es ist so klasse. Man braucht hier nur eine Meldung zu schreiben und schon geht es wieder.
Ich sehe bei denen, dass die viele "Wartungsarbeiten" in den Rechenzentren machen.

Da scheint wohl einiges im Argen zu liegen. Jedenfalls hätte man als Kunde ja gerne irgendwie einmal eine Vorab Information.
Bisher habe ich auch noch keine Mail von denen erhalten, was das Problem war aber mein Gefühl sagt mir, dass es nicht mein Server war.

Hallo,
wir sind bereits seit 2003 Kunden bei Hetzner und haben verschiedene Server in zwei RZ stehen.
Leider gibt es auch bei uns immer wieder Serverausfälle, bei denen uns Hetzner anbietet, einen aufwändigen HW-Check durchzuführen.
Als letztes fiel einer unserer WEB-Server aus (ein älterer), der nicht über die Konsole (Robot) per "Strg+Alt+Entf" neu gebootet werden kann, sondern es muss jedes Mal ein manueller Reset beauftragt werden. Dann kommt nach kurzer Zeit die Rückmeldung, dass, als der Mitarbeiter seinen Bildschirm am Server angeschlossen hatte, dieser am Login stand und erreichbar war.
Keine Überprüfung führte zu irgendeinem Ergebnis, nur von außen ist dieser Server dann jedes Mal nicht zu erreichen.
Dieser Server wurde vor einigen Jahren bereits einmal ausgetauscht mit dem Ergebnis, dass es dann einige Monate gut ging und danach dieser Fehler wieder auftrat.
Hetzner schlägt immer wieder eine Überprüfung oder den Austausch des Servers vor. Aber neben der Tatsache, dass das ein riesiger Aufwand ist, wissen wir nicht, ob es zu dem gewünschten Ergebnis führt :mad:
Ein weiterer Server, der remote gebootet werden kann, zeigt ähnliche Fehler. Dieser Server hat ein anderes OS und wird vollkommen anders verwendet. Es gibt keine Webzugriffe und nichts, der Traffic ist lächerlich (aber für uns sehr wichtig).
Auch hier kein richtiger Lösungsvorschlag durch Hetzner. Keine Überprüfung führte zu einer hilfreichen Aussage.
Wir vermuten, dass evtl. die Switches vor den jeweiligen Servern die Probleme bereiten.
Wir sind interessiert an Kontakt zu "Leidensgenossen", damit man den/die Fehler evtl. eingrenzen kann.
 
@Thp0005
Bezüglich des Bootens haben manche Server ein Problem mit ACPI.
Ich hatte auch einen Server, der nicht neu booten wollte.
Abhilfe war in /etc/default/grub für den Parameter GRUB_CMDLINE_LINUX_DEFAULT ein acpi=ht hinzuzufügen.
Ansonsten keinerlei Probleme.
 
Klingt für mich ein bisschen nach einer Überlastung des Servers durch SYN Flood. Wenn der Server als solches noch pingbar ist, man nur nicht mehr per SSH verbinden kann, würde das die Hypothese erklären. Der Server ist bei einer umfangreichen SYN Flood zwar noch erreichbar aber reagiert sehr träge bis gar nicht mehr, da meist die CPU sowie der Arbeitsspeicher voll ausgelastet sind.
Hier wäre es am sinnvollsten, den Server einmal in ein Monitoring aufzunehmen um zu prüfen, ob der Systemload bzw. die Arbeitsspeicherauslastung von Jetzt auf Gleich exorbitant steigt. Soweit ich weiß setzt hier Hetzner gleichermaßen wie wir die Software Nagios ein. Diese bietet entsprechende Module die den Arbeitsspeicher und den Systemload monitoren können. Sollte der Fehlerfall eintreten schnell auf den Server verbinden und mit

netsat -N

die eingehenden Verbindungen prüfen und ggf. die angreifenden IP-Adressen per IP-Tables blocken. Alternativ eine Firewall auf dem Server installieren die derartige Angriffe filtert.
 
Last edited by a moderator:
@Thp0005
Bezüglich des Bootens haben manche Server ein Problem mit ACPI.
Ich hatte auch einen Server, der nicht neu booten wollte.
Abhilfe war in /etc/default/grub für den Parameter GRUB_CMDLINE_LINUX_DEFAULT ein acpi=ht hinzuzufügen.
Ansonsten keinerlei Probleme.

Evtl. hatte ich das etwas missverständlich ausgedrückt bzgl. des Bootens: Bei dem ersten Server sieht der Hetzner Robot keinen automatischen (remote) Neustart über Strg+Alt+Entf vor, er lässt sich nur durch Personal im RZ Booten.
 
Back
Top