Serverausfall am 29.05.2014

Thorsten

SSF Facilitymanagement
Staff member
Hallo!

Am Donnerstag, den 29.05.2014 ist es um 21:20 zu einem Festplattenausfall des Servers gekommen. Dieser Ausfall wurde von mir gegen 22:00 Uhr bemerkt. Erste Rettungsversuche liefen bis circa 23:00 Uhr.

Die Diagnose aus dem RZ lautete Plattendefekt - RAID nicht wiederherstellbar.

Ich habe daraufhin einen verfügbaren Server vorbereitet und das letzte zur Verfügung stehende Backup eingespielt. Diese Sicherung stammt vom 29.05.2014 06:26.

Die Arbeiten sind noch nicht vollständig abgeschlossen, aber ich werde weitere Tätigkeiten auf das kommende Wochenende verschieben. Hierfür und für den entstandenen Datenverlust bitte ich um euer Verständnis.

Für Rückfragen stehe ich gern zur Verfügung.

mfG
Thorsten
 

Thorsten

SSF Facilitymanagement
Staff member
Hallo!

LSI Mega RAID Hardware SAS Controller, 2 x ST3000DM001-9YN1.

mfG
Thorsten
 

s24!

Registered User
Verstehe ich das richtig, dass die zweite Platte etwa zeitgleich gestorben ist? Das ist natürlich mies - aber bei den Seagates wundert es mich auch nicht. ;)

Anregung: Die Datenbank ist ja wohl das Wichtigste für das Forum - und die sollte sich doch eigentlich relativ problemlos häufiger, z.B. alle drei Stunden, sichern lassen.
 

Firewire2002

Registered User
Man kann auch einfach mal den Ball flach halten. Das ist ein Forum und kein ERP System eines mittelständigen Unternehmens. ;)
Auf das nächtliche Backup zurückzugreifen, ist in meinen Augen völlig ausreichend. Es gibt absolut keinen Wertverlust, nur weil ein paar Beiträge von einem Tag verschwunden sind.
 

Thorsten

SSF Facilitymanagement
Staff member
Hallo!

Na ja, dass Ganze ist schon irgendwie blöd gelaufen. Ich hatte mich auf das RAID + täglicher Datensicherung verlassen. Ein Beinbruch ist der Verlust eines Tages sicherlich nicht. Dennoch habe ich die Umstände nicht ganz nachvollziehen können.

Nach Aussage des Technikers wurde zwar ein Rebuild des RAID versucht, dieser scheiterte aber Aufgrund zu hoher Beschädigung der Festplatten.

Die einzigen Meldungen die ich noch erhaschen konnte (via KVM) finden sich im Anhang.

mfG
Thorsten
 

Attachments

djrick

Registered User
Demnach müssen ja beide Platten gleichzeitig kaputt gegangen sein, sonst wäre das System ja noch hochgefahren, oder war es kein Raid 1?
 

Thorsten

SSF Facilitymanagement
Staff member
Hallo!

Doch, doch. Es handelte sich um ein RAID1. Es kommt mir aber so vor, als hätte der Controller auch seine komplette Konfiguration verloren.

Allerdings muss ich auch gestehen, mich nicht intensiv mit dem Thema RAID auseinandergesetzt zu haben. Gerüchteweise habe ich nur gelesen, dass auch defekte Sektoren ein RAID unbrauchbar machen können. Leider hatte ich die SMART Werte der einzelnen Festplatten nie wirklich kontrolliert.

mfG
Thorsten
 

Firewire2002

Registered User
Die Meldung von dem Screenshot taucht auch auf, wenn auf der vermeintlich neuen Platte noch alte RAID-Infos (eventuell vom Vorgänger) drauf sind.
Es könnte sich also eben so gut auch um einen unerfahrenen RZ Techniker gehandelt haben. Die interessanten Details hätte man dann erst gesehen, wenn man nach der Meldung ins Controller Bios geschaut hätte.
 

Thorsten

SSF Facilitymanagement
Staff member
Hallo!

Na noch wurde (bewusst) nichts geändert. Das was ich noch sehen kann findet sich im Anhang. Danach ist dann aber auch Feierabend, da ich via KVM nicht die Maus steuern kann. Ich wüsste auch nicht, wie es da weiter gehen würde :).

mfG
Thorsten
 

Attachments

d3p

Blog Benutzer
Hallo!

Na noch wurde (bewusst) nichts geändert. Das was ich noch sehen kann findet sich im Anhang. Danach ist dann aber auch Feierabend, da ich via KVM nicht die Maus steuern kann. Ich wüsste auch nicht, wie es da weiter gehen würde :).

mfG
Thorsten
Du kannst mit ALT und dem unterstrichenen Buchstaben, in dem Fall "s" den Menüpunkt Button betätigen. ;)
 

Firewire2002

Registered User
Mit Tab und Leertaste kommt man auch ganz gut durch das Menü durch.
Wenn man damit schon mal paar RAID10 manuell zusammengebaut hat via Lara/KVM, kennt man die Anzahl und Reihenfolge der Tab- und Leertastenanschläge recht schnell auswendig. :p
 

s24!

Registered User
Man kann auch einfach mal den Ball flach halten.
Es war eine Anregung, kein "So geht's aber nicht!" - solltest du das anders verstanden haben, liegt das nun wirklich nicht an mir. ;) Ich habe lediglich darauf hingewiesen, dass man die DB mit sehr geringem Aufwand häufiger sichern könnte. Dass mich persönlich der Verlust eines Tages stört, habe ich hingegen keineswegs gesagt und auch nicht gemeint.

Gerüchteweise habe ich nur gelesen, dass auch defekte Sektoren ein RAID unbrauchbar machen können. Leider hatte ich die SMART Werte der einzelnen Festplatten nie wirklich kontrolliert.
Das ist zumindest beim Software-RAID der Fall; da reicht ein Sektor auf dem Mirror-Device und du kannst den Rebuild vergessen (bzw. mit Glück liest er ihn halt im zweiten Anlauf). Man kann, wenn man denn will, beide Platten dann einzeln lesen, aber das ist halt auch ein gewisser Aufwand... Wie es sich beim HW-RAID verhält, weiß ich da ehrlich gesagt auch nicht. Könnte auch glatt ein Betriebsgeheimnis der Hersteller sein. :D

Bzgl. SMART: Ich hatte schon oft defekte Sektoren auf einer Platte, nach einem Check / Resync des Softraids wurden diese dann automatisch überschrieben und das Problem ist erstmal gelöst (dann laufen auch SMART-Langtests wieder durch). Ärgerlich ist beim HW-RAID aber, dass man die entsprechenden Meldungen halt einfach nicht im syslog hat, während mdraid das schon recht genau protokolliert.
 

[netcup] Felix

Blog Benutzer
Ohne jetzt den Ball hoch werfen zu wollen, ST3000DM001-9YN1 ist eine Desktopfestplatte. Diese sind nicht für den 24/7 Betrieb ausgelegt. Daher rührt der Grund warum zwei Festplatten fast zeitgleich ausgestiegen sind. Ich empfehle in der Zukunft eine für den 24/7 Betrieb ausgelegte Festplatte zu benutzen, um derartige Datenverluste zu vermeiden.

Details zu der Festplatte

VG Felix
 

Firewire2002

Registered User
Sowas passiert auch mit überteuerten Enterprise SAS Platten und das nicht zu selten.
Zumal im Moment ja noch nicht mal geklärt ist, ob der RZ-Techniker einfach nicht mit den eventuellen alten RAID-Daten auf der "neuen" Festplatte zurecht kam, oder ob die 2. Platte tatsächlich defekt ist.
 

IP-Projects.de

verifizierter Anbieter
verifizierter Anbieter
Ich würde hier auch eher auf einen RZ Techniker tippen, der sich nicht 100 % in der Materie auskennt. Dass 2 Festplatten gleichzeitig defekt sind kann zwar vorkommen, ist aber eher eine Seltenheit und die Wahrscheinlichkeit doch eher verschwindend gering. Was natürlich passieren kann ist, dass eine Festplatte defekt geht und niemand es bemerkt, weil der RAID Verbund nicht gemonitored wird. Ich weiß ja nicht, ob ihr hier Tools von LSI nutzt oder eine Nagios Erweiterung die euch über einen defekt informieren.
Auch die Wahrscheinlichkeit, dass ein defekter Sektor den gesamten RAID Verbund zerschießt ist doch eher gering, eigentlich sollte das ein guter RAID Controller ausgleichen, zumindest machen das die Adaptecs schon seit Anbeginn der Zeit. Stellt der Controller etwas Irreparables fest, schmeißt er die Festplatte im Optimalfall einfach aus den RAID Verbund.

RAID Controller sind kein Hexenwerk, man muss nur verstehen wie diese funktionieren und wie man sie administriert. Dass wirklich ein RAID Verbund so defekt ist, dass man ihn nicht mehr retten kann hatten wir seit Existenz unseres Unternehmens ganze 2 mal. Sogar wenn ein RAID Verbund den Anschein macht, er wäre nicht mehr zu retten und bei einen Adaptec Controller das Force Online nicht mehr funktioniert kann man mit etwas Erfahrung die RAID Partitionierungstabelle ohne Initialisierung neu erstellen um wieder auf den Verbund zugreifen zu können. - Da wir leider nur Adaptec einsetzen kann ich zum LSI Thema nichts beitragen ;)
 

s24!

Registered User
Zumal im Moment ja noch nicht mal geklärt ist, ob der RZ-Techniker einfach nicht mit den eventuellen alten RAID-Daten auf der "neuen" Festplatte zurecht kam
Eigentlich wird eine von Hetzner verbaute Platte vor Einbau genullt (ich glaube sogar drei Mal).

Auch die Wahrscheinlichkeit, dass ein defekter Sektor den gesamten RAID Verbund zerschießt ist doch eher gering, eigentlich sollte das ein guter RAID Controller ausgleichen, zumindest machen das die Adaptecs schon seit Anbeginn der Zeit.)
Quelle? Hatte sowas ja auch vermutet, aber kann es halt nur vermuten. ;)
 

Thorsten

SSF Facilitymanagement
Staff member
Hallo!

Also noch wurden keine Platten gewechselt. Es ist also noch der Zustand direkt nach Ausfall.

mfG
Thorsten
 

IP-Projects.de

verifizierter Anbieter
verifizierter Anbieter
Quelle? Hatte sowas ja auch vermutet, aber kann es halt nur vermuten.
Die Quelle bin ich mit monatlich 30 RMA Festplatten und ca. 2.400 Festplatten im Einsatz ;) Die beste Quelle ist der eigene Erfahrungswert.

Also noch wurden keine Platten gewechselt. Es ist also noch der Zustand direkt nach Ausfall.
Konntest du noch keine der Festplatten als defekt identifizieren?
 
Top