RAID: Hot Spare vs. multiple Redundanz

Hot-Spare oder multiple Redundanz?

  • Hot-Spare

    Votes: 6 42.9%
  • Multiple Redundanz (RAID-6 / 2 Mirrors)

    Votes: 7 50.0%
  • Beides ist unnötiger Luxus

    Votes: 1 7.1%

  • Total voters
    14
  • Poll closed .

elias5000

Site Reliability Engineer
Ich bin gerade beim Lesen über den Begriff Hot-Spare gestolpert und gerade am grübeln über eine Frage:
Was ist besser: Eine Hot-Spare Platte oder multiple Redundanz in Form von RAID-1 mit 2 Mirrors oder RAID-6 statt RAID-5.

Ein Blick in Wikipedia führt sofort einen Vorteil einer Hot-Spare an: Durch den Nicht-Gebrauch der Platte muss diese nicht laufen, was das Material schont. 2 Mirrors oder RAID-6 würde die zusätzliche Platte ja ebenfalls abnutzen.

Aber ohne Nachzudenken fällt mit sofort auch etwas gegen Hot-Spare (und für mehr Redundanz) ein:
Fällt eine Platte aus dem Verbund vergeht bei Hot-Spare eine Zeitspane, in der das RAID ohne Redundanz läuft, da die Hot-Spare erst synchronisiert werden muss. Fällt eine weitere Platte aus, bevor das fertig ist sind die Daten hin. Gleichzeitig wird durch den Rebuild sehr viel Aktivität auf den Platten verusacht, was einen Ausfall einer weiteren Platte wahrscheinlicher machen dürfte (ich gehe mal davon aus, dass eine Platte eher unter Last stirbt als idle). Zudem dauert der Rebuild bei den heutigen Plattengrößen je nach Auslastung nicht gerade kurz.

Bei einem RAID-6 (oder RAID-1 mit 2 Mirrors) ist auch nach dem Ausfall einer Platte genug Redundanz vorhanden um einen zweiten Ausfall zu verschmerzen.

Besonders schwerwiegend sehe ich das bei RAID-5, bei dem die Ausfallwahrscheinlichkeit einer Platte mit der Anzahl der Platten im Verbund steigt. Beim surfen zum Thema habe ich eben einen Text gefunden, in dem ein System beschrieben wurde, das ein RAID-5 aus 15 Platten und einer Hot-Spare hatte. (Im Text wurde behauptet, dass die Hot-Spare _sofort_ die Redundanz sicherstellen würde, was ich aber anders sehe.)
Wenn von den 15 Platten eine ausfällt, sind da 14 Platten übrig von denen jede einzelne mit ihrem Tod das ganze RAID zerstören kann bis der Rebuild fertig ist.
Ein RAID-6 hat auch nach dem Ausfall einer Platte immer noch genug Redundanz um den Ausfall einer weiteren auszugleichen.

Ich persönlich finde ja nach dieser Überlegung Hot-Spare weniger sinnvoll als multiple Redundanz. Allerdings würde ich dazu doch gerne andere Meinungen anhören.

Wie seht ihr das? Wenn man schon den Luxus hat eine Platte übrig zu haben - was sollte man damit machen? Hot-Spare oder multiple Redundanz?
 
Last edited by a moderator:
Moin

Es kommt natürlich, wie immer, auch auf den Einsatzzweck an.

Es stimmt nicht, das die HotSpare sich nicht abnutzt. Sicher ist aber, das die meisten Kontroller erst feststellen, das die HotSpare defekt ist, wenn sie gebraucht wird. Ich hab öfter als mir lieb ist kaputte HotSpare-Platten gehabt.

Ich verwende HotSpare nach Möglichkeit nur in Verbindung mit RAID1 (1 HS pro Server).

Bei RAID5 verzichte ich normalerweise auf die HS bzw. Nutze ein RAID5E, je nach Anforderung.
 
Der Luxus ist meist nicht die Platte, sondern der freie Einbauschacht bzw. Kanal am Controller.
Ich bevorzuge zwei redundante Platten (RAID6 oder RAID5 mit Hotspare) und zusätzlich bei größeren RAIDs (ab etwa 8 Platten) noch einen kleinen Stapel im Schrank.
Das hat auch was mit Power-On-Hours zu tun.
 
Hmm... ich bezweifle dass jeder Controller fähig ist die Hotspare erst anzuschalten wenn sie gebraucht wird. Ich hatte hier schon den ein der anderen (Preisklasse unter 200€) der die Platte einfach mitlaufen hat lassen.

Raid-5 habe ich nicht im Einsatz, weil es bei den auf meinen Servern laufenden Anwendungen eher supoptimal ist, und mir Raid1(+0) hier mehr Geschwindigkeit beschert.

Ich muss aber auch zugeben dass ich bei den Rootservern immer nur Raid 1 laufen habe, ohne Hotspare, dafür aber auch mehr als regelmässige Backups, sollte bei einem Rebuild die noch vorhandene Platte abrauchen. Ist mir auch auch noch nie so passiert zum Glück :p

Basti
 
Also bei Controllern über 200€ sollte die Hot-Spare Platte eigentlich komplett stehen.

Geringe Geschwindigkeiten bei Raid5 kann ich nicht bestätigen das kann allerdings auch daran liegen das ich nur Raidcontroller kenne die deutlich über 200 - 250€ liegen und diese sind ziemlich fix.

Ich würde Hot-Spare auch nicht einem Raid5 oder Raid6 vorziehen eben aus den von elias5000 genannten Gründen, dass das Raid während dem wieder bespielen der einen Platte eben sehr langsam ist. Wenn dann würde ich ein Raid5 oder 6 aufbauen und zusätzlich eine Hot-Spare Platte dran hängen, so dass ich dann bei einem Ausfall in Ruhe entscheiden kann wann diese direkt wieder eingehängt wird ohne das ich in den Serverraum muss.
 
Geringe Geschwindigkeiten bei Raid5 kann ich nicht bestätigen das kann allerdings auch daran liegen das ich nur Raidcontroller kenne die deutlich über 200 - 250€ liegen und diese sind ziemlich fix.

Da ich viel mit Mailservern mache, und es dort häufige Zugriffe auf viele verstreute kleine Dateien gibt, ist die Performance rein theoretisch bei Raid5 schlechter als bei Raid 1, bzw. Raid 10.

Allerdings ist es warsch. in der freien Natur relativ egal ob die Mails ein paar Millisekunden mehr auf der Platte liegt bevor sie relayed wird :)
 
Ich arbeite bei ner Firma die nur mit Mailservern zu tun hat und wir haben, mit den entsprechenden Controllern und schnelle SAS Platten keine Probleme mit Raid5.

Bei Benchmarks gibt sich bei uns Raid1 und 5 auch nicht viel. Wobei es ja hier net darum geht welcher Raidlevel super is sondern um Hotspare vs. Raidlevel ;)
 
eine Hot-Spare Platte dran hängen, so dass ich dann bei einem Ausfall in Ruhe entscheiden kann wann diese direkt wieder eingehängt wird
Du meinst sicher Cold-Spare.

Mir ging es in erster Linie darum beim Ausfall einer Platte keine Zeit ohne Redundanz zu haben. Ich habe zwar einen persönlichen Zugang zum Rechenzentrum, aber das Besorgen einer Ersatz-Platte (i.d.R. nur next-Business-Day-Support), der Weg dahin u.s.w. ist echt kritisch in der Zeit. Und selbst mit einer Hot-Spare würde ich noch ein Ungutes Gefühl haben. Weil die Frage ja bekanntlich nicht ist, ob eine Katastrophe eintritt sondern wann. Und ich behandle da Server gerne wie AKWs (soweit es das Budget zulässt). :D

Ich überlege auch, weil ich demnächst einen (sehr großen) neuen Datenbankserver bauen* werde und dort diese Fälle gern abgedeckt sähe.
Auf dem aktuellen habe ich nur RAID-1 ohne Spare. Und der hat schonmal einen mehrtägigen Degrade erlebt. (Ich hatte damals in Gedanken schon den Fallback auf den Warm-Standby-Server durchgespielt... ;))

* Um Missverständnisse zu vermeiden: "Bauen" bedeutet hier "was nicht im Konfigurator geht mit einem Vertriebler absprechen." ;)

Mein bisheriges Fazit aus den Antworten ist gerade: "Multiple Redundanz ist was man will. Und wenn das Performance-Impact haben sollte (was sich eigentlich mit Geld in den Griff bekommen lassen sollte) will man vielleicht dieses RAID-5E."

Es wäre jetzt interessant wenn sich jemand findet, der relevante Argumente _für_ die andere Option ins Feld führen kann. Bisher ist es ja schon ein bisschen einseitig gegen Spares.

----
OT: Bei der Gelegenheit durfte ich auch feststellen, dass HPs Smart-Array-Controller neue Platten erst nach einem Powercycle und anschließendem Bestätigen im BIOS akzeptieren. Und ich durfte auch nicht die zweite Platte (die auch einen Boot-Loader enthielt) als erste stecken... :mad: Knoppix hatte mich dann mal wieder rausgehauen.
Bei Dell konnte ich bisher immer alle HDD-Wechsel im laufenden Betrieb machen. (Ist ein stranges Gefühl, wenn man eine funktionierende Platte für einen Speicherplatz-Upgrade im laufenden Betrieb aus der Bay zieht...)
 
Last edited by a moderator:
In "normalen" Servern halte ich Hot-Spare für überflüssig. Die Chance, dass eine zweite Platte ausfällt, während Ersatz beschafft wird ist sehr klein. Und Ersatz bekommt man ja je nach SLA innerhalb weniger Stunden, da geht es nicht um Wochen. Wichtiger finde ich eine Benachrichtigung wenn eine Platte ausfällt. Und falls trotzdem zwei Platten ausfallen hat man ja noch ein Backup.

RAID 6 ist sicher nicht schlecht, ich scheue da allerdings den Performanceverlust.

Falls eine Anwendung bzw. ein Dienst hochverfügbar sein soll, setze ich lieber auf getrennte Systeme. So hat man auch keine Downtime bei Ausfall eines Controllers, Stromausfalls, des Datacenters etc., je nachdem wo die beiden Systeme stehen.

Plattenausfälle sind bei den neueren SCSI- und SAS-Platten zum Glück ja sehr selten geworden. Zusammen haben die von mir betreuten Systeme über 100 Platten, und ich kann mich nur an einen Fall vor 2 Jahren erinnern, als ich eine Platte wechseln musste. Und einmal war der Controller defekt.

Die einzige Kiste mit Hotspare ist das SAN bei uns.
 
... der Weg dahin u.s.w. ist echt kritisch in der Zeit.
Zumal böse Zungen behaupten, dass Platten aus der selben Serie mit gleicher Lebensgeschichte (wie sie nun mal in RAID-Arrays typischerweise vorkommen) mit Vorliebe kurz hintereinander ausfallen....
 
RAID 6 ist sicher nicht schlecht, ich scheue da allerdings den Performanceverlust.
Wo tritt der Verlusst eigentlich auf? Mehr CPU-/Controller-Last? Oder geht die Schreib-/Leserate generell in den Keller?

Ich würde ja erstmal ganz naiv denken, dass ich bei Kernel-RAIDs einfach mehr CPUs nach dem RAID werfe und bei Controller-RAIDs einen teureren Controller.

BTW Serienausfall: Ich hab selber in kurzer Zeit etwa 10 IBM-DTLAs "verloren" - das waren die, die IBM damals zum Verkauf der Plattensparte bewogen haben.
 
Bei der Gelegenheit durfte ich auch feststellen, dass HPs Smart-Array-Controller neue Platten erst nach einem Powercycle und anschließendem Bestätigen im BIOS akzeptieren.

Das geht auch "live" in der Managementsoftware. Die starte ich in solchen Fällen sowieso immer, weil sie einem über die LEDs "idiotensicher" anzeigt, welche Platte man gerade austauschen will.
 
Wo tritt der Verlusst eigentlich auf? Mehr CPU-/Controller-Last? Oder geht die Schreib-/Leserate generell in den Keller?

Einen Performancevergleich eines Smart Array Controllers mit RAID 5 und 6 habe ich leider nicht gefunden. Aber der Performanceunterschied soll recht deutlich sein:

Beim obersten Diagramm zu RAID 5 geht die Performance bis knapp unter 1600 I/O Ops/s. Bei RAID 6 sind es nur knapp 1000.

Ein anderer Test spricht von 10% Unterschied:

Sequenzielle Schreibvorgänge: DP-RAID-6-Implementierungen sind bis zu 40 Prozent langsamer als RAID 5, während P+Q RAID 6 ungefähr zehn Prozent langsamer ist als RAID 5.

Bei zufälligen Zugriffen soll die Differenz noch grösser sein:

Im Vergleich zu RAID 10 und RAID 5 ist RAID 6 der RAID-Level mit der schlechtesten Performance. Unter normalen Umständen ist die Lese-Performance für all diese Level zwar vergleichbar, aber die Schreib-Performance weicht erheblich voneinander ab. Und bei Wiederherstellungen, wenn das System sowieso schon nicht mit voller Kraft läuft, werden die Unterschiede sogar noch drastischer:

Wahlfreie Schreibvorgänge: Sowohl P+Q- als auch DP-RAID-6-Implementierungen sind ungefähr 50 Prozent langsamer als RAID 5 aufgrund von Berechnung und Schreiben der zusätzlichen Redundanzdaten.

Und weiter:

RAID 6 wird am häufigsten als Schutz gegen den „Ausfall zweier Festplatten“ betrachtet. Damit bietet RAID 6 zwar in der Tat das höchste Maß an Schutz vor Festplattenausfällen aller RAID-Level, ist aber trotzdem noch nicht allzu weit verbreitet. Nur wenige Unternehmen sind bisher bereit, die erforderlichen Extrakosten zu zahlen oder die Performance-Nachteile in Kauf zu nehmen, nur um sich gegen den relativ seltenen Fall zu schützen, dass zwei Festplatten gleichzeitig ausfallen.

Kommt halt immer auf den Einzelfall an. Wenn der Server sowieso nicht viel Disk I/O hat merkt man mit einem guten Controller evtl. keinen Unterschied mit RAID 6.

Von "schnell", "sicher" und "günstig" kann man halt nur immer zwei haben... :cool:
 
Danke für die Links. Das hat meiner Meinung gerade mal wieder ein Update gegeben. Für den Fall eines DB-Servers, der einen Warm-Standby mitzieht, würde ich demnach jetzt doch eher RAID-1 od. 5 wählen und mich im Fall des Falles auf meinen Standby zurückziehen. ;) Dann hab ich eine Bay mehr für Erweiterungen.

Von "schnell", "sicher" und "günstig" kann man halt nur immer zwei haben... :cool:
Das steht so auch in RFC1925 (auch wenn sich der auf Netzwerke bezieht).
 
Back
Top