Software-RAID1 wegen def. Sektoren auf sda implodiert?

dev

Registered User
Eine (!) defekte Platte führt zu Komplettausfall von mdadm-RAID1?

Hallo,

eine meiner Maschinen hat in der Nacht von Sonntag auf Montag einen üblen Crash hingelegt.

Auf sda wurden defekte Sektoren gefunden und dann ist mdadm komplett zusammengebrochen, also nix mit Redundanz und Verfügbarkeit. Die Dienste waren nur noch als Fragmente erreichbar, so konnte ich mich zwar mit sshd verbinden, aber nicht einloggen.

Anbei ein Logauszug vom Crash:

ata2 -> sda (mit defekten Sektoren)
ata4 -> sdb

kern.log said:
May 29 22:45:51 crashmachine kernel: ata2.00: irq_stat 0x00400040, connection status changed
May 29 22:46:37 crashmachine kernel: ata2: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: ata2: failed to recover some devices, retrying in 5 secs
May 29 22:46:37 crashmachine kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
May 29 22:46:37 crashmachine kernel: ata4.00: configured for UDMA/133
May 29 22:46:37 crashmachine kernel: ata4: EH complete
May 29 22:46:37 crashmachine kernel: SCSI device sdb: 1953525168 512-byte hdwr sectors (1000205 MB)
May 29 22:46:37 crashmachine kernel: sdb: Write Protect is off
May 29 22:46:37 crashmachine kernel: SCSI device sdb: drive cache: write back
May 29 22:46:37 crashmachine kernel: ata2: hard resetting link
May 29 22:46:37 crashmachine kernel: ata2: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: ata2.00: disabled
May 29 22:46:37 crashmachine kernel: ata2: hard resetting link
May 29 22:46:37 crashmachine kernel: ata2: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: ata2.00: failed to IDENTIFY (I/O error, err_mask=0x40)
May 29 22:46:37 crashmachine kernel: ata2: failed to recover some devices, retrying in 5 secs
May 29 22:46:37 crashmachine kernel: ata4: exception Emask 0x10 SAct 0x0 SErr 0x4090000 action 0xe frozen
May 29 22:46:37 crashmachine kernel: ata4: irq_stat 0x00400040, connection status changed
May 29 22:46:37 crashmachine kernel: ata4: SError: { PHYRdyChg 10B8B DevExch }
May 29 22:46:37 crashmachine kernel: ata4: hard resetting link
May 29 22:46:37 crashmachine kernel: ata2: hard resetting link
May 29 22:46:37 crashmachine kernel: ata2: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: ata2: exception Emask 0x10 SAct 0x0 SErr 0x0 action 0x9 t4
May 29 22:46:37 crashmachine kernel: ata2: irq_stat 0x00400040, connection status changed
May 29 22:46:37 crashmachine kernel: ata2: hard resetting link
May 29 22:46:37 crashmachine kernel: ata4: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: ata4: illegal qc_active transition (00000000->00000001)
May 29 22:46:37 crashmachine kernel: ata4: failed to recover some devices, retrying in 5 secs
May 29 22:46:37 crashmachine kernel: ata2: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: sd 1:0:0:0: rejecting I/O to offline device
May 29 22:46:37 crashmachine kernel: sd 1:0:0:0: rejecting I/O to offline device
May 29 22:46:37 crashmachine kernel: raid1: Disk failure on sda5, disabling device.
May 29 22:46:37 crashmachine kernel: Operation continuing on 1 devices
May 29 22:46:37 crashmachine kernel: sd 1:0:0:0: rejecting I/O to offline device
May 29 22:46:37 crashmachine kernel: raid1: sda2: rescheduling sector 10330368

Kurze Zeit Später hat der Rechner überhaupt nicht mehr gebootet, da weder im BIOS (!) noch durch den Kernel eine Festplatte entdeckt wurden. Nach Austausch von sda funktionierte wieder alles.


Interpretiere ich das richtig, dass die defekten Sektoren auf sda den SATA-Controller so verwirrt haben, dass er auch ata4 mit sdb resetted hat?
 
Last edited by a moderator:
Das sieht nicht nach defekten Sektoren sondern nach Problemen mit dem Controller aus. Und der kann ein ganzes System lahm legen wie ich selbst schon erstaunt feststellen durfte. Symptome beinhalten: einfrieren, Stromausfall, gemeldete "Probleme" mit anderen Komponenten (insbesonders anderen SATA-Devices)
 
Danke für Deine Antwort. Aber mit Smartctl konnte ich 4 defekte Sektoren auf sda identifizieren. Nach Austausch dieser Platte lief der Controller auch wieder im Gleichschritt.

Diese Sektoren können doch ursächlich für die Controllerprobleme sein, quasi als Auslöser?
 
Ja. Nur weil der Controller den Link resettet, heißt das lange noch nicht, dass dein Controller kaputt ist. Der Fehler wird von der Festplatte ausgelöst worden sein, die nicht mehr reagierte.

Unter anderem kann so ein Controllerfehler recht viel kaputt machen. Da nützt einem dann auch ein Raid1-Array nichts.

Eine regelmäßige Datensicherung ist unerlässlich. Unter anderem können auch logische Fehler vorkommen, die dir das Dateisystem zerstören, bei dem dir ein Raid1 nichts bringt. Der Fehler wird dann einfach auf beide Platten gespiegelt.
 
Ich meinte den disk-internen Controller, nicht den SATA-Chipset auf dem Mainboard. Und dieser kann ganz gut kaputt sein oder Defekte aufweisen weil er durch seine Platten aus dem Gleichgewicht gebracht wurde.
 
Eine regelmäßige Datensicherung ist unerlässlich. Unter anderem können auch logische Fehler vorkommen, die dir das Dateisystem zerstören, bei dem dir ein Raid1 nichts bringt. Der Fehler wird dann einfach auf beide Platten gespiegelt.

Es gab ein paar Fehler auf einer Partition, die aber per fsck korrigiert werden konnten. Unabhängig davon werden 2x täglich On- und Offsite-Backups durchgeführt.

Mir ging es darum zu verstehen, ob und wie ein paar defekte Sektoren zu diesen Konsequenzen führen können.

Wie verhält es sich mit einem Hardware-RAID und dessen Controller? Wäre hier das Gleiche passiert? Oder reagiert der RAID-SATA Controller "robuster" auf solche Situationen und schmeisst die Platte gleich raus?
 
Hängt vom Controller und seine Logik ab. Ich denke mal, dass die HW-Raidcontroller für solche harten Fälle ausgelegt sind. Die Onboard-Lösungen sind nicht immer so gut. Es kann schon nervig sein, dass eine Platte solche Probleme verursacht ein System so dermaßen aus dem Tritt bringt. Das Passiert selbst dann, wenn diese nicht im Raid-Verbund ist.

Das Nonplusultra wäre natürlich ein SAS-Raid-Controller. Daran kannst du auch normale SATA-Platten anschließen.
 
Letzendlich gab es 4 Stunden komplette Downtime (Rechner abbauen, Diagnose, wieder ins RZ und hochfahren) wegen ein paar defekten Sektoren und trotz RAID1.

Naja, ist halt Hardware, bis jetzt waren die HD-Wechsel immer nur mit einem Reboot für den Plattenaustausch verbunden.

Danke für Eure Antworten!
 
Back
Top