Eine (!) defekte Platte führt zu Komplettausfall von mdadm-RAID1?
Hallo,
eine meiner Maschinen hat in der Nacht von Sonntag auf Montag einen üblen Crash hingelegt.
Auf sda wurden defekte Sektoren gefunden und dann ist mdadm komplett zusammengebrochen, also nix mit Redundanz und Verfügbarkeit. Die Dienste waren nur noch als Fragmente erreichbar, so konnte ich mich zwar mit sshd verbinden, aber nicht einloggen.
Anbei ein Logauszug vom Crash:
ata2 -> sda (mit defekten Sektoren)
ata4 -> sdb
Kurze Zeit Später hat der Rechner überhaupt nicht mehr gebootet, da weder im BIOS (!) noch durch den Kernel eine Festplatte entdeckt wurden. Nach Austausch von sda funktionierte wieder alles.
Interpretiere ich das richtig, dass die defekten Sektoren auf sda den SATA-Controller so verwirrt haben, dass er auch ata4 mit sdb resetted hat?
Hallo,
eine meiner Maschinen hat in der Nacht von Sonntag auf Montag einen üblen Crash hingelegt.
Auf sda wurden defekte Sektoren gefunden und dann ist mdadm komplett zusammengebrochen, also nix mit Redundanz und Verfügbarkeit. Die Dienste waren nur noch als Fragmente erreichbar, so konnte ich mich zwar mit sshd verbinden, aber nicht einloggen.
Anbei ein Logauszug vom Crash:
ata2 -> sda (mit defekten Sektoren)
ata4 -> sdb
kern.log said:May 29 22:45:51 crashmachine kernel: ata2.00: irq_stat 0x00400040, connection status changed
May 29 22:46:37 crashmachine kernel: ata2: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: ata2: failed to recover some devices, retrying in 5 secs
May 29 22:46:37 crashmachine kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
May 29 22:46:37 crashmachine kernel: ata4.00: configured for UDMA/133
May 29 22:46:37 crashmachine kernel: ata4: EH complete
May 29 22:46:37 crashmachine kernel: SCSI device sdb: 1953525168 512-byte hdwr sectors (1000205 MB)
May 29 22:46:37 crashmachine kernel: sdb: Write Protect is off
May 29 22:46:37 crashmachine kernel: SCSI device sdb: drive cache: write back
May 29 22:46:37 crashmachine kernel: ata2: hard resetting link
May 29 22:46:37 crashmachine kernel: ata2: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: ata2.00: disabled
May 29 22:46:37 crashmachine kernel: ata2: hard resetting link
May 29 22:46:37 crashmachine kernel: ata2: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: ata2.00: failed to IDENTIFY (I/O error, err_mask=0x40)
May 29 22:46:37 crashmachine kernel: ata2: failed to recover some devices, retrying in 5 secs
May 29 22:46:37 crashmachine kernel: ata4: exception Emask 0x10 SAct 0x0 SErr 0x4090000 action 0xe frozen
May 29 22:46:37 crashmachine kernel: ata4: irq_stat 0x00400040, connection status changed
May 29 22:46:37 crashmachine kernel: ata4: SError: { PHYRdyChg 10B8B DevExch }
May 29 22:46:37 crashmachine kernel: ata4: hard resetting link
May 29 22:46:37 crashmachine kernel: ata2: hard resetting link
May 29 22:46:37 crashmachine kernel: ata2: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: ata2: exception Emask 0x10 SAct 0x0 SErr 0x0 action 0x9 t4
May 29 22:46:37 crashmachine kernel: ata2: irq_stat 0x00400040, connection status changed
May 29 22:46:37 crashmachine kernel: ata2: hard resetting link
May 29 22:46:37 crashmachine kernel: ata4: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: ata4: illegal qc_active transition (00000000->00000001)
May 29 22:46:37 crashmachine kernel: ata4: failed to recover some devices, retrying in 5 secs
May 29 22:46:37 crashmachine kernel: ata2: SATA link down (SStatus 0 SControl 300)
May 29 22:46:37 crashmachine kernel: sd 1:0:0:0: rejecting I/O to offline device
May 29 22:46:37 crashmachine kernel: sd 1:0:0:0: rejecting I/O to offline device
May 29 22:46:37 crashmachine kernel: raid1: Disk failure on sda5, disabling device.
May 29 22:46:37 crashmachine kernel: Operation continuing on 1 devices
May 29 22:46:37 crashmachine kernel: sd 1:0:0:0: rejecting I/O to offline device
May 29 22:46:37 crashmachine kernel: raid1: sda2: rescheduling sector 10330368
Kurze Zeit Später hat der Rechner überhaupt nicht mehr gebootet, da weder im BIOS (!) noch durch den Kernel eine Festplatte entdeckt wurden. Nach Austausch von sda funktionierte wieder alles.
Interpretiere ich das richtig, dass die defekten Sektoren auf sda den SATA-Controller so verwirrt haben, dass er auch ata4 mit sdb resetted hat?
Last edited by a moderator: