Hi
Vor 10 Tagen hatte ich Probleme mit einer Platte im Raid.
Folgendes ließ mich stutzen:
Darauf hin versuchte ich etwas mehr über sdb in Erfahrung zu bringen:
Die 600 PB erachtete ich als etwas viel, daher veranlasste ich einen Wechsel der Platte. Nun kommt mein erstes Problem, da ich nicht so viel Ahnung von Hardware habe. Ich dachte entweder ändert sich jetzt die uptime, da der Techniker für einen Wechsel der Platte den Server kurz vom Netz nehmen muss. Oder es wird per Hotplug gewechselt, dann sollte ich aber bald per smartctl eine Veränderung sehen.
Leider trat weder das eine noch das andere ein. Bei einem erneuten Anruf bei der Hotline, wurde mir mitgeteilt, dass die Platte im laufenden Betrieb gewechselt wurde und ich nun einen Neustart machen sollte.
Wird das wirklich so gemacht? Wie gesagt von Hardware habe ich wirklich keine Ahnung.
Okay, ich habe also einen Neustart durchgeführt. Und siehe da es gibt wieder ein sdb. Leider konnte ich bei der defekten Platte nicht mit
ermitteln welche Nummer die Platte besaß. Nun bin ich mir unsicher ob die Platte überhaupt gewechselt wurde oder der Neustart die Platte wieder zum Leben erweckt hat. Jedenfalls hat ein anschließender intensiver Test keine Probleme mit der (neuen) Platte aufgezeigt.
Nun ist aber genau das selbe Problem wieder aufgetreten. Die Platte ist wieder nicht im Raid und smartctl gibt komische Werte zurück.
Hier mal die entscheidenden Minuten in /var/log/messages
Womit ich nun bei meiner 2. Frage bin. Könnte mir jemand sagen wie ich das Problem eingrenzen könnte? Mit der defekten Platte bin ich mir nämlich nicht mehr sicher.
Vor 10 Tagen hatte ich Probleme mit einer Platte im Raid.
Folgendes ließ mich stutzen:
Code:
cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb1[2](F) sda1[0]
3911680 blocks [2/1] [U_]
md3 : active raid1 sdb3[2](F) sda3[1]
970888192 blocks [2/1] [_U]
Darauf hin versuchte ich etwas mehr über sdb in Erfahrung zu bringen:
Code:
smartctl -a /dev/sdb
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-2.6.32-220.13.1.el6.x86_64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
Vendor: /1:0:0:0
Product:
User Capacity: 600.332.565.813.390.450 bytes [600 PB]
Logical block size: 774843950 bytes
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
Die 600 PB erachtete ich als etwas viel, daher veranlasste ich einen Wechsel der Platte. Nun kommt mein erstes Problem, da ich nicht so viel Ahnung von Hardware habe. Ich dachte entweder ändert sich jetzt die uptime, da der Techniker für einen Wechsel der Platte den Server kurz vom Netz nehmen muss. Oder es wird per Hotplug gewechselt, dann sollte ich aber bald per smartctl eine Veränderung sehen.
Leider trat weder das eine noch das andere ein. Bei einem erneuten Anruf bei der Hotline, wurde mir mitgeteilt, dass die Platte im laufenden Betrieb gewechselt wurde und ich nun einen Neustart machen sollte.
Wird das wirklich so gemacht? Wie gesagt von Hardware habe ich wirklich keine Ahnung.
Okay, ich habe also einen Neustart durchgeführt. Und siehe da es gibt wieder ein sdb. Leider konnte ich bei der defekten Platte nicht mit
Code:
smartctl -a /dev/sdb | grep Serial
Nun ist aber genau das selbe Problem wieder aufgetreten. Die Platte ist wieder nicht im Raid und smartctl gibt komische Werte zurück.
Hier mal die entscheidenden Minuten in /var/log/messages
Code:
Sep 23 16:46:43 s12345678 kernel: ata2.00: exception Emask 0x40 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:46:43 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:46:43 s12345678 kernel: ata2.00: failed command: FLUSH CACHE EXT
Sep 23 16:46:43 s12345678 kernel: ata2.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Sep 23 16:46:43 s12345678 kernel: res 40/00:00:00:4f:c2/00:00:00:00:00/40 Emask 0x44 (timeout)
Sep 23 16:46:43 s12345678 kernel: ata2.00: status: { DRDY }
Sep 23 16:46:43 s12345678 kernel: ata2: hard resetting link
Sep 23 16:46:48 s12345678 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Sep 23 16:46:53 s12345678 kernel: ata2.00: qc timeout (cmd 0xec)
Sep 23 16:46:53 s12345678 kernel: ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Sep 23 16:46:53 s12345678 kernel: ata2.00: revalidation failed (errno=-5)
Sep 23 16:46:53 s12345678 kernel: ata2: hard resetting link
Sep 23 16:46:59 s12345678 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Sep 23 16:47:09 s12345678 kernel: ata2.00: qc timeout (cmd 0xec)
Sep 23 16:47:09 s12345678 kernel: ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Sep 23 16:47:09 s12345678 kernel: ata2.00: revalidation failed (errno=-5)
Sep 23 16:47:09 s12345678 kernel: ata2: limiting SATA link speed to 1.5 Gbps
Sep 23 16:47:09 s12345678 kernel: ata2: hard resetting link
Sep 23 16:47:14 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:47:44 s12345678 kernel: ata2.00: qc timeout (cmd 0xec)
Sep 23 16:47:44 s12345678 kernel: ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Sep 23 16:47:44 s12345678 kernel: ata2.00: revalidation failed (errno=-5)
Sep 23 16:47:44 s12345678 kernel: ata2.00: disabled
Sep 23 16:47:44 s12345678 kernel: ata2.00: device reported invalid CHS sector 0
Sep 23 16:47:44 s12345678 kernel: ata2: exception Emask 0x40 SAct 0x0 SErr 0x800 action 0x6 frozen t4
Sep 23 16:47:44 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:47:44 s12345678 kernel: ata2: hard resetting link
Sep 23 16:47:50 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:47:50 s12345678 kernel: ata2: EH complete
Sep 23 16:47:50 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:47:50 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:47:50 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:47:50 s12345678 kernel: ata2: hard resetting link
Sep 23 16:47:56 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:47:56 s12345678 kernel: ata2: EH complete
Sep 23 16:47:56 s12345678 kernel: program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO
Sep 23 16:47:56 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:47:56 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:47:56 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:47:56 s12345678 kernel: ata2: hard resetting link
Sep 23 16:48:01 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:48:01 s12345678 kernel: ata2: EH complete
Sep 23 16:48:01 s12345678 kernel: sd 1:0:0:0: [sdb] Unhandled error code
Sep 23 16:48:01 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:48:01 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:48:01 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:48:01 s12345678 kernel: ata2: hard resetting link
Sep 23 16:48:01 s12345678 kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Sep 23 16:48:01 s12345678 kernel: sd 1:0:0:0: [sdb] CDB: Read(10): 28 00 30 e7 9a 1b 00 00 80 00
Sep 23 16:48:01 s12345678 kernel: end_request: I/O error, dev sdb, sector 820484635
Sep 23 16:48:07 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:48:07 s12345678 kernel: ata2: EH complete
Sep 23 16:48:07 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:48:07 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:48:07 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:48:07 s12345678 kernel: ata2: hard resetting link
Sep 23 16:48:12 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:48:12 s12345678 kernel: ata2: EH complete
Sep 23 16:48:12 s12345678 kernel: sd 1:0:0:0: [sdb] Unhandled error code
Sep 23 16:48:12 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:48:12 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:48:12 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:48:12 s12345678 kernel: ata2: hard resetting link
Sep 23 16:48:12 s12345678 kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Sep 23 16:48:12 s12345678 kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 30 e7 9a 1b 00 00 80 00
Sep 23 16:48:12 s12345678 kernel: end_request: I/O error, dev sdb, sector 820484635
Sep 23 16:48:12 s12345678 kernel: md/raid1:md3: Disk failure on sdb3, disabling device.
Sep 23 16:48:12 s12345678 kernel: md/raid1:md3: Operation continuing on 1 devices.
Sep 23 16:48:12 s12345678 kernel: md: md3: data-check done.
Sep 23 16:48:18 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:48:18 s12345678 kernel: ata2: EH complete
Sep 23 16:48:18 s12345678 kernel: program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO
Sep 23 16:48:18 s12345678 kernel: sd 1:0:0:0: [sdb] Unhandled error code
Sep 23 16:48:18 s12345678 kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Sep 23 16:48:18 s12345678 kernel: sd 1:0:0:0: [sdb] CDB: Read(10): 28 00 00 74 f0 87 00 00 28 00
Sep 23 16:48:18 s12345678 kernel: end_request: I/O error, dev sdb, sector 7663751
Sep 23 16:48:18 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:48:18 s12345678 kernel: md/raid1:md1: sdb1: rescheduling sector 7663688
Sep 23 16:48:18 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:48:18 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:48:18 s12345678 kernel: ata2: hard resetting link
Sep 23 16:48:23 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:48:23 s12345678 kernel: ata2: EH complete
Sep 23 16:48:23 s12345678 kernel: sd 1:0:0:0: [sdb] Unhandled error code
Sep 23 16:48:23 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:48:23 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:48:23 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:48:23 s12345678 kernel: ata2: hard resetting link
Sep 23 16:48:23 s12345678 kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Sep 23 16:48:23 s12345678 kernel: sd 1:0:0:0: [sdb] CDB: Read(10): 28 00 00 74 f0 87 00 00 08 00
Sep 23 16:48:23 s12345678 kernel: end_request: I/O error, dev sdb, sector 7663751
Sep 23 16:48:29 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:48:29 s12345678 kernel: ata2: EH complete
Sep 23 16:48:29 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:48:29 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:48:29 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:48:29 s12345678 kernel: ata2: hard resetting link
Sep 23 16:48:34 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:48:34 s12345678 kernel: ata2: EH complete
Sep 23 16:48:34 s12345678 kernel: sd 1:0:0:0: [sdb] Unhandled error code
Sep 23 16:48:34 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:48:34 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:48:34 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:48:34 s12345678 kernel: ata2: hard resetting link
Sep 23 16:48:34 s12345678 kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Sep 23 16:48:34 s12345678 kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 00 74 f0 87 00 00 08 00
Sep 23 16:48:34 s12345678 kernel: end_request: I/O error, dev sdb, sector 7663751
Sep 23 16:48:34 s12345678 kernel: md/raid1:md1: Disk failure on sdb1, disabling device.
Sep 23 16:48:34 s12345678 kernel: md/raid1:md1: Operation continuing on 1 devices.
Sep 23 16:48:34 s12345678 kernel: md/raid1:md1: redirecting sector 7663688 to other mirror: sda1
Sep 23 16:48:40 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:48:40 s12345678 kernel: ata2: EH complete
Sep 23 16:48:40 s12345678 kernel: program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO
Sep 23 16:48:40 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:48:40 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:48:40 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:48:40 s12345678 kernel: ata2: hard resetting link
Sep 23 16:48:45 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:48:45 s12345678 kernel: ata2: EH complete
Sep 23 16:48:45 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:48:45 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:48:45 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:48:45 s12345678 kernel: ata2: hard resetting link
Sep 23 16:48:51 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:48:51 s12345678 kernel: ata2: EH complete
Sep 23 16:48:51 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:48:51 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:48:51 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:48:51 s12345678 kernel: ata2: hard resetting link
Sep 23 16:48:56 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:48:56 s12345678 kernel: ata2: EH complete
Sep 23 16:48:56 s12345678 kernel: program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO
Sep 23 16:48:56 s12345678 kernel: ata2: exception Emask 0x50 SAct 0x0 SErr 0x800 action 0x6 frozen
Sep 23 16:48:56 s12345678 kernel: ata2: irq_stat 0x08000000, interface fatal error
Sep 23 16:48:56 s12345678 kernel: ata2: SError: { HostInt }
Sep 23 16:48:56 s12345678 kernel: ata2: hard resetting link
Sep 23 16:49:02 s12345678 kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep 23 16:49:02 s12345678 kernel: ata2: EH complete
Womit ich nun bei meiner 2. Frage bin. Könnte mir jemand sagen wie ich das Problem eingrenzen könnte? Mit der defekten Platte bin ich mir nämlich nicht mehr sicher.