A DegradedArray event had been detected on md device /dev/md/0

networker007 · Apr 8, 2015

Hallo zusammen,

es ist sicher nicht schwierig - jedoch habe ich gerade voll die Blockade - ich blicke es nicht…

plötzlich fing mein freund der server an mir nachrichten zu schicken:

Code:

A DegradedArray event had been detected on md device /dev/md/0.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid1] 
md2 : active raid1 sdb4[1]
     968128320 blocks super 1.2 [2/1] [_U]

md1 : active (auto-read-only) raid1 sdb3[1]
     7996352 blocks super 1.2 [2/1] [_U]

md0 : active raid1 sdb2[1]
     499392 blocks super 1.2 [2/1] [_U]

unused devices: <none>

OK, dann mal eben kurz:

lsblk

Code:

AME    MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
sda       8:0    0 931,5G  0 disk  
├─sda1    8:1    0     1M  0 part  
├─sda2    8:2    0   488M  0 part  
├─sda3    8:3    0   7,6G  0 part  
└─sda4    8:4    0 923,4G  0 part  
sdb       8:16   0 931,5G  0 disk  
├─sdb1    8:17   0     1M  0 part  
├─sdb2    8:18   0   488M  0 part  
│ └─md0   9:0    0 487,7M  0 raid1 /boot
├─sdb3    8:19   0   7,6G  0 part  
│ └─md1   9:1    0   7,6G  0 raid1 [SWAP]
└─sdb4    8:20   0 923,4G  0 part  
  └─md2   9:2    0 923,3G  0 raid1 /

schaut nicht schön aus… dann mdadm --detail /dev/md0 :

Code:

/dev/md0:
                Version : 1.2
  Creation Time : Sat Nov 22 12:21:30 2014
     Raid Level : raid1
     Array Size : 499392 (487.77 MiB 511.38 MB)
  Used Dev Size : 499392 (487.77 MiB 511.38 MB)
   Raid Devices : 2
  Total Devices : 1
    Persistence : Superblock is persistent

    Update Time : Wed Apr  8 20:11:50 2015
          State : clean, degraded 
 Active Devices : 1
Working Devices : 1
 Failed Devices : 0
  Spare Devices : 0

           Name : pro1501:0
           UUID : df66bfd1:a949138d:7d9daf17:d943700d
         Events : 91

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       18        1      active sync   /dev/sdb2

… hat mich nicht wirklich weitergebracht…

ein:

Code:

mdadm --manage /dev/md0 --add /dev/sdb2

blieb irgendwie erfolglos…

u n d - s o - s o l l t e - e s - s e i n

Code:

NAME    MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
sda       8:0    0   1,8T  0 disk  
├─sda1    8:1    0     1M  0 part  
├─sda2    8:2    0   488M  0 part  
│ └─md0   9:0    0 487,7M  0 raid1 /boot
├─sda3    8:3    0   7,6G  0 part  
│ └─md1   9:1    0   7,6G  0 raid1 [SWAP]
└─sda4    8:4    0   1,8T  0 part  
  └─md2   9:2    0   1,8T  0 raid1 /
sdb       8:16   0   1,8T  0 disk  
├─sdb1    8:17   0     1M  0 part  
├─sdb2    8:18   0   488M  0 part  
│ └─md0   9:0    0 487,7M  0 raid1 /boot
├─sdb3    8:19   0   7,6G  0 part  
│ └─md1   9:1    0   7,6G  0 raid1 [SWAP]
└─sdb4    8:20   0   1,8T  0 part  
  └─md2   9:2    0   1,8T  0 raid1 /

nicht wundern - ist ein anderer server - gleiches system

wie bekomme ich das wieder hin??

vorab schon einmal D A N K E (ich weiss ähnliches wurde schon gepostet, aber…)

marce · Apr 8, 2015

Softwareraid ist nicht meins, aber

Code:

mdadm --manage /dev/md0 --add /dev/sdb2

warum willst Du die HD dazufügen, die lt. Ausgaben schon / noch im Raid ist und nicht die fehlende sdaX?

networker007 · Apr 8, 2015

uuups - sorry mein Fehler…

also:

Code:

mdadm --manage /dev/md0 --add /dev/sda2
Speicherzugriffsfehler

hat nicht funktioniert

danach schaute lsblk so aus:

Code:

NAME    MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
sdb       8:16   0 931,5G  0 disk  
├─sdb1    8:17   0     1M  0 part  
├─sdb2    8:18   0   488M  0 part  
│ └─md0   9:0    0 487,7M  0 raid1 /boot
├─sdb3    8:19   0   7,6G  0 part  
│ └─md1   9:1    0   7,6G  0 raid1 [SWAP]
└─sdb4    8:20   0 923,4G  0 part  
  └─md2   9:2    0 923,3G  0 raid1 /
sda       8:0    0 931,5G  0 disk  
├─sda1    8:1    0     1M  0 part  
├─sda2    8:2    0   488M  0 part  
├─sda3    8:3    0   7,6G  0 part  
└─sda4    8:4    0 923,4G  0 part

hatte ich im laufenden Betrieb versucht… muss ich in den Recovery-mode / habe ich nicht versucht...

d4f · Apr 8, 2015

Nein, Raids können im laufenden Betrieb (wieder) zusammengebaut werden. Falls allerdings dein Raid sich selber degradiert hat gibt es vermutlich einen Grund und mit einiger Sicherheit kann man sagen dass entweder der Controller der Platte oder das Mainboard aktuell nicht in einem normalen Zustand ist - auch wenn lsblk noch ok aussieht.

Was sagt die Server-Logdatei als Ursache der Degradierung?

networker007 · Apr 8, 2015

tail -n 500 syslog | grep -i mdadm

Code:

Apr  8 18:47:37 debian7 kernel: [444075.667232] mdadm[16787]: segfault at 8 ip 000000000042f4fa sp 00007ffd8cdde290 error 4 in mdadm[400000+67000]
Apr  8 19:01:12 debian7 kernel: [444890.439758] mdadm[17035]: segfault at 8 ip 000000000042f4fa sp 00007ffdb82739f0 error 4 in mdadm[400000+67000]
Apr  8 19:55:33 debian7 mdadm[2475]: DegradedArray event detected on md device /dev/md/2
Apr  8 19:55:34 debian7 mdadm[2475]: DegradedArray event detected on md device /dev/md/1
Apr  8 19:55:35 debian7 mdadm[2475]: DegradedArray event detected on md device /dev/md/0
Apr  8 20:40:46 debian7 kernel: [ 2756.186584] mdadm[7946]: segfault at 8 ip 000000000042f4fa sp 00007ffeac2cfe00 error 4 in mdadm[400000+67000]
Apr  8 22:00:25 debian7 mdadm[2535]: DegradedArray event detected on md device /dev/md/2
Apr  8 22:00:25 debian7 mdadm[2535]: DegradedArray event detected on md device /dev/md/1
Apr  8 22:00:26 debian7 mdadm[2535]: DegradedArray event detected on md device /dev/md/0

remote_mind · Apr 8, 2015

Die Frage ist doch ob sda Fehlermeldungen ausspuckt.

Code:

dmesg | grep sda

Evtl. auch mal den SMART-Status abfragen

Code:

smartctl -a /dev/sda

Wobei ich seg'faults bei mdadm schon merkwürdig finde. Hat der Server ECC-Ram?

networker007 · Apr 9, 2015

dmesg | grep sda

Code:

[    2.814495] sd 0:0:0:0: [sda] 1953525168 512-byte logical blocks: (1.00 TB/931 GiB)
[    2.814530] sd 0:0:0:0: [sda] Write Protect is off
[    2.814532] sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
[    2.814549] sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[    2.849324]  sda: sda1 sda2 sda3 sda4
[    2.850195] sd 0:0:0:0: [sda] Attached SCSI disk
[    3.299203] md: bind<sda2>
[    3.299407] md: kicking non-fresh sda2 from array!
[    3.299410] md: unbind<sda2>
[    3.351303] md: export_rdev(sda2)
[    3.558656] md: bind<sda3>
[    3.558829] md: kicking non-fresh sda3 from array!
[    3.558842] md: unbind<sda3>
[    3.639135] md: export_rdev(sda3)
[    3.846771] md: bind<sda4>
[    3.847021] md: kicking non-fresh sda4 from array!
[    3.847024] md: unbind<sda4>
[    3.906912] md: export_rdev(sda4)

smartctl -a /dev/sda

Code:

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.12
Device Model:     ST31000528AS
Serial Number:    9VP9HVBJ
LU WWN Device Id: 5 000c50 02cc29c0b
Firmware Version: CC38
User Capacity:    1.000.204.886.016 bytes [1,00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Apr  9 06:43:29 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  609) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 183) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x103f)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   105   099   006    Pre-fail  Always       -       166039732
  3 Spin_Up_Time            0x0003   094   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       17
  5 Reallocated_Sector_Ct   0x0033   092   092   036    Pre-fail  Always       -       338
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       538604368
  9 Power_On_Hours          0x0032   059   059   000    Old_age   Always       -       36496
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       8
183 Runtime_Bad_Block       0x0032   001   001   000    Old_age   Always       -       143
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   096   078   000    Old_age   Always       -       4295032979
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   072   051   045    Old_age   Always       -       28 (Min/Max 28/32)
194 Temperature_Celsius     0x0022   028   049   000    Old_age   Always       -       28 (0 22 0 0)
195 Hardware_ECC_Recovered  0x001a   031   014   000    Old_age   Always       -       166039732
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   181   000    Old_age   Always       -       163
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       17454747127455
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       355176309
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       519054202

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

PHP-Friends · Apr 9, 2015

1) Besonders gut sieht die Platte nicht mehr aus. Ich würde sie tauschen (lassen).

2) Versuche das Hinzufügen mal mit --force. Schlägt dies fehl, versuche mit strace herauszufinden, warum.

IP-Projects.de · Apr 9, 2015

Sieht nicht nur so was

5 Reallocated_Sector_Ct 0x0033 092 092 036 Pre-fail Always - 338
7 Seek_Error_Rate 0x000f 087 060 030 Pre-fail Always - 538604368

Die beiden Werte schreien nach einem Austausch.

Patschi · Apr 9, 2015

Auch wenn es nicht direkt mit der Frage des Threaderstellers zu tun hat, möchte ich hier noch kurz einen tollen Blog-Post von IP-Projects bezüglich der Erklärung der SMART-Werte einwerfen: http://blog.ip-projects.de/rootserver-festplatte-auf-fehler-pruefen/

networker007 · Apr 9, 2015

jetzt schon einmal an ALLE ein herzliches DANKESCHÖN

ich habs vermutet dass die HDD sich verabschiedet hat und nun meinen hoster darum gebeten die HDD zu tauschen - ich lasse mich mal überraschen wie das funktioniert bei server4you

networker007 · Apr 11, 2015

HDD ist getauscht - ging ja wirklich recht schnell. Gem. dieser Anleitung werde ich die neue HDD wieder ins RAID einbinden.

http://adminforge.de/raid/mdadm/mdadm-raid-1-reparieren-nach-festplattentausch/

A DegradedArray event had been detected on md device /dev/md/0

networker007

New Member

marce

Well-Known Member

networker007

New Member

d4f

Kaffee? Wo?

networker007

New Member

remote_mind

New Member

networker007

New Member

PHP-Friends

Active Member

IP-Projects.de

Active Member

Patschi

New Member

networker007

New Member

networker007

New Member

We value your privacy