Problem mit HDD nach Stromausfall? Hohe "smartctl" Werte...

lukelukeluke · Nov 11, 2019

Hallo zusammen

Ich hatte mit einem Dedizierten Linux Server einen Stromausfall, welcher zur Folge hatte, dass die MySQL Datenbanken neu aufgebaut werden mussten (wegen InnoDB Fehler) und ausserdem meckert seit dann die SATA HDD ein wenig rum. RAID ist keines konfiguriert aber Backup habe ich ein gutes / stets aktuelles im Falle eines Crashes.

Ich habe im Internet nach smartctl Werten recherchiert und die Meinungen gehen sehr auseinander. Möchte daher hier dies thematisieren. smartctl -a /dev/sda gibt bei mir u.A. folgendes aus:

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 090 082 006 Pre-fail Always - 481077395006
3 Spin_Up_Time 0x0023 097 097 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 184
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x002f 080 060 030 Pre-fail Always - 13233495152
9 Power_On_Hours 0x0032 034 034 000 Old_age Always - 58423
10 Spin_Retry_Count 0x0033 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 92
180 Unknown_HDD_Attribute 0x002b 100 100 000 Pre-fail Always - 1323706032
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 097 Old_age Always - 0
187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 5372
188 Command_Timeout 0x0032 100 099 000 Old_age Always - 20
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 068 054 045 Old_age Always - 32 (Min/Max 26/32)
194 Temperature_Celsius 0x0022 032 046 000 Old_age Always - 32 (0 14 0 0 0)
195 Hardware_ECC_Recovered 0x003a 052 024 000 Old_age Always - 41057854
196 Reallocated_Event_Count 0x0032 100 100 036 Old_age Always - 0
197 Current_Pending_Sector 0x0032 099 099 000 Old_age Always - 63
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 75
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0

Und weiter unten zeigt das smartctl-Log eine hohe Fehlerzahl an, mit meistens UNC Fehler (Lesefehler so wie ich es verstehe):
SMART Error Log Version: 1
ATA Error Count: 5379 (device log contains only the most recent five errors)
[...]
Error 5379 occurred at disk power-on lifetime: 58414 hours (2433 days + 22 hours)
[...]
40 51 00 40 28 a1 02 Error: UNC at LBA = 0x02a12840 = 44116032
[...]

Syslog hat direkt nach dem Stromausfall viel ausgespuckt ("sense key error" und dergleichen), jetzt aber nur noch gelegentlich:
Nov 11 14:24:40 servername smartd[540]: Device: /dev/sda [SAT], 63 Currently unreadable (pending) sectors
Nov 11 14:24:40 servername smartd[540]: Device: /dev/sda [SAT], 75 Offline uncorrectable sectors
Nov 11 14:54:40 servername smartd[540]: Device: /dev/sda [SAT], 63 Currently unreadable (pending) sectors
Nov 11 14:54:40 servername smartd[540]: Device: /dev/sda [SAT], 75 Offline uncorrectable sectors
Nov 11 15:24:40 servername smartd[540]: Device: /dev/sda [SAT], 63 Currently unreadable (pending) sectors
Nov 11 15:24:40 servername smartd[540]: Device: /dev/sda [SAT], 75 Offline uncorrectable sectors
Nov 11 15:54:40 servername smartd[540]: Device: /dev/sda [SAT], 63 Currently unreadable (pending) sectors
Nov 11 15:54:40 servername smartd[540]: Device: /dev/sda [SAT], 75 Offline uncorrectable sectors
Nov 11 16:24:40 servername smartd[540]: Device: /dev/sda [SAT], 63 Currently unreadable (pending) sectors
Nov 11 16:24:40 servername smartd[540]: Device: /dev/sda [SAT], 75 Offline uncorrectable sectors
Nov 11 16:24:40 servername smartd[540]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 72 to 70
Nov 11 16:24:40 servername smartd[540]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 28 to 30
Nov 11 16:54:40 servername smartd[540]: Device: /dev/sda [SAT], 63 Currently unreadable (pending) sectors
Nov 11 16:54:40 servername smartd[540]: Device: /dev/sda [SAT], 75 Offline uncorrectable sectors
Nov 11 16:54:40 servername smartd[540]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 70 to 69
Nov 11 16:54:40 servername smartd[540]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 30 to 31
Nov 11 17:24:40 servername smartd[540]: Device: /dev/sda [SAT], 63 Currently unreadable (pending) sectors
Nov 11 17:24:40 servername smartd[540]: Device: /dev/sda [SAT], 75 Offline uncorrectable sectors
Nov 11 17:24:40 servername smartd[540]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 69 to 68
Nov 11 17:24:40 servername smartd[540]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 31 to 32

Hat jemand ähnliche Probleme gehabt? Hab gehört, dass es grosse Unterschiede zwischen den Herstellern gibt, welche Zahlen ernstzunehmen sind. Verbaut ist eine HP HDD (HP 250GB SATA disk VB0250EAVER).
Brauche etwas Entscheidungshilfe ob ich den Server noch bis Weihnachten laufen lassen soll und erst dann neu aufsetzen da dies gerade günstig wäre wegen Ferienzeit, oder aber ob ich sofort sollte. Die Dienste laufen seit dem Stromausfall wieder ohne Fehler. Vielen Dank für die Inputs!

PHP-Friends · Nov 12, 2019

Mit der HDD selbst habe ich nun keine Erfahrungen, aber "uncorrectable sectors" sind nie ein Grund zur Freude. Ich würde die Platte schnellstmöglich ersetzen. Nach einem Stromausfall sind HDD-Schäden nicht ungewöhnlich, insbesondere nicht bei dem stolzen Alter von über neun Jahren (mindestens - das ist ja nur die Laufzeit). Dies liegt weniger am Stromausfall selber als vielmehr daran, dass HDDs besonders gerne bei einem Kaltstart kaputtgehen. Wir selbst mussten dies in den letzten Monaten vermehrt feststellen, als wir die letzten Server vom alten Standort an unseren neuen migriert haben; in dem Zuge standen manche Server einige Wochen stromlos herum. Im Anschluss sind uns fast ein Dutzend WD RE und WD Se binnen weniger Wochen kaputtgegangen, so viele Defekte hatten wir vorher in 1-2 Jahren nicht.

Problem mit HDD nach Stromausfall? Hohe "smartctl" Werte...

lukelukeluke

Member

PHP-Friends

Active Member

We value your privacy