Frage zu SMART Test von HDDs

Domi · Apr 26, 2016

Hallo Leute, ich habe mal eine kleine Frage...

Auf meinem Server hier Zuhause (HP ProLiant) habe ein ein RAID 5 aus 3 x 3TB WD Red Festplatten. Allerdings passierte es in letzter Zeit etwas öfter, dass mein RAID Probleme macht durch ein "degradet" Array oder wie das genau heißt

Wenn ich dann 'cat /proc/mdstat' eingebe und mir den Status anschaue, fehlt in der Regel eine der HDDs. Nun habe ich mit 'smartctl' alle drei Festplatten geprüft und in einer Zeile bei sdc etwas gefunden.

SMART Error Log Version: 1
ATA Error Count: 52 (device log contains only the most recent five errors)

Error 52 occurred at disk power-on lifetime: 13665 hours (569 days + 9 hours)

Ist das schon ein Indiz dafür, dass die HDD einen Schaden hat, oder gibt es da noch andere Faktoren auf die man achten soll? Vermutlich ist es sehr einfach diese Ausgabe zu lesen, aber ich habe bis jetzt noch nicht herausgefunden wovon man das abhängig machen kann und darum wende ich mich an euch.

Die Logs habe ich als TXT einfach diesem Post beigefügt und hoffe, ihr könnt mir da weiter helfen.

Gruß, Domi

dataforest · Apr 26, 2016

Guten Abend,

fliegen dir immer verschiedene Platten aus deinem RAID-Verbund? Das würde, in Kombination mit der Tatsache, dass alle deine Platten gemäß SMART-Log austauschbedürftig sind, möglicherweise eher auf einen SATA-Controllerschaden hindeuten. Eine "Montagscharge" bei deiner Plattenbestellung ist natürlich auch denkbar.

Defekte Kabel sind auch möglich, aber arg unwahrscheinlich bei mehreren gleichzeitig

Ich würde zunächst mal den SMART-Langtest abwarten. Der wird allein von der Platte durchgeführt; wenn dieser abbricht, ist die HDD auszutauschen.

Domi · Apr 26, 2016

Moin moin, dass blöde ist, dass ich vor zwei / drei Wochen nicht notiert habe ob nun sdb, sdc oder sdd ausgefallen war. Dieses mal war es sdc und ich muss mal beobachten, ob es beim nächsten mal wieder diese Festplatte ist.

Es ist auch erst zwei mal passiert. Einmal vor ein paar Wochen und dann noch einmal heute. Es handelt sich hierbei um ein Software-RAID, kein Hardware RAID.

Gruß, Domi

dataforest · Apr 26, 2016

Domi said:
Moin moin, dass blöde ist, dass ich vor zwei / drei Wochen nicht notiert habe ob nun sdb, sdc oder sdd ausgefallen war.

Das loggt dein System aber (/var/log/kern.log oder /var/log/messages je nach Distri - bitte auch die Logrotation beachten). Die Logeinträge können auch unabhängig von dieser spezifischen Frage von Bedeutung sein und z.B. die Frage beantworten, ob die von SMART geloggten Fehler gleichzeitig auftraten. Das spräche dann wieder für einen Mainboard- bzw. SATA-Controllerschaden.

Domi said:
Es ist auch erst zwei mal passiert. Einmal vor ein paar Wochen und dann noch einmal heute.

Das ist für ein sauber laufendes System deutlich zu oft. Getreu dem Motto "einmal ist keinmal, zweimal ist zweimal zu viel"

-> Es gibt mit einiger Sicherheit eine defekte Komponente.

Domi said:
Es handelt sich hierbei um ein Software-RAID, kein Hardware RAID.

Sagtest du ja bereits (mit Verweis auf /proc/mdstat)

VG
Tim

Edit: Die SMART-Werte selbst sind ja einwandfrei, das spricht noch mal für einen Controllerschaden. Einzig der Load Cycle Count ist recht hoch - den solltest du mal in Verbindung mit WD Red googeln, da es diesbezüglich ein bekanntes Problem gibt (oder gab; neuere Platten könnten schon eine angepasste Firmware erhalten haben).

Domi · Apr 27, 2016

Moin moin, die Log Files hatte ich gestern haben noch mit (z)cat und grep einmal durchsucht, aber nichts gefunden. Könnte sein dass es sogar noch länger her ist das ich dieses Problem hatte. Ich werde es jetzt einmal beobachten, ob und wann das Phänomen wieder auftaucht.

Was das System angeht, mittlerweile verwende ich wegen LTS fast nur noch Ubuntu und auf meinem kleinen ProLiant ist ein Ubuntu 14.04 installiert. Was mir noch einfällt, dass Problem trat nach einem Reboot auf. Ich hatte ein 'aptitude safe-upgrade' durchgeführt, ein neues Linux Image war auch dabei und danach einfach einen reboot. Nachdem der Server hoch gefahren war, hatte ich eine neue Nachricht per Mail bekommen und da stand drin das eine der HDDs (sdc1) nicht mehr im Array drin war

Was das RAID selbst angeht... ich habe mich gestern Abend verlesen, als du SATA Controller geschrieben hattest, habe ich RAID Controller gelesen. Daher hatte ich das mit dem Software-RAID noch mal erwähnt

Gruß, Domi

Domi · May 1, 2016

Moin moin und hallo Tim,

nachdem ich jetzt mal meine E-Mails mit den Meldungen aufgehoben habe und hier ja auch geschrieben hatte welche Festplatte das Problem zu sein scheint, konnte ich dieses mal erkennen, dass es wohl sdc ist, die ein Problem hat.

Habe nämlich eben mal geschaut, was mein RAID macht und gesehen das wieder die gleiche Festplatte weg ist und Probleme macht.

Code:

root@server:~# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid5 sdd1[3] sdc1[4](F) sdb1[1]
      5860267008 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [_UU]

Ich gehe jetzt also mal davon aus, dass diese eine Festplatte einen Schaden hat.

Gruß, Domi

dataforest · May 1, 2016

Hallo Domi,

was sagt denn der SMART-Langtest der Platte? Der war ja bei der letzten SMART-Abfrage noch nicht fertig durchgelaufen.

Domi · May 2, 2016

Moin, ich habe das Log File mal durch geschaut und irgendwie ist das für mich noch ein römisches Dorf

Zumal ich sagen würde, dass der Langtest genau so aussieht, wie der normale Test. Ich kann mich aber auch irren.

Habe das Log einfach mal als sdc2 Beschriftet und angehängt.

Gruß, Domi

dataforest · May 2, 2016

Der Test läuft noch:

Code:

Self-test execution status:      ( 241)	Self-test routine in progress...
					10% of test remaining.

Was hat denn dein Kernel nun beim jüngsten Ausfall geloggt?

Domi · May 2, 2016

Ahh.. Ich hatte mit 'grep' das falsche gesucht, hab da was im kern Log gefunden...

Code:

root@server:~# cat /var/log/kern.log.1 | grep 'sdc'
Apr 26 10:32:09 server kernel: sd 1:0:0:0: [sdc]
Apr 26 10:32:09 server kernel: sd 1:0:0:0: [sdc]
Apr 26 10:32:09 server kernel: sd 1:0:0:0: [sdc]
Apr 26 10:32:09 server kernel: sd 1:0:0:0: [sdc] CDB:
Apr 26 10:32:09 server kernel: end_request: I/O error, dev sdc, sector 2056
Apr 26 10:32:09 server kernel: md/raid:md0: Disk failure on sdc1, disabling device.\x0amd/raid:md0: Operation continuing on 2 devices.
Apr 26 20:20:13 server kernel: md: export_rdev(sdc1)
Apr 26 20:20:13 server kernel: md: bind<sdc1>
Apr 29 03:55:51 server kernel: sd 1:0:0:0: [sdc]
Apr 29 03:55:51 server kernel: sd 1:0:0:0: [sdc]
Apr 29 03:55:51 server kernel: sd 1:0:0:0: [sdc]
Apr 29 03:55:51 server kernel: sd 1:0:0:0: [sdc] CDB:
Apr 29 03:55:51 server kernel: end_request: I/O error, dev sdc, sector 2056
Apr 29 03:55:51 server kernel: md/raid:md0: Disk failure on sdc1, disabling device.\x0amd/raid:md0: Operation continuing on 2 devices.

Ist es das was du haben wolltest? Was smartctl angeht, der sagt auch jetzt noch das 10% übrig sind. Scheinbar geht es da nicht weiter

dataforest · May 2, 2016

Okay, wenn er da schon nicht mehr weitermacht, ist die Platte wohl wirklich hinüber. Raus damit

Wichtig wäre nur, den Langtest der anderen Platten vollständig durchzuführen, denn wenn eine andere auch defekt ist (einzelne Sektoren reichen), wird mdraid dein Array nicht mehr rebuilden.

PS: http://linuxwiki.de/UselessUseOfCat =)

Domi · May 2, 2016

Moin, ich werde für sdb und sdd auch mal einen Langen Test durchführen

Was das mit "UselessUseOfCat" angeht, dass hatte ich mir schon mal angeschaut, ich kann mir aber meine Variante (wo auch immer ich sie mal auf geschnappt habe) leichter merken

Tom09 · May 3, 2016

Hi,

Ich würde davon abraten, eine Platte einfach wieder ins Array aufzunehmen, nachdem sie raus geflogen ist. Das dürfte normalerweise eine Ursache habe. Sprich: Die Platte ist hinüber, oder es gibt ein Problem bei der Verkabelung. Man sollte der Ursache jedenfalls genauer auf den Grund gehen.

Die Fehlermeldungen im Log sehen auch nicht gut aus. Da ist dringender Handlungsbedarf geboten.

CU Tom09

Domi · May 3, 2016

Neue WD Red ist bestellt, sobald sie da ist wird sie eingebaut damit das RAID 5 wieder richtig arbeiten kann. Die beiden anderen Festplatten sind mit dem Langzeittest durch und wenn ich den Satz richtig lese, scheinen sie heile zu sein.

Self-test execution status: (0) The previous self-test routine completed without error or no self-test has ever been run.

Gruß, Domi

Nachtrag: So, die neue WD Red ist nun verbaut und das Raid 5 wird gerade neu aufgebaut. Dauert "nur" 1.200 Minuten

Ich musste allerdings erst einmal schauen, wie ich die Partitionstabelle von sdb -> sdc kopiere, dass hab ich schon länger nicht mehr gemacht

Frage zu SMART Test von HDDs

Domi

Member

Attachments

dataforest

Active Member

Domi

Member

dataforest

Active Member

Domi

Member

Domi

Member

dataforest

Active Member

Domi

Member

Attachments

dataforest

Active Member

Domi

Member

dataforest

Active Member

Domi

Member

Tom09

New Member

Domi

Member