Esxi - Smart Werte HDD ?

catwiesel

Registered User
Hallo miteinander,

ich hoffe es ist das richtige Forum hierfür.

Heute Nacht war irgendwie der komplette Server down. Es ist ein ESXI bei Hetzner mit mehreren VMs drauf. Darunter sind einmal eine Softwarefirewall, ein Win2012R2 und 2 Debian Webserver.

Nach einem Neustart der kompletten Kiste ging zumindest der ESXI (5.5), IPFire, Win2012R2 wieder. Die beiden Linux VMs (Deb 6.0.8 / Deb 7.2) liefen nicht.

Beide Linux VMs brachten beim booten Festplattendefekte. Nach einem fsck und dem beheben laufen auch die wieder.

Nun begebe ich mich auf die Suche nach dem Fehlern. Wie kann ich anhand von den SMART Werten der beiden Festplatten vom ESXI erkennen ob diese nun einen Patsch weghaben oder nicht.

Hier nun die Ausgabe der SMART Werte:

PHP:
~ # esxcli storage core device smart get -d t10.ATA_____ST3000DM0012D9YN166_____
_____________________________S1F01ERL
Parameter                     Value  Threshold  Worst
----------------------------  -----  ---------  -----
Health Status                 OK     N/A        N/A
Media Wearout Indicator       N/A    N/A        N/A
Write Error Count             N/A    N/A        N/A
Read Error Count              101    6          95
Power-on Hours                84     0          84
Power Cycle Count             100    20         100
Reallocated Sector Count      100    36         100
Raw Read Error Rate           101    6          95
Drive Temperature             37     0          45
Driver Rated Max Temperature  63     45         55
Write Sectors TOT Count       200    0          200
Read Sectors TOT Count        N/A    N/A        N/A
Initial Bad Block Count       100    99         100
~ # esxcli storage core device smart get -d t10.ATA_____ST3000DM0012D9YN166_____
_____________________________S1F01H20
Parameter                     Value  Threshold  Worst
----------------------------  -----  ---------  -----
Health Status                 OK     N/A        N/A
Media Wearout Indicator       N/A    N/A        N/A
Write Error Count             N/A    N/A        N/A
Read Error Count              115    6          100
Power-on Hours                84     0          84
Power Cycle Count             100    20         100
Reallocated Sector Count      100    36         100
Raw Read Error Rate           115    6          100
Drive Temperature             34     0          42
Driver Rated Max Temperature  66     45         58
Write Sectors TOT Count       200    0          200
Read Sectors TOT Count        N/A    N/A        N/A
Initial Bad Block Count       100    99         100
~ #
Was ich mich aber besonders frage, warum haben nur die beiden Debian VMs ein Problem mit der HDD. Die HDDs hierfür sind ja auch nur "Dateien" auf dem kompletten RAID....
 
Kleiner Nachtrag:

Anscheinend ist die eine HDD defekt....

2013-12-21T11:13:40.107Z cpu0:35139)ScsiDeviceIO: 2337: Cmd(0x412e807fd400) 0x88, CmdSN 0x80000011 from world 35799 to dev "t10.ATA_____ST3000DM0012D9YN166__________________________________S1F01ERL" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x3 0x11 0x$

2013-12-21T11:13:40.107Z cpu0:35139)ScsiDeviceIO: 2337: Cmd(0x412e80801600) 0x88, CmdSN 0x8000007d from world 35799 to dev "t10.ATA_____ST3000DM0012D9YN166__________________________________S1F01ERL" failed H:0x3 D:0x0 P:0x0 Possible sense data: 0x0 0x0 $

2013-12-21T11:13:40.108Z cpu0:35139)ScsiDeviceIO: 2337: Cmd(0x412e80802dc0) 0x88, CmdSN 0x8000002b from world 35799 to dev "t10.ATA_____ST3000DM0012D9YN166__________________________________S1F01ERL" failed H:0x3 D:0x0 P:0x0 Possible sense data: 0x0 0x0 $

2013-12-21T11:13:40.108Z cpu0:35139)ScsiDeviceIO: 2337: Cmd(0x412e8081cc80) 0x8a, CmdSN 0x8000000f from world 35799 to dev "t10.ATA_____ST3000DM0012D9YN166__________________________________S1F01ERL" failed H:0x3 D:0x0 P:0x0 Possible sense data: 0x0 0x0 $

2013-12-21T11:13:40.108Z cpu0:35139)ScsiDeviceIO: 2337: Cmd(0x412e80836ac0) 0x8a, CmdSN 0x8000007e from world 35799 to dev "t10.ATA_____ST3000DM0012D9YN166__________________________________S1F01ERL" failed H:0x3 D:0x0 P:0x0 Possible sense data: 0x0 0x0 $

2013-12-21T11:13:40.108Z cpu0:32789)ScsiDeviceIO: 2337: Cmd(0x412e80888800) 0x2a, CmdSN 0x1cee from world 32781 to dev "t10.ATA_____ST3000DM0012D9YN166__________________________________S1F01ERL" failed H:0x3 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.
 
Back
Top