Hallo miteinander,
ich hoffe es ist das richtige Forum hierfür.
Heute Nacht war irgendwie der komplette Server down. Es ist ein ESXI bei Hetzner mit mehreren VMs drauf. Darunter sind einmal eine Softwarefirewall, ein Win2012R2 und 2 Debian Webserver.
Nach einem Neustart der kompletten Kiste ging zumindest der ESXI (5.5), IPFire, Win2012R2 wieder. Die beiden Linux VMs (Deb 6.0.8 / Deb 7.2) liefen nicht.
Beide Linux VMs brachten beim booten Festplattendefekte. Nach einem fsck und dem beheben laufen auch die wieder.
Nun begebe ich mich auf die Suche nach dem Fehlern. Wie kann ich anhand von den SMART Werten der beiden Festplatten vom ESXI erkennen ob diese nun einen Patsch weghaben oder nicht.
Hier nun die Ausgabe der SMART Werte:
Was ich mich aber besonders frage, warum haben nur die beiden Debian VMs ein Problem mit der HDD. Die HDDs hierfür sind ja auch nur "Dateien" auf dem kompletten RAID....
ich hoffe es ist das richtige Forum hierfür.
Heute Nacht war irgendwie der komplette Server down. Es ist ein ESXI bei Hetzner mit mehreren VMs drauf. Darunter sind einmal eine Softwarefirewall, ein Win2012R2 und 2 Debian Webserver.
Nach einem Neustart der kompletten Kiste ging zumindest der ESXI (5.5), IPFire, Win2012R2 wieder. Die beiden Linux VMs (Deb 6.0.8 / Deb 7.2) liefen nicht.
Beide Linux VMs brachten beim booten Festplattendefekte. Nach einem fsck und dem beheben laufen auch die wieder.
Nun begebe ich mich auf die Suche nach dem Fehlern. Wie kann ich anhand von den SMART Werten der beiden Festplatten vom ESXI erkennen ob diese nun einen Patsch weghaben oder nicht.
Hier nun die Ausgabe der SMART Werte:
PHP:
~ # esxcli storage core device smart get -d t10.ATA_____ST3000DM0012D9YN166_____
_____________________________S1F01ERL
Parameter Value Threshold Worst
---------------------------- ----- --------- -----
Health Status OK N/A N/A
Media Wearout Indicator N/A N/A N/A
Write Error Count N/A N/A N/A
Read Error Count 101 6 95
Power-on Hours 84 0 84
Power Cycle Count 100 20 100
Reallocated Sector Count 100 36 100
Raw Read Error Rate 101 6 95
Drive Temperature 37 0 45
Driver Rated Max Temperature 63 45 55
Write Sectors TOT Count 200 0 200
Read Sectors TOT Count N/A N/A N/A
Initial Bad Block Count 100 99 100
~ # esxcli storage core device smart get -d t10.ATA_____ST3000DM0012D9YN166_____
_____________________________S1F01H20
Parameter Value Threshold Worst
---------------------------- ----- --------- -----
Health Status OK N/A N/A
Media Wearout Indicator N/A N/A N/A
Write Error Count N/A N/A N/A
Read Error Count 115 6 100
Power-on Hours 84 0 84
Power Cycle Count 100 20 100
Reallocated Sector Count 100 36 100
Raw Read Error Rate 115 6 100
Drive Temperature 34 0 42
Driver Rated Max Temperature 66 45 58
Write Sectors TOT Count 200 0 200
Read Sectors TOT Count N/A N/A N/A
Initial Bad Block Count 100 99 100
~ #