[Gelöst] Proxmox: Gelegentliche Aufhänger
Hallo,
ich stehe mal wieder vor einem merkwürdigen Problem. Gelegentlich hängt der komplette Server direkt beim Starten einer VM oder auch beim Kopieren einer Datei.
Dies ist zwar kein Dauerzustand, aber ab und an ist das schon mal passiert.
Vor ungefähr einem Monat ist es mir das erste mal aufgefallen: Morgens waren die VMs auf dem System auf einmal nicht mehr erreichbar. Jede VM hat sich praktisch vollständig festgefahren. Nach dem resetten der VMs waren auch plötzlich die Dateisysteme teilweise fehlerhaft und mussten repariert werden. Als ich die VM-Festplatten-Images dann sichern wollte, hing bei dem Kopiervorgang das komplette System. Von den ursprünglichen 50GB die das Image an Größe besaß, wurden auch auch nur max. 1,3GB kopiert.
Einige Stunden später klappte wieder alles wunderbar - als wäre nichts gewesen (Starten der VMs, Kopiervorgänge, ...).
Bis gestern Abend.
Denn da passierte etwas ähnliches. Keine der VMs des Systems war mehr erreichbar. Nur diesmal hat ein einfacher Reset der VMs nicht geholfen. Das System hat die VMs vorläufig gar nicht mehr hochgefahren. Direkt als die VM ihre Dienste starten wollte (MySQL, nginx, ...) hing sich wieder das komplette Host-System erneut auf. Das Host-System weder die VMs waren pingbar. Doch nach 5 Minuten hing das System nicht mehr und eine Proxmox VNC-Konsole einer VM gab eine ganze Menge "ata" Fehlermeldungen aus (Die ich jetzt momentan leider nicht zur Hand habe).
Über die Nacht habe ich dann erst einmal einen ausführlicheren ("long") SMART-Test laufen lassen.
Heute Früh funktionierte wieder alles problemlos - als wäre wieder nichts gewesen.
Für mich klingt das entweder nach einem Festplatten-Problem oder irgendwas am Festplatten-Controller läuft nicht so wie es sollte.
Hier mal ein paar Angaben und aktuelle Ausgaben:
Zum Einsatz kommt hier ein Hetzner EX 4S mit RAID 1 Konfiguration. (Festplatte: Seagate Barracuda ST3000DM001)
# pveversion -v
(Soweit alles aktuell)
syslog Meldungen zum gestrigen Hänger
Sieht meiner Meinung nach schon mal nicht so schön aus (dieselben Meldungen wiederholen sich im syslog sehr sehr oft im Laufe der gestrigen Nacht).
# cat /proc/mdstat
Das RAID scheint auch O.K. zu sein.
SMART-Werte für
/dev/sda: http://pastebin.com/i9aHUJEg
/dev/sdb: http://pastebin.com/6vZzt3tp
Hier finde ich allerdings die Werte für die Unlesbaren Sektoren auch etwas hoch.
Ich bin mir jetzt nicht ganz sicher wie ich weiter vorgehen soll. Das Problem scheint ja nur in seltenen Fällen "einfach so" aufzutreten das praktisch kurzzeitig nichts mehr funktioniert.
-- at0m
edit:
Ich habe bei Hetzner jetzt erst einmal einen Hardware-Test inkl. Sichtkontrolle (richtig eingesteckte Kabel, etc.) angefragt.
edit:
Bei dem RAID 1 waren beide Festplatten nach Hetzner-Diagnose defekt. Nach dem sichern aller Daten, einbau neuer Festplatten und Synchronisation läuft erstmal wieder alles...
Hallo,
ich stehe mal wieder vor einem merkwürdigen Problem. Gelegentlich hängt der komplette Server direkt beim Starten einer VM oder auch beim Kopieren einer Datei.
Dies ist zwar kein Dauerzustand, aber ab und an ist das schon mal passiert.
Vor ungefähr einem Monat ist es mir das erste mal aufgefallen: Morgens waren die VMs auf dem System auf einmal nicht mehr erreichbar. Jede VM hat sich praktisch vollständig festgefahren. Nach dem resetten der VMs waren auch plötzlich die Dateisysteme teilweise fehlerhaft und mussten repariert werden. Als ich die VM-Festplatten-Images dann sichern wollte, hing bei dem Kopiervorgang das komplette System. Von den ursprünglichen 50GB die das Image an Größe besaß, wurden auch auch nur max. 1,3GB kopiert.
Einige Stunden später klappte wieder alles wunderbar - als wäre nichts gewesen (Starten der VMs, Kopiervorgänge, ...).
Bis gestern Abend.
Denn da passierte etwas ähnliches. Keine der VMs des Systems war mehr erreichbar. Nur diesmal hat ein einfacher Reset der VMs nicht geholfen. Das System hat die VMs vorläufig gar nicht mehr hochgefahren. Direkt als die VM ihre Dienste starten wollte (MySQL, nginx, ...) hing sich wieder das komplette Host-System erneut auf. Das Host-System weder die VMs waren pingbar. Doch nach 5 Minuten hing das System nicht mehr und eine Proxmox VNC-Konsole einer VM gab eine ganze Menge "ata" Fehlermeldungen aus (Die ich jetzt momentan leider nicht zur Hand habe).
Über die Nacht habe ich dann erst einmal einen ausführlicheren ("long") SMART-Test laufen lassen.
Heute Früh funktionierte wieder alles problemlos - als wäre wieder nichts gewesen.
Für mich klingt das entweder nach einem Festplatten-Problem oder irgendwas am Festplatten-Controller läuft nicht so wie es sollte.
Hier mal ein paar Angaben und aktuelle Ausgaben:
Zum Einsatz kommt hier ein Hetzner EX 4S mit RAID 1 Konfiguration. (Festplatte: Seagate Barracuda ST3000DM001)
# pveversion -v
Code:
pve-manager: 2.2-32 (pve-manager/2.2/3089a616)
running kernel: 2.6.32-17-pve
proxmox-ve-2.6.32: 2.2-83
pve-kernel-2.6.32-17-pve: 2.6.32-83
lvm2: 2.02.95-1pve2
clvm: 2.02.95-1pve2
corosync-pve: 1.4.4-1
openais-pve: 1.1.4-2
libqb: 0.10.1-2
redhat-cluster-pve: 3.1.93-2
resource-agents-pve: 3.9.2-3
fence-agents-pve: 3.1.9-1
pve-cluster: 1.0-34
qemu-server: 2.0-72
pve-firmware: 1.0-21
libpve-common-perl: 1.0-41
libpve-access-control: 1.0-25
libpve-storage-perl: 2.0-36
vncterm: 1.0-3
vzctl: 4.0-1pve2
vzprocps: 2.0.11-2
vzquota: 3.1-1
pve-qemu-kvm: 1.3-10
ksm-control-daemon: 1.1-1
(Soweit alles aktuell)
syslog Meldungen zum gestrigen Hänger
Code:
Feb 27 23:31:06 xxx kernel: ata2.00: exception Emask 0x0 SAct 0x1c SErr 0x0 action 0x0
Feb 27 23:31:06 xxx kernel: ata2.00: irq_stat 0x40000008
Feb 27 23:31:06 xxx kernel: ata2.00: failed command: READ FPDMA QUEUED
Feb 27 23:31:06 xxx kernel: ata2.00: cmd 60/80:10:88:49:80/00:00:d2:00:00/40 tag 2 ncq 65536 in
Feb 27 23:31:06 xxx kernel: res 41/40:80:b8:49:80/00:00:d2:00:00/00 Emask 0x409 (media error) <F>
Feb 27 23:31:06 xxx kernel: ata2.00: status: { DRDY ERR }
Feb 27 23:31:06 xxx kernel: ata2.00: error: { UNC }
Feb 27 23:31:06 xxx kernel: ata2.00: configured for UDMA/133
Feb 27 23:31:06 xxx kernel: ata2: EH complete
...
Feb 28 04:46:37 xxx kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Feb 28 04:46:37 xxx kernel: ata1.00: irq_stat 0x40000008
Feb 28 04:46:37 xxx kernel: ata1.00: failed command: READ FPDMA QUEUED
Feb 28 04:46:37 xxx kernel: ata1.00: cmd 60/08:00:88:b9:c5/00:00:c9:00:00/40 tag 0 ncq 4096 in
Feb 28 04:46:37 xxx kernel: res 41/40:08:88:b9:c5/00:00:c9:00:00/00 Emask 0x409 (media error) <F>
Feb 28 04:46:37 xxx kernel: ata1.00: status: { DRDY ERR }
Feb 28 04:46:37 xxx kernel: ata1.00: error: { UNC }
Feb 28 04:46:37 xxx kernel: ata1.00: configured for UDMA/133
Feb 28 04:46:37 xxx kernel: ata1: EH complete
Sieht meiner Meinung nach schon mal nicht so schön aus (dieselben Meldungen wiederholen sich im syslog sehr sehr oft im Laufe der gestrigen Nacht).
# cat /proc/mdstat
Code:
Personalities : [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md2 : active raid1 sda3[0] sdb3[1]
2917156159 blocks super 1.2 [2/2] [UU]
md1 : active raid1 sda2[0] sdb2[1]
524276 blocks super 1.2 [2/2] [UU]
md0 : active (auto-read-only) raid1 sda1[0] sdb1[1]
12581816 blocks super 1.2 [2/2] [UU]
unused devices: <none>
Das RAID scheint auch O.K. zu sein.
SMART-Werte für
/dev/sda: http://pastebin.com/i9aHUJEg
/dev/sdb: http://pastebin.com/6vZzt3tp
Hier finde ich allerdings die Werte für die Unlesbaren Sektoren auch etwas hoch.
Ich bin mir jetzt nicht ganz sicher wie ich weiter vorgehen soll. Das Problem scheint ja nur in seltenen Fällen "einfach so" aufzutreten das praktisch kurzzeitig nichts mehr funktioniert.
-- at0m
edit:
Ich habe bei Hetzner jetzt erst einmal einen Hardware-Test inkl. Sichtkontrolle (richtig eingesteckte Kabel, etc.) angefragt.
edit:
Bei dem RAID 1 waren beide Festplatten nach Hetzner-Diagnose defekt. Nach dem sichern aller Daten, einbau neuer Festplatten und Synchronisation läuft erstmal wieder alles...
Last edited by a moderator: