Proxmox: Gelegentliche Aufhänger

at0m

New Member
[Gelöst] Proxmox: Gelegentliche Aufhänger

Hallo,

ich stehe mal wieder vor einem merkwürdigen Problem. Gelegentlich hängt der komplette Server direkt beim Starten einer VM oder auch beim Kopieren einer Datei.

Dies ist zwar kein Dauerzustand, aber ab und an ist das schon mal passiert.

Vor ungefähr einem Monat ist es mir das erste mal aufgefallen: Morgens waren die VMs auf dem System auf einmal nicht mehr erreichbar. Jede VM hat sich praktisch vollständig festgefahren. Nach dem resetten der VMs waren auch plötzlich die Dateisysteme teilweise fehlerhaft und mussten repariert werden. Als ich die VM-Festplatten-Images dann sichern wollte, hing bei dem Kopiervorgang das komplette System. Von den ursprünglichen 50GB die das Image an Größe besaß, wurden auch auch nur max. 1,3GB kopiert.

Einige Stunden später klappte wieder alles wunderbar - als wäre nichts gewesen (Starten der VMs, Kopiervorgänge, ...).

Bis gestern Abend.

Denn da passierte etwas ähnliches. Keine der VMs des Systems war mehr erreichbar. Nur diesmal hat ein einfacher Reset der VMs nicht geholfen. Das System hat die VMs vorläufig gar nicht mehr hochgefahren. Direkt als die VM ihre Dienste starten wollte (MySQL, nginx, ...) hing sich wieder das komplette Host-System erneut auf. Das Host-System weder die VMs waren pingbar. Doch nach 5 Minuten hing das System nicht mehr und eine Proxmox VNC-Konsole einer VM gab eine ganze Menge "ata" Fehlermeldungen aus (Die ich jetzt momentan leider nicht zur Hand habe).

Über die Nacht habe ich dann erst einmal einen ausführlicheren ("long") SMART-Test laufen lassen.
Heute Früh funktionierte wieder alles problemlos - als wäre wieder nichts gewesen.

Für mich klingt das entweder nach einem Festplatten-Problem oder irgendwas am Festplatten-Controller läuft nicht so wie es sollte.

Hier mal ein paar Angaben und aktuelle Ausgaben:

Zum Einsatz kommt hier ein Hetzner EX 4S mit RAID 1 Konfiguration. (Festplatte: Seagate Barracuda ST3000DM001)

# pveversion -v
Code:
pve-manager: 2.2-32 (pve-manager/2.2/3089a616)
running kernel: 2.6.32-17-pve
proxmox-ve-2.6.32: 2.2-83
pve-kernel-2.6.32-17-pve: 2.6.32-83
lvm2: 2.02.95-1pve2
clvm: 2.02.95-1pve2
corosync-pve: 1.4.4-1
openais-pve: 1.1.4-2
libqb: 0.10.1-2
redhat-cluster-pve: 3.1.93-2
resource-agents-pve: 3.9.2-3
fence-agents-pve: 3.1.9-1
pve-cluster: 1.0-34
qemu-server: 2.0-72
pve-firmware: 1.0-21
libpve-common-perl: 1.0-41
libpve-access-control: 1.0-25
libpve-storage-perl: 2.0-36
vncterm: 1.0-3
vzctl: 4.0-1pve2
vzprocps: 2.0.11-2
vzquota: 3.1-1
pve-qemu-kvm: 1.3-10
ksm-control-daemon: 1.1-1

(Soweit alles aktuell)

syslog Meldungen zum gestrigen Hänger
Code:
Feb 27 23:31:06 xxx kernel: ata2.00: exception Emask 0x0 SAct 0x1c SErr 0x0 action 0x0
Feb 27 23:31:06 xxx kernel: ata2.00: irq_stat 0x40000008
Feb 27 23:31:06 xxx kernel: ata2.00: failed command: READ FPDMA QUEUED
Feb 27 23:31:06 xxx kernel: ata2.00: cmd 60/80:10:88:49:80/00:00:d2:00:00/40 tag 2 ncq 65536 in
Feb 27 23:31:06 xxx kernel:         res 41/40:80:b8:49:80/00:00:d2:00:00/00 Emask 0x409 (media error) <F>
Feb 27 23:31:06 xxx kernel: ata2.00: status: { DRDY ERR }
Feb 27 23:31:06 xxx kernel: ata2.00: error: { UNC }
Feb 27 23:31:06 xxx kernel: ata2.00: configured for UDMA/133
Feb 27 23:31:06 xxx kernel: ata2: EH complete

...

Feb 28 04:46:37 xxx kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Feb 28 04:46:37 xxx kernel: ata1.00: irq_stat 0x40000008
Feb 28 04:46:37 xxx kernel: ata1.00: failed command: READ FPDMA QUEUED
Feb 28 04:46:37 xxx kernel: ata1.00: cmd 60/08:00:88:b9:c5/00:00:c9:00:00/40 tag 0 ncq 4096 in
Feb 28 04:46:37 xxx kernel:         res 41/40:08:88:b9:c5/00:00:c9:00:00/00 Emask 0x409 (media error) <F>
Feb 28 04:46:37 xxx kernel: ata1.00: status: { DRDY ERR }
Feb 28 04:46:37 xxx kernel: ata1.00: error: { UNC }
Feb 28 04:46:37 xxx kernel: ata1.00: configured for UDMA/133
Feb 28 04:46:37 xxx kernel: ata1: EH complete


Sieht meiner Meinung nach schon mal nicht so schön aus (dieselben Meldungen wiederholen sich im syslog sehr sehr oft im Laufe der gestrigen Nacht).

# cat /proc/mdstat
Code:
Personalities : [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] 
md2 : active raid1 sda3[0] sdb3[1]
      2917156159 blocks super 1.2 [2/2] [UU]
      
md1 : active raid1 sda2[0] sdb2[1]
      524276 blocks super 1.2 [2/2] [UU]
      
md0 : active (auto-read-only) raid1 sda1[0] sdb1[1]
      12581816 blocks super 1.2 [2/2] [UU]
      
unused devices: <none>

Das RAID scheint auch O.K. zu sein.

SMART-Werte für
/dev/sda: http://pastebin.com/i9aHUJEg
/dev/sdb: http://pastebin.com/6vZzt3tp

Hier finde ich allerdings die Werte für die Unlesbaren Sektoren auch etwas hoch.

Ich bin mir jetzt nicht ganz sicher wie ich weiter vorgehen soll. Das Problem scheint ja nur in seltenen Fällen "einfach so" aufzutreten das praktisch kurzzeitig nichts mehr funktioniert.

-- at0m

edit:

Ich habe bei Hetzner jetzt erst einmal einen Hardware-Test inkl. Sichtkontrolle (richtig eingesteckte Kabel, etc.) angefragt.

edit:

Bei dem RAID 1 waren beide Festplatten nach Hetzner-Diagnose defekt. Nach dem sichern aller Daten, einbau neuer Festplatten und Synchronisation läuft erstmal wieder alles...
 
Last edited by a moderator:
Wie reagiert Hetzner auf so eine Anfrage kostet das was ? Machen die das so?
Wie lange musstest du warten bis nen Techniker an den Server ging und dann downtime?
 
Wie reagiert Hetzner auf so eine Anfrage kostet das was ? Machen die das so?
Wie lange musstest du warten bis nen Techniker an den Server ging und dann downtime?
Die Kiste steht bei mir im Büro, ist nicht bei Hetzner gehostet... i3/8GB/1000GB
 
@kk.operator:

Ja. Das ist manchmal so, dass es in verschiedenen Foren verschiedene Ansichten gibt, wie es zu sein hat. Manchmal auch nur von verschiedenen Personen im gleichen Forum. So ist das halt. :confused: Dafür gibt's in Foren wie diesem und anderen dann aber auch Spezialisten, für die in Ihrem normalen Beruf dann auch niedrige bis hohe 3-stellige Stundensätze berechnet werden und die hier kostenfrei helfen.

Es ist grundsätzlich die Frage, ob Du wirklich das absolut gleiche Problem hast wie der ursprüngliche Schreiber. Deswegen eröffene bitte einen neuen Thread, auch mit den tatsächlichen Problemsymptomen, Log-/Dmesg-Auszügen, eingegebenen relevanten Befehlen und darauf folgenden Ausgaben, durchgeführten Schritten, ... die konkret bei Dir aufgetreten sind.

IT-Probleme sind üblicherweise komplexer als man annimmt und deswegen gibt es nicht "die eine Lösung" für das Problem z. B. "meine VM stürzt ab", sondern man muss sich das genau anschauen.

Da Du nicht geschrieben hast, was Du alles schon gemacht und geprüft hast, mal der Hinweis auf die Basis-Systemdiagnose, die Du bitte erst mal für Dich selbst gründlich durchführst und dann hier im neuen Thread berichtest, ob und welche Auffälligkeiten Dir dabei evtl. aufgefallen sind. Hier mal ein paar grundlegende Texte, die dafür eine Unterstützung sein mögen:

 
Last edited:
@mkulm - wenn das Hardware defekt ist, natürlich ersetzen wir es kostenlos. In so einem Fall, wird unser Support-Team mit dem Kunden über Support-Ticket über Robot kommuniziert, um was für Troubleshooting er schon gemacht hat, um sicher zu sein, dass das Hardware tatsächlich defekt ist. Und das Team kann natürlich auch ein Full-Hardware-Check machen. Siehe auch hier für mehr Infos.
 
Back
Top