DL320 G6 - Uncorrectable PCI Express Error

manny4566

New Member
Hallo, bin neu hier und habe direkt ein großes problem mit einem HP Server

Im IML, wenn ich per ILO auf den Server gehe, steht folgende Fehlermeldung drin:

Uncorrectable PCI Express Error (Embedded device, Bus 0, Device 0, Function 0, Error status 0x00000000)

Sobald dieser Fehler auftritt, startet der Server sofort neu, stürzt quasi ab.

Der Fehler tritt sporadisch auf in unterschiedlichen Zeitabständen und das sehr oft.
Der Server verfügt über eine zusätzliche PCIe Netzwerkkarte ( NC382T ).

Innerhalb des Betriebssystems sind die Netzwerkschnittstellen folgendermaßen eingebunden:
eth0 ( PCIe LAN Karte Port 1 )
eth1 ( PCIe LAN Karte Port 2 )
eth2 ( onboard LAN Port 1 )
eth3 ( onboard LAN Port 2 )

Netzwekkonfiguration:
Bonding0 = eth0 + eth2
Bonding1 = eth1 + eth3

Die Fehlermeldung bezieht sich zwar auf das onboard device, ich glaube aber eher, dass die PCIe Karte das Problem ist, weil der Fehler nur auftritt, wenn die PCIe Karte eingebaut ist.

Was bisher gemacht wurde und zu keinem Erfolg führte:
- SLES 11 neu installiert
- SLES 10 installiert, Server läuft trotzdem nicht stabil
- Firmware ist aktuell
- Treiber sind aktuell
- Mainboard wurde getauscht
- Risercard wurde getauscht
- Eine andere Netzerkkarte wurde eingebaut ( NC360T ) = die Abstürze wurden weniger, passierten aber trotzdem

Kennt jemand so ein ähnliches Problem?
Laut HP sind die Netzwerkkarten für den Server freigegeben.
HP konnte das Problem bis jetzt nicht lösen

Danke
 
danke für die antworten

Wie ist es denn, wenn gar keine zusätzlichen Netzwerkkarten eingebaut sind?

hab das Problem an zwei baugleichen Servern... quasi prod und standby
beide das gleiche modell, gleiche hardware, gleiches OS, gleiche konfig, usw..
bestimmt auch die gleiche produktionsreihe

bei dem einem hab ich die netzerkarte nicht mehr drin stecken, weil wir da auch mal so langsam weiter arbeiten müssen an dem system....
seit dem die PCIe Karte raus ist schnurrt der server wie eine katze.... kein einziger absturz

bei dem anderen steckt die karte noch drin... das ist quasi jetzt mein testsystem um den fehler zu beheben...dieser stürzt weiterhin ab

somit sagt mir das alles, dass es auf jeden fall an den netzerkkarten liegt...

meine vermutung ist ja eher, dass die PCIe karte mit dem onboard lan einen konflikt verursacht... das würde auch die fehlermeldung erklären, die ja auf das onboard lan verweist...

@webstoney
an der CPU kanns auch nicht liegen, weil der eine server ja jetzt auch läuft
 
meine vermutung ist ja eher, dass die PCIe karte mit dem onboard lan einen konflikt verursacht... das würde auch die fehlermeldung erklären, die ja auf das onboard lan verweist...
Dann würde ich mal testweise die Onboard-Karten deaktivieren. Wenn es wirklich daran liegt sollte es ja kein größeres Problem sein noch ne Zusatzkarte mit 2 LAN-Ports einzubauen oder?
 
Du könntest auch mal das Bonding anders aufbauen, also eth0 und eth1 zusammen und eth2 und eth3 zusammen - damit wären dann identische Karten im Bonding zusammengefasst.
 
Du könntest auch mal das Bonding anders aufbauen, also eth0 und eth1 zusammen und eth2 und eth3 zusammen - damit wären dann identische Karten im Bonding zusammengefasst.

gute idee, hat aber auch nicht geholfen... der server stürzt immer noch ab

mittlerweile haben wir noch einen dl 320 g6 bekommen :mad:

naja aber zumindest ist dort keine PCIe Karte für geplant.
ich hab den server mal kurz missbraucht und dort die PCIe Karte eingebaut, der server ist auch sofort mit den gleichen symptomen abgestürzt.

von daher glaube ich eher hp hat ein problem mit dem server und zusätzlichen LAN Karten

mal sehen was hp zu dem thema sagt, ich erwarte eigentlich einen anruf von denen


@Armadillo
selbst wenn das deaktivieren was bringt, kommen wir damit nicht weiter...
also wir brauchen schon 4 Lan Ports wegen der redundanz und einem crosslink zu seiner standby worüber auch das DRBD läuft

Eine zweite PCIe Karte kann man nicht mehr einbauen. Der Server hat nur zwei PCI Schnittstellen, in dem einen steckt der Raid Controller in dem anderen soll die Netzerkkarte rein
 
Last edited by a moderator:
Naja, dann bleibt halt nur ne Karte mit 4 LAN-Ports zu nehmen, oder dem HP Support ordentlich Druck zu machen. Wenn die sagen, dass die Netzwerkkarten eigentlich gut zusammenarbeiten müssen se halt nen Firmwareupdate bringen oder sonst was.
Ist eigentlich die neueste Firmware auf dem Ding drauf?
 
sorry für die späte antwort.

ja die neuste Firmware ist drauf.

Das Call ist auch schon bei HP eskaliert.
Wenn ich mehr weiß dann scheibe ich es hier rein
 
ich hab das problem gefunden ohne die hilfe von HP :cool:

In den Konfigurationen für die beiden Bondings habe ich folgende Einstellung genutzt:
BONDING_MODULE_OPTS='miimon=100 mode=1 use_carrier=0'

Das ist sowohl beim Bond0 als auch beim Bond1 der Fall.

Die Ursache für den Fehler steckt hier im "use_carrier=0".

Ändert man eine der beiden Konfigurationen auf "use_carrier=1" um oder wenn beide auf "use_carrier=1" geändert werden, tritt der Fehler nicht mehr auf.

Beim Wert "use_carrier=0" wird die Methode MII / Ethtool ioctl() zum Abfragen vom Link Status benutzt.
Beim Wert "use_carrier=1" wird die Methode netif_carrier_ok() zum Abfragen vom Link Status benutzt.

Somit tritt das Problem anscheinend nur auf, wenn die beiden Netzwerkkarten versuchen über die gleiche Methode ( MII / Ethtool ioctl() ) den Status des Links zu überprüfen. Es kommt da wohl zu einem Konflikt und der Server verabschiedet sich.
Bei der anderen Methode ( netif_carrier_ok() ) tritt das Problem nicht auf.
Eventuell spielt der Punkt noch eine Rolle, dass unterschiedliche Treiber benutzt werden, denn SLES 11 hat den Netzwerkkarten folgenden Treiber zugewiesen:

Der onboard Karte ( NC362i / BMC5715 ) wurde der Treiber "tg3" zugewiesen.
Der PCIe Karte ( in dem Fall die NC382T / BMC5709 ) wurde der Treiber "bnx2" zugewiesen.


Naja jetzt läuft es auf jeden Fall seit 2-3 Wochen ohne Absturz...

MFG
 
Back
Top