Server: Hohe CPU-Temperatur

greystone

Active Member
Hi,

ich habe hier einen Server, den ein Bekannter(ehem. Admin) für sich selbst zusammengebaut hat und bei mir im RZ betreibt. Der Server ist als XenServer(XCP-NG) im Einsatz.

Ich finde, dass die Temperatur schon recht hoch ist auf dem System. Das habe ich sonst bei keinem anderen System. Spitzen bis zu ~91°C. Laut Intel-Spezifikation für die CPU ist das noch im Normalbereich(https://www.intel.de/content/www/de...cessor-12m-cache-3-40-ghz/specifications.html). Aber mein Bauchgefühl sagt mir, dass das eigentlich schon etwas zu hoch ist.

Lüfter drehen auf 8000 RPM/7900 RPM/3000RPM. Im Anhang mal die Temperaturüberwachung der CPU. Die Temperaturen im Rechenzentrum - beurteilt nach den Temperaturwerten der anderen Server - sind recht konstant.

Betreibt Ihr auch Server mit solchen Temperaturwerten?

Techn. Daten des Servers:

Code:
System:    Host: frodo Kernel: 4.19.0+1 x86_64 bits: 64 gcc: 4.8.5 Console: tty 13
           Distro: XCP-ng release 8.2.1 (xenenterprise)
Machine:   Device: server System: Supermicro product: Super Server v: 0123456789 serial: 0123456789
           Mobo: Supermicro model: X11SCL-IF v: 1.01 serial: OM221S031828
           UEFI [Legacy]: American Megatrends v: 1.6 date: 05/31/2021
CPU:       6 core Intel Xeon E-2236 (-MT-MCP-) arch: Skylake rev.10 cache: 12288 KB
           flags: (lm nx sse sse2 sse3 sse4_1 sse4_2 ssse3) bmips: 40904
           clock speeds: max: 3408 MHz 1: 3408 MHz 2: 3408 MHz 3: 3408 MHz 4: 3408 MHz 5: 3408 MHz 6: 3408 MHz
           7: 3408 MHz 8: 3408 MHz 9: 3408 MHz 10: 3408 MHz 11: 3408 MHz 12: 3408 MHz
Graphics:  Card: ASPEED ASPEED Graphics Family bus-ID: 05:00.0
           Display Server: N/A driver: N/A tty size: 171x54 Advanced Data: N/A for root out of X
Network:   Card-1: Intel I210 Gigabit Network Connection driver: igb v: 5.3.5.20 port: 5000 bus-ID: 01:00.0
           IF: eth0 state: up speed: 1000 Mbps duplex: full mac: 3c...
           Card-2: Intel I210 Gigabit Network Connection driver: igb v: 5.3.5.20 port: 4000 bus-ID: 02:00.0
           IF: eth1 state: down mac: 3c...
Drives:    HDD Total Size: 9922.0GB (0.0% used)
           ID-1: model: ST4000LM024
           ID-2: model: INTEL_SSDSC2KG96
           ID-3: model: ST4000LM024
           ID-4: model: INTEL_SSDSC2KG96
RAID:      Devices: 1: /dev/md126 2: /dev/md127
Info:      Processes: 431 Uptime: 26 days Memory: 896.5/4108.8MB Init: systemd runlevel: 5 Gcc sys: N/A
           Client: Shell (bash 4.2.462) binxi: 2.3.56-3-b
 

Attachments

  • Screenshot_cpu_temperature.png
    Screenshot_cpu_temperature.png
    70.1 KB · Views: 129
Last edited:
"Selbst zusammengeschraubt" - schreit eigentlich fast nach Wärmeleitpaste, ggf. doof gelaufen beim Kühlkonzept (oder gar Lüfter falsch angeschlossen, ...
 
"Selbst zusammengeschraubt" - schreit eigentlich fast nach Wärmeleitpaste, ggf. doof gelaufen beim Kühlkonzept (oder gar Lüfter falsch angeschlossen, ...
Das ist jetzt nicht der erste Server, den der Bekannte zusammenschraubt. Aber ja: Lüfter Nr. 3 kann man auf Verdacht auch nochmal auf max. Drehzahl stellen; so, dass beide Lüfter für den Luftstrom auf die CPU auf max. Drehzahl sind.
 
auch beim 1000. Server zusammenbauen kann einem mal ein Fehler unterlaufen - hohe Temperatur hängt halt entweder mit masig CPU-Tätigkeit zusammen (und gerne auch) beim unzureichener Abluft (dass das grundlegende Kühlkonzept passt - davon gehe ich einfach mal aus)

... daher würde ich erst mal ebene die Lüfter prüfen auf Richtung und ggf. auch Anschluss prüfen. Wärmeleitpaste auch, artet halt meist in Sauerei und so aus....
 
Aber zum offensichtlichen marce: Du bist also der Meinung, dass die Temperatur alles andere als normal ist?
 
Wenn die Temperatur laut Herstellerangaben im Normbereich liegt, dann ist sie erstmal in Ordnung.
Wenn darüberhinaus auch alle anderen Bauteile in ihren Normbereichen liegen, dann passt's erstrecht.

Unabhängig davon: Ich würde mir eher um die Lüfter Sorgen machen, 8k RPM (dauerhaft?) wären mir zu hoch.
Sind genug (aka alle) Lüfter verbaut? Sind die Lüfter noch in Ordnung? Gibt es rund um die Luftauslässe genug Abluftmöglichkeiten?
 
Der Aufbau sieht fast identisch aus mit diesem hier:


Unterschiede sind:
  • 2 Lüfter sind an der Frontseite und ziehen die Luft von vorne(Kaltgang) an und blasen durch den passiven CPU-Kühler.
  • Links sind die 2xSSD + 2x2,5" HDDs.
  • Zwischen den Speichergeräten und dem Mainboard ist noch ein weiterer Lüfter(weil halt die Möglichkeit war, noch einen weiteren anzuschließen).
Sind genug (aka alle) Lüfter verbaut?
Ja. 3 Lüfter.. Man könnte 4 Lüfter einbauen. Sind aber nur 3 eingebaut. Wenn man die alle direkte nebeneinander in Reihe mit Blasrichtung CPU-Kühler positioniert würde das mit Sicherheit die Situation verbessern.

Sind die Lüfter noch in Ordnung?
Ja(am offenen System geprüft).

Gibt es rund um die Luftauslässe genug Abluftmöglichkeiten?
Das müsste das exakte Gehäuse sein:

Unabhängig davon: Ich würde mir eher um die Lüfter Sorgen machen, 8k RPM (dauerhaft?) wären mir zu hoch.

Das war jetzt eine Antwort, wie ich sie mir gewünscht habe. Danke! Und ja: Die 8k RPM sind dauerhaft. Muss nochmal das Monitoring nachjustieren, dass ich da auch Graphen dafür bekomme. Die Geschwindigkeiten sind dauerhaft hoch, aber nicht immer auf 8k RPM.

---

Ansonsten: Das Monitoring - von dem der Graph ist - prüft in 1-Min Abständen. D. h. IPMI, dass vermutlich in kürzerer Abständen misst, schickt ca. 1 x am Tag, dass die 100°C Marke erreicht ist. D. h. das sind wohl nur minimale Zeitpunkte, bei denen das so ist.

Die dauerhafte CPU-Last(CPU-Usage) schwankt zwischen 25%-50%.

Ich würde es dann dabei belassen, falls jemand nicht noch einen Vorschlag hat, wie man die Temperatur mit einfachen Mitteln senken kann. (Mir fällt gerade noch ein: CPU-Taktfrequenz evtl. per Software senken/begrenzen).

---

Nachtrag: Die Lüftersteuerung vom IPMI regelt dann aber nur die 2 Hauptlüfter in Abhängigkeit der CPU-Temperatur. Für die 2 weiteren Lüfter müsste man dann selbst eine Lüftersteuerung schreiben. Das geht wohl mit Supermicro, ist aber wohl etwas frickelig. (Siehe: https://forums.servethehome.com/ind...9-x10-x11-fan-speed-control.10059/post-271558)
 
Last edited:
Ich habe jetzt nochmal die Temperatur im Sekundenintervall gemessen. Da sieht das eigentlich nicht mehr schlimm aus. Die CPU läuft im wesentlichen jetzt auf ~65°C - nachdem alle Lüfter auf Maximalgeschwindigkeit laufen.

Aktuell keine Warnungen über CPU-Drosselung mehr im IPMI-Event-Log.

Zusatzmassnahmen werden vermutlich demnächst noch ergriffen, damit die Lüfter wieder normal laufen können und dementsprechend länger halten.
 

Attachments

  • graph_cpu_temperature_jede_sekunde.png
    graph_cpu_temperature_jede_sekunde.png
    90.7 KB · Views: 109
Last edited:
ID-1: model: ST4000LM024
Wer verbaut denn einen solchen Scheiss!?!?!?

Das sind Seagate BarraCuda Compute 4TB, 2.5", SATA 6Gb/s Notebook Festplatten, die NICHT servergeeignet sind und das übelste daran:

Shingled Magnetic Recording (SMR)

Goodbye Schreibperformance. Dann vermutlich noch im Raid1. Ein absolutes NoGo!

Die SSDs sind zumindest halbwegs ok.

Ich traue jemandem, der so einen Krampf in einen Server einbaut absolut zu, dass er noch deutlich mehr Fehler macht.
 
Wer verbaut denn einen solchen Scheiss!?!?!?

Das sind Seagate BarraCuda Compute 4TB, 2.5", SATA 6Gb/s Notebook Festplatten, die NICHT servergeeignet sind und das übelste daran:

Shingled Magnetic Recording (SMR)

Goodbye Schreibperformance. Dann vermutlich noch im Raid1. Ein absolutes NoGo!

Die SSDs sind zumindest halbwegs ok.

Ich traue jemandem, der so einen Krampf in einen Server einbaut absolut zu, dass er noch deutlich mehr Fehler macht.

@Thunderbyte: Guus Fraba! Tief Durchatmen!

Das hatte ich meinem Bekannten auch gleich gesagt. Das Thema SMR hatte er leider noch nicht mitbekommen. Deswegen auch meine kürzliche Ergänzung beim SMR Thread. Leider gibt's halt für 2,5" HDDs ab ~2 TB nur noch SMR. Da bleibt halt bei Anforderung von 2,5" nur noch SSD.

Aktuell ist der Anwendungszweck für die Platten "Datengrab-VMs". Insofern: Verbockt, aber tut gerade noch so, was es soll.
 
Last edited:
Da gehören schlicht 4x2TB Sata SSDs im RAID5 rein. Fertig.

Noch ein Indiz: wer SMR vs CMR nicht mitbekommen hat baut auch Server verkehrt zusammen.
 
Die Kabelwege im Server wurde nochmal etwas sauberer verlegt, um den Luftstrom zur CPU weniger zu behindern. Die SMR-Festplatten sind raus. Ob die SMR-Festplatten in den VMs hohe Load verursacht haben kann ich nicht sagen, weil ich nur das Monitoring des Host-Systems kenne. Es ist anzunehmen. Die Option das Wärmeleitpad gegen Wärmeleitpaste auszutauschen - was lt. Internet bessere Wärmeabfuhr ermöglichen soll, wurde noch nicht genutzt.

Die Temperatur auf den beiden Systemen ist jetzt wieder deutlich gesunken und liegt jetzt bei ca. 55°C bei gleichzeitiger Veränderung der Policy der Lüftersteuerung(Maximum Performance -> Optimal). Die für die CPU zuständigen Lüfter laufen jetzt zwischen 3000-5000 RPM im Durchschnitt.
 
Ein Verwendungszweck für die SMR-Platten wurde jetzt noch gefunden - als Alternative zu Verkauf und Ersatzbeschaffung. Die wurden jetzt aus dem XenServer genommen, in ein kleines NAS(Synology) gesetzt und dienen der mitgelieferten Backupsoftware als Storage. Da laufen die jetzt einigermassen gut. Genauer kann ich es nicht sagen, weil ich die Specs des NAS nicht genau kenne.
 
Hier nochmal die Temperaturänderung nach Austausch Wärmeleitpad durch Wärmeleitpaste. Der Unterschied ist deutlich sichtbar.

temperatur.jpg
 
Last edited:
Ich habe es mehrfach versucht als Attachment anzuhängen. Das ging nicht und ich wurde irgendwann per Firewall geblockt. Ich habe es jetzt nochmal direkt als Bild eingefügt. Das ging.
 
OT @greystone : Das liegt an mir, sorry, ich kümmere mich darum!
Ich habe es mehrfach versucht als Attachment anzuhängen. Das ging nicht und ich wurde irgendwann per Firewall geblockt. Ich habe es jetzt nochmal direkt als Bild eingefügt. Das ging.
EDIT: Sollte jetzt wieder funktionieren.
 
Last edited:
Unabhängig davon: Ich würde mir eher um die Lüfter Sorgen machen, 8k RPM (dauerhaft?) wären mir zu hoch.
Dem stimme ich zu, aber ganz wichtig: 1HE-Kisten haben deutlich höher drehende Lüfter als 2HE-Server :) Ein 2HE-Server mit allen Lüftern auf 8k RPM dürfte bald abheben, bei 1HE _kann_ das in Ordnung sein. Weniger ist besser (auch für den Stromverbrauch!), kommt aber auch ganz stark auf die Zulufttemperatur an. 20 vs. 28 Grad kann einen himmelweiten Unterschied ausmachen.
 
Back
Top