Server unter volllast sehr heiß

SirFail

New Member
Guten Tag,

ich habe mir schon seit längerem einen Server gemietet, in letzter Zeit hatten wir vermehrt plötzliche Crashes, nach langem Gesuche haben wir auch die Ursache gefunden und zwar das der CPU zu heiß läuft, heute hat der Hoster dann Kühler und Wärmeleitpaste gewechselt, nachdem wir die Meldung erhalten haben haben wir das System nochmals getestet und unter "volllast"(4 Threads auf 100%, Rest bei 5 bis 30%, Server hat insgesamt 8 Threads) genommen, nach kurzer Zeit haben wir erneut die 100 grad geknackt, ich kenne mich zwar mit Debian aus aber nicht mit einem Serverzentrum aber ich meine dennoch das das nicht normal ist. Ich wollte mir einfach hier eine Zweite Meinung einholen. Verbaut ist ein Intel Core i7 4790k.

Mit freundlichen Grüßen SirFail
 
Dann ist wohl das Lüftersystem der Servers nicht sinnvoll eingesetzt und der erzeugte Luftstrom staut/kühlt nicht ausreichend.
 
Bei über 100*C beginnt die CPU mit thottling um sich selbst zu schützen. Von einem nur kurzzeitig ausgelasteten Server kann man durchaus volle Leistung erwarten. Auch aus meiner Sicht muss hier dein Hoster nochmal ran.
 
Der verwendete Prozessor ist für maximal 74°C spezifiziert. So gesehen ist es also wenig verwunderlich, dass das System instabil läuft, wenn die Temperatur auf 100°C steigt. Soweit sollte es aber eigentlich nicht kommen, die CPU sollte vorher heruntertakten. Allerdings handelt es sich bei der CPU um eine K-Prozessor, bei dem Intel Overclocking erlaubt und meines Wissens kann man u.a. da das CPU-Verhalten bez. Throtteling im BIOS beeinflussen (habe ich mich aber nicht näher mit beschäfftigt).
Kannst du mal den CPU-Takt prüfen, wenn das Ding unter Last läuft?
 
Wenn man seine Server unter Volllast betreiben will, dann wählt man keine Desktop-CPU, sondern einen Server-XEON, den man mindestens 20% grösser auslegt als benötigt um jederzeit noch Reserven für SSH und CLIs zu haben.

Das Problem liegt also nicht beim Hoster, sondern eindeutig beim Kunden...
 
Soweit ich das verstanden habe, wurde die CPU nur unter Volllast gesetzt, um zu testen, ob die CPU-Kühlung jetzt besser funktioniert. Und da stellt sich schon die Frage, warum sie so heiss wird. EIgentlich sollte sie sich durch runtertakten davor selber schützen.
Wenn man ein System braucht, bei dem man dauerhaft eine hohe CPU-Auslastung abruft, stimme ich dir aber zu: Server-CPU (XEON/EPYC) und mindestens eine Nummer größer als wirklich benötigt, um noch Luft nach oben zu haben
 
Das Problem liegt also nicht beim Hoster, sondern eindeutig beim Kunden...
Meines Wissens wird nur bei Notebooks bewusst eine höhere TDP verbaut als die Kühlungssystem schaffen um kurzzeitige Lastspitzen ab zu federn (und das ist nicht nur bei Obstsalat-Herstellern so)

Wenn in einem Rechenzentrum, also quasi optimalen Umgebungsfaktoren, die CPU die magische 90° des Throttling-Anfangs erreicht hat schlicht auf gut deutsch ein Problem. Entweder die Hardware ist schlicht von einem Pavian mit Schraubendreher zusammengewürfelt worden, sie ist kaputt, oder es stimmt etwas signifikant nicht am Kühlkonzept.

Als Anmerkung am Rand bei Tests: aktuelle Intel-CPU's können ihr TDP-Budget unter Verwendung einiger Benchmark-Tools wie prime95 explodieren lassen. Ursache sind die extrem leistungshungrigen AVX Instruktionssets für welche einige CPU's sogar heruntertakten müssen. Solche Tests sind also nicht aussagekräftig da sie die CPU und Spannungswandler weit jenseits Spezifikation betreiben können.

Wenn man seine Server unter Volllast betreiben will, dann wählt man keine Desktop-CPU, sondern einen Server-XEON
Davon abgesehen dass Xeon's -gerüchteweise- strenger binned werden und dass sie generell äquivalent niedriger takten, würde ich behaupten dass es keine signifikante Mehrausfälle bei Desktop-CPU's innerhalb der spezifizierten 3 Jahre Lebenszeit gibt. Xeon haben viele schöne Vorteile aber bei vernünftigem Workstation/Gaming-Board mit vernünftigem Desktop-Prozessor kann man günstig viel Leistung erzielen.

Als kleiner Test um das Ablufkonzept des Hosters zu testen (setzt lmsensors, speedfan o.ä. als Messwerkzeug voraus):
1) lass den Server mindestens 30 Minuten ruhen
2) Notier Lüfterdrehzahlen (sofern verfügbar), Chipsatz-Temperatur, CPU-Temperatur und falls verfügbar Gehäusetemperatur
3) Belaste den Server auf *allen* Threads und messe sofort (2)
4) Notier CPU-Takt und Vcore (sofern auslesbar)
5) Messe für 5 Minuten im Abstand von 30 Sekunden den (2) (Brich ab wenn TCase/TJunction der CPU die 95° Marke des Throttlings erreicht.)
6) Stoppe den Belastungstest und messe direkt sowie in Abstand von 10,30,60Sek sowie 2,5 Minuten alles unter (2)


Normalerweise soll die CPU-Temperatur invers logarithmisch ansteigen und mit entsprechendem Muster auch wieder fallen. Wenn sie schneller ansteigt als sie fällt oder die Chipset/Gehäusetemperatur plötzlich stark mit ansteigt hast du schlicht einen Hitzestau.
 
zusätzlich zu dem über mir, lese dazu auch mal den Mainboard Typ aus und benutze Google in Verbindung "CPU Mainboard Temperaturprobleme". Das Wort "Kompatibilität " ist bei den Mainboardherstellern oftmals ein großes Problem. Kompatibilität heißt das der CPU funktioniert, ob dieser Optimal funktioniert ist eine andere Sache. Falsch dimensionierte Spannungswandler auf dem Board können auch unter "niedriger" Leistung schon zu einer überhöhten CPU Temperatur führen. Frag den Kollegen auch mal welche Leistung der Lüfter mit sich bringt. Wie schreibt Intel so schön:

"Thermal Design Power (TDP) steht für die durchschnittliche Leistungsaufnahme (in Watt), die der Prozessor beim Betrieb auf Basisfrequenz ableitet, wenn alle Kerne bei einer von Intel definierten, hochkomplexen Arbeitslast aktiv sind. Die Kühleranforderungen finden Sie im Datenblatt. "
 
Last edited:
Bei der CPU handelt es sich um einen Haswell Prozessor, der vor ca. 6 Jahren auf den Markt gekommen ist. Entsprechend dürfte das System auch schon ein paar Jahre auf dem Buckel haben. Wenn man jetzt mal das Thema Spannungswandler von @GamerzHost.de über mir aufgreift, kann es natürlich auch sein, dass diese mittlerweile an ihre Grenzen kommen, denn die altern ja auch - und wenn sie ohnehin etwas knapp bemessen sind, dann natürlich um so stärker.
Trotzdem ist bezüglich der stabilen Funktionalität aber der Serveranbieter hier in der Verantwortung und sollte eigentlich wissen, was er da in seinem Rechenzentrum stehen hat und entsprechend passende Ersatzteile verwenden (wie einen ausreichend dimensionierten Kühler).
 
Back
Top