Stromprobleme

dkreider

New Member
Liebe Community,

verzeiht mir bitte, wenn ich im falschen Sub-Forum gelandet bin. Mein Problem ist etwas speziell und ich konnte mich nicht entscheiden. Wenn’s falsch ist, bitte schieben. Mein Schwerpunkt liegt eher im Software Development, ich übernehme aber auch den Head of IT. Seid mir bitte nicht böse, wenn ich das ein oder andere Begriff vielleicht falsch benutze oder Anglizismen verwende. Ich versuche mich auch so gut wie es geht kurz zu fassen, deswegen lasse ich erst mal viele Details und Specs weg, selbstverständlich kann ich es alles nachreichen. Sagt mir, was ihr wissen wollt.

Ich arbeite in einem VFX-Studio, also haben wir einige Power-hungrige Rechner im Büro stehen, aber auch viele so genannte Render-Blades im Serverraum. Die Blades sind 1HE Rechner mit dicken Ryzens, 128Gb Ram, M2-SSDs ohne GPUs (da wir immer noch auf den CPUs rendern). AMD hat in diesem Bereich in den letzten Jahren für Wirbel gesorgt und wir haben drauf gesetzt. Unschlagbares Preis/Leistung Verhältnis.

Wir sitzen in Berlin in einem, na ja „nicht so modernem Gebäude“. Letztes Jahr haben wir unsere RenderFarm (im ServerRaum) verdoppelt. Zeitgleich ging es mit den Problemen langsam los. Alte und neue Blades haben angefangen unter Last sich aufzuhängen. Und zwar so der maßen stark, dass man sie erst vom Strom nehmen muss, bevor sie überhaupt wieder anspringen. Also wirklich Kabel aus dem Netzteil ziehen, sonst passiert da gar nix. Unter Last, wenn alles in der Firma grade läuft, schafft so eine RenderBlade teilweise nur 7-18 Minuten online zu bleiben, dann knallt’s weg. Selbstverständlich haben wir eine solcher Blades dann dem Verkäufer (mit Empörung) zurückgeschickt. Er hat alles gecheckt und nichts gefunden. Bei ihm lief die Kiste mit prime95 4 Tage am Stück ohne Probleme. Daraufhin habe ich meinen Kollegen drum gebeten die Kiste in seinem Studio zu testen. Ähnlich – 17h prime95 – kein Thema, läuft wie geschmiert. Ohh-kaaaayy. Kiste auf der Bank bei „offenen Leibe“ unter Last beobachtet. Die CPU wird zwar heiß, aber imho immer noch im machbarem Bereich (Paste, Pads etc erneuert). Es fiel auf, dass die Kondensatoren um den CPU-Sockel unglaublich heiß werden. Wenn man mit nem Industrie-Fan drauf pustet, hält es länger, aber auch keine 2h. Ich habe die Kiste dann nach hause geschleppt. 28h prime95 – läuft einwandfrei, bei 35°C Raumtemperatur (war im Hochsommer). Ich habe es meinem Vater (Elektro-Ingenieur längst in Rente) erzählt, daraufhin hat er Alarm geschlagen. Hat mir versucht in „kindischer“ Sprache zu erklären, dass wir sehr wahrscheinlich Strom-Probleme haben (und meinte, dass ich auf gar keinen Fall es so Wort-in-Wort jemand anders erzählen soll, weil man uns dann beide für bekloppt hält. Elektrizität ist wirklich nicht mein Fachgebiet ;) ). Er meinte wir sollten einen sehr guten Elektriker besorgen, der uns alle Leitungen auf Herz und Nieren checkt. Das ist uns bis heute, meiner Meinung nach, nicht wirklich gelungen. Es wurden die Steckdosen morgens um 9 durchgecheckt, als ich neulig im Urlaub war. Dabei war ca 80% der Hardware am idlen. Meiner Meinung nach ist so ein Test einfach nur nutzlos. Nachdem mich mein IT-Kollege immer wieder mit Vorwürfen, es läge an meinen Batch-Scripts, die die Software bootstrapen, bequatscht hatte, haben wir es mit nem USV ausprobiert. Damit lief ein Server-Schrank n Monat lang komplett problemlos. Dann ging die Batterie kaputt. Wir haben auch ein überteuertes HP-Z8 Monster, welches nach Autodesk-Vorschriften gebaut und zertifiziert wurde, um ADSK Flame zu nutzen. Dort ist in den vergangenen 8 Monaten 2 Mal eine Kona AJA Karte VERBRANNT. Eine 2.000 € Audio-Karte. Nun hat er nen einfachen Weg gefunden, dem Problem aus dem Weg zu gehen. Hat haufenweise Geld ausgegeben um neue, bessere, teurere Netzteile in die Blades zu verbauen. Tjo das hilft nur vorübergehend. Die Rechner halten länger, hängen sich aber wieder auf. Nun behauptet er, dass es an dem Quick-Time-Player Update Tool liegt, was immer mal wieder aufploppt.

Ich bin mit meinem Latein am Ende. Für mich liegt das Problem im Stromnetz. Der Kollege behauptet, es wäre immer wieder irgendwelche Software. Bin ich wirklich SO bekloppt? Ich dachte schon immer, dass Software, oder sogar Scripts, die bleibenden Hardware Schäden verursachen ein Virus der 3. Generation wären – also irgendwas aus schlechten Sci-Fi-CyberPunk Romanen. Und wieso performen dann die Blades überall anders wunderbar Tage- und Wochenlang, nur nicht bei uns im Office? Hat Prime95 nen GPS-Tracker ? :D
 
Termin mit dem Stromnetzbetreiber (nicht Stromanbieter) und dem Gebäudeeigentümer machen und prüfen lassen, wieviel Strom der Netzbetreiber aktuell ins Gebäude schicken kann und wieviel davon durch Euren Zähler laufen kann und aktuell auch tut.
Dann zusammen mit dem Netzbetreiber und dem Eigentümer eine tragbare Lösung (aka fettere/zweite Leitung zum/im Gebäude) finden...

Gleiches gilt für den Gebäudeeigentümer bezüglich der zusätzlichen Be-/Entlüftung des Serverraums...


Alternativ: Abspecken, aka Blades rauswerfen bis es wieder rund läuft...
 
...haben wir es mit nem USV ausprobiert. Damit lief ein Server-Schrank einen Monat lang komplett problemlos.

Eine Online-USV hat zwei Unabhängige Stromkreise: Extern für's aufladen und Intern zur Bereitstellung der Leistung an die Server. Der Stromkreis wird in der USV neu erzeugt. D. h. Schwankungen vom Stromnetz werden da komplett ausgeglichen. Wenn ich lese, dass es damit einen Monat lang sauber lief, dann würde ich sagen, dass Ihr tatsächlich Probleme mit dem Stromnetz habt und die USV diese gelöst hat.

Auf der anderen Seite, würde ich bei dem Betrieb in der Grössenordnung auch grundsätzlich eine USV-Absicherung mit qualitätiv hochwertigen Geräten aller Server erwarten.

Nachtrag: Wenn eine USV nach 1 Monat kaputt geht, dann würde ich die grundsätzlich erst einmal reklamieren. Ist die USV ausreichend groß dimensioniert?
 
Last edited:
Will man Server nicht eigentlich grundsätzlich hinter einer USV betreiben?
Ich dachte die USB löste das Problem - also warum nicht alles hinter eine USV packen?
 
Eine jährliche Prüfung der Elektroanlagen ist doch eh vorgeschrieben (DGUV). Insbesondere möchten Versicherungen hier gern mal einen Nachweis sehen. Wer führt die bei Euch durch? Zweite Frage: Von was für USV Systemen sprechen wir? Sicherlich nichts aus den ProduktKatalog von APC, oder?
 
Ich (so wie vermutlich die meisten hier) bin sicherlich kein Elektriker aber die von dir beschriebene Symptomatik klingt nach deutlich überlasteten Stromkreisen. Computernetzteile sind ohmisch-kapazitiv was zu starken Phasenverschiebungen führen kann, gleichzeitig kann bspw ein überlasteter Nullleiter zu einer extrem schwankenden Spannung an Primärseite des Netzteils führen.
Computernetzteile sind keine Festtransformatoren sondern verwenden eine Referenzspannung und steuerbare Spannungswandler, was bei stark gestörter Eingangsspannung zu katastrophalen Sekundarspannungen führen kann. Das würde nämlich auch zu euren Erfahrungen von überhitzten CPU-Spannungswandler und verbrannten Karten passen.

Bei eurem vermuteten Stromverbrauch gibt es doch bestimmt eine Validierung wieviel VoltAmpere (nicht gleich Watt bei PC-Netzteilen!) das Rechenzentrum verbrauchen darf. Das ganze Konzept wurde ja garantiert sowohl für Last als auch Kühlleistung mal durchberechnet?

Aus eigener Erfahrung kann ich nur sagen dass "Stromtests" von führenden Dorfelektrikern gerne mal aus der Glimmlampe im Elektrikerschraubenzieher und einem Multimeter-Messen der Spannung an der nächstgelegenen einfach erreichbaren Steckdose bestehen.

Imho müsste der Test zumindest die Spannungskurve gegen eine saubere Eingangsspannung der gleichen Phase vergleichen.
Gut möglich dass noch nicht alle Wald-und-Wiesen Elektriker mitgekriegt haben dass die Lasten heute weniger oft induktiv sind und damit weder Sicherung noch Spannung der wichtigste Prüfpunkt sind. Eine online-USV (oder sogar eine billigere netzinteraktive USV) hätte dies aber bemängeln sollen, wobei sie es ja möglicherweise getan hat?

Was ich nicht verstehe ist... wie kann man das regelmässige Verbrennen und wohl kontinuerliche Beschädigen von extrem teurer Hardware einfach als "das geht schon" abgetan werden? Hier müsste direkt der Stecker gezogen werden - der alleinige Rückbau auf eure alte Hardware ist nicht mehr ausreichend da potentiell desaströse Schäden an der Gebäudeverkablung vorliegen können, inklusive Brandgefahr und alles rund herum.

PS: Das sind 1HE Pizzaboxen, keine Blades. Blades stecken als reine Compute-Module in einer Enclosure und bringen keine Komponenten wie Speicher oder generell Netzanschlüssen mit, das wird alles auf der Enclosure verkabelt.

PPS: Auch wenn die Beschreibung nicht zum lachen ist, aber verbrannte Audiokarten und wohl notabschaltende Server wegen QuickTime? Apple Software kann sich unter Windows bizarr verhalten, aber das wäre doch etwas extrem.
 
Wie viele Stromkreise habt Ihr im Serverraum und wie sind diese abgesichert? Sind die zuführenden Leitungen überhaupt für die Last ausgelegt?

Optional könntet Ihr auch evtl die Server in ein RZ auslagern, das wird aber nicht wenig kosten.

Und warum rendert Ihr nicht mit GPUs, wenn das Euere verwendete Software hergibt? Das müsste doch Lichtjahre an Geschwindigkeitszuwachs bringen. Zwar verbrauchen auch GPUs viel Strom, aber hier könnte evtl eine GPU die Arbeit von mehreren CPUs erledigen.
 
Wenn man solche Probleme vermutet kann man oft vom EVU Datenlogger ausleihen, die mal ein paar Tage den Verlauf von Spannung und Last mitschreiben und auch Brownouts erkennen können.
Falls Ihr die USV noch habt - bessere können diese Daten auch mitprotokollieren.
Ist der Serverraum aktiv gekühlt (also auch mit Kalt- und Warmgang) so daß es in den 1HE-Boxen keine lokalen Hitzestaus gibt?
Auch hier kann ein Logging der Daten an verschiedenen Punkten des Aufbaus sinnvoll sein.
Von welcher (elektrischen, thermischen) Leistung reden wir?
 
Back
Top