Liebe Community,
verzeiht mir bitte, wenn ich im falschen Sub-Forum gelandet bin. Mein Problem ist etwas speziell und ich konnte mich nicht entscheiden. Wenn’s falsch ist, bitte schieben. Mein Schwerpunkt liegt eher im Software Development, ich übernehme aber auch den Head of IT. Seid mir bitte nicht böse, wenn ich das ein oder andere Begriff vielleicht falsch benutze oder Anglizismen verwende. Ich versuche mich auch so gut wie es geht kurz zu fassen, deswegen lasse ich erst mal viele Details und Specs weg, selbstverständlich kann ich es alles nachreichen. Sagt mir, was ihr wissen wollt.
Ich arbeite in einem VFX-Studio, also haben wir einige Power-hungrige Rechner im Büro stehen, aber auch viele so genannte Render-Blades im Serverraum. Die Blades sind 1HE Rechner mit dicken Ryzens, 128Gb Ram, M2-SSDs ohne GPUs (da wir immer noch auf den CPUs rendern). AMD hat in diesem Bereich in den letzten Jahren für Wirbel gesorgt und wir haben drauf gesetzt. Unschlagbares Preis/Leistung Verhältnis.
Wir sitzen in Berlin in einem, na ja „nicht so modernem Gebäude“. Letztes Jahr haben wir unsere RenderFarm (im ServerRaum) verdoppelt. Zeitgleich ging es mit den Problemen langsam los. Alte und neue Blades haben angefangen unter Last sich aufzuhängen. Und zwar so der maßen stark, dass man sie erst vom Strom nehmen muss, bevor sie überhaupt wieder anspringen. Also wirklich Kabel aus dem Netzteil ziehen, sonst passiert da gar nix. Unter Last, wenn alles in der Firma grade läuft, schafft so eine RenderBlade teilweise nur 7-18 Minuten online zu bleiben, dann knallt’s weg. Selbstverständlich haben wir eine solcher Blades dann dem Verkäufer (mit Empörung) zurückgeschickt. Er hat alles gecheckt und nichts gefunden. Bei ihm lief die Kiste mit prime95 4 Tage am Stück ohne Probleme. Daraufhin habe ich meinen Kollegen drum gebeten die Kiste in seinem Studio zu testen. Ähnlich – 17h prime95 – kein Thema, läuft wie geschmiert. Ohh-kaaaayy. Kiste auf der Bank bei „offenen Leibe“ unter Last beobachtet. Die CPU wird zwar heiß, aber imho immer noch im machbarem Bereich (Paste, Pads etc erneuert). Es fiel auf, dass die Kondensatoren um den CPU-Sockel unglaublich heiß werden. Wenn man mit nem Industrie-Fan drauf pustet, hält es länger, aber auch keine 2h. Ich habe die Kiste dann nach hause geschleppt. 28h prime95 – läuft einwandfrei, bei 35°C Raumtemperatur (war im Hochsommer). Ich habe es meinem Vater (Elektro-Ingenieur längst in Rente) erzählt, daraufhin hat er Alarm geschlagen. Hat mir versucht in „kindischer“ Sprache zu erklären, dass wir sehr wahrscheinlich Strom-Probleme haben (und meinte, dass ich auf gar keinen Fall es so Wort-in-Wort jemand anders erzählen soll, weil man uns dann beide für bekloppt hält. Elektrizität ist wirklich nicht mein Fachgebiet ). Er meinte wir sollten einen sehr guten Elektriker besorgen, der uns alle Leitungen auf Herz und Nieren checkt. Das ist uns bis heute, meiner Meinung nach, nicht wirklich gelungen. Es wurden die Steckdosen morgens um 9 durchgecheckt, als ich neulig im Urlaub war. Dabei war ca 80% der Hardware am idlen. Meiner Meinung nach ist so ein Test einfach nur nutzlos. Nachdem mich mein IT-Kollege immer wieder mit Vorwürfen, es läge an meinen Batch-Scripts, die die Software bootstrapen, bequatscht hatte, haben wir es mit nem USV ausprobiert. Damit lief ein Server-Schrank n Monat lang komplett problemlos. Dann ging die Batterie kaputt. Wir haben auch ein überteuertes HP-Z8 Monster, welches nach Autodesk-Vorschriften gebaut und zertifiziert wurde, um ADSK Flame zu nutzen. Dort ist in den vergangenen 8 Monaten 2 Mal eine Kona AJA Karte VERBRANNT. Eine 2.000 € Audio-Karte. Nun hat er nen einfachen Weg gefunden, dem Problem aus dem Weg zu gehen. Hat haufenweise Geld ausgegeben um neue, bessere, teurere Netzteile in die Blades zu verbauen. Tjo das hilft nur vorübergehend. Die Rechner halten länger, hängen sich aber wieder auf. Nun behauptet er, dass es an dem Quick-Time-Player Update Tool liegt, was immer mal wieder aufploppt.
Ich bin mit meinem Latein am Ende. Für mich liegt das Problem im Stromnetz. Der Kollege behauptet, es wäre immer wieder irgendwelche Software. Bin ich wirklich SO bekloppt? Ich dachte schon immer, dass Software, oder sogar Scripts, die bleibenden Hardware Schäden verursachen ein Virus der 3. Generation wären – also irgendwas aus schlechten Sci-Fi-CyberPunk Romanen. Und wieso performen dann die Blades überall anders wunderbar Tage- und Wochenlang, nur nicht bei uns im Office? Hat Prime95 nen GPS-Tracker ?
verzeiht mir bitte, wenn ich im falschen Sub-Forum gelandet bin. Mein Problem ist etwas speziell und ich konnte mich nicht entscheiden. Wenn’s falsch ist, bitte schieben. Mein Schwerpunkt liegt eher im Software Development, ich übernehme aber auch den Head of IT. Seid mir bitte nicht böse, wenn ich das ein oder andere Begriff vielleicht falsch benutze oder Anglizismen verwende. Ich versuche mich auch so gut wie es geht kurz zu fassen, deswegen lasse ich erst mal viele Details und Specs weg, selbstverständlich kann ich es alles nachreichen. Sagt mir, was ihr wissen wollt.
Ich arbeite in einem VFX-Studio, also haben wir einige Power-hungrige Rechner im Büro stehen, aber auch viele so genannte Render-Blades im Serverraum. Die Blades sind 1HE Rechner mit dicken Ryzens, 128Gb Ram, M2-SSDs ohne GPUs (da wir immer noch auf den CPUs rendern). AMD hat in diesem Bereich in den letzten Jahren für Wirbel gesorgt und wir haben drauf gesetzt. Unschlagbares Preis/Leistung Verhältnis.
Wir sitzen in Berlin in einem, na ja „nicht so modernem Gebäude“. Letztes Jahr haben wir unsere RenderFarm (im ServerRaum) verdoppelt. Zeitgleich ging es mit den Problemen langsam los. Alte und neue Blades haben angefangen unter Last sich aufzuhängen. Und zwar so der maßen stark, dass man sie erst vom Strom nehmen muss, bevor sie überhaupt wieder anspringen. Also wirklich Kabel aus dem Netzteil ziehen, sonst passiert da gar nix. Unter Last, wenn alles in der Firma grade läuft, schafft so eine RenderBlade teilweise nur 7-18 Minuten online zu bleiben, dann knallt’s weg. Selbstverständlich haben wir eine solcher Blades dann dem Verkäufer (mit Empörung) zurückgeschickt. Er hat alles gecheckt und nichts gefunden. Bei ihm lief die Kiste mit prime95 4 Tage am Stück ohne Probleme. Daraufhin habe ich meinen Kollegen drum gebeten die Kiste in seinem Studio zu testen. Ähnlich – 17h prime95 – kein Thema, läuft wie geschmiert. Ohh-kaaaayy. Kiste auf der Bank bei „offenen Leibe“ unter Last beobachtet. Die CPU wird zwar heiß, aber imho immer noch im machbarem Bereich (Paste, Pads etc erneuert). Es fiel auf, dass die Kondensatoren um den CPU-Sockel unglaublich heiß werden. Wenn man mit nem Industrie-Fan drauf pustet, hält es länger, aber auch keine 2h. Ich habe die Kiste dann nach hause geschleppt. 28h prime95 – läuft einwandfrei, bei 35°C Raumtemperatur (war im Hochsommer). Ich habe es meinem Vater (Elektro-Ingenieur längst in Rente) erzählt, daraufhin hat er Alarm geschlagen. Hat mir versucht in „kindischer“ Sprache zu erklären, dass wir sehr wahrscheinlich Strom-Probleme haben (und meinte, dass ich auf gar keinen Fall es so Wort-in-Wort jemand anders erzählen soll, weil man uns dann beide für bekloppt hält. Elektrizität ist wirklich nicht mein Fachgebiet ). Er meinte wir sollten einen sehr guten Elektriker besorgen, der uns alle Leitungen auf Herz und Nieren checkt. Das ist uns bis heute, meiner Meinung nach, nicht wirklich gelungen. Es wurden die Steckdosen morgens um 9 durchgecheckt, als ich neulig im Urlaub war. Dabei war ca 80% der Hardware am idlen. Meiner Meinung nach ist so ein Test einfach nur nutzlos. Nachdem mich mein IT-Kollege immer wieder mit Vorwürfen, es läge an meinen Batch-Scripts, die die Software bootstrapen, bequatscht hatte, haben wir es mit nem USV ausprobiert. Damit lief ein Server-Schrank n Monat lang komplett problemlos. Dann ging die Batterie kaputt. Wir haben auch ein überteuertes HP-Z8 Monster, welches nach Autodesk-Vorschriften gebaut und zertifiziert wurde, um ADSK Flame zu nutzen. Dort ist in den vergangenen 8 Monaten 2 Mal eine Kona AJA Karte VERBRANNT. Eine 2.000 € Audio-Karte. Nun hat er nen einfachen Weg gefunden, dem Problem aus dem Weg zu gehen. Hat haufenweise Geld ausgegeben um neue, bessere, teurere Netzteile in die Blades zu verbauen. Tjo das hilft nur vorübergehend. Die Rechner halten länger, hängen sich aber wieder auf. Nun behauptet er, dass es an dem Quick-Time-Player Update Tool liegt, was immer mal wieder aufploppt.
Ich bin mit meinem Latein am Ende. Für mich liegt das Problem im Stromnetz. Der Kollege behauptet, es wäre immer wieder irgendwelche Software. Bin ich wirklich SO bekloppt? Ich dachte schon immer, dass Software, oder sogar Scripts, die bleibenden Hardware Schäden verursachen ein Virus der 3. Generation wären – also irgendwas aus schlechten Sci-Fi-CyberPunk Romanen. Und wieso performen dann die Blades überall anders wunderbar Tage- und Wochenlang, nur nicht bei uns im Office? Hat Prime95 nen GPS-Tracker ?