Server CPUs: Intel vs. AMD

Solche Rechenfehler sind bekannt, treten bei fast allen CPUs auf (Intel und AMD, andere konnte er nicht sagen), werden dir als Normalsterblichem mit Sicherheit nicht begegnen.
Genau das ist ja eigentlich schon immer bekannt. Es gab ja den großen Bug bei der ersten AMD Phenom Serie 9x00, den dann durch die 9x50 Serie behoben wurde.

Ähnlich bekannte Probleme hatte soweit ich es noch in Erinnerung hatte auch eine große Serie des P4 von Intel und so geht das durch sämtliche CPU-Generationen. Mal gab es bekannte, mal weniger bekannte Fehler. Und genau deshalb hat es mich auch ehrlich interessiert, welche gravierenden Fehler da aktuell bei AMD vorhanden sind. Aber mit dieser Wischi-Waschi-Argumentation kann ich nichts anfangen und den Rest habe ich ja deutlichst dargelegt.
 
Last edited by a moderator:
Wie ich ja bereits schrieb, kommt es auf den Einsatzzweck an und die Einsatzzwecke bei denen diese Fehler wirklich relevant sind, sind bei einem Rootserver oder Desktop nicht gegeben. Einzig auf die Thermal-Probleme sollte hier geachtet werden, was aber bei der Verwendung der Referenz-Kühlung oder gleichwertigen Produkten ebenfalls zu vernachlässigen ist. Kritischer kann es aber bei so manchen selbstentwickelten oder stärker von der Referenz-Kühlung abweichenden Kühllösungen aussehen. Spätestens in Anwendungfällen, wo es um sicherheitskritische Bereiche geht und/oder wo komplexe mathematische Aufgaben präzise ausgeführt werden müssen, bedeuten diese Fehler durchaus ein No-Go für diese CPUs. Aus diesem Grund bessern CPU-Hersteller solche Fehler nach Möglichkeit mit einem der nächsten Steppings oder zusammen mit BIOS-Herstellern durch BIOS-Updates aus. Vorraussetzung ist dabei allerdings, das der den Fehler meldende Kunde wichtig genug ist, um diesen Aufwand wirtschaftlich zu rechtfertigen. Oft genug bekommen solche Kunden (Supercomputerhersteller zum Beispiel) auch handverlesene CPUs, die diese Fehler nicht aufweisen, da es billiger ist als ein neues Stepping in Masse zu fertigen.
Was aber kaum Jemand wirklich abschätzen kann, ist die Kombination mehrerer oder aller dieser Fehler und das könnte wiederum auch die Masse betreffen.

Selbstverständlich haben auch die CPUs anderer Hersteller teils gravierende Fehler, nur schafft es AMD leider nicht wirklich, diese seit Einführung der Athlons vorhandene Art der Rechenfehler in den Griff zu bekommen. Was aber durchaus möglich wäre, wenn man dort umdenken würde und sich nicht mehr nur über Kampfpreise und Gamer definieren würde. Das Umgehen der zugrundeliegenden physikalischen Wechselwirkungen treibt halt die Produktionskosten und damit die Marktpreise der CPUs ein wenig nach oben, dafür hätte AMD aber auch Qualitativ mit Intel nahezu gleichgezogen und wäre somit eine ernstzunehmende Konkurenz mit sehr viel Potenzial.
 
Selbstverständlich haben auch die CPUs anderer Hersteller teils gravierende Fehler, nur schafft es AMD leider nicht wirklich, diese seit Einführung der Athlons vorhandene Art der Rechenfehler in den Griff zu bekommen.
Es ist nicht immer wirtschaftlich Fehler zu beheben. Ich denke nicht, dass es eine Frage des Könnens ist, eher eine Frage des Wollens.

Bzgl. den Thermalproblemen sind deine Aussagen eher grenzwertig. Thermisch bedingte Rechenfehler treten in Temperaturbereichen auf, in die deine CPU besser nicht kommen sollte. Tut sie es doch sind Rechenfehler das geringste Problem.

Man kanns echt übertreiben.
 
Ich kann eigentlich nur Folgendes zitieren:
"Opterons taugen nicht für ordentliche Zwecke":
Es ist schon seltsam, dass der aktuell schnellste Supercomputer und auch noch der ein oder andere in der Top 10 aus Opterons zusammengebaut wurde... Die müssen doch Deiner Aussage nach allesamt einen Fehler nach dem anderen machen.
Die werden wohl kaum mit einer 0815 Referenzkühlung betrieben, zumal es für Opterons gar keine Referenzkühler mehr gibt (Stichwort WOF).

Dass man seinen Rechner gut kühlen muss, damit da auch richtige Zahlen bei rauskommen, davon geh ich bei größeren Rechenzentren mal stark aus, das ist also nicht wirklich ein Argument.

Dass die aktuelle Mikroarchitektur noch immer auf der des Athlon basiert ist wohl richtig, auch können durchaus noch Fehler aus dieser Zeit in eben dieser existieren. Dass diese die AMD-Prozessoren für Rechenaufgaben mit hoher Präzision deklassieren glaube ich schonmal gar nicht, verweise auf das Zitat von Thunderbyte oben, bei dem ja genau das gefordert wird...
 
Es ist nicht immer wirtschaftlich Fehler zu beheben. Ich denke nicht, dass es eine Frage des Könnens ist, eher eine Frage des Wollens.
So kann man meine letzten beiden Sätze durchaus zusammenfassen.

Bzgl. den Thermalproblemen sind deine Aussagen eher grenzwertig. Thermisch bedingte Rechenfehler treten in Temperaturbereichen auf, in die deine CPU besser nicht kommen sollte. Tut sie es doch sind Rechenfehler das geringste Problem.
Warum sollte ich denn meine CPUs nicht bei <20° Celsius betreiben?
 
Ich schrieb nie von einem "Versagen" AMDs, lediglich von bisher nicht (vollständig) behobenen Fehlern in deren CPUs.

Apropos behobene Fehler. Ich werfe mal Gate A20 in den Raum. Nach ca. 30 Jahren geht man langsam mal an, diesen Fehler nicht mehr weiter zu implementieren.
 
Nun will ich nochmal Anmerken, diese Fehler haben durch aus auch Vorteile.
Da wie schon gesagt in den fast allen CPU's solche Bugs vertretten sind und es genau deswegen Fallbacks gibt, hat AMD mal vor einiger Zeit angekündigt diese Bugs zu nuzen um Stärkere CPU`s raus zu bringen.

In dem Beitrag, ich glaub das war bei Heise wolle man extra diese Fehler einbauen.

Ob dies jetzt stimmt ist eine Gute Frage, gelesen habe ich es zumindest mal.
 
Cold bug happens when you cool down CPU at temperatures below zero at which CPU stops to operate correctly. It’s not dead just stop working properly.
Das ist die Untergrenze. Und darum sollte man es nicht tun. Rechenfehler sind hier allerdings nicht das Problem, vielmehr dass überhaupt nicht mehr gerechnet wird ;)

Stell doch mal deinem KFZ-Menschen die Frage, warum du auch im Sommer deinen Kühler nicht einfrieren darfst ;)
 
@ Joe User: Hey, cool, ich kann fast allem aus Deinem Post #22 zustimmen. :o

Warum sollte ich denn meine CPUs nicht bei <20° Celsius betreiben?

Achtung Witz: Es steht natürlich jedem frei, seinen Rechner in den Kühlschrank zu stellen. ;) :D

Wir reden hier nach wie vor über Server in Rechenzentren, richtig?:
Ganz einfach: weils nicht wirtschaftlich ist. Es gibt einen, vermutlich relativ engen, Bereich, in dem "Verbrauch der CPU" plus "nötige Energie um die Verlustleistung wieder wegzukühlen" ein Minimum erreichen.

Wenn man sich dieses sehr interessante Whitepaper von Knürr und Siemens Fujitsu so ansieht, achten Rechenzentren - mittlerweile - auf das peinlichste auf den Energieverbrauch pro Leistung und versuchen, ihn so weit wie möglich zu optimieren. Und dazu gehört eben auch die Energie, die nötig ist, die Verlustleistung wegzukühlen.

(Btw: auch sehr interessant ist, dass in dem Whitepaper die CPUs nur einen nicht allzugroßten Teil aller Energiekosten ausmachen. Man sollte also die Auswirkungen verschiedener Architekturen in Relation sehen.)

Davon abgesehen gibt es für die meisten technischen Geräte einen spezifizierten Bereich, in dem sie optimal funktionieren. Es ist m.E. OK, wenn auch CPU Hersteller ihren Geräten einen entsprechenden Bereich mit auf den Weg geben. Für Extremfälle (kalt wie warm) gibt es auch speziell angepasste Technik, die diese Spezifikationen dann auch abkann.

EDIT: Dass die CPU Bugs ein "No-Go" darstellen, kann ich allerdings nicht unterschreiben. Kommt es auf Hochpräzision an, muss es da auf mehreren (auch Software)Ebenen entsprechende Kontrollmechanismen geben (und die gibt es). Sich da nur auf die Fehlerfreiheit einer CPU zu verlassen, reicht da so oder so nicht.

EDIT2: Hm, "below zero" hat man es auch gleich noch mit ganz anderen Problemen zu tun, Stichwort "Kondensation". Wasser an der CPU ist nicht so toll...;)
 
Last edited by a moderator:
Back
Top