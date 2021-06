CPUs werden nicht nur schneller und sparsamer, sondern auch immer unzuverlässiger. Zu diesem Ergebnis kommen Statistiken aus den großen Rechenzentren Googles und Facebooks, in denen riesige Mengen an Prozessorkernen belastbare Daten hervorbringen.

Schwer zu finden

"Unser Abenteuer begann, als aufmerksame Teams zunehmend beklagten, dass wiederholt Daten von den Maschinen korrumpiert wurden", berichtete Google-Entwickler Peter Hochschild nun auf der Konferenz Hot Topics in Operating Systems (HotOS). Hellhörig wurde man vor allem, weil auf den fraglichen Systemen Applikationen liefen, bei denen der Code als besonders stabil und fehlerbereinigt angesehen werden konnte. Fehlermeldungen kamen hier von verschiedenen Seiten und mit herkömmlicher Diagnostik war auch kein Bug zu finden.Tiefergehende Untersuchungen hätten dann zu der Erkenntnis geführt, dass das Problem eher in der Hardware zu finden sein dürfte. Und ganz abwegig war dies ohnehin nicht, da im Grundsatz bekannt ist, dass CPUs auch nicht fehlerfrei arbeiten. In der Vergangenheit gab es immer wieder Berichte über spektakuläre Bugs in den Architekturen, darüber hinaus kann es aber schlicht auch zu fehlerhaften Berechnungen kommen, wenn sich eine Schaltung aufgrund von ungünstigen Umweltbedingungen zufällig etwas anders verhält. Ein gewisser Basis-Satz an falschen Berechnungen wird daher einkalkuliert und in besonders kritischen Applikationen durch zusätzliche Prüfungen auch abgefangen.Die nun entdeckten Probleme passten aber nicht in dieses Bild, da sie nicht relativ gleichmäßig verteilt vorkamen, wie aus einem Bericht von The Register hervorgeht. Für Rätselraten sorgt die Tatsache, dass es häufiger zu falschen Ergebnissen kommt, als aufgrund der Hochrechnungen zu erwarten wäre - und die Bugs trotzdem höchst sporadisch, teils erst lange nach der Installation und nicht in bestimmten Baugruppen, sondern eher in individuellen Cores vorkommen.Die Google-Entwickler, die nach den Ursachen des Problems forschten, fanden schließlich bei ihren Kollegen von Facebook ganz ähnliche Erfahrungen. Letztlich kam man zu dem Schluss, dass es sich um Bugs handelt, die aus den immer kleiner und komplexer werdenden Designs resultieren und die sich mit den herkömmlichen Prüfungen im Fertigungsprozess gar nicht mehr entdecken lassen.Das macht es letztlich schwierig, Gegenmaßnahmen zu entwickeln. Und solche Fehler in den Berechnungen können gravierende Probleme verursachen - nicht einfach nur, wenn Daten ausgewertet werden müssen. Wenn sie beispielsweise während der Verschlüsselung auftreten, können Informationen unwiederbringlich verloren gehen. Daher wollen die Unternehmen nun weitergehende Forschung in das Problemfeld stecken.