Supercomputer: Fehlerquoten werden zum Problem

Mit zunehmender Leistungsfähigkeit werden Supercomputer auch immer anfälliger für Fehler. Allein schon statistisch muss deren absolute Zahl bei einer steigenden Menge an Komponenten nach oben gehen.
Supercomputer, Ibm, Green Blue Gene
IBM
Eine Reihe von Wissenschaftlern und Ingenieuren, die sich mit der Konstruktion der schnellen Rechner befassen, arbeiten daher schon seit einiger Zeit an Lösungen, mit denen das Problem in den Griff bekommen werden soll. Heutige High Performance Computing (HPC)-Syteme können durchaus aus 100.000 Knoten bestehen. In jedem von ihnen finden sich Komponenten wie Prozessoren, Arbeitsspeicher und verschiedene zusätzliche Chips und Schnittstellen. Dabei ist es völlig normal, dass bei einer solchen Menge an zusammengeschlossenen Rechnern regelmäßig einige ausfallen.

Schon im Jahr 2001 verzeichnete man beim Supercomputer ASCI am Lawrence Livermore National Laboratory in den USA durchschnittlich alle fünf Stunden einen Fehler, der behoben werden musste. Durch verschiedene Optimierungen und den Einsatz neuer Technologien konnte man diese Zeit letztlich auf 55 Stunden ausdehnen, berichtet die 'ComputerWorld'.

Seitdem hat die Zahl der Knoten aber noch einmal deutlich zugenommen. Und dies wird sich auch nicht ändern, denn aktuell arbeitet man intensiv daran, Rechner in Richtung der Exascale-Marke zu tunen. Die heute verfügbaren Technologien zur Fehlerbehandlung werden dafür nicht mehr ausreichen, da sie nicht besonders gut nach oben skalieren, hieß es auf der Fachkonferenz SC12.

Heute wird beispielsweise häufig das Checkpointing eingesetzt. Fällt ein Knoten aus, startet er neu und nimmt seine Arbeit am letzten Checkpoint wieder auf. Diese Markierungen lassen den Verwaltungs-Overhead bei einer zunehmenden Zahl von Knoten aber exponentiell wachsen und können bei Rechnern mit mehr als 100.000 Knoten leicht mehr als die Hälfte der Leistungsfähigkeit in Anspruch nehmen.

Um einen Exascale-Rechner bauen zu können, wird es nach Ansicht der Spezialisten auf dem Gebiet notwendig sein, das Fehlermanagement um etwa den Faktor 100 zu verbessern. David Fiala von der North Carolina State University stellte auf der SC12 beispielsweise eine Technologie vor, die beispielsweise dagegen vorgeht, dass unbemerkt korrupte Daten weggeschrieben werden. Sie ermöglicht es beispielsweise, mehrere Klone eines Programms eine Berechnung durchführen zu lassen und die Ergebnisse zu vergleichen. Das bedeutet zwar einen größeren Aufwand, stellt letztlich aber sicher, dass nicht plötzlich lange Zeit mit falschen Daten weitergerechnet wird.

Eine weitere Technologie stellte Ana Gainaru von der University of Illinois vor. Diese ermöglicht es aufgrund der Analyse von Log-Daten zu prognostizieren an welcher Stelle demnächst ein Fehler auftreten kann und Gegenmaßnahmen einzuleiten. Dafür werden die Bereiche Signalanalyse und Date Mining miteinander kombiniert. In über 70 Prozent der Fälle hätte das System dann noch mehr als 10 Sekunden Zeit, vor dem Absturz seine bisherigen Ergebnisse zu speichern und später die Arbeit wieder an dieser Stelle aufzunehmen.
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Jetzt als Amazon Blitzangebot
Ab 06:00 Uhr neon schildneon schild
Original Amazon-Preis
32,99
Im Preisvergleich ab
32,99
Blitzangebot-Preis
22,43
Ersparnis zu Amazon 32% oder 10,56
Im WinFuture Preisvergleich
Folgt uns auf Twitter
WinFuture bei Twitter
Interessante Artikel & Testberichte
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!