Supercomputer: Fehlerquoten werden zum Problem

Ibm, Supercomputer, Green Blue Gene Bildquelle: IBM
Mit zunehmender Leistungsfähigkeit werden Supercomputer auch immer anfälliger für Fehler. Allein schon statistisch muss deren absolute Zahl bei einer steigenden Menge an Komponenten nach oben gehen. Eine Reihe von Wissenschaftlern und Ingenieuren, die sich mit der Konstruktion der schnellen Rechner befassen, arbeiten daher schon seit einiger Zeit an Lösungen, mit denen das Problem in den Griff bekommen werden soll. Heutige High Performance Computing (HPC)-Syteme können durchaus aus 100.000 Knoten bestehen. In jedem von ihnen finden sich Komponenten wie Prozessoren, Arbeitsspeicher und verschiedene zusätzliche Chips und Schnittstellen. Dabei ist es völlig normal, dass bei einer solchen Menge an zusammengeschlossenen Rechnern regelmäßig einige ausfallen.

Schon im Jahr 2001 verzeichnete man beim Supercomputer ASCI am Lawrence Livermore National Laboratory in den USA durchschnittlich alle fünf Stunden einen Fehler, der behoben werden musste. Durch verschiedene Optimierungen und den Einsatz neuer Technologien konnte man diese Zeit letztlich auf 55 Stunden ausdehnen, berichtet die 'ComputerWorld'.

Seitdem hat die Zahl der Knoten aber noch einmal deutlich zugenommen. Und dies wird sich auch nicht ändern, denn aktuell arbeitet man intensiv daran, Rechner in Richtung der Exascale-Marke zu tunen. Die heute verfügbaren Technologien zur Fehlerbehandlung werden dafür nicht mehr ausreichen, da sie nicht besonders gut nach oben skalieren, hieß es auf der Fachkonferenz SC12.

Heute wird beispielsweise häufig das Checkpointing eingesetzt. Fällt ein Knoten aus, startet er neu und nimmt seine Arbeit am letzten Checkpoint wieder auf. Diese Markierungen lassen den Verwaltungs-Overhead bei einer zunehmenden Zahl von Knoten aber exponentiell wachsen und können bei Rechnern mit mehr als 100.000 Knoten leicht mehr als die Hälfte der Leistungsfähigkeit in Anspruch nehmen.

Um einen Exascale-Rechner bauen zu können, wird es nach Ansicht der Spezialisten auf dem Gebiet notwendig sein, das Fehlermanagement um etwa den Faktor 100 zu verbessern. David Fiala von der North Carolina State University stellte auf der SC12 beispielsweise eine Technologie vor, die beispielsweise dagegen vorgeht, dass unbemerkt korrupte Daten weggeschrieben werden. Sie ermöglicht es beispielsweise, mehrere Klone eines Programms eine Berechnung durchführen zu lassen und die Ergebnisse zu vergleichen. Das bedeutet zwar einen größeren Aufwand, stellt letztlich aber sicher, dass nicht plötzlich lange Zeit mit falschen Daten weitergerechnet wird.

Eine weitere Technologie stellte Ana Gainaru von der University of Illinois vor. Diese ermöglicht es aufgrund der Analyse von Log-Daten zu prognostizieren an welcher Stelle demnächst ein Fehler auftreten kann und Gegenmaßnahmen einzuleiten. Dafür werden die Bereiche Signalanalyse und Date Mining miteinander kombiniert. In über 70 Prozent der Fälle hätte das System dann noch mehr als 10 Sekunden Zeit, vor dem Absturz seine bisherigen Ergebnisse zu speichern und später die Arbeit wieder an dieser Stelle aufzunehmen. Ibm, Supercomputer, Green Blue Gene Ibm, Supercomputer, Green Blue Gene IBM
Diese Nachricht empfehlen
Kommentieren13
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Kommentar abgeben Netiquette beachten!

Jetzt als Amazon Blitzangebot

Ab 19:29Fujifilm X-T1 Digitalkamera GraphiteFujifilm X-T1 Digitalkamera Graphite
Original Amazon-Preis
1.399
Blitzangebot-Preis
1.249
Ersparnis 11% oder 150

Video-Empfehlungen

WinFuture Mobil

WinFuture.mbo QR-Code Auch Unterwegs bestens informiert!
Nachrichten und Kommentare auf
dem Smartphone lesen.

Folgt uns auf Twitter

WinFuture bei Twitter

Interessante Artikel & Testberichte

Tipp einsenden