Supercomputer: Fehlerquoten werden zum Problem
Schon im Jahr 2001 verzeichnete man beim Supercomputer ASCI am Lawrence Livermore National Laboratory in den USA durchschnittlich alle fünf Stunden einen Fehler, der behoben werden musste. Durch verschiedene Optimierungen und den Einsatz neuer Technologien konnte man diese Zeit letztlich auf 55 Stunden ausdehnen, berichtet die 'ComputerWorld'.
Seitdem hat die Zahl der Knoten aber noch einmal deutlich zugenommen. Und dies wird sich auch nicht ändern, denn aktuell arbeitet man intensiv daran, Rechner in Richtung der Exascale-Marke zu tunen. Die heute verfügbaren Technologien zur Fehlerbehandlung werden dafür nicht mehr ausreichen, da sie nicht besonders gut nach oben skalieren, hieß es auf der Fachkonferenz SC12.
Heute wird beispielsweise häufig das Checkpointing eingesetzt. Fällt ein Knoten aus, startet er neu und nimmt seine Arbeit am letzten Checkpoint wieder auf. Diese Markierungen lassen den Verwaltungs-Overhead bei einer zunehmenden Zahl von Knoten aber exponentiell wachsen und können bei Rechnern mit mehr als 100.000 Knoten leicht mehr als die Hälfte der Leistungsfähigkeit in Anspruch nehmen.
Um einen Exascale-Rechner bauen zu können, wird es nach Ansicht der Spezialisten auf dem Gebiet notwendig sein, das Fehlermanagement um etwa den Faktor 100 zu verbessern. David Fiala von der North Carolina State University stellte auf der SC12 beispielsweise eine Technologie vor, die beispielsweise dagegen vorgeht, dass unbemerkt korrupte Daten weggeschrieben werden. Sie ermöglicht es beispielsweise, mehrere Klone eines Programms eine Berechnung durchführen zu lassen und die Ergebnisse zu vergleichen. Das bedeutet zwar einen größeren Aufwand, stellt letztlich aber sicher, dass nicht plötzlich lange Zeit mit falschen Daten weitergerechnet wird.
Eine weitere Technologie stellte Ana Gainaru von der University of Illinois vor. Diese ermöglicht es aufgrund der Analyse von Log-Daten zu prognostizieren an welcher Stelle demnächst ein Fehler auftreten kann und Gegenmaßnahmen einzuleiten. Dafür werden die Bereiche Signalanalyse und Date Mining miteinander kombiniert. In über 70 Prozent der Fälle hätte das System dann noch mehr als 10 Sekunden Zeit, vor dem Absturz seine bisherigen Ergebnisse zu speichern und später die Arbeit wieder an dieser Stelle aufzunehmen.
Thema:
Neueste Downloads
Jetzt als Amazon Blitzangebot
Ab 06:00 Uhr neon schild
Original Amazon-Preis
32,99 €
Im Preisvergleich ab
32,99 €
Blitzangebot-Preis
22,43 €
Ersparnis zu Amazon 32% oder 10,56 €
Neue Nachrichten
Beliebte Nachrichten
Videos
Christian Kahle
Redakteur bei WinFuture
Ich empfehle ...
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen