Supercomputer: Fehlerquoten werden zum Problem

Mit zunehmender Leistungsfähigkeit werden Supercomputer auch immer anfälliger für Fehler. Allein schon statistisch muss deren absolute Zahl bei einer steigenden Menge an Komponenten nach oben gehen.

Eine Reihe von Wissenschaftlern und Ingenieuren, die sich mit der Konstruktion der schnellen Rechner befassen, arbeiten daher schon seit einiger Zeit an Lösungen, mit denen das Problem in den Griff bekommen werden soll. Heutige High Performance Computing (HPC)-Syteme können durchaus aus 100.000 Knoten bestehen. In jedem von ihnen finden sich Komponenten wie Prozessoren, Arbeitsspeicher und verschiedene zusätzliche Chips und Schnittstellen. Dabei ist es völlig normal, dass bei einer solchen Menge an zusammengeschlossenen Rechnern regelmäßig einige ausfallen.

Schon im Jahr 2001 verzeichnete man beim Supercomputer ASCI am Lawrence Livermore National Laboratory in den USA durchschnittlich alle fünf Stunden einen Fehler, der behoben werden musste. Durch verschiedene Optimierungen und den Einsatz neuer Technologien konnte man diese Zeit letztlich auf 55 Stunden ausdehnen, berichtet die 'ComputerWorld'.

Seitdem hat die Zahl der Knoten aber noch einmal deutlich zugenommen. Und dies wird sich auch nicht ändern, denn aktuell arbeitet man intensiv daran, Rechner in Richtung der Exascale-Marke zu tunen. Die heute verfügbaren Technologien zur Fehlerbehandlung werden dafür nicht mehr ausreichen, da sie nicht besonders gut nach oben skalieren, hieß es auf der Fachkonferenz SC12.


Heute wird beispielsweise häufig das Checkpointing eingesetzt. Fällt ein Knoten aus, startet er neu und nimmt seine Arbeit am letzten Checkpoint wieder auf. Diese Markierungen lassen den Verwaltungs-Overhead bei einer zunehmenden Zahl von Knoten aber exponentiell wachsen und können bei Rechnern mit mehr als 100.000 Knoten leicht mehr als die Hälfte der Leistungsfähigkeit in Anspruch nehmen.

Um einen Exascale-Rechner bauen zu können, wird es nach Ansicht der Spezialisten auf dem Gebiet notwendig sein, das Fehlermanagement um etwa den Faktor 100 zu verbessern. David Fiala von der North Carolina State University stellte auf der SC12 beispielsweise eine Technologie vor, die beispielsweise dagegen vorgeht, dass unbemerkt korrupte Daten weggeschrieben werden. Sie ermöglicht es beispielsweise, mehrere Klone eines Programms eine Berechnung durchführen zu lassen und die Ergebnisse zu vergleichen. Das bedeutet zwar einen größeren Aufwand, stellt letztlich aber sicher, dass nicht plötzlich lange Zeit mit falschen Daten weitergerechnet wird.

Eine weitere Technologie stellte Ana Gainaru von der University of Illinois vor. Diese ermöglicht es aufgrund der Analyse von Log-Daten zu prognostizieren an welcher Stelle demnächst ein Fehler auftreten kann und Gegenmaßnahmen einzuleiten. Dafür werden die Bereiche Signalanalyse und Date Mining miteinander kombiniert. In über 70 Prozent der Fälle hätte das System dann noch mehr als 10 Sekunden Zeit, vor dem Absturz seine bisherigen Ergebnisse zu speichern und später die Arbeit wieder an dieser Stelle aufzunehmen.
Diese Nachricht empfehlen
Videos zum Thema
 
Find solche Themen immer sehr interessant. Ein großes System, welches sich selbstständig überwacht und bei Problemen reguliert.
 
Interessant! Spannend bleibt wo bzw wie weit das Potential reicht!? Ab 10^-17 geht die strenge Kausalität nach Heisenbergs Unschärferelation verloren.
 
@Revo86er: inwiefern hat heisenbergs unschärferelation hiermit was zu tun??
 
@larusso: Tja, das kann nur jemand beantworten der keine Ahnung hat wovon er spricht ^^
 
@larusso: Heisenbergs Unschärfe sagt auch aus, dass die Welt (=Wirklichkeit = Realität bzw besser Potentialität) nicht determiniert ist und grundsätzlich sehr offen ist. Nicht willkürlich offen, aber trotzdem sehr offen. Also wenn es irgendwann in der Mikroelektronik Wirkung ohne Ursache gibt kann ich ja nicht mehr damit rechnen. Siehe bei Interesse -> http://video.tu-clausthal.de/film/48.html. Heisenberg wird total unterschätzt, als er Einstein von seiner Relation berichtete entgegnete er "Aha und wenn den Mond niemand anschaut ist er wohl gar nicht da?!". Aber ja, das Doppelspaltexperiment funtkioniert im Vakuum auch mit Masseteilchen.


Alle Kommentare zu dieser News anzeigen

Schreiben Sie uns Ihre Meinung, bewerten Sie Kommentare oder diskutieren Sie mit anderen WinFuture.de Lesern!

Melden Sie sich jetzt kostenlos an
oder verwenden Sie Ihren bestehenden Zugang.

Wöchentlicher Newsletter

Beliebte Videos

powered by veeseo

Jetzt als Amazon Blitzangebot

Ab 17:59Sony Xperia SP SmartphoneSony Xperia SP Smartphone
Original Amazon-Preis
209,99
Blitzangebot-Preis
184,99
Ersparnis 12% oder 25
Jetzt Kaufen
Im WinFuture Preisvergleich

WinFuture Mobil

WinFuture.mbo QR-Code Auch Unterwegs bestens informiert!
Nachrichten und Kommentare auf
dem Smartphone lesen.

Folgt uns auf Twitter

WinFuture bei Twitter

Interessante Artikel & Testberichte

WinFuture wird gehostet von Artfiles