Kein Strom und defekte Hardware:
Ausfall in Microsoft Rechenzentrum

Kurz vor dem vergangenen Wochenende kam es in einem Microsoft-Rechenzentrum durch eine unglückliche Verkettung von Umständen zu einem Ausfall der Azure-Dienste. Nun bemüht sich Microsoft um Transparenz und erklärt, wie es dazu kommen konnte.
Microsoft, Windows, Logo, Launch, Microsoft Corporation, Ceo, Event, Keynote, Vorstellung, Livestream, Steve Ballmer, Gates, Windows Logo, Nadella, Einladung, Neuvorstellung, Veranstaltung, Microsoft CEO, Neuheiten, Events, Bühne, Elop, Produktneuheit, Redner, Microsoft Einladung

Das Stromnetz war der Auslöser

Microsoft hat nach einem Ausfall des Azure-Netzwerks in Europa einen ersten Statusbericht über den Vorfall veröffentlicht. Und der liest sich ein wenig wie ein Krimi mit einer Note Comedy, denn alles, was schiefgehen konnte, ging auch schief.

Was war geschehen? Microsoft wollte am vergangenen Freitag, dem 20. Oktober, aufgrund von aufgetretenen Instabilitäten im Stromnetz in einem europäischen Rechenzentrum auf die Notstromversorgung wechseln. Dabei kam es dann aber zu Problemen, die sich gegenseitig potenzierten und so einen Ausfall verschiedener Azure-Dienste auslöste. Betroffen waren demnach unter anderem der App Service, die Cosmos DB, SQL DB und virtuelle Maschinen.


Ab 9.31 Uhr morgens (7.31 UTC) startete der Ausfall der Dienste, der für einen Großteil des Angebots etwa zwei Stunden andauerte.

Das kam zustande, da es zu einem kritischen Ausfall in einem Teil des Stromverteilungssystems gekommen war. Laut dem Bericht konnten etwa 10 Prozent der Generatoren keine Last mehr aufnehmen. "Durch diesen Ausfall war das Hauptverteilungssystem offline und das redundante System unzugänglich. Infolge dieses Ausfalls waren etwa 1 Prozent unserer Server-Racks in dieser Availability Zone ohne Strom", erklärte der Konzern.

Da die Notstromversorgung nicht wie vorgesehen einspringen konnte, versuchten die Techniker die Wiederanschaltung an das reguläre Stromnetz zu forcieren und brachten damit die Dienste wieder online.

Wiederherstellung lief nicht wie geplant

Allerdings bestätigte der Konzern, dass eine Reihe defekter Hardwarekomponenten schließlich die Wiederherstellung verzögerte. Für einige Bereiche war der Ausfall daher bis zum späten Freitagnachmittag zu spüren.

Einzelheiten zu den Hintergründen hat Microsoft bisher nicht mitgeteilt, die Untersuchungen laufen noch. Microsoft empfiehlt nun aber nach diesem Vorfall, über eine Verteilung der Lasten an verschiedene Rechenzentren nachzudenken, damit solche Probleme in Zukunft keine größeren Auswirkungen auf wichtige Systeme haben.

Zusammenfassung
  • Ausfall von Azure-Diensten aufgrund von Problemen im Rechenzentrum
  • Ursache war ein Wechsel zur Notstromversorgung wegen Instabilitäten
  • Dienste waren für etwa zwei Stunden ausgefallen, ab 9.31 Uhr morgens
  • Kritischer Ausfall im Stromverteilungssystem
  • Defekte Hardwarekomponenten verzögerte Wiederherstellung der Dienste

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!