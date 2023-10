Kurz vor dem vergangenen Wochenende kam es in einem Microsoft-Rechenzentrum durch eine unglückliche Verkettung von Umständen zu einem Ausfall der Azure-Dienste . Nun bemüht sich Microsoft um Transparenz und erklärt , wie es dazu kommen konnte.

Das Stromnetz war der Auslöser

Wiederherstellung lief nicht wie geplant

Microsoft hat nach einem Ausfall des Azure-Netzwerks in Europa einen ersten Statusbericht über den Vorfall veröffentlicht. Und der liest sich ein wenig wie ein Krimi mit einer Note Comedy, denn alles, was schiefgehen konnte, ging auch schief.Was war geschehen? Microsoft wollte am vergangenen Freitag, dem 20. Oktober, aufgrund von aufgetretenen Instabilitäten im Stromnetz in einem europäischen Rechenzentrum auf die Notstromversorgung wechseln. Dabei kam es dann aber zu Problemen, die sich gegenseitig potenzierten und so einen Ausfall verschiedener Azure-Dienste auslöste. Betroffen waren demnach unter anderem der App Service, die Cosmos DB, SQL DB und virtuelle Maschinen.Ab 9.31 Uhr morgens (7.31 UTC) startete der Ausfall der Dienste, der für einen Großteil des Angebots etwa zwei Stunden andauerte.Das kam zustande, da es zu einem kritischen Ausfall in einem Teil des Stromverteilungssystems gekommen war. Laut dem Bericht konnten etwa 10 Prozent der Generatoren keine Last mehr aufnehmen. "Durch diesen Ausfall war das Hauptverteilungssystem offline und das redundante System unzugänglich. Infolge dieses Ausfalls waren etwa 1 Prozent unserer Server-Racks in dieser Availability Zone ohne Strom", erklärte der Konzern.Da die Notstromversorgung nicht wie vorgesehen einspringen konnte, versuchten die Techniker die Wiederanschaltung an das reguläre Stromnetz zu forcieren und brachten damit die Dienste wieder online.Allerdings bestätigte der Konzern, dass eine Reihe defekter Hardwarekomponenten schließlich die Wiederherstellung verzögerte. Für einige Bereiche war der Ausfall daher bis zum späten Freitagnachmittag zu spüren.Einzelheiten zu den Hintergründen hat Microsoft bisher nicht mitgeteilt, die Untersuchungen laufen noch. Microsoft empfiehlt nun aber nach diesem Vorfall, über eine Verteilung der Lasten an verschiedene Rechenzentren nachzudenken, damit solche Probleme in Zukunft keine größeren Auswirkungen auf wichtige Systeme haben.