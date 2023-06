Dumm gelaufen: Ein Mitarbeiter von Microsoft hat bei einem Routinejob einen mehr als zehnstündigen Ausfall von Microsofts Azure-Cloud-Angebot ausgelöst. Dabei wurden versehentlich mehrere Produktionsdatenbanken gelöscht.

Tippfehler im Pull-Request

Fehlersuche dauerte

Zusammenfassung Microsoft-Mitarbeiter löscht versehentlich mehrere Produktionsdatenbanken

Ausfall in Süd-Brasilien Ende Mai

Kundendaten nicht verloren -> Microsoft bittet um Verzeihung

Team arbeitet an Prozedere, um zukünftige Löschungen zu verhindern

Microsoft veröffentlicht Bericht über Untersuchung

Der Vorfall ereignete sich bereits Ende Mai in der Region Süd-Brasilien. Wie Microsoft-Manager Eric Mattingly jetzt mitteilte , war ein Tippfehler schuld an der Misere.Eigentlich hatte man nur einen Routinejob ausführen wollen. Dazu werden täglich Datenbankbereinigungen angestoßen, um ältere, nicht mehr benötigte Datensätze zu löschen. Das passiert, um die Cloud-Anwendungen schnell und agil zu halten.Dabei werden regelmäßig Snapshots der Produktionsdatenbanken durchgeführt. Doch dieses Mal ging alles schief, was schiefgehen konnte: Der Pull-Request enthielt einen Tippfehler, der dazu führte, dass der Azure-SQL-Server und nicht die einzelne Azure-SQL-Datenbank gelöscht wurde."Als der Job den Azure-SQL-Server löschte, löschte er auch alle siebzehn Produktionsdatenbanken für die Skalierungseinheit", erklärte Microsoft. Dadurch waren die Azure-Datenbanken dann nicht erreichbar. Kundendaten sind dabei aber nicht verloren gegangen.Der Ausfall selbst wurde innerhalb von 20 Minuten erkannt. Der Tippfehler selbst wurde aber erst nach rund vier Stunden entdeckt. Dann benötigte das Team noch einmal rund fünf Stunden, um die Datenbanken wieder herzustellen. Das dauerte deshalb so lange, da man alles nur manuell ausführen konnte und es für einen derartigen Fall kein automatisches Backup-System gibt. Microsoft hat sich bei den betroffenen Kunden für den Ausfall entschuldigt und jetzt einen umfassenden Bericht über die Untersuchung veröffentlicht.Zudem heißt es, dass bereits jetzt ein Team an einem Prozedere arbeitet, der zukünftige versehentliche Löschungen verhindern soll.