Google legt mit Kettenreaktion seine eigene Cloud lahm

Nach dem großen Fauxpas bei der Löschung eines großen Kundenkontos sollte man meinen, dass bei Google Cloud erst einmal ganz besonders penibel auf gute Arbeit geachtet wird. Nur wenige Tage später kam es nun aber zum nächsten Fehltritt besonderer Güte.
Cloud, Cloud-Speicher, cloudspeicher, Cloud Computing, Online Speicherdienst, Wolke, Cloud Dienst

Nur eine kleine Wartung

Ende letzter Woche kam es zu einer größeren Störung in der Infrastruktur des Angebotes. Zum fraglichen Zeitpunkt führten die Techniker eine "Wartungsautomatisierung durch, die dazu diente, eine nicht genutzte Netzwerksteuerungskomponente an einem einzigen Standort abzuschalten", wie aus den Logs des Cloud-Dienstes hervorging.

Allerdings gelang es aus irgendeinem Grund nicht, die Maßnahme auf den einzelnen Bereich zu beschränken. Stattdessen wurden daher wichtige Betriebskomponenten an rund 40 Standorten deaktiviert, wie das britische Magazin The Register berichtete. Über Stunden hatten die Nutzer von 33 Cloud-Diensten, darunter auch große Services wie Compute Engine und Kubernetes Engine - mit Ausfällen und anderen Problemen zu kämpfen.


Unter anderem konnten VM-Instanzen keine Netzwerkverbindungen herstellen. Im internen Netz kam es teils auch zu falschen Zuweisungen, sodass Datenpakete letztlich im Nirvana landeten. Wer den Kontakt zu seiner Cloud-Instanz unterbrach und die dahinterliegende VM neu startete, verlor den Zugriff komplett.

Mehrere einmalige Fehler

Es dauerte fast drei Stunden, bis die Google-Administratoren das Problem komplett behoben hatten und der ordentliche Betrieb der Cloud-Dienste wiederhergestellt war. Als Konsequenz aus dem Vorfall hat man nun erst mal das genutzte Automatisierungs-Tool gesperrt. Wenn jetzt Aufgaben zu erledigen sind, müssen diese in den verschiedenen Bereichen jeweils manuell vorgenommen werden. Eine automatisierte Arbeit soll erst wieder zugelassen werden, wenn Sicherheitsvorkehrungen implementiert sind, die davor schützen sollen, dass Fehler schnell auf andere Systeme übernommen werden.

Damit setzte Google quasi noch einen großen Negativpunkt auf die ohnehin schlechten Schlagzeilen, für die man zuvor selbst gesorgt hatte. Erst eine Woche vor dem Problem hatte Google das Cloud-Konto des australischen Pensionsfonds UniSuper mit seinen 600.000 Mitgliedern gelöscht. Damals erklärte man, dass es sich um einen einmaligen Fehler handelte und auch jetzt sicherte Google zu, dass sich solch ein Problem nicht wiederholen werde.

Zusammenfassung
  • Google Cloud machte erneut einen schwerwiegenden Fehler in der Infrastruktur
  • Eine Wartungsautomatisierung führte zu einer größeren Störung
  • Wichtige Betriebskomponenten wurden an rund 40 Standorten deaktiviert
  • Nutzer von 33 Cloud-Diensten hatten über Stunden mit Ausfällen zu kämpfen
  • VM-Instanzen konnten keine Netzwerkverbindungen herstellen
  • Es dauerte fast drei Stunden, bis das Problem komplett behoben war
  • Automatisierungs-Tool wurde gesperrt, Aufgaben werden nun manuell erledigt

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!