Google: Unfähige Neustart-Routine ließ Cloud-Ausfall lang dauern

Google, Server, Datenzentrum Bildquelle: Google
Google kämpfte kürzlich mit einem größeren Ausfall in seinen Cloud-Diensten. Die blumigen Fehlerbeschreibungen bedeuten letztlich aber, dass auch der große Suchmaschinenkonzern hier mit ganz trivialen Problemen zu kämpfen hatte, die eigentlich jeder Nutzer in seinem Alltag schon einmal gehabt haben dürfte. Gestern gingen beim wichtigen Compute Engine-Dienst in den beiden Zonen "us-central1" und "europe-west3" die Lichter aus. Und es dauerte über anderthalb Stunden, bis die Services wieder verfügbar waren. Das ist angesichts der großen Versprechungen der Cloud-Anbieter in die Zuverlässigkeit ihrer Systeme durchaus ein ernstes Problem. Denn die Kunden lagern ihre Anwendungen ja gerade auf solche Dienste aus, damit diese möglichst zuverlässig verfügbar sind.

Laut dem Fehlerbericht Googles hatte man es hier mit einem Problem der Netzwerk-Konfiguration zu tun. In der Folge habe der Autoscaler nicht richtig funktioniert. Das bedeutet nichts anderes, als dass neue oder frisch migrierte virtuelle Maschinen (VM) nicht mehr mit VMs in anderen Zonen kommunizieren konnten. Hier sind zwei Komponenten dafür zuständig, dass die Datenströme durch die Netze und Firewalls geleitet werden.

Neustart funktionierte nicht

Die erste von ihnen war aber schlicht abgestützt. Das kann vorkommen und jeder Nutzer würde wohl im Zweifel einfach darauf reagieren, indem der Prozess zwangsweise beendet und neu gestartet wird - eine Sache von Sekunden bis Minuten. Ausgerechnet dies hat hier bei Google aber nicht funktioniert. Die Automatisierung dieses Vorgangs schlug nämlich ebenso fehl.

Wie Google ausführte, hätten die automatischen Routinen dabei versagt, den abgestürzten Prozess zwangsweise zu beenden und wieder neu anzustoßen, damit die normale Betriebsfähigkeit wieder erreicht wird. Erst als die Admins informiert waren und manuell eingriffen, konnte das Problem dann recht zügig behoben werden. Seitens Googles sicherte man zu, die Ursachen der Probleme zukünftig besser mit in die Planungen einzubeziehen. Und vielleicht wäre es ja einfach auch hilfreich, die menschlichen Techniker schneller zu informieren, falls die Neustart-Routine nicht in Fahrt kommt.

Cloud ist nicht trivial


Google, Server, Datenzentrum Google, Server, Datenzentrum Google
Diese Nachricht empfehlen
Kommentieren3
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Kommentar abgeben Netiquette beachten!
Einloggen

Videos zum Thema Cloud

  • Neueste
  • Beliebte
  • Empfehlung

Tipp einsenden