Weltweiter Ausfall: So schickte sich Google selbst auf die Bretter

Der großflächige Ausfall bei Google in der vergangenen Woche hatte eine relativ simple Ursache. Google hat Details zum Vorfall ver­öf­fent­licht - und im Zuge dessen auch offen eingeräumt, dass der Fehler im eigenen Haus entstanden ist.
Hacker, Fehler, Bug, Problem, Ausfall, Störung, Fehlerbehebung, Bugs, Bugfix, Absturz, Hacker Angriffe, Crash, Unfall, Schreibtisch, Error, kaputt, Bugs bugs bugs, Offline, Update Fehler, Fehlercode, User, Windows 11 Fehler, Windows 11 Bugs Bugs Bugs, Anwender, 404, Benutzer

Bug im Code

Der Ursprung des Problems lag nach Angaben des Unternehmens in einem System namens Service Control, das in den verschiedenen Regionen von Google Cloud dafür verantwortlich ist, API-Anfragen auf ihre Berechtigung und Quoten zu prüfen. Am 29. Mai hatte Google dort eine neue Funktion eingeführt, um zusätzliche Quotenprüfungen zu ermöglichen. Zwar wurde der neue Code planmäßig ausgerollt, jedoch wurde der problematische Programmzweig zunächst nicht aktiv, da eine dafür notwendige Richtlinienänderung noch ausstand.

Als diese Änderung schließlich am 12. Juni eingespielt wurde, trat ein bisher unentdeckter Fehler auf: Eine Richtlinie enthielt unerwartet leere Felder, die einen sogenannten Null-Pointer-Fehler im Code verursachten. Dieser führte dazu, dass zentrale Prozesse von Service Control abstürzten und in einer endlosen Neustart-Schleife festhingen - global in allen betroffenen Regionen.


Besonders gravierend fiel der Fehler in größeren Regionen aus. Dort lösten die automatischen Neustarts eine Überlastung der zugrunde liegenden Infrastruktur aus, was die Wiederherstellung zusätzlich erschwerte. Google zufolge konnte das eigene Site Reliability Engineering-Team zwar innerhalb von zwei Minuten mit der Fehleranalyse beginnen und nach zehn Minuten die Ursache identifizieren. Dennoch dauerte es in manchen Regionen fast drei Stunden, bis die Systeme wieder stabil liefen.

Es soll besser werden

Als Reaktion auf den Vorfall kündigte Google nicht nur die übliche Fehleranalyse an und gelobte Besserung. Es sollen auch proaktive Maßnahmen zur Verhinderung solcher Probleme ergriffen werden. Die Kommunikation nach außen will man ebenso verbessern - sowohl durch automatisierte Systeme als auch durch menschliche Ansprechpartner. Zudem beabsichtigt man sicherzustellen, dass Überwachungs- und Kommunikationskanäle auch bei Ausfällen der Hauptsysteme verfügbar bleiben.

Letztlich erkennt Google damit indirekt an, dass großflächige Ausfälle auch in Zukunft nicht völlig ausgeschlossen werden können. Immerhin zeigt das Unternehmen Bereitschaft, aus eigenen Versäumnissen zu lernen.

Zusammenfassung
  • Google veröffentlicht Details zu weltweitem Ausfall am 12. Juni 2025
  • Ursache war ein Null-Pointer-Fehler im System Service Control
  • Neuer Code für API-Anfragen führte zu endlosen Neustart-Schleifen
  • Die Fehleranalyse begann innerhalb von zwei Minuten nach dem Auftreten
  • Die Wiederherstellung der Systeme dauerte in einigen Regionen drei Stunden
  • Google kündigt proaktive Maßnahmen zur Fehlervermeidung an
  • Kommunikation und Überwachungskanäle sollen verbessert werden

Siehe auch:


Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!