Weltweiter Ausfall: So schickte sich Google selbst auf die Bretter

Der großflächige Ausfall bei Google in der vergangenen Woche hatte eine relativ simple Ursache. Google hat Details zum Vorfall veröffentlicht - und im Zuge dessen auch offen eingeräumt, dass der Fehler im eigenen Haus entstanden ist.

Christian Kahle, 17.06.2025 12:35 Uhr

Hacker, Fehler, Bug, Problem, Ausfall, Störung, Fehlerbehebung, Bugs, Bugfix, Absturz, Hacker Angriffe, Crash, Unfall, Schreibtisch, Error, kaputt, Bugs bugs bugs, Offline, Update Fehler, Fehlercode, User, Windows 11 Fehler, Windows 11 Bugs Bugs Bugs, Anwender, 404, Benutzer

Bug im Code

Der Ursprung des Problems lag nach Angaben des Unternehmens in einem System namens Service Control, das in den verschiedenen Regionen von Google Cloud dafür verantwortlich ist, API-Anfragen auf ihre Berechtigung und Quoten zu prüfen. Am 29. Mai hatte Google dort eine neue Funktion eingeführt, um zusätzliche Quotenprüfungen zu ermöglichen. Zwar wurde der neue Code planmäßig ausgerollt, jedoch wurde der problematische Programmzweig zunächst nicht aktiv, da eine dafür notwendige Richtlinienänderung noch ausstand.

Als diese Änderung schließlich am 12. Juni eingespielt wurde, trat ein bisher unentdeckter Fehler auf: Eine Richtlinie enthielt unerwartet leere Felder, die einen sogenannten Null-Pointer-Fehler im Code verursachten. Dieser führte dazu, dass zentrale Prozesse von Service Control abstürzten und in einer endlosen Neustart-Schleife festhingen - global in allen betroffenen Regionen.

Besonders gravierend fiel der Fehler in größeren Regionen aus. Dort lösten die automatischen Neustarts eine Überlastung der zugrunde liegenden Infrastruktur aus, was die Wiederherstellung zusätzlich erschwerte. Google zufolge konnte das eigene Site Reliability Engineering-Team zwar innerhalb von zwei Minuten mit der Fehleranalyse beginnen und nach zehn Minuten die Ursache identifizieren. Dennoch dauerte es in manchen Regionen fast drei Stunden, bis die Systeme wieder stabil liefen.

Es soll besser werden

Als Reaktion auf den Vorfall kündigte Google nicht nur die übliche Fehleranalyse an und gelobte Besserung. Es sollen auch proaktive Maßnahmen zur Verhinderung solcher Probleme ergriffen werden. Die Kommunikation nach außen will man ebenso verbessern - sowohl durch automatisierte Systeme als auch durch menschliche Ansprechpartner. Zudem beabsichtigt man sicherzustellen, dass Überwachungs- und Kommunikationskanäle auch bei Ausfällen der Hauptsysteme verfügbar bleiben.

Letztlich erkennt Google damit indirekt an, dass großflächige Ausfälle auch in Zukunft nicht völlig ausgeschlossen werden können. Immerhin zeigt das Unternehmen Bereitschaft, aus eigenen Versäumnissen zu lernen.

Zusammenfassung

Google veröffentlicht Details zu weltweitem Ausfall am 12. Juni 2025
Ursache war ein Null-Pointer-Fehler im System Service Control
Neuer Code für API-Anfragen führte zu endlosen Neustart-Schleifen
Die Fehleranalyse begann innerhalb von zwei Minuten nach dem Auftreten
Die Wiederherstellung der Systeme dauerte in einigen Regionen drei Stunden
Google kündigt proaktive Maßnahmen zur Fehlervermeidung an
Kommunikation und Überwachungskanäle sollen verbessert werden

Siehe auch:

Thema:

Cloud

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren0

Hinweis einsenden

Weitere Nachrichten zum Thema Internetausfälle häufen sich weltweit - das sind die UrsachenUpdate-Fehler: Notruf in Australien fällt 13 Stunden aus, 4 Menschen totGoogle Cloud: Massive Ausfälle zogen Spotify, Discord und mehr mitNeuer Campus in London: Google steigen die Füchse aufs DachGoogle macht Entwicklung von Custom-Roms für Android schwieriger