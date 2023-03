Auch große Plattformen fallen gelegentlich mal komplett aus. Dies ist kürzlich auch bei Reddit geschehen. Dabei zeigte sich ein grundlegendes Problem, das nur schwer in den Griff zu bekommen sein dürfte: Kaum jemand hat noch einen richtigen Überblick.

Meist erfahren Außenstehende nicht besonders viel darüber, was zu einer Störung geführt hat. Reddit veröffentlichte allerdings eine genaue Analyse der Vorgänge, die dazu führten, dass die Plattform über Stunden nicht erreichbar war. Dabei zeigt sich, dass vor allem die enorme Komplexität eines Systems, das hunderte Millionen bis Milliarden Nutzer verkraften muss, nur schwer zu beherrschen ist.Auslöser war ein Problem, das mit dem Update des Google-Containersystems Kubernetes von Version 1.23 auf 1.24 auftrat. Im Vorfeld hatte man die Installation getestet und im Zusammenspiel mit verschiedenen anderen Komponenten traten keine Fehler auf - im Live-Betrieb ging dann aber doch etwas schief - erste Versuche, dem auf den Grund zu gehen, brachten aber kein Ergebnis."Wir brauchten Stunden, um zu entscheiden, dass ein Rollback, das an sich schon ein hohes Risiko darstellt, die beste Lösung ist", hieß es. Grundsätzlich ist auch die Wiederherstellung aus einem Backup keineswegs risikolos. "Der Prozess, den wir dafür haben, ist voller Fallstricke und muss verbessert werden. Zum Glück hat es funktioniert!", so die Reddit-Admins.Währenddessen suchten andere Techniker weiter nach dem Fehler. Erst nach weiteren Stunden fand man die subtile Ursache des Problems: Während die modernen Software-Schichten funktionsfähig blieben, sah es direkt bei den ersten Komponenten, die mit älteren Codes arbeiten, anders aus. Und diese stammten offenbar noch von Entwicklern, die heute entweder nicht mehr im Unternehmen sind oder die sich seit Jahren nicht mit diesen Sourcen beschäftigt haben. So fielen problematische Bereiche letztlich nicht auf.Allerdings will man die Sache bei Reddit nun nutzen, um zu lernen. Einige der wichtigsten Architektur- und Prozessentscheidungen, mit denen man schon seit Langem lebt, sollen geändert werden, um kommende Cluster-Upgrades sicherzumachen.