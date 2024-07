Der Sicherheitsdienstleister CrowdStrike sieht die Ursache für den Ausfall von fast neun Millionen Windows-PCs am letzten Freitag in einem Bug bei einem seiner Test-Programme. Der sogenannte "Content Validator" habe seine Aufgabe nicht erfüllt.

CrowdStrike hatte unentdeckten Fehler in Test-Software

Bug in Content-Update hat Speicherfehler ausgelöst

Frühere Updates mit neuen Vorlagentypen problemlos

Was macht CrowdStrike? CrowdStrike ist ein führendes Unternehmen im Bereich Cybersecurity, das sich auf den Schutz von Endgeräten spezialisiert hat. Es bietet Sicherheitslösungen für Windows- und Linux-Systeme an, die in vielen großen Unternehmen und Organisationen weltweit eingesetzt werden.



Laut eigenen Angaben bedient CrowdStrike über 298 der Fortune 500 Unternehmen, 43 US-Bundesstaaten, 6 der 10 größten Gesundheitsdienstleister und 8 der 10 führenden Finanzdienstleister in den USA. Dies unterstreicht die zentrale Rolle des Unternehmens in der globalen IT-Sicherheitslandschaft. Was war der Grund für den Ausfall? Der massive Ausfall wurde durch ein fehlerhaftes Update des CrowdStrike Falcon Sensors verursacht. Dieses Update führte zu einem sogenannten "Blue Screen of Death" (BSOD) auf betroffenen Windows-Systemen, was kontinuierliche Neustarts zur Folge hatte.



Nach ersten Analysen scheint die Ursache ein Null-Pointer-Fehler zu sein. Der Code versuchte auf eine ungültige Speicheradresse zuzugreifen, ohne vorher deren Validität zu überprüfen. Dieser grundlegende Programmierfehler hätte bei sorgfältigen Tests entdeckt werden müssen. Wie viele Geräte waren betroffen? Laut Microsoft waren etwa 8,5 Millionen Windows-Geräte von dem fehlerhaften Update betroffen. Diese Zahl entspricht weniger als einem Prozent aller Windows-Maschinen weltweit.



Trotz des relativ geringen Anteils an der Gesamtzahl der Windows-Systeme waren die Auswirkungen beträchtlich, da viele kritische Infrastrukturen und große Unternehmen betroffen waren. Die vollständige Wiederherstellung aller betroffenen Systeme könnte mehrere Wochen in Anspruch nehmen. Welche Branchen waren betroffen? Der Ausfall hatte weitreichende Auswirkungen auf verschiedene Branchen weltweit. Besonders betroffen waren Flughäfen und Fluggesellschaften, die mit Verspätungen und Flugausfällen zu kämpfen hatten.



Auch Bankensysteme meldeten Störungen ihrer Online-Dienste, was Probleme bei Kontenzugriffen und Transaktionen verursachte. Im Gesundheitswesen mussten einige Krankenhäuser geplante Operationen verschieben. Selbst Medienunternehmen wie der britische Nachrichtensender Sky News waren betroffen und konnten zeitweise keine Live-Nachrichten senden. Wie wurde das Problem behoben?



Microsoft arbeitet eng mit CrowdStrike und anderen führenden CrowdStrike hat das fehlerhafte Update inzwischen zurückgezogen und arbeitet an einer globalen Lösung. Für bereits betroffene Systeme wurde eine Übergangslösung empfohlen, die das Starten im abgesicherten Modus und das manuelle Löschen einer bestimmten Datei beinhaltet.Microsoft arbeitet eng mit CrowdStrike und anderen führenden Cloud-Anbietern wie Amazon AWS und Google Cloud zusammen, um den Wiederherstellungsprozess zu beschleunigen. Trotzdem wird erwartet, dass die vollständige Behebung des Problems mehrere Wochen in Anspruch nehmen könnte. Gab es ähnliche Vorfälle zuvor? Es wird berichtet, dass es in der Vergangenheit bereits ähnliche Probleme mit CrowdStrike-Updates gab. Im April dieses Jahres soll ein Update zu Abstürzen auf Servern mit Debian und Rocky Linux geführt haben.



Auch in diesen Fällen wurden offenbar Mängel in den Testprozessen von CrowdStrike deutlich. Es wurde kritisiert, dass bestimmte Betriebssystemversionen nicht Teil der Testmatrix waren, was zu Kompatibilitätsproblemen führte. Diese Vorfälle werfen Fragen zur Qualitätssicherung bei CrowdStrike auf. Was sagt CrowdStrike dazu? George Kurtz, CEO von CrowdStrike, hat sich in einem Fernsehinterview zu dem Vorfall geäußert. Er drückte sein tiefes Bedauern über den Vorfall aus und versicherte, dass das Unternehmen mit jedem einzelnen Kunden zusammenarbeite, um die Systeme wieder online zu bringen.



Kurtz deutete an, dass CrowdStrike eine interne Untersuchung zu diesem Vorfall einleiten wird. Allerdings wurden seine Aussagen von einigen IT-Verantwortlichen kritisch aufgenommen, da sie die Schwere des Vorfalls und die zugrundeliegenden Fehler nicht ausreichend adressierten.

Zusammenfassung CrowdStrike identifiziert Bug im "Content Validator" als Ursache für PC-Ausfälle

Am 19. Juli führte fehlerhaftes "IPC-Template" zu massiven Abstürzen

Fehler im Validator blieb monatelang unentdeckt, da frühere Templates funktionierten

CrowdStrike plant, zusätzliche Kontrollen für "Rapid Response Content" einzuführen

Kunden sollen künftig mehr Kontrolle über Updates des Falcon Sensors erhalten

Unternehmen will nun Veröffentlichungsnotizen zu Updates bereitstellen

Vollständige Analyse der Fehlerursachen soll bald veröffentlicht werden

In einem Update seines Remediation Guides hat CrowdStrike in einer sogenannten "Preliminary Post Incident Review" (PIR) erklärt, was das Unternehmen als Ursache für die Auslieferung eines fehlerhaften Updates für seine Sicherheits-Software sieht, durch welches in der letzten Woche massenhaft Windows-PCs nicht mehr hochgefahren werden konnten.In seinem Bericht behauptet CrowdStrike, dass ein sogenannter "Content Validator" versagt hat. Was genau diese Software tut, führte man nicht aus, es ist aber davon auszugehen, dass der Name hier Programm ist und sie eben dazu dient, den Inhalt von bestimmten Dateien, mit denen die für die Erkennung von Viren und anderer Malware verwendeten Sicherheitslösungen aktuell gehalten werden, auf Fehler zu prüfen.Am 19. Juli seien Fehler in einer aktualisierten Fassung eines sogenannten Content-Updates von dem Prüfsystem nicht erkannt worden, was man mit einem "Bug im Content Validator" begründet. Dadurch sei ein "Out-of-Bounds Memory Read" aufgetreten, was wiederum einen Ausnahmefehler zur Folge hatte. Die mit CrowdStrikes Software geschützten Windows-PCs seien deshalb dann abgestürzt.CrowdStrike nutzt bei seiner Falcon Sensor genannten Sicherheitslösung sogenannten "Sensor Content" (Sensorinhalte), mit dem die Fähigkeiten der Software festgelegt werden. Um schnell auf bestimmte Bedrohungen zu reagieren und Informationen dazu zu sammeln, wird die Software mithilfe von sogenannten "Rapid Response"-Inhalten aktualisiert.Die "Sensorinhalte" nutzen verschiedene Vorlagentypen (Template Types), also Code, bei dem vordefinierte Felder von den Entwicklern genutzt werden, um sie in den Rapid Response-Inhalten zu verwenden. Die letztgenannten Inhalte werden dann Form von sogenannten "Vorlageninstanzen" ausgeliefert, welche beider Sensor-Software bestimmte Verhaltensweisen definieren, um so Bedrohungen zu beobachten, zu erkennen oder ihnen vorzubeugen.Seit Februar 2024 nutze CrowdStrike jetzt einen neuen Vorlagentyp namens "InterProcessCommunicaton" (IPC), mit dem man neue Angriffstechniken erkennen will. Seit März wird dieser neue Vorlagentyp jetzt laut dem Unternehmen im produktiven Kontext verwendet, wobei im April an zwei Daten gleich drei neue "IPC-Templates" an die mit dem Falcon Sensor ausgestatteten Systeme ausgeliefert wurden. Damals kam es zwar nicht zu massenhaften Abstürzen, im Fall einiger Linux-Systeme zeichneten sich aber erste Probleme ab.Am 19. Juli 2024, dem Tag des gigantischen Ausfalls, führte CrowdStrike dann zwei weitere Instanzen seiner sogenannten IPC-Templates für die mit Falcon Sensor ausgerüsteten Systeme ein, die als Teil des täglich erfolgenden Updates für die Software des Unternehmens ausgeliefert wurden. In einem der beiden IPC-Templates seien aber "problematische Content-Daten" enthalten gewesen, die von dem oben beschriebenen "Content Validator" nicht als problembehaftet identifiziert wurden. So landete der fehlerhafte Code "in Production".Der Fehler in CrowdStrikes Content Validator blieb offenbar über Monate unentdeckt, weil die vor dem 19. Juli ausgelieferten anderen IPC-Templates keine Probleme zur Folge hatten. Man ging deshalb wohl davon aus, dass auch die jüngsten neuen Versionen fehlerfrei sein würden. Bald soll nach Abschluss der weiter laufenden Untersuchungen eine vollständige Analyse der genauen Gründe für die Fehler und deren Folgen veröffentlicht werden, hieß es weiter.Künftig will CrowdStrike nun zusätzliche Kontrollen bei der Auslieferung seines "Rapid Response Content" einführen und die Releases staffeln. Außerdem sollen die Kunden mehr Kontrolle darüber erhalten, wann die Aktualisierung ihrer Installationen von Falcon Sensor erfolgen soll. Außerdem will man, anders als bisher, mit der Bereitstellung von Veröffentlichungsnotizen beginnen.