Microsofts massiver Ausfall in 10 Punkten erklärt: Blue Screen of Death, Azure, CrowdStrike

Ein massiver IT-Ausfall hat Unternehmen und kritische Dienste weltweit am 19.07.2024 ins Chaos gestürzt. Die Dienste von Microsoft Azure und Microsoft 365 waren von weitreichenden Unterbrechungen betroffen. Die Hauptursache? Ein fehlerhaftes Update des Cybersecurity-Anbieters CrowdStrike, von dem schätzungsweise über 8,5 Millionen Windows-PCs und -Server in verschiedenen Branchen betroffen waren.

Was ist die Ursache für diese globale IT-Krise?

Der Hauptauslöser war ein fehlerhaftes Update von CrowdStrike, einem großen Anbieter von Cybersicherheitslösungen.

CrowdStrike bietet eine Reihe von Dienstleistungen an, darunter Endpunktsicherheit, Threat Intelligence und die Abwehr von Cyberangriffen. Viele Unternehmen auf der ganzen Welt verlassen sich auf CrowdStrike, um ihre Windows-PCs und -Server vor Cyberbedrohungen zu schützen.
Dieses Update von CrowdStrike führte dazu, dass Windows-Rechner den gefürchteten "Blue Screen of Death" (BSOD) aufwiesen und nicht mehr richtig hochfahren konnten. Das Problem betrifft vor allem Windows-PCs und -Server, während Mac- und Linux-Systeme davon nicht betroffen sind.

Windows-Systeme haben den BSOD

Der Blue Screen of Death (BSOD) ist eine kritische Fehlermeldung, die auf Windows-Systemen auftaucht, wenn sie auf eine ein schwerwiegendes Problem stoßen, das den normalen Betrieb zum Erliegen bringt. In diesem Fall waren die betroffenen Rechner in einer Wiederherstellungs-Bootschleife gefangen und konnten nicht mehr wie gewohnt gestartet werden.

Der Dominoeffekt auf Microsoft-Systemen

Das fehlerhafte CrowdStrike-Update wirkte wie eine Abrissbirne und führte dazu, dass Windows-Rechner abstürzten und in einer Bootschleife feststeckten, so dass sie praktisch unbrauchbar wurden. Dies betraf nicht nur einzelne PCs, sondern auch Windows Server, auf denen geschäftskritische Anwendungen liefen.
Der gleichzeitige Ausfall von Millionen von Windows-Systemen löste einen Dominoeffekt aus und belastete die Rechenzentren und die Netzwerkinfrastruktur von Microsoft außerordentlich. Der plötzliche Ausfall zahlloser Endgeräte und die überwältigende Flut von Wiederverbindungsversuchen haben die Grundlage der Cloud-Dienste von Microsoft Azure schwer beeinträchtigt.

Die Krise wurde durch die Authentifizierungs- und Identitätsmanagementsysteme von Microsoft noch verschlimmert, da Millionen von Geräten und Nutzern gleichzeitig versuchten, sich wieder zu verbinden und ihre Identitäten zu verifizieren. Diese Überlastung der Systeme hat eine Kettenreaktion von Ausfällen ausgelöst, die zu weitreichenden Störungen in Azure, Microsoft 365 und verschiedenen anderen Cloud-Diensten geführt hat.

Auch Microsofts 365-Dienst fällt aus

In einem separaten, aber ebenso störenden Vorfall wurde Microsoft 365, die Produktivitätssuite des Unternehmens, aufgrund einer Konfigurationsänderung im Azure-Backend lahmgelegt, was die Situation für viele Unternehmen weiter erschwerte. Dienste wie Outlook, Teams, SharePoint und OneDrive sind von weitreichenden Unterbrechungen betroffen.

Wie weitreichend war der Ausfall?

Der Ausfall hat ein weites Netz ausgeworfen, das Unternehmen und Dienste auf der ganzen Welt erfasst hat. Fluggesellschaften, Banken, Rundfunkanstalten und sogar Notdienste haben von erheblichen Störungen berichtet.

Gravierende Auswirkungen wurden gemeldet wie:
Flugausfälle und Chaos an Flughäfen auf mehreren Kontinenten auch in Berlin, Wien und vielen anderen Städten
Bankdienstleistungen wurden in Aufruhr versetzt
Viele TV-Sender mussten den Sendebetrieb einstellen
Notrufdienste in mehreren Ländern waren beeinträchtigt
Die Börse hatte Schwierigkeiten, ihren Betrieb aufrechtzuerhalten

Die offizielle Antwort von Microsoft

Microsoft bestätigte das Problem und brachte es offiziell mit dem fehlerhaften Update von CrowdStrike in Verbindung, schätzungsweise waren 8,5 Millionen Windows-Geräte weltweit betroffen. Das Unternehmen bestätigte außerdem die Probleme, die seine 365-Dienste plagten, und verwies auf eine Konfigurationsänderung im Azure-Backend als Schuldigen.

Kein Cyberangriff

CrowdStrike-CEO George Kurtz hat bestätigt, dass es sich nicht um einen Sicherheitsvorfall oder einen Cyberangriff handelt. Das Unternehmen hat das Problem identifiziert, es isoliert und eine Lösung bereitgestellt. Auf den betroffenen Rechnern muss jedoch manuell eingegriffen werden, um das Problem zu beheben.

Dies ist das zweite Mal, dass der CEO von CrowdStrike, George Kurtz, im Zentrum eines globalen Tech-Versagens steht.

Am 21. April 2010 veröffentlichte das Antiviren-Unternehmen McAfee ein Update für seine Software, die von Unternehmenskunden genutzt wird. Das Update löschte eine wichtige Windows-Datei, wodurch Millionen von Computern auf der ganzen Welt abstürzten und immer wieder neu gestartet werden mussten. Ähnlich wie der CrowdStrike-Fehler musste auch das McAfee-Problem manuell behoben werden.

Kurtz war zu dieser Zeit Chief Technology Officer bei McAfee. Einige Monate später übernahm Intel McAfee. Und einige Monate danach verließ Kurtz das Unternehmen. Er gründete CrowdStrike im Jahr 2012 und ist seitdem CEO des Unternehmens.

Laufende Wiederherstellungsmaßnahmen

CrowdStrike hat zwar eine Lösung für das Problem gefunden, aber die Wiederherstellung wird voraussichtlich schrittweise erfolgen. Betroffene Systeme müssen einzeln wieder online gebracht werden.

Die Behebung des BSOD-Problems im Zusammenhang mit CrowdStrike erfordert meist manuelle Eingriffe. IT-Administratoren müssen die betroffenen Windows-Rechner in den abgesicherten Modus booten und den fehlerhaften Treiber manuell entfernen - ein Prozess, der bei großflächigen Installationen viel Zeit in Anspruch nehmen kann. Die von Microsoft und CrowdStrike empfohlene Lösung ist besonders für Cloud-basierte Server und Laptops, die aus der Ferne eingesetzt werden, eine Herausforderung. Der weit verbreitete Ausfall bedeutet, dass es selbst nach der Wiederherstellung der Systeme noch zu Nachwirkungen kommen kann, wenn Unternehmen Arbeitsrückstände aufholen und Arbeitsabläufe neu planen.

Lösung

Für diejenigen, die einen Windows-Rechner haben, der dem verpfuschten Update zum Opfer gefallen ist (das jetzt zurückgenommen wurde), hat Crowdstrike die folgenden Schritte beschrieben, die Systemadministratoren durchführen müssen, um das System wieder zum Laufen zu bringen:

  • Starte Windows im abgesicherten Modus oder in der Windows-Wiederherstellungsumgebung.
  • Navigiere zum Verzeichnis C:\Windows\System32\drivers\CrowdStrike.
  • Finde die Datei mit dem Namen 'C-00000291*.sys' und lösche sie.
  • Boote den Rechner normal.

Linux-, Mac und alte Systeme retten deutsche Behörden und Unternehmen

Mac- und Linux-Rechner, auf denen dieselbe Cybersicherheitssoftware läuft, wurden dieses mal verschont, generell gelten Mac- und Linux-Systeme stabiler als Windows-Systeme, können aber ebenso abstürzen. Externe Programme sollten in der Regel nie soviel Einfluss auf den Kern des Systems haben, das sie zum Absturz eines Systems führen können.

Der Einsatz stark veralteter Microsoft-Produkte hat vermutlich einige Behörden und Unternehmen wie die Deutsche Bahn vor dem weltweiten IT-Ausfall am vergangenen Freitag bewahrt. So fiel schon am Freitag auf, dass etwa die amerikanische Fluggesellschaft Southwest Airlines im Gegensatz zu vielen ihrer Konkurrenten, deren Maschinen am Boden bleiben mussten, munter weiter flog. Laut Digitaltrends soll das vor allem daran gelegen haben, dass große Teile der IT-Infrastruktur des Unternehmens immer noch Windows 3.1 und Windows 95 verwenden. Frei nach dem Motto "Kein Update, kein Problem" erwies sich hierbei als unerwarteter Sicherheitsvorteil. Solch alten Systeme werden nicht mehr mit Updates von Crowdstrike versorgt.

Auch die Deutsche Bahn hat den Tag ohne IT-Ausfälle überstanden. Möglicherweise aus ähnlichen Gründen wie Southwest Airlines und die Behörden des Saarlandes. Noch im Januar hatte das Unternehmen über Linkedin einen Administrator für Windows 3.11 gesucht. Die mittlerweile 30 Jahre alte Software soll auf den Systemen der ICE-Hochgeschwindigkeitszüge laufen.

Der Einsatz veralteter Soft- und Hardware ist allerdings nichts Ungewöhnliches. So verkündete die japanische Regierung kürzlich, sie habe endlich "den Krieg gegen die Disketten gewonnen". Auch die Deutsche Marine sucht derzeit nach Möglichkeiten, die alten Datenträger, die auch dort noch im Einsatz sind, zu ersetzen.

Auch wenn im Falle des Crowdstrike-Ausfalls veraltete Software die betroffenen Systeme vor Bluescreens und Bootloops "geschützt" hat, ist der Einsatz eines nicht mehr unterstützten Windows-Systems nicht zu empfehlen.

Fazit

Wie man sieht, kann ein einziges Unternehmen die Welt in Aufruhr versetzen und für mächtig Chaos sorgen. Dabei muss es sich nicht einmal um weltweit bekannte Unternehmen handeln, denn Crowdstrike war vorher sicher den wenigsten ein Begriff und wird es auch nachher nicht sein. Die Tatsache, dass sich Unternehmen immer abhängiger von der Cloud und kompletten Produkten einer einzigen Firma machen, ist mehr als bedenklich. Ich bin ohnehin kein Freund davon, alle seine Dienste in die Cloud auszulagern und nur auf einen Anbieter zu setzen und rate davon auch immer ab, wenn möglich. Hier sollte man entweder auf eine Mischlösung setzen, wo man immer noch die Möglichkeit hat das wichtigste lokal laufen zu lassen und zusätzlich die Cloud zu nutzen. Wenn eines der Systeme ausfällt, sollten zumindest die kritischen Systeme immer auf dem einen oder anderen System verfügbar sein.

In dem Unternehmen, in dem ich jetzt tätig bin, ist das auch ein Riesenproblem. Man hat sich zu sehr auf ein System verlassen, was dazu geführt hat, dass über 40.000 Mitarbeiter einen halben Tag nicht richtig arbeiten konnten. Mitarbeiter, die mit einem iPad oder einem Linux-Terminal arbeiten, waren fast gar nicht betroffen. Es dauerte eine Weile, bis notdürftig lokale Benutzerkonten auf den Unix/Linux Systemen für die Mitarbeiter eingerichtet wurden, so dass die Terminal Clients statt auf Windows nun direkt auf die Unix Systeme zugreifen konnten und ebenso viele ihre Arbeit auch ohne eine schöne Windows Oberfläche erledigen konnten.

Wenn wir also etwas daraus gelernt haben, sollten wir möglichst immer zwei unabhängige Möglichkeiten haben, unsere Arbeit zu erledigen. Eine Kombination aus Cloud und lokalen Accounts, sowie eine Mischung aus Windows, Linux oder macOS ist hier ideal, da man bei Ausfall eines Systems mit den anderen weiterarbeiten kann. Insbesondere bei Unternehmen mit systemrelevanten Aufgaben wie Behörden, Flughäfen, Notfalldiensten wie Rettung, Polizei, Feuerwehr und Krankenhäusern sollte es immer unterschiedliche Systeme geben.

Quelle

BSI

Heise

DER NEWSLETTER FÜR IT-BEGEISTERTE

Trag dich ein für den Newsletter und bleib auf dem Laufenden über alle neuesten Aktionen und IT-News!

Wir senden keinen Spam! Erfahre mehr in unserer Datenschutzerklärung.