Microsoft-Kunden brauchten Anfang dieses Jahres einige Geduld. Am 29. Januar kam es zu einem großflächigen Ausfall der Microsoft Cloud (Microsoft 365), in dessen Folge verschiedene Azure-Dienste nicht mehr erreichbar waren. Am 30. Januar traf es dann Kunden im Westen der USA, wobei die Auswirkungen auch in Europa spürbar waren. Der letzte Ausfall am 1. Februar betraf das Azure Active Directory.

Wartungsarbeiten und Software-Updates schiefgelaufen

Im Azure Status-Portal hat Microsoft nun erste Analysen zum Grund der Ausfälle veröffentlicht. Die zeitweiligen Netzwerk-Timeouts, die US-Kunden diverser Azure-Dienste am 30. Januar im Westen der USA trafen, ging auf das Konto einer Routinewartung im Netzwerk zurück. Nach dem "Wartungseinsatz" gingen einige Netzwerkkomponenten in die Knie. Das führte zu intermittierenden Problemen wegen Timeouts bei den Azure-Diensten.

Auch für die Ausfälle der Microsoft-Cloud-Dienste (Office365, Azure Active Directory, Teams, OneDrive etc.) seit dem 29. Januar liegt eine aufschlussreiche Erklärung vor. Ein global operierender, externer DNS-Provider führte ein Software-Update auf seinen Servern für die DNS-Auflösung durch. In Folge kam es zu einer Datenbeschädigung auf den primären DNS-Servern, die sich auch auf die sekundären Server und damit auf den Netzwerkverkehr auswirkte.

Die DNS-Dienste wurden von Microsoft nach dem Auftreten der Störung an einen alternativen DNS-Anbieter umgeleitet, was das Problem entschärfte. Während Azure Active Directory (AAD) zwar mehrere DNS-Provider verwendet, war aber ein manueller Eingriff erforderlich, um einen Teil des AAD-Verkehrs an einen sekundären DNS-Provider weiterzuleiten.

Azure Active Directory über externen Provider

Die Folgen dieses DNS-Ausfalls waren recht tiefgreifend. Microsoft nutzt zwar nur für eine Teilmenge seiner Azure-Dienste (u.a. Azure Active Directory) diesen externen DNS-Anbieter. Trotzdem hatte dies Auswirkungen, auch auf nachgelagerte Dienste. So waren zwar Azure-Dienste, die Azure DNS nutzen, nicht von diesem Ausfall des externen DNS-Providers betroffen. Kunden konnten trotzdem teilweise nicht auf diese Dienste zugreifen, da die Authentifizierung über Azure Active Directory über den externen DNS-Provider lief und daher nicht möglich war.

Dies betraf zeitweise das Microsoft Azure Portal, den Azure Data Lake Store, Azure Data Lake Analytics, Application Insights, Azure Log Analytics, Azure DevOps, Azure Resource Graph, Azure Container Registries und Azure Machine Learning. Während des Vorfalls wurden einige Azure-SQL-Datenbanken versehentlich automatisch gelöscht. Microsoft gibt an, dass das Azure-SQL-Team die Datenbanken inzwischen restauriert habe.

Selbst der am 31. Januar weltweit für viele Nutzer nicht erreichbare Microsoft-Updatedienst, der vom Defender, dem Microsoft Store und Windows Update verwendet wird, geht mutmaßlich auf einen DNS-Ausfall zurück. Microsoft nennt zwar in seinem Bericht keine Namen, aber im Kontext zum Ausfall des Updatediensts wurde auf diversen Websites Comcast als DNS-Provider genannt. (tiw)