Menü
iX Magazin

Amazon veröffentlicht Obduktionsbericht für seine Europa-Cloud

Von
vorlesen Drucken Kommentare lesen 75 Beiträge

Wie kürzlich angekündigt, hat Amazon jetzt das Obduktionsergebnis ("post mortem") für den Ausfall seiner Europa-Cloud vor einer Woche veröffentlicht. Daraus geht hervor, dass das Unternehmen für den Stromausfall schlecht gerüstet war. Einen Blitz schließt jetzt auch Amazon als Ursache für das Desaster aus.

Die für solche Fälle bereitstehenden Generatoren hätten ihre Phase nicht automatisch synchronisieren können, da eine speicherprogrammierbare Steuerung (SPS) ausgefallen sei. In der Folge seien fast sämtliche EC2-Instanzen und 58 Prozent der EBS-Volumes in der betroffenen Verfügbarkeitszone ohne Stromversorgung gewesen. Die Management-Server hätten jedoch weiterhin Anfragen für diese Zone akzeptiert und dorthin geschickt, statt sie sofort abzuweisen.

Rund eine Stunde nach dem Stromausfall sei es gelungen, durch manuelle Synchronisierung die Generatoren in Gang zu bringen. Dadurch seien "viele" EC2-Instanzen und EBS-Volumes wieder mit Strom versorgt worden – der größte Teil der Netzwerkausrüstung jedoch nicht, sodass die Cloud-Dienste weiterhin vom Internet abgehängt waren. Erst drei Stunden nach dem Stromausfall sei die Verfügbarkeitszone wieder erreichbar gewesen. Weiter erläutert Amazon ausführlich die Folgen für EBS und den Datenbankdienst RDS. So habe man unter anderem in einigen Fällen die Konsistenz von EBS-Volumes nicht mehr ermitteln können. Für sie mussten Recovery-Snapshots erstellt werden, was lange gedauert habe.

Unabhängig von dem Stromausfall sei ein Fehler in der für die Verwaltung von EBS-Snapshots zuständigen Software zu Tage getreten, ausgelöst durch einen Hardware-Ausfall. Diese Snapshots sind die von Amazon vorgeschlagene Backup-Methode für EBS-Volumes. Als Folge des Bugs wurden vermeintlich nicht mehr referenzierte Blöcke beim Ausdünnen gelöschter Snapshots gelöscht. Tatsächlich benötigten andere Snapshots sie jedoch noch. Amazon hat diese fehlenden zwar durch leere Blöcke ersetzt. Berichte im AWS-Support-Forum deuten jedoch darauf hin, dass die so geflickten Snapshots nicht benutzbar sind.

Aus dem Fiasko hat Amazon unter anderem gelernt, dass es mehrere und besser isolierte SPS benötigt. Nicht verfügbare Management-Rechner sollen in Zukunft schnell aus der Lastverteilung herausgenommen werden. Außerdem habe man in den vergangenen Monaten bereits Teile des EC2-Controlpanels so verändert, dass Störungen einer Verfügbarkeitszone andere Zonen nicht beeinträchtigen. Allerdings werde es noch mehrere Monate dauern, bis alle Änderungen umgesetzt und "sorgfältig getestet" seien. Das Wiederherstellen von EBS-Volumes soll in Zukunft schneller erfolgen. Außerdem soll es ein Alarmsystem geben, dass bei "ungewöhnlichen Situationen während der Snapshot-Bereinigung" anspringt.

Seine europäischen Kunden will das Unternehmen mit einer Gutschrift entschädigen, unabhängig davon, ob sie von dem Ausfall betroffen waren. Wer zur fraglichen Zeit ein EBS-Volume oder eine RDS-Intanz betrieben hat, darf 10 Tage lang 100 Prozent seiner EBS-, EC2- und RDS-Dienste kostenlos nutzen. Zusätzlich bekommen die vom EBS-Fehler Betroffenen dreißig Tage EBS-Nutzung geschenkt. Mit der garantierten Verfügbarkeit von 99,95 Prozent will das Unternehmen den Zwischenfall jedoch nicht in Zusammenhang bringen: Dabei gehe es nur um den Ausfall von mindestens zwei Availability Zones, und diesmal habe es nur eine getroffen. (ck)