Eine falsche Eingabe während Debugging-Arbeiten des S3-Rechnungssystems soll Auslöser des Ausfalls bei Amazons Simple Storage Services Anfang März gewesen sein.

Amazon hat sich zu den Störungen der Web-Dienste um Amazon S3 geäußert, zu denen es Anfang März in der AWS-Region in Northern Virgina (US-EAST-1) kam. Sie machten sich unter anderem in Problemen mit Angeboten wie Snapchat oder Medium bemerkbar.

Laut Amazon war die Störung Folge von Arbeiten am Rechnungsstellungssystem des Simple Storage Service. Im Rahmen dieser wollte eines der Teammitglieder wohl ein paar Server des S3-Subsystems entfernen, auf welches der Rechnungsstellungsprozess zugreift. Zwar gibt es dafür in einem der verwendeten Playbooks einen Befehl, allerdings gab er einender Parameter falsch ein und entfernte damit mehr Server als geplant.

Der Wegfall dieser Server wirkte sich auf das Index- und das Placement-Untersystem aus, die für die Verarbeitung von GET-, LIST-, PUT- und DELETE-Anfragen beziehungsweise das Allozieren von Speicherplatz nötig sind. Die betreffenden Server mussten neu gestartet werden und während dieser Zeit konnte S3 keine Service-Anfragen bearbeiten.

Langwierige Sicherheitstests

Zwar sind die Untersysteme laut Amazon so aufgebaut, dass Nutzer von Ausfällen wenig bis nicht beeinträchtigt werden. Allerdings waren beide Untersysteme in den großen AWS-Regionen seit längerer Zeit nicht neu gestartet worden und die nötigen Sicherheitstests dauerten durch das Wachstum in den letzten Jahren länger als erwartet.

Da die Adminstrationskonsole des Service Health Dashboards ebenfalls von S3 abhängig war, konnte der aktuelle Status der verschiedenen Dienste dort während der Störung nicht angezeigt werden, weshalb alle Informationen über Twitter und Banner-Texte laufen mussten. Damit das in Zukunft nicht mehr passiert, hat das Team die Konsole derart geändert, dass sie über mehrere AWS-Regionen hinweg läuft.

Verbesserungen für die Zukunft

Die Entwickler haben das Tool zum Entfernen der Server so angepasst, dass es nicht ohne weiteres möglich ist, schnell derartige Mengen zu entfernen. Neue Schutzmaßnahmen sollen dafür sorgen, dass immer genug Kapazitäten zur Verfügung stehen um die Subsysteme am Laufen zu halten, damit zukünftige Falscheingaben keinen ähnlichen Effekt haben. Außerdem prüft das Team weitere Tools aus dem Betrieb, um sicherzustellen, dass alle mit entsprechenden Schutzmechanismen ausgestattet sind.

Weitere Schritte sollen die Wiederbereitschaftszeit der wichtigen Subsysteme optimieren. Einer davon ist das Teilen von Diensten in kleinere Zellen, die sich schneller prüfen lassen. Zwar hat das Team bereits große Teile überarbeitet, da die Zeit, bis das Index-Subsystem wieder verfügbar war, aber so lang gedauert hat, zieht es die für dieses Jahr geplanten Partitionierungsarbeiten vor.

Das Unternehmen entschuldigte sich bei seinen Nutzern für den Vorfall und versprach, alles dafür zu tun, um aus den Vorfällen zu lernen und die Verfügbarkeit weiter zu verbessern. (jul)