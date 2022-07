So heiß war es in England noch nie: In Coningsby wurden am Dienstag 40,3 Grad Celsius im Schatten gemessen. Der Flughafen Luton musste den Betrieb pausieren, weil die Start- und Landebahn dahinschmolz; auch bei Zügen, Autobahnen und Stromversorgung kam es zu hitzebedingten Störungen. Mit so hohen Temperaturen haben Designer von Rechenzentren offensichtlich nicht gerechnet. Weil einige große Kühlanlagen überfordert waren, kam es sowohl bei der Google Cloud als auch bei Oracle zu Ausfällen.

Bei Oracle waren Netzverbindungen, sowie die Dienste Block Volumes, Compute und Object Storage betroffen, bei Google waren es Autoscaling, Persistent Disk sowie die Google Computing Engine (GCE) samt den darauf laufenden virtuellen Rechnern (VM). Betroffen waren beispielsweise Kubernetes-Instanzen, SQL-Datenbanken, BigQuery-Warehouses und natürlich zahlreiche Webseiten.

Oracle glaubt an "jahreszeituntypische Temperaturen"

"Als Ergebnis jahreszeituntypischer Temperaturen in der Region hat ein Teil der Kühlanlagen im Datenzentrum UK South (London) ein Problem erfahren", musste Oracle am Dienstag gestehen, "Das hat dazu geführt, dass ein Teil unserer Serviceinfrastruktur abgeschaltet werden musste, um unkontrolliertem Hardwareversagen vorzubeugen. Dieser Schritt wurde in der Absicht gesetzt, das Potenzial langfristiger Auswirkungen auf unsere Kunden einzuschränken."

Zu Deutsch: Diese Affenhitze packt unsere Klimaanlage samt redundanter Kühlung nicht. Wir haben Router und Rechner plötzlich abschalten müssen, sonst brennen die uns ab, und die Kundendaten gehen flöten. Für welche andere Jahreszeit die Temperaturen in England typisch gewesen wären, und ob die Klimaanlagen dann durchgehalten hätten, hat Oracle nicht mitgeteilt.

Die Notabschaltungen Londoner Oracle-Server begannen am Dienstag um 13:10 Uhr Weltzeit. In einem zweiten Schritt, so informierte Oracle, wurden "als vorbeugende Maßnahme" weitere Rechner manuell heruntergefahren, "um weiteres Hardwareversagen zu vermeiden". Außerdem wurden "relevante Service Teams aktiviert um die betroffenen Infrastruktur in einen gesunden Zustand zu bringen". Will sagen: Die Klimaanlage ist kaputt. Für einen Teil der Hardware kamen die Notabschaltungen zu spät. Durch bewusstes Abschalten retten wir den Rest.

Erst sieben Stunden nach den Notabschaltungen erreichten die Temperaturen im Datenzentrum wieder "brauchbare Temperaturen", nach neun Stunden war ein Teil der kaputten Kühlanlagen repariert, nach elf Stunden alle. Nach 20 Stunden harter Arbeit konnte Oracle melden, dass "jetzt alle Dienste und ihre Ressourcen wiederhergestellt wurden".

Googles Klimaanlage scheitert ebenfalls

Bei Google begannen die Ausfälle etwa zwei Stunden nach Oracle, also um 15:10 Weltzeit. "Es gibt einen kühlungsbezogenen Ausfall in einem unserer Gebäude, in dem die Zone europe-west2-a der Region europe-west2 gehostet wird. Das hat einen Teilausfall in dieser Zone verursacht, was zu Abschaltungen virtueller Maschinen und einem Verlust der Rechner für einen kleinen Teil unserer Kunden geführt hat", berichtete der Datenkonzern. Weitere Kunden verloren die Redundanz ihrer Persistent Disks. Auch Googles Kühlanlage war ausgefallen, auch dieser Konzern musste weitere Rechner vorbeugend herunterfahren.

Nach neun Stunden konnte Google Entwarnung geben für seine Cloud-Dienste in London, nur ein kleiner Teil der Persistent Disks leide noch ein I/O-Fehlern. Die Lehre aus der Misere ist, dass Resilienz in Zeiten des Klimawandels nicht nur Schutz vor Wasserfluten, Orkanen und Feuersbrünsten sowie Hilfe für Klimaflüchtlinge erfordert. Ebenso müssen Kühleinrichtungen stärker dimensioniert sowie Hardware hitzebeständiger konstruiert werden. Das erhöht den Energieverbrauch der Rechenzentren, so wir nicht deutlich datensparsamer werden.

