KFC und Wienerwald

Nachlese zur International Supercomputing Conference ISC’14

Trends & News | News

Rechner in Öl, heißwassergekühlte Systeme, ARM64 und Power8, der umstrittene Quantenrechner D-Wave, Energieeffizienz und Green500-Liste sowie erste Ergebnisse mit dem neuen Benchmark für Supercomputer – es gab viele Highlights auf der ISC’14 in Leipzig.

Nein, Hähnchen werden in den „Fritteusen“ nicht gebacken, in deren Öl neuerdings die Rechnersysteme eingelegt werden und wo sie sanft und ohne Lüfter vor sich hin brutzeln, weder in den Brätereien in Tokio noch in Wien. Das KFC des Tsubame der Universität Tokio bezieht sich nämlich nicht auf Kentucky Fried Chicken – obwohl Tsubame (Schwalbe) ja immerhin ein Vogel ist –, KFC steht vielmehr für „Kepler Fluid Cooling“. Prof. Sakoshi Matsuoka berichtete auf der ISC über Erfahrungen mit dem in Öl eingetauchten Testsystem, das weiterhin mit 4389,32 MFlops/W klar die neue Green500-Liste anführt.

Dahinter folgt ein luftgekühltes Dell-System der Universität Cambridge mit beeindruckenden 3631,70 MFlops/W. Alle ersten 15 Plätze der Green500-Liste belegen übrigens Systeme mit Intel Xeon und Nvidia Tesla K20/x, ein grandioser Erfolg für die Energieeffizienz von Nvidias GPUs zumindest beim Linpack-Benchmark (Xeons haben ja sowieso so gut wie alle …). Gemessen werden muss die Energieaufnahme der Systeme bislang allerdings lediglich nach Level 1 gemäß der Empfehlungen des EEHPCWG, der Energy Efficient High Performance Computing Working Group.

Bei diesem Level 1 werden nur die reinen Rechenknoten (ohne Storage etc.) berücksichtigt. Außerdem muss nur für eine kurze Zeit in der Mitte des Linpack-Laufs, mit der groben Auflösung von einem Sample pro Sekunde und nur auf einem Teilbereich des Clusters, gemessen werden, der Rest wird hochgerechnet. Etwas anspruchsvoller sind Energie-Messungen gemäß Level 2, aber richtig präzise wird es erst mit Level 3, mit Messungen über die gesamte Laufzeit, über das komplette, am Benchmark teilnehmende System und hochauflösend mit 1000 Samples/s. Derzeit ist weltweit aber nur eine Handvoll Rechenzentren zu solch einem aufwendigen Monitoring in der Lage, darunter das schweizerische CSCS in Lugano (Piz Daint mit K20x auf Platz 5 der Green500) und das Leibniz-Rechenzentrum in München (SuperMUC, da ohne Rechenbeschleuniger nur auf Platz 121). Ihre ausführlichen Level-3-Reports kann man sich von der Green500-Website herunterladen.

Von Ölgemälden …

Mit ganz vorne in den Effizienzkampf will jetzt auch die Technische Universität Wien in Zusammenarbeit mit mehreren weiteren österreichischen Unis eingreifen und dazu ebenfalls ein großes Clustersystem komplett in Öl tauchen. Das soll im Juli seinen Testbetrieb aufnehmen und dabei bis zu 15 Prozent effizienter sein als wasser- oder luftgekühlte Lösungen. Die Ausschreibung für den Vienna Scientific Cluster (VSC-3) wurde im „Jänner“ an die niederländische Firma Clustervision vergeben, die Systeme mit speziell aufbereiteten Supermicro-Boards und mit „Liquid Submersion Cooling“ von Green Revolution Cooling anbietet. 1750 Knoten (mit Erweiterung gar 2020) mit insgesamt immerhin 28 000 Xeon-E5-2650v2-Kernen und verknüpft mit Intel-QDR-InfiniBand sollen hier im Öl baden und das System auf nahezu 600 TFlops Linpack-Leistung hieven – und das allein mit der Xeon-Leistung ohne zusätzliche Rechenbeschleuniger. Über Pumpen und Wärmetauscher wird die Abwärme an Kühlwasser abgegeben, das im Winter mit 45 °C die Universitätsräume heizen soll.

Öl ist allerdings ein nicht ganz unkompliziertes Kühlmedium. Es kriecht an allem hoch, was sich bietet, und so klagten die Tsubame-KFC-Mitarbeiter nicht gerade wenig über eine doch sehr schmierige Umgebung. Normale Kabelisolierungen verspröden zudem schnell im Öl und müssen durch Silikon ersetzt werden. Wie sich Boards, Kondensatoren und die anderen Bauelemente im Öl über längere Zeit so mit Wartung zwischendurch schlagen, muss sich erst noch zeigen. Unis wie die TU Wien haben jedoch die nötige Neugierde, und wie Prof. Dr. Störi vom Institut für angewandte Physik anmerkte, fühlen sie sich zudem verpflichtet, auch einmal einen Schritt in technologisches Neuland zu wagen, wenn dies vernünftig erscheint. Mit kleineren ölgekühlten Systemen habe man dort immerhin schon über zwei Jahre Erfahrung.

Das gut wärmeleitende, nicht brennbare spezielle Mineralöl ist allerdings nicht ganz billig – das 3M Novec 649 zum Beispiel kostet in kleinen Mengen 45 Euro pro Liter – und in die 21 CarnotJet-Container des VSC 3 passen immerhin 35 Tonnen rein – da spürt man einen Ölwechsel deutlich im Portemonnaie.

… und Aquarellen

Parallel zu den Ölgemälden gehen immer mehr Hersteller zu heißen Aquarellen, also zu warmwassergekühlten Systemen über. IBM gehört zu den Vorreitern und präsentierte die nächste Generation für den SuperMUC mit Haswell EP. Heißwasserkühlung klingt zunächst einmal paradox. Aber wenn das gesamte System mit höherer Temperatur fahren kann, ist der Unterschied zur kühlenden Umgebung größer und die Effizienz höher. Hinzu kommt, dass heißes Wasser besser die Wärme leitet als kaltes Wasser (0,598 W/mK bei 20°, 0,637 W/mK bei 45°)

Die Hauptarbeit der System-X-Abteilung bestand aber zunächst einmal darin, die Community auf den Umstieg auf Lenovo vorzubereiten. General Manager Adalio Sanchez reist zu diesem Zwecke nach eigenen Worten seit Monaten um die Welt und hat schon mit insgesamt über 17 000 Kunden gesprochen.

Konkurrent Bull hat derweil schon mehrere große, heißwassergekühlte Design-Wins aufzuweisen, nach der TU Dresden auch das Deutsche Klimarechenzentrum in Hamburg. Das Zentrum für Informationsdienste und Hochleistungsrechnern (ZIH) der TU Dresden muss allerdings noch einige Wochen Verzögerung im Betriebsablauf in Kauf nehmen, nicht nur wegen der Probleme, die Intel noch mit dem Haswell-EP hat, sondern auch wegen eines Brandes des im Bau befindlichen Rechnergebäudes für den geplanten Petaflops-Rechner HRSK-II.

Mit 3 Petaflop Leistung im Endausbau 2016 ist der HLRE-3 der Klimaforscher noch ein bisschen leistungsfähiger. Seinen Bullx-B700-DLC-Blades kann man 35° heißes Wasser zur Kühlung anliefern. Das französische Systemhaus Bull dürfte inzwischen möglicherweise davon profitieren, dass hier und da Vorbehalte gegen einen chinesischen Hersteller bei sicherheitssensibler Hardware existieren.

Mit im Whirl-Pool ist jetzt auch Hewlett-Packard, betreibt der amerikanische Konzern doch schon seit Längerem einen heißwassergekühlten großen Experimentierrechner in der Nähe von Denver. Auf der ISC’14 hat man nun mit einem feierlichen Raketen-Countdown die kürzlich in Las Vegas vorgestellten neuen warmwassergekühlten Apollo-8000-Systeme von der Rampe fliegen lassen – dass darin bereits Haswell-EP-Prozessoren mit DDR4 stecken, hat HP offiziell jedoch noch nicht verraten. Das Besondere an den Apollos ist ihr zweistufiges Kühlsystem; innen bei den Boards hermetisch abgeschlossen mit Heat Pipes („dry disconnect“) und außen durch dicke Metallblöcke getrennt die Schächte für den Heißwasserkreislauf.

Die russische Firma T-Platforms ist auch wieder zurück. Nachdem sie im April 2013 irgendwie auf die schwarze Liste des US-Handelsministeriums geraten war wegen angeblicher Lieferungen an „Schurkenstaaten“ und somit keine Intel-Systeme mehr verkaufen konnte, hatte die Firma erfolgreich Protest eingelegt und wurde Ende letzten Jahres wieder von der diskriminierenden Black List gestrichen. Jetzt trumpfte sie auf der ISC’14 mit Chefarchitekt Andrey Slepuhin und mit dem von ihm entwickelten A-Class-System auf, mit Xeon E5 und Nvidia K40 und mit Heißwasserkühlung. Immerhin 45 Grad heißes Wasser verträgt es am Eingang und liefert unter Volllast 50 Grad am Ausgang. Ein erstes A-Class-System am Forschungsrechenzentrum der Moskauer Lomonosov-Universität (MSU) erreichte mit 320 TFlops Platz 130 in der Top500-Liste, Energie-Angaben gibt es dazu leider nicht.

Auch in Deutschland schlägt sich ein kleineres Systemhaus erfolgreich im Supercomputerbereich, die Chemnitzer Firma Megware, die als eine der ersten überhaupt heißwassergekühlte Systeme in Angebot hatte. 2011 lieferte sie einen dafür ausgelegten AMD-Opteron-Cluster ans Leibniz-Rechenzentrum. Vier Megware-Systeme sind aktuell in der Top500-Liste, als schnellster der Mogon der Universität Mainz mit 181 TFlops auf Platz 220. Mit dabei ist auch der Vorgänger VC-2 des erwähnten österreichischen Ölrechners. Andere Megware-Installationen wie die über 2300 Haswell-E-Knoten samt 460 Geforce-Karten bei den Gravitationswellenforschern in Hannover hätten vielleicht auch die Top500-Liste erreichen können. Die Forscher haben Linpack allerdings nicht gemessen beziehungsweise nicht gemeldet. So ist überhaupt nur ein Haswell-E-System mit Einprozessorknoten in der Liste, eine HP Cluster Platform SL241n mit Gigabit-Ethernet. Das kann die beiden FMA-Pipelines des Haswell aber noch nicht richtig ausschöpfen und kommt so nur auf 51 Prozent Effizienz.

Green500-Dominator Nvidia hatte zwar nichts Neues bei der Hardware zu bieten, konnte aber mit spannenden Infrastrukturmaßnahmen punkten, um mittelfristig Intel in die Zange nehmen zu können: zur Linken mit dem Power8 und zur Rechten mit ARM64. Das gezeigte OpenPower-Board von Tyan war zwar mit Tesla K40 bestückt, der Prozessorsockel blieb allerdings noch leer.

Anders verhielt es sich bei dem X-Gene-Entwicklungssystem von Applied Materials. Hier bewies eine eingesteckte K20-Karte die HPC-Tauglichkeit anhand des neuen Benchmarks HPCG. Die hätte aber auch irgendwo drinstecken können, denn der Benchmark läuft fast allein auf der GPU-Karte und erreicht so auf nahezu beliebigem Terrain, also auch auf ARM64 knapp 16 GFlops, was bei diesem Benchmark ein guter Wert ist. Die K20x im Titan und Piz Daint ist noch ein bisschen fixer und kommt auf 17 GFlops pro GPU, die K40 auf 18 und die K40+ – oops, die ist ja noch gar nicht releast – schafft über 20 GFlops. Die Tesla K40+ fährt einen etwas höheren Takt (875 statt 745 MHz).

Konditionierte Gradienten

Die Schöpfer des neuen Supercomputer-Benchmarks HPCG, Michael Heroux und Jack Dongarra präsentierten die Liste der ersten 15 offiziellen Einreichungen. Der Benchmark, der lineare Gleichungen von großen dünnbesetzten Matrizen mit Hilfe von Iterationen nach der vorkonditionierten Gradientenmethode löst, wurde seit seiner ersten Vorstellung im November 2013 deutlich weiterentwickelt, auch Anregungen von c’t sind dabei eingeflossen. Inzwischen ist er bei Version 2.4 angekommen. Er soll den seit über zwanzig Jahren verwendeten Linpack (HPL) allerdings nicht ablösen, sondern sinnvoll ergänzen. Während Linpack überwiegend die Rechenfähigkeit und das Interconnect stresst, steht bei HPCG stärker die Speicher-Performance im Vordergrund. Die Ergebnisse in Gleitkommaoperationen pro Sekunde (Flops) liegen daher nur im Bereich von 1 bis 5 Prozent der theoretischen Rechenleistung, während Linpack auf über 90 Prozent Effizienz kommen kann.

Eingereicht wurden unter anderem Ergebnisse des Spitzenreiters der Top500-Liste Tianhe 2 mit Xeon Phi (580 TFlops), des japanischen K-Computers mit SPARC64 VIIIfx (427 TFops) und des Titan mit Nvidia K20x mit 322 TFlops. Vom Mira am Argonne National Laboratory mit BlueGen/Q (101 TFlops) gibt es bislang nur Werte ohne Optimierung, sodass er lediglich auf 1,2 Prozent der Linpack-Leistung kommt, wogegen das Riken-Institut in Japan sich schon reichlich viel Mühe gegeben hat und auf 4,1 Prozent der Linpack-Leistung kommt.

Der schnellste x86-Rechner ohne spezielle Rechenbeschleuniger, der SuperMUC am Leibniz-Rechenzentrum in München/Garching, erreichte 83,3 TFlops bei 2,9 Prozent der Linpack-Leistung und konnte in diesem Punkt die mit K20x oder Xeon Phi beschleunigten Systeme mit 1,6 bis 1,8 Prozent weit hinter sich lassen.

Katzenjammer

Etwas besser gekühlt werden als die obigen Systeme, nämlich bis hinunter auf 4 Millikelvin, müssen hingegen die Recheneinheiten des Quantenrechners D-Wave 2. Um die gab es im Vorfeld der ISC reichlich Rauschen im Blätterwald, zeigte doch eine in Science vom ETH-Physiker Matthias Troye und anderen veröffentlichte Studie ein nicht vorhandenes Speedup gegenüber klassischen Designs an. Das Papier war allerdings schon Monate zuvor für jedermann einsehbar auf Arcxiv.org (1401.2910v1.pdf) erschienen und hatte in der Fachwelt für allerhand Diskussionsstoff gesorgt.

Auf der ISC berichteten nun drei Betreiber eines D-Wave 2 aus erster Hand, wie es um dessen Quantenfähigkeit bestellt ist: Dr. Rupak Biswas von der NASA, Hartmut Neven von Google und Federico Spedalieri von der University of Southern California. Alle drei sind sich einig, dass es Aufgabenklassen gibt, für die sich das sehr spezielle D-Wave-Design nicht eignet, aber auch andere, wo man sehr wohl prinzipielle Vorteile ausmachen kann. Der D-Wave-Prozessor Vesuvius, so Spedalieri, ist nach seinen Ergebnissen definitiv konsistent mit einem Quanten-System. Leider kann man es nicht einfach so debuggen und Zustände mittendrin auslesen. Auch Google-Entwickler Neven bescheinigt dem Design im Unterschied zu den auf obiger Studie aufbauenden Veröffentlichungen, dass ein physikalisches Speedup gegenüber klassischen Rechnern bei geeigneter Aufgabenstellung möglich sei. Dr. Biswas ging sogar so weit, dass es ihm egal sei, ob das Ding nun quantenmechanisch funktioniert oder nicht – solange es nur bestimmte Algorithmen wie das Problem des Handlungsreisenden schneller lösen könne als klassische Systeme. Die NASA brauche solche Algorithmen zum Beispiel zum Navigieren von Rovern auf dem Mars.

Typischerweise liefert ein Quantenrechner nur Näherungslösungen für das Minimum einer bestimmten quadratischen Form. Man lässt ihn dann viele tausend Mal die gleiche Aufgabe wiederholen.

Schwieriger noch als das Abbilden von Aufgabenstellungen auf die Quadratic unconstrained binary optimization (QUBO) sei aber das Einbetten in die konkrete Hardware. Beim Vesuvius gäbe es zwar 512 Qubits, von denen in der Regel aber einige nicht funktionieren. Vor allem sind längst nicht alle miteinander verschränkbar, sondern nur in eingeschränktem Rahmen mit den Nachbarn in Zellen à 8. Viele Qubits dienen nur als eine Art Brücke. De facto setzt man mit Graphentheorie und Routing-Software kunstvoll weit weniger logische Qubits aus den vorhandenen physischen zusammen.

Im Moment ist das Quanten-Computing zwar noch recht rudimentär, aber Dr. Biswas zeigte sich im Gespräch mit c’t sehr optimistisch, schon in den nächsten fünf Jahren gute Ergebnisse zu bekommen und in vielleicht zehn Jahren einen breitflächigen Einsatz für spezielle Aufgaben. Auf die meistversprechende Technik wollte er sich aber nicht festlegen, ob nun mit supraleitenden „Transistoren“ (Squids) wie bei D-Wave, auf Silizium, mit Photonen, in Ionen-Fallen oder mit anderen quantenmechanisch interagierenden Ensembles. (as)

South Africa rules

Dass im vorigen Jahr ein Team aus Südafrika die Student Cluster Competition gegen die hochfavorisierten Chinesen gewann, konnte man noch als erfreuliches Zufallsergebnis abtun. Doch dass auch in diesem Jahr die Sieger wieder aus Kapstadt kommen und sich gegen Teams aus Deutschland, China, USA, Brasilien und Großbritannien durchsetzen konnten, das weist auf Systematik hin. Cluster Challenges gehören beim Centre for High Performance Computing nämlich zum Lehrplan der HPC Winter School.

Linpack, OpenFoam, Expresso sind alles klassische Benchmarks der diesjährigen Competition, auf die man sich gut vorbereiten kann. Und dass als Überraschungsaufgabe der neue Supercomputer-Benchmark HPCG ausgewählt wurde, war so überraschend ja nicht. Mit Unterstützung von Nvidia und Tesla-K40-GPUs schaffte es das Team zudem, einen neuen Linpack-Rekord im Rahmen der 3 kWatt Maximalleistung zu erzielen: 10,17 TFlops – vor zehn Jahren wären sie damit noch in die Top500-Liste eingezogen. Das nächste große Meeting der Südafrikaner findet übrigens unter „HPC in the African Bush“ im Krüger Nationalpark statt.

Artikel kostenlos herunterladen

Kommentare

Anzeige