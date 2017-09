(Bild: dpa, Top 500 Supercomputers Site)

Ein hausgemachter chinesischer Beschleuniger-Chip mit 128 Kernen ersetzt in dem Supercomputer "Milchstraße 2" die alten Intel-Xeon-Phi-Prozessoren.

Auf dem International HPC Forum (IHPCF) in Guangzhou konnte man erfahren, dass das dort ansässige Supercomputer Center von der National University of Defense Technology (NUDT) die alten Karten mit Xeon-Phi-Knights-Corner (KNC) im Tianhe (Milchstraße) 2 rausgeschmissen und durch einen in China entwickelten Matrix-2000-GPDSP-Beschleuniger ersetzt und erweitert hat.

2,2 TFlops bei 128 Threads

Ganz ist der Umtausch wohl noch nicht durch, aber bis zur nächsten Top500-Liste, die im November zur SC17 in Denver veröffentlicht werden soll, wird man es sicher schaffen. Die meisten Informationen, die bisher über das System bekannt sind, stammen von dem Tokioter Professor Satoshi Matsouka, der zusammen mit Linpack-Schöpfer Jack Dongarra und anderen die Anlage besichtigen durfte. Jan Lin vom HPC-Center der Universität Shanghai hat dessen Tweets auf englisch retweetet.



Der riesige Marix-2000-Chip, hioer in der Hand von Linpack-Schöpfer Jack Dongarra

Die Gerüchteküche besagt, bei den riesigen Matrix-2000-Chips könnte es sich wie beim KNC um 128 in-order-ARM-Chips mit jeweils zwei 256-bittigen Vektor-Erweiterungen handeln. Bei der doppeltgenauen Matrixmultiplikation DGEMM soll die Matrix 2000 mit 1,2 GHz auf 2,2 TFlops bei 128 Threads mit 90,2 Prozent Effizienz kommen auf 240 Watt TDP. Der alte Xeon Phi 31S1P (mit 57 Kernen) erreicht im DGEMM nur etwa 840 GFlops. Dafür war seine Speicherbandbreite mit bis zu 160 GByte/s bei Stream (Triad) um einiges höher höher, die für Matrix 2000 wird mit 96 GByte/s bei 128 Kernen beziffert.

Theoretisch bis zu 5,34 TFlops

Ein Knoten besteht wie zuvor aus zwei Xeon-CPUs, nun aber erweitert um zwei Matrix-2000-Beschleuniger und bestückt mit 192 GByte Speicher. Die theoretische Spitzenleistung eines Knotens beträgt damit insgesamt 5,34 TFlops, von denen 430 GFlops die beiden Xeons beitragen – das spricht für eine Beibehaltung der alten Xeon 2692-Prozessoren mit 12 Kernen und 2,2 GHz Takt.

Allerdings wird die Knotenzahl von 16.000 auf über 17.792 erweitert. Damit erreicht der komplette Rechner Tianhe 2A dann 94,7 PFlops Spitzenleistung insgesamt, gegenüber 54,9 PFlops zuvor. Dank des proprietären Netzwerkes mit jetzt 112 Gbit/s dürfte auch die Linpack-Leistung des Gesamtsystems bei über 90 Prozent liegen und somit vermutlich über 80 PFlops erreichen – das Vorgängersystem Tianhe 2, das drei Jahre lang bis 2016 die Top500-Liste anführte, kam nur auf 33,9 PFlops.

Die Gesamtenergieaufnahme liegt weiterhin bei rund 18 MW, die Energieeffizienz hat sich demnach von 1,9 GFlops/W auf mehr als 5 GFlops/W gesteigert. (as)