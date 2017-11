In drei Ausführungen will NEC den Vektorrechner SX Aurora TSUBASA herausbringen, erste Muster sollen noch in diesem Jahr an ausgewählte Partner.

NEC hat auf der Supercomputing-Konferenz SC17 in Denver den Vektorrechner SX-Aurora TSUBASA ("Flügel") auf PCIe-3.0-Karte detailliert vorgestellt. NEC betont, dass sich nicht um Acceleratoren handelt, sondern um weitgehend eigenständige Rechner, die das Gastsystem nur für I/O benötigen.

Es wird zunächst drei Ausführungen geben, alle drei besitzen acht Kerne und einen gemeinsamen Cache von 16 MByte. Sie unterscheiden sich in Takt, Kühlung und in der Größe des High Bandwidth Memory (HBM2). Als Energieaufnahme gibt NEC <300 Watt an.

Wassergekühltes Flaggschiff

Version 10A ist das (wassergekühlte) Flaggschiff mit 1,6 GHz Takt und 48 GByte HBM2. Damit kommt die Karte auf 2,45 TFlops in doppelter Genauigkeit und auf eine Speicherbandbreite von 1,2 TByte/s.

Version 10B hat die gleiche Ausstattung, aber nur 1,4 GHz Takt. Die DP-Performance liegt bei 2,15 TFlops. Es gibt sie auch in einer luftgekühlten Ausführung. Version 10C hat ebenfalls 1,4 GHz Takt und 2,15 TFlops, aber nur 24 GByte HBM2 mit 0,75 TByte/s.

NEC SX-Aurora TSUBASA kommt in drei Ausführungen

Zusätzlichen normalen Hauptspeicher bietet die Karte nicht. Benötigt die Applikation mehr als 24 oder 48 GByte, muss man vergleichsweise langsam über PCIe-3.0 auf den Hauptspeicher des Gastsystems oder auch direkt mit Hilfe von RDMA auf den Speicher weiterer Aurora-Karten im System zugreifen. RDMA ist mit Mellanox-Infiniband auch innerhalb eines Clusters möglich. Einen eigenen schnellen Link zwischen den Karten – wie etwa Nvlink – kennt SX-Aurora TSUBASA nicht.

Dank der hohen Speicherbandbreite kann der Vektorprozessor (mit Vektoren von 4 KByte Größe) daher vor allem bei Anwendungen punkten, die "memory bound" sind, aber nicht allzu viel Speicherkapazität benötigen. Ein Vorteil ist, dass vorhandener Vektorcode in Fortran, C oder C++ ohne große Anpassung laufen kann. Die Compiler beherrschen auch Autoparallelisierung und weitere Optimierungen.

6000 US-Dollar

Im Stream-Benchmark hängt ein 10B ein Skylake-System mit zwei Xeon-Gold-6148-Prozessoren um fast Faktor 5 ab. Im Linpack ist er in etwa auf Augenhöhe. Verglichen jedoch mit der fast doppelt so teuren Nvidia-Tesla-V100 ist er in der Stream-Performance nur noch 40 Prozent voraus, unterliegt allerdings beim Linpack um Faktor 2.3.

NEC wird Racks-Einschübe mit bis zu 8 Aurora-Karten anbieten.

Explizite Preise nannte NEC noch nicht, aber aus dem gleichen Wert für Preis/Linpack-Performance lässt sich schließen, dass der 10B in etwa für 6000 US-Dollar (zweimal Gold 6148) angeboten werden wird, etwa die Hälfte einer Nvidia Tesla V100. Muster sollen ausgewählte Kunden noch Ende des Jahres bekommen, Ende Februar 2018 sollen dann die ersten Karten auf den Mark kommen. (as)