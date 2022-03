Nvidia legt den selbstentwickelten ARM-Prozessor Grace in einer Variante auf, die zwei CPU-Chips in einem Gehäuse verbindet und so auf 144 Rechenkerne kommt. In der GTC-Präsentation warf der Nvidia-Chef Jensen Huang mit Superlativen um sich: Zum Lieferstart in der ersten Jahreshälfte 2023 soll der "Grace-Superchip" der schnellste Prozessor für Supercomputer werden und die beste Leistung pro Watt erreichen.

Ein solcher Zweierverbund verhält sich wie ein einzelner Prozessor. Die beiden CPUs kommunizieren über eine dafür angepasste Variante von Nvidias NVLink 4, genannt NVLink Chip-to-Chip (NVLink-C2C). Dieser Interconnect soll Daten mit 900 GByte/s zwischen den Prozessoren hin und her schieben.

Als CPU-Kerne kommen ARMv9-Standardkerne zum Einsatz – denkbar wären ARM Neoverse N2. Der Chip-Verbund greift auf zusammen 960 GByte LPDDR5X-RAM in Form von 16 Speicherbausteinen zurück, die mit auf dem Trägermodul sitzen.

Die Speicherübertragungsrate gibt Nvidia mit rund 1 TByte/s an. Rechnerisch wäre das mit LPDDR5X-8000-RAM an 1024 Datenleitungen möglich – je nach Rundung könnte die Taktfrequenz aber auch höher oder niedriger sein. Dermaßen schnellen LPDDR5X-Speicher gibt es bisher nicht, die Spezifikation sieht künftig aber bis zu LPDDR5X-8500 vor.

Ein Grace-Modul mit zwei CPU-Chips und 960 GByte LPDDR5X-RAM nimmt bis zu 500 Watt auf.

Nur als Tandem schneller als eine Einzel-Konkurrenz-CPU

Nvidia erwartet, dass der 144-Kerner im Server-Benchmark SPECrate2017_int_base 740 Punkte schafft und rund 50 Prozent schneller arbeitet als die Prozessoren in den bisherigen DGX100-Systemen. In diesen stecken noch zwei ältere Epyc-64-Kerner aus AMDs Zen-2-Generation Rome, die 2019 erschienen.

Bis Intel seine Sapphire-Rapids-Prozessoren vorstellt, muss sich Nvidia am ehesten mit AMDs Server-Prozessoren vergleichen. Ein einzelner 64-Kerner wie der Epyc 7763 schafft je nach Optimierungsgrad 400 bis 465 Punkte im Benchmark SPECrate2017_int_base. Ein Dual-Socket-Server erreicht mehr als 800 Punkte. Zwei Epyc 7763 haben dabei eine gemeinsame Leistungsaufnahme von 560 Watt – der Speicher kommt obendrauf.

Nvidia will die eigenen Grace-CPUs vor allem mit zusätzlichen Hopper-Beschleunigern verkaufen. (Bild: Nvidia)

AMD Bergamo und Intel Sierra Forest

Dieses Jahr erscheint allerdings der Nachfolger Genoa mit Zen-4-Architektur. Zudem folgt 2023 die Schwesterfamilie Bergamo mit bis zu 128 abgespeckten Zen-4c-Rechenkernen, die mit Effizienzoptimierungen in eine ähnliche Kerbe schlägt und mit der sich Nvidia folglich messen muss. Intels vielkerniges Konkurrenzprodukt in Form von Sierra Forest kommt im Jahr 2024.

In einer Nische dürfte sich Grace aber auch künftig wohlfühlen: KI-Beschleunigung. Ein einzelner 72-Kerner soll dort um den Faktor 10 schneller sein als heutige Prozessoren von AMD und Intel – vermutlich ist die Verarbeitung von BFloat16- oder INT8-Daten gemeint. Solchen Datenformaten kommen die 198 MByte Cache pro CPU zugute (396 MByte bei einem 144-Kern-Grace). Nvidia dürfte es zudem darum gehen, komplette Server aus einer Hand liefern zu können, ohne CPUs von AMD oder Intel zukaufen zu müssen.

(mma)