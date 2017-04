Von den Prozessor-Firmen von einst war auf der CeBIT nicht mehr viel zu sehen, von AMD so gut wie gar nix und von Intel hauptsächlich nur Drohnen. Und Nvidia, Via, Apple, Samsung? Alles Schnee von vorgestern. Allein NEC war dank Partnerland Japan vertreten, um in Hannover die Prozessorflagge hochzuhalten und zwar mit dem neuen Aurora-Vektorprozessor. Der kommt nicht mehr wie früher in eigenen SX-Systemen, sondern zusammen mit HBM-2-Speicher auf einer PCIe-3.0-Steckkarte.

Okay, die Karte ist noch nicht fertig, das gezeigte Modell war lediglich ein mechanisches Muster. NEC-Chefingenieur Shintaro Momose verriet dazu ein bisschen mehr als vor einigen Monaten auf der Supercomputer SC16. So soll der angepeilte Verkaufspreis zwischen Nvidias P100 und der Tesla K80 angesiedelt sein, dürfte also in der Gegend von 5000 US-Dollar liegen. Auch zur Zahl der vorgesehenen Kerne gab Momose eine Von-bis-Abschätzung: mehr als 4 und weniger als 16. Mit 8 bis 10 Kernen dürfte man gut liegen. Bei einer Speicherbandbreite von 150 GByte/s pro Kern kommt dann eine Aurora-Karte auf bis zu 1,5 TByte/s. Zum Vergleich: Nvidias P100 schafft 720 GByte/s und AMDs Naples ist mit 171 GByte/s pro Prozessor dabei – allerdings bei preiswerterem DDR4.

Memory driven

Speicherperformance, das ist ohnehin das neue Credo – das etwa Hewlett-Packard Enterprise unter „Memory driven Computing“ vermarktet. Den im Dezember vorgestellten lauffähigen Prototyp von „The Machine“ zeigte HPE auf der CeBIT leider nicht, lediglich ein Steckelement davon, bestehend aus zwei ARM64-Prozessoren, mit gepuffertem DRAM und optischen Interconnects. Schade, so eine Demo mit Apache Spark wäre sicherlich spannend gewesen. Das soll „memory driven“ auf „The Machine“ zunächst nur doppelt so schnell wie auf herkömmlichen Servern gelaufen sein, aber nachdem man alle überflüssigen I/O-Teile entfernt hatte, waren laut HPE Steigerungen um Faktor 15 und bei „Large-scale-Graphs“ sogar um bis zum Faktor 200 drin – das hätte man ja mal gern real gesehen.

NECs Vektorprozessor Aurora läuft mit eigenem Linux und eigenem HBM2-Speicher in der PCIe-Steckkarte, das Gastsystem sorgt nur für Storage und Interconnect.

Mit dem optischen Interconnect will HPE im nächsten Jahr auch die normale Serverszene befruchten, und zwar nicht nur die von HPE, sondern auch die vom Gen-Z-Konsortium. Hierin hat sich ja fast die gesamte Szene im letzten Jahr zusammengeschlossen – HPE, IBM, Dell/EMC, Lenovo, Cray, Huawei, AMD, ARM, Samsung – alle außer Intel.

Gen-Z-Mitglied AMD hat derweil die kleineren Ryzens der 5er-Serie vorgestellt (siehe S. 25). Daneben drangen ein paar Einzelheiten über die Prozessoren für die Ein-Sockel-Server für Workstations und für High-End-Gaming-Maschinen mit dem X390-Chipsatz durch. Man hört von 3,1 GHz Takt mit Boost bis zu 3,6 GHz.

FMA-Beschuss

Mit dem vielleicht doch etwas vorschnell herausgebrachten Ryzen zeigte sich derweil das eine oder andere Anfangsproblem. So etwa ein Bug bei FMA3, den ein Testprogramm des Google-Programmierers Alex Yee aufdeckte. Sein Programm „Flops“ hat rund 50 Milliarden FMA3-Befehle, lediglich getrennt durch einen gelegentlichen Sprung, aneinandergereiht. Die Kerne sind dann so beschäftigt, dass sie nicht mehr reagieren können – das wars dann. Eine winzige Pause zwischendrin, hier und da mal ein Speicherzugriff, das würde schon reichen. Wie Yee zudem zeigte, unterstützt der Prozessor trotz anderer Auskunft im CPUID auch das alte FMA4 des Bulldozer – ohne Probleme.

Ein BIOS-Update – bei uns Version 5f fürs Gigabyte AX370-Gaming – schafft inzwischen ohne spürbare Performance-Einbuße Abhilfe. Es enthält die Microcode-Version 800111C vom 6. 3. 17 – die letzte davor war die Version 800110E vom 27. 1. Da sieht man, wie hektisch AMD daran arbeitet: 14 neue Versionen in sechs Wochen. Der nachgeladene neue Mikrocode allein schaffte es allerdings nicht, das BIOS muss offenbar noch weitere flankierende Maßnahmen durchführen, damit Ryzen in Yees Testprogramm nicht abstürzt, wo es dann immerhin 236 doppeltgenaue GFlops bei „Dauer-FMA3“ für den 7-1800X ermittelt. (as@ct.de)