Intel, AMD und ihre Partner halten sich mit der Veröffentlichung neuer CPU2017-Benchmark auffallend zurück – noch nichts zu Xeon Scalable und Epyc. c't springt nun mit eigenen Messergebnissen in die Bresche.

Seit zwei Wochen gibt es die neuen Intel-C/C++ und Fortran-Compiler2018. Sie sollen besser mit AVX512 klarkommen. Doch bei SPECs CPU-Subkomitee herrscht geradezu gespenstische Ruhe – jedenfalls was Einreichungen zur neuen Benchmark-Suite CPU2017 betrifft. Seit der Vorstellung der Suite verirrte sich gerade mal ein einziger SuperMicro Superserver mit altem Broadwell-EP auf die SPEC-CPU2017-Website – und der ist noch mit alten Broadwell-EP bestückt. Von aktuellen Xeon-SP- oder AMD-Epyc-Systemen fehlt weiterhin jede Spur.

Das steht ganz im Gegensatz zur alten, noch bis Januar 2018 gültigen Suite CPU2006: Dort hagelt es nur so an Einreichungen, fast ausnahmslos für alle möglichen Xeon-SP-Systeme, allein 2046 SPEC-CPU2006-Einreichungen bislang in diesem Quartal. Bei der SPEC-CPU2017-Suite, an der die CPU Group gut elf Jahre lang gearbeitet hat, kommen dagegen weder Intel noch AMD aus der Deckung. Sie verstecken sich stattdessen hinter ihren Partnern: "Das sei Aufgabe von Dell, HP und Co. ...", heißt es.

Vermutlich wollen beide die nächste Revision ihrer Prozessoren abwarten, die offenbar noch unter dem ein- oder anderen "Performance Issue" leiden. Zumindest Intel hat in der Augustausgabe der Specification Updates for Xeon Scalable Family dokumentiert, dass es mit AVX512 noch Performance-Probleme gebe, die "under Investigation" stünden. Von AMD fehlen dagegen entsprechende Dokumente.

c't-Benchmarks als "official run"

Da bei SPEC bislang keine Einreichungen veröffentlicht wurden, springen wir in die Bresche und haben die Ergebnisse für alle vier von c't vermessenen Prozessoren (Xeon Platinum 8180, Xeon Gold 6148, Xeon-Broadwell 2699v4 und AMD Epyc 7601 ) mit dem Intel-Compiler 2017, update 4 im kompatiblen -O3-Modus, ohne SmartHeap-Zusatzbibliotheken online gestellt. Die Ergebnisse liegen in der bei SPEC üblichen Form als "official run" mit 3 Durchläufen und mit allen Ausgabe- und Konfigurationsdateien vor. Neu hinzugekommen sind die Ergebnisse für den Xeon Platinum 8180 mit Intels neuem Compiler 2018 mit AVX-512-Optimierung.

Taktprobleme

c't hatte bereits Anfang September im Artikel "Der neue Maßstab: Die Benchmark-Suite SPEC CPU2017" zahlreiche Ergebnisse für Xeon SP und AMD EPYC mit Code von Intel-Compilern (2017 Update 4) und gcc7.1 mit verschiedenen Compiler-Optionen (ohne spezielle Zusatzbibliotheken) auf Dual-Prozessor-Systemen mit Xeon Platinum 8180, Xeon Gold 6148, Xeon-Broadwell 2699v4 und AMD Epyc 7601 veröffentlicht. Dabei hatten wir festgestellt, dass die AVX512-Optimierung kontraproduktiv im Vergleich zur AVX2-bzw. Broadwell-Optimierung ist.

Derweil hat Intel zugegeben, dass Intels 2017-Compiler tatsächlich nicht gut mit den verschiedenen Taktlinien für Non-AVX, AVX2 und AVX512 klarkommt und die von c't festgestellten Schwächen bestätigt. Der Compiler muss nämlich abschätzen, ob sich die Vektorisierung einer Schleife für AVX512 überhaupt lohnt, wenn der Prozessor dann eine ganze Zeit lang mit dem deutlich niedrigeren AVX512-Takt fahren muss. Die seit zwei Wochen freigegebenen Intel-2018-Compiler sollen das deutlich besser beherrschen, als ihre Vorgänger.

Durchwachsene Performance

Nun hat c't mit den neuen Compilern die SPEC-Suite für AVX512 übersetzt und auf dem Xeon-Platinum-8180-System laufen lassen. Die Ergebnisse sind durchwachsen: Bei Single Thread (Intspeed) ist der Code tatsächlich deutlich um bis zu 56 Prozent schneller (Video-Kompression 625.x264_s); im Schnitt sind es immerhin 13 Prozent. Auch beim Durchsatzwert Intrate, der mit 112 Kopien auf allen logischen Kernen des Platinum 8180 parallel läuft, ist eine kleine Steigerung von 215 auf 220 SPECrate2017_int_base, also etwa 2 Prozent auszumachen.

SPEC CPU2017 auf 2 × Xeon Platinum 8180 (112 log. Kerne, 2,5 GHz) Compiler SPECspeed2017 _int_base (OMP) SPECspeed2017

_fp_base (OMP) SPECrate2017

_int_base SPECrate2017

_fp_base intel17 -O3 7,32 114 207 203 intel17 AVX2 7,44 116 216 225 intel17 AVX512 7,44 116 215 222 intel18 AVX512 8,44 114 220 214 gcc 7.1 broadwell 7,06 98,3 200 189 gcc 7.1 skylake-avx512 6,92 90,7 176 151

Schlechter sieht es dagegen bei den Gleitkomma-Suiten aus. Hier llief bei uns Fpspeed mit dem von SPEC vorgesehenen OpenMP auf möglichst vielen "Töpfen" – je nach Einschätzung des Compilers. Die Werte lagen allerdings sowohl bei Fpspeed als auch beim Durchsatz Fprate geringfügig unter denen des Codes vom Intel-2017-Vorgänger. Hintergrund: Da der Compiler bei der Optimierung noch nicht weiß, auf wie vielen Kernen der Code nachher laufen wird und wie die Turbo-Taktverhältnisse liegen, kann er es nur raten. (as)



