Menü

Intels Xeon-Prozessorfamilie Skylake-SP läuft vom Stapel: Erste Benchmark-Ergebnisse gegen AMD Epyc

Testergebnisse: Skylake-SP vs. AMD Epyc

Inhaltsverzeichnis

Ein Testsystem mit zweimal Xeon Platinum 8180 ackert derzeit im c't-Labor. Hier geben wir vorab ein paar erste, vorläufige Ergebnisse mit den "Klassikern" SPEC CPU2006, Stream und Linpack.

Intel hat vorab im Workshop einige Werte bei allerbester Optimierung mit dem Intel-Compiler bekannt gegeben -- ein paar Kurzläufer wie CineBench und Linpack konnte man dort auch selbst messen. Zum Launch könnten noch bessere Ergebnisse bekannt gegeben werden. Für SPEC CPU2006 auf dem Zweisockelsystem erzielte das Platinum-8180-System 2550 SPECint_rate_2006base und 1720 SPECfp_rate_2006base. AMDs Epyc-7601, gemessen mit dem alten, nicht für Zen optimierten Open64-Compiler liegt mit 2100/1660 nicht all zu viel darunter. Der wird sich vermutlich ohnehin nicht so sehr mit Intels Flaggschiff als vielmehr mit dem Gold-6148 duellieren müssen, mit dem er dann in etwa auf Augenhöhe liegen dürfte.

Je nach verwendeten Instruktionen gibt es jetzt drei verschiedene Takte. Sie hängen auch davon ab, ob AVX- oder AVX512-Multiplikationseinheiten fü Gleitkomma oder Integer benutzt werden.

(Bild: Intel)

Angeregt durch AMD haben wir zunächst einmal die CPU2006-Suite nur mit gcc/g++ -m64- -O2 (gcc6.4) laufen lassen – das was in der Linux-Welt sicherlich bei Weitem am häufigsten verwendet wird. Und da liegt Epyc sogar mit Intels Flaggschiff in etwa auf Augenhöhe: 1380 SPECint_rate_base2006 für das Platinum 8180-System, 1300 für Epyc 7601. Bei SPECfp_rate warf der gcc auf dem Xeon Platinum 8180 eine bislang noch ungeklärte Floatingpoint Exception bei einem der Benchmarks (416.gamess). Die restlichen 16 Benchmarks ergeben eine geschätzten Wert von nur 960 SPECfp_rate_base2006 est. während das Epyc-7601-System dank seiner weit besseren Speicherperformance auf 1220 kommt.

Für den Speicherbenchmark Stream hat Intel 199 GFlops angegeben – wir kamen bislang auf 187, aber da kann man noch optimieren – etwa die bestgelegenen Kerne auswählen. AMDs Epyc ist in dieser Disziplin mit seinen 8 Speicherkanälen klar im Vorteil, er liegt erwartungsgemäß etwa um ein Drittel besser – nach AMDs Messungen bei 247 GFlops, wir hatten mit unserem Stream-5.10-Code, mit Icc16 kompiliert, sogar 260 GFlops gemessen.

Bei Linpack ist AMDs Epyc mangels AVX512 natürlich deutlich im Nachteil, kommt mit einer speziellen MPI-Version nur auf 1050 GFlops. Auch Intel verwendet eine MPI-Version und erzielt bei 120.000 Gleichungen auf obigem System 3296 GFlops. Wir bleiben traditionsgemäß bei der OpenMP-Fassung, die früher mal schnellere, inzwischen aber zumeist etwas langsamere Werte liefert. Bisheriger Zwischenstand im c't-Labor ist 2690 GFlops[ --] aber da kann man noch mit Page-Locking, Transparenten Hugepages, Numactl und so weiter spielen und vor allem auch noch das Mesh in zwei Knoten (SNC2) aufteilen – da ist also noch einiges mehr drin.

Das Flops-Programm von Alex Yee, das mal den Ryzen-FMA-Bug aufdeckte, liefert die absolute Obergrenze. Es kommt bei "Double-Precision - 512-bit AVX512" auf 4096 GFlops – das entspricht etwa 2,3 GHz bei 32 Flops/Takt.

CineBench haben wir beim Presseworkshop in den USA gemessen: Mit 6580 für ein Platinum-8180-System nicht schlecht – aber ähnliche Werte konnten wir auch mit AMDs Epyc 7601 messen, AMD selbst kam später dann sogar auf nahezu 6900.

Mit vier (oder gar acht) Sockeln kann AMD allerdings gar nicht aufwarten, da bleibt Intel voraussichtlich für längere Zeit alleine: SPECint/fp von 4920//3320, und ein Linpack von 5777 GFlops, das sind schon beeindruckende Werte. – Auf dem Presseworkshop war man gar noch einen Tick schneller und kam live auf 5919 GFlops.

Mehr Benchmark-Ergebnisse und Architekturdetails folgen in den nächsten c't-Ausgaben .

Die Xeon-Scalable-Familie
Prozessor "Edelmetall"
Kerne Basistakt L3-Cache TDP OEM-Preis
Optimiert für größte Performance/Kern
8180(M) Platinum 28 2,5 GHz 38,5M 205W
8168 Platinum 24 2,7 GHz 33M 205W
8158 Platinum 12 3,0 GHz 24,75M 150W
8156 Platinum 4 3,6 GHz 16,5M 105W
6148(F) Gold 20 2,4 GHz 27,5M 150W
6154 Gold 18 3,0 GHz 24,75M 200W
6150 Gold 18 2,7 GHz 24,75M 165W
6142 (F)(M) Gold 16 2,6 GHz 22M 150W
6132 Gold 14 2,6 GHz 19,25M 140W
6146 Gold 12 3,2 GHz 24,75M 165W
6136 Gold 12 3,0 GHz 24,75M 150W
6126(F) Gold 12 2,6 GHz 19,25M 125W
6144 Gold 8 3,5 GHz 24,75M 150W
6134(M) Gold 8 3,3 GHz 24,75M 130W
6128 Gold 6 3,4 GHz 19,25M 115W
5122 Gold 4 3,6 GHz 16,5M 105W
Optimiert für balancierte Energieeffizienz
8176(F)(M) 28 2,1 GHz 38,5M 165W
8170 Platinum 26 2,1 GHz 35,75M 165W
8146 Platinum 26 2,0 GHz 35,75M 150W
8160(F) Platinum 24 2,1 GHz 33M 150W
8153 Platinum 16 2,0 GHz 22M 125W
6152 Gold 22 2,1 GHz 30,25M 140W
6138(F) Gold 20 2,0 GHz 27,5M 125W
6140 Gold 18 2,3 GHz 24,75M 140W
6130(F) Gold 16 2,1 GHz 22M 125W
5120 Gold 14 2,2 GHz 19,25M 105W
5118 Gold 12 2,3GHz 16,5M 105W
5115 Gold 10 2,4 GHz 13,75M 85W
4116 Silber 12 2,1 GHz n.n 85W
4144 Silber 10 2,2 GHz n.n 85W
4112 Silber 4 2,6 GHz n.n 85W
4110 Silber 8 2,1 GHz n.n 85W
4108 Silber 8 1,8 GHz n.n 85W
3106 Bronze 8 1,7 GHz n.n 85W
3104 Bronze 6 1,7 GHz n.n 85W
F:mit integriertem Omni-Path-Fabric (+ ca. 10 W), M:auf 1,5 TByte/Sockel erweiterte Speicherkapazität