Atom gegen ARM: Runde 3

Intels neue Atom-Architektur Silvermont fordert ARM heraus

Trends & News | News

Der neue Atom mit Codenamen Silvermont tritt an, im Spätherbst 2013 den ARM-Prozessoren Paroli zu bieten. Dank ihres 22-nm-Herstellungsprozesses können die verschiedenen Silvermont-Chips vor allem in der Energieaufnahme punkten. Aber auch bei der Performance legen sie ordentlich zu, sind sie doch bis zu dreimal so schnell wie der aktuelle Atom mit Saltwell-Kern.

Besonderen Wert, so Intel-Fellow Belli Kuttanna bei einer Presseveranstaltung in Santa Clara, hat Intel auf die Single-Thread-Performance der stromsparenden Atom-Prozessoren gelegt. Die wurde in der Vergangenheit zugunsten von vielen Kernen und Threads allzu sehr aus den Augen verloren – nun sieht man auf allen Gebieten vom Smartphone bis hin zu Servern wieder einen kräftigen Trend zurück zu größeren, leistungsfähigen Kernen. Ein hoher Durchsatz reicht eben offenbar nicht aus, wenn Interaktivität und kurze Latenzzeiten gefragt sind. Dann stehen schwerere Kerne mit hoher Single-Thread-Performance besser da. Das musste AMD beim Bulldozer leidvoll erfahren und auch Oracle ruderte zurück und betont neuerdings die Single-Thread-Fähigkeiten ihrer neuen T5-Prozessoren.

Beim neuen Silvermont-Design haben Kuttanna und seine Crew daher nicht nur darauf geachtet, dass es für bis zu acht Kerne ausgelegt ist, sondern auch, dass jeder Kern dank zahlreicher Optimierungen ganz erheblich mehr Instruktionen aus jedem Takt „herausquetscht“.

Hyper-Threading ade

Physische Kerne mit Out-of-Order-Execution statt Hyper-Threading, so lautet nun das neue Credo bei den Atoms. Die Durchschnittszahl der Instruktionen pro Takt (IPC) im Vergleich zum Vorgänger wurde nach Kuttannas Angaben kräftig um Faktor 1,5 verbessert. Wichtige Befehle wie die Integer- und Gleitkomma-Multiplikation und -Division laufen nun sowohl in der Latenzzeit als auch im Durchsatz zum Teil erheblich schneller. Trotz eines vermutlich etwas höheren Taktes wurde die Basispipeline des Kerns im Schnitt nicht verlängert – mit zu langen Pipelines hatte Intel ja früher schon mal schlechte Erfahrungen gemacht. Bei Operationen mit Speicherzugriff ist sie nun zwar um einen Takt länger, dafür bei solchen ohne Zugriff auf den Datencache um drei Takte kürzer. Insbesondere beträgt nun die Wartezeit bei einer falschen Vorhersage der Sprungvorhersageeinheit nur noch 10 statt 13 Takte. Die Sprungvorhersage wurde zudem verbessert, sodass sie sich seltener irrt.

Der 16-fach assoziative L2-Cache von 1 MByte wird von zwei Kernen gemeinsam genutzt, bei Single-Thread kann dann ein Kern ganz allein über ihn verfügen. Beim Vorgänger Saltwell hat ein Kern hingegen keine Chance, dass ihm der zweite Kern mit seinem möglicherweise nicht benötigten L2-Cache von 512 KByte mal aushilft. Die wichtige Latenzzeit (Load to use) hat Intel außerdem von 15 auf 13 bis 14 Takte verringert. Die Zugriffsbreite ist geblieben: beide Architekturen können mit 256 Bit pro Takt aus dem L2 lesen.

Vom alten Atom übernommen hat Intel auch weitgehend die L1-Caches: den L1D für 24 KByte Daten sowie den L1I für 32 KByte Instruktionen. Die am Datencache angekoppelten zweistufigen Translation Lookaside Buffer (TLBs) wurden allerdings umorganisiert und vergrößert. Beim Saltwell umfasste der L1-DTLB 32 vollassoziative Einträge, die fest auf die beiden Hyper-Thread-Kerne aufgeteilt wurden. Bei Silvermont verfügt nun jeder Kern über 48 vollassoziative Einträge, mithin dreimal so viele bei Single Threads. Außerdem hat der L2-DTLB mit 128 Einträgen für 4K- und 16 für 2M-Seiten doppelt so viel Platz wie zuvor.

Geblieben ist allerdings die nur zweifache Skalarität des Designs; wer drei parallele Pipelines wie beim ARM Cortex A15 erwartet hatte, wird vielleicht enttäuscht sein. Aber für diese Performance-Regionen hat Intel andere Designs, insbesondere den Haswell vorgesehen. Und damit der Abstand auch gewahrt wird, müssen modernere SIMD-Einheiten wie AVX oder gar AVX2 beim Silvermont außen vor bleiben. Ein bisschen mehr Vielfalt, als es das SSSE3 des Saltwell bietet, hat er aber schon, nämlich SSE4.2 mit einigen punktuellen Erweiterungen wie AES-NI, PCLMULQDQ und RDRAND. Außerdem beherrscht er wie die Großen native unalignte Zugriffe über die 128-bittigen Datenpfade – die langsameren unaligned MOV-Befehle sind damit überflüssig.

Wie gehabt dekodieren zwei Decoder die x86-Operationen in sogenannte atomare Macro-Ops. Im Unterschied zu den Micro-Ops der immer noch aktuellen P6-Architektur in Ivy-Bridge- und Haswell bleiben hier die Operationen fest mit den zugehörigen Adressen verkoppelt. Das bewirkt eine einfachere Verwaltung in der Instruction Queue und den Dispatchern und verbessert die Energieeffizienz im Vergleich zum filigranen Aufteilen in kleinere µOps. Das hatten die Sandy-Bridge-Entwickler rund um Ronak Singhal auch erkannt und die µOPs zum Teil wieder kunstvoll nachträglich miteinander verschmolzen.

Vom Sandy Brigde abgeschaut hat sich Kuttanna auch den Loop Stream Buffer. Liegt eine Schleife innerhalb des Instruktionsfensters von 32 Macro-Ops, kann sie nicht nur schneller laufen, sondern insbesondere viel Energie einsparen: Die Decoder und das gesamte Frontend können sich so lange schlafen legen.

Hinter der Instruction Queue gehen die Wege von Saltwell und Silvermont dann etwas auseinander, denn bei Letzterem folgen die für den Out-of-Order-Betrieb nötigen Stufen, so wie sie IBM-Entwickler Robert Tomasulo vom Prinzip her schon in den 60er-Jahren beschrieben hat, inklusive Register Renaming und Reorder Buffer. Wie beim alten Atom auch werden dann die Befehle auf die FPU- und die Integer-Einheiten aufgeteilt. Im Integer-Zweig liegen die beiden Integer Execution Units (IEC) mit den ALUs und parallel dazu die Memory Execution Unit (MEC). Nach der Bearbeitung werden die Ergebnisse dem Reorder Buffer zugeführt, der dafür sorgt, dass sie in der originalen Reihenfolge abgespeichert werden.

… und die ARM-Konkurrenz

Für den Performancevergleich zum Vorgänger Saltwell legte Intel einen nicht weiter beschriebenen Benchmark-Mix aus Browserbench, Dhrystone, EEMC SPECfp2000, Linpack, Quadrant, CaffeineMark und AnTuTu zugrunde.

Damit gemessen holt im Single-Thread-Vergleich ein „Silvermont Preproduction System“ gegenüber dem Atom Z2580 beim Peak-to-Peak-Vergleich einen Faktor 2 heraus, und das bei gleicher Energieaufnahme. Neben Verbesserungen des IPC-Werts von 50 Prozent greifen demnach noch weitere Beschleunigungsmaßnahmen, insbesondere wohl ein höherer Takt.

Vergleicht man gar die beiden bei gleicher Performance, so kann Silvermont mit einem um Faktor 4,7 niedrigeren Energieverbrauch brillieren. Neben den Architekturverbesserungen mit sparsameren C6-Schlafzuständen, Power Sharing zwischen den Kernen und der Grafik, dynamisch konfigurierbarem Takt-Burst und Fast Standby ist Letzteres vor allem dem 22-nm-SoC-Prozess P1271 geschuldet, denn die damit gefertigten Trigate-Transistoren können mit 0,1 V niedrigeren Spannungen arbeiten und weisen erheblich geringere Leckströme auf.

Im Multi-Threaded-Benchmark mit 4 physischen Silvermont- gegen die vier logischen Saltwell-Kerne des Z2580 sieht die Performancebilanz noch besser aus: Faktor 2,8 höhere Spitzenperformance und Faktor 2,5 bei gleicher Energieaufnahme. Bei gleicher Performance ist dann allerdings der Energiesparfaktor mit 4,4 etwas geringer.

Mit besonderem Stolz verglich Kuttanna die neue Silvermont-Architektur mit der nicht explizit benannten „Main ARM Competition“, wobei der Maßstab dabei allein SPECint_rate_base2000 war. Drei aktuelle Quad-Core-Versionen – vermutlich wohl Nvidia Tegra 3, Qualcomm Snapdragon S4 und Samsung Exynos 4412 – gingen bei den Smartphones anonym ins Rennen, wobei die Dual-Core-Version des Silvermont laut Intel in der Performance bei gleicher „core power“ von 1 W mindestens um Faktor 1,4, im Schnitt gar um Faktor 1,6 überlegen und im Energieverbrauch bei gleicher Performance um den Faktor 2,4 besser ist.

Aussichten

In der Tablet-Klasse verglich Intel mit vier nicht genannten Konkurrenten bei gleicher Kernzahl und bei gleicher Energieaufnahme der Kerne von 1,5 W. Hier liegt im Schnitt die Performance-Verbesserung bei Faktor 2 und in der Energiedisziplin – hier bezogen auf die jeweilige Spitzenperformance – soll der Vorsprung im Schnitt das 4,3-Fache betragen.

Auch einen Blick in die Zukunft wagte Intel-Fellow Kuttanna und verglich den Nachfolge-Prozessor Airmont in 14-nm-Technik mit den geschätzten Werten der kommenden ARM-Generationen. Für fünf zukünftige ARM-Designs hatte Intel solche Werte, wie sie etwa auf der letzten ARM Techcon 2012 veröffentlicht wurden. Danach müsste Airmonts Performancevorsprung bei 1,5 W Kernverbrauch zwischen Faktor 1,3 und 1,9 liegen und der Energieverbrauch bei Spitzenleistung zwischen Faktor 1,9 und 4,4 niedriger sein.

Zu der integrierten Grafik der neuen Chips mit Silvermont-Kernen verriet Intel noch nichts. Der Quad-Core-Chip Bay Trail für Tablets soll dem Vernehmen nach eine Ivy-Bridge-Grafik bekommen. Ansonsten wurde sein Innenleben mit allen Schnittstellen schon auf dem IDF in Peking vorgestellt. Der für Windows 8 und Android gedachte Chip soll nach dem amerikanischen Erntedankfest Ende November auf den Markt kommen.

Sein kleinerer Kollege mit zwei Kernen namens Merrifield ist für Smartphones gedacht. Er soll Anfang 2014 herauskommen – da bietet sich die CES im Januar oder spätestens der Mobile World Congress im Februar 2012 für den Stapellauf an.

Für den Server-Chip Avoton mit bis zu acht Kernen und ohne Grafik hat Hewlett Packard mit dem Mikroserverprojekt Moonshot bereits die Werbetrommel gerührt. Er soll ebenso wie die für Storage-Aufgaben optimierte Version Rangeley im Verlauf der zweiten Jahreshälfte 2013 erscheinen – so könnte er also der erste Chip mit Silvermont-Kernen auf dem Markte sein. (as)

Artikel kostenlos herunterladen

Kommentare

Anzeige
Anzeige