Menü

Intels neue Atom-Architektur Silvermont lässt ARM alt aussehen

Von
vorlesen Drucken Kommentare lesen 439 Beiträge

Bis zu dreimal so schnell in der Spitzenperformance und nur ein Fünftel des Energieverbrauchs bei gleicher Performance – das sind die herausragenden Resultate der Silvermont-Architektur im Vergleich zum Vorgängerdesign Saltwell. Der Tablet-Quad-Core-Chip Bay Trail soll dabei im Schnitt bei gleicher "core power" von 1,5 Watt doppelt so schnell sein wie die aktuellen ARM-Quad-Cores.

Die Bedeutung von Single-Thread-Performance, erklärte Intel-Fellow Belli Kuttanna auf einer Presseveranstaltung in Santa Clara leicht selbstkritisch im Rückblick auf die bisherigen Atom-Architekturen Bondwell und Saltwell, wurde bislang zu sehr unterschätzt. Daher hat man beim neuen Silvermont-Design nicht nur darauf geachtet, dass es für bis zu acht Kerne ausgelegt ist, sondern auch, dass jeder Kern dank zahlreicher Optimierungen ganz erheblich mehr Instruktionen pro Takt ausführen kann.

Silvermont-Blockschaltbild, der wichtigste sichtbare Unterschied zum Vorgänger Saltwell ist der Out-of-Order-Bereich in der Mitte

(Bild:  Intel)

Physische Kerne mit Out-of-Order-Execution statt Hyper-Threading, so lautet nun das neue Credo bei den Atoms. Der IPC-Wert (Instructions per Cycle) des Silvermont im Vergleich zum Vorgänger wurde nach Kuttannas Angaben um Faktor 1,5 verbessert. Wichtige Befehle wie die Integer- und Gleitkomma-Multiplikation und -Division laufen nun sowohl in der Latenzzeit als auch im Durchsatz zum Teil erheblich schneller. Dabei wurde die Pipeline des Kerns nicht verlängert – mit zu langen Pipelines hatte Intel ja früher schon mal schlechte Erfahrungen gemacht – sondern bei Operationen ohne Zugriff auf den Datencache sogar leicht verkürzt. So beträgt die Wartezeit bei einer falschen Vorhersage der erheblich verbesserten Sprungvorhersageeinheit nur noch 10 statt 13 Takte.

Der 1 MByte große L2-Cache mit "sehr niedriger Latenzzeit und hoher Bandbreite" wird von zwei Kernen gemeinsam genutzt. Er steht bei Single-Thread-Programmen aber im vollem Umfang einem einzigen Kern zur Verfügung. Vom alten Atom übernommen hat man die L1-Caches: den L1D für 24 KByte Daten sowie den L1I für 32 KByte Instruktionen, von dem aus zwei Dekoder die x86-Operationen in sogenannte atomare Macroops dekodieren. Bei denen bleiben die Operationen fest mit den zugehörigen Adressen verkoppelt. Das bewirkt eine einfachere Verwaltung in der Instruction Queue und den Dispatchern. Vor allem zieht das eine größere Energieeffizienz im Vergleich zum Aufteilen in kleinere Microops (µOps) nach sich, wie es die P6-Architektur vorsieht, die Grundlage der aktuellen Ivy-Bride- und der kommenden Haswell-Generation ist. Seit Sandy Bridge werden allerdings zum Teil wieder kunstvoll nachträglich µOPs per µOPs-Fusion miteinander verschmolzen.

Die Pipeline kennt jetzt eine Abkürzung bei Sprungbefehlen ohne Zugriff auf den Datencache, dadurch sinkt die Strafzeit für falsch vorhergesagte Sprünge von 13 auf 10 Takte

(Bild:  Intel)

Ähnlich wie beim Sandy Brigde wurde die Instruction Queue als Loop Stream Buffer ausgeführt – hier mit einer Tiefe von 32 Makroops –, der kleine Schleifen zum Teil deutlich beschleunigen und dabei das Frontend energiesparend schlafen legen kann. Hinter der Instruction Queue folgt nun das für Out-Of-Order nötige Register Renaming samt der Reorder Buffer, bevor dann, wie beim alten Atom auch, die Befehle auf die FPU- und die Integer-Einheiten aufgeteilt werden. Das Ganze ist weiterhin zweifach skalar, wenn auch im Integer-Zweig neben den beiden Integer Execution Units (IEC) die Memory Execution Unit (MEC) parallel arbeitet.

Wer eine dreifache Skalarität wie beim ARM Cortex A15 erwartet hatte, wird also enttäuscht sein. Schließlich soll trotz erheblicher Performance-Verbesserung noch genügend Abstand zum Haswell bestehen bleiben. Dazu trägt auch bei, dass AVX oder gar AVX2 dem Silvermont verwehrt bleiben, der nur SSE4.2 mit einigen punktuellen Erweiterungen (AES-NI, PCLMULQDQ, RDRAND ... ) bietet, wobei er über 128-bittige Datenpfade zugreift – nun allerdings mit nativem Support unalignter Zugriffe.

Im Single-Thread-Vergleich holt insgesamt ein "Silvermont Preproduction System" gegenüber einem Kern des Atom Z2580 beim Peak-to-Peak-Vergleich einen Faktor 2 heraus und zwar bei gleicher Energieaufnahme. Vergleicht man die beiden bei gleicher Performance, so kann Silvermont mit einem um Faktor 4,7 niedrigerem Energieverbrauch brillieren. Neben den Architekturverbesserungen mit verbesserten C6-Schlafzuständen, Power Sharing zwischen den Kernen und der Grafik, dynamisch konfigurierbaren Takt-Burst und Fast Standby ist letzteres vor allem dem 22-nm-SoC-Prozess P1271 geschuldet. Die damit gefertigten Trigate-Transistoren können mit 0,1 V niedrigeren Spannungen arbeiten und weisen erheblich geringere Leckströme auf.

Bei Multi-Threaded-Benchmarks mit 4 physischen Silvermont- gegen die vier logischen Saltwell-Kerne des Z2580 sieht die Performancebilanz noch besser aus: Faktor 2,8 höhere Spitzenperformance und Faktor 2,5 bei gleicher Energieaufnahme. Bei gleicher Performance ist dann allerdings der Energiesparfaktor mit 4,4 etwas geringer. Als Benchmarks verwendete Intel übrigens Klassiker wie Linpack, CoreMark, Caffeinmark und AnTutu sowie die eigentlich gar nicht mehr offiziell zugelassene SPEC-CPU2000-Suite. Die aktuellen Version CPU2006 braucht aber auch ein oder zwei Gigabyte Speicher pro Kern und benötigt selbst auf dem Silvermont noch ein paar Tage Laufzeit und auf dem Z2580 gar eine gefühlte Ewigkeit.

Mit besonderem Stolz verglich Kuttanna die neue Silvermont-Architektur mit der nicht explizit genannten Konkurrenz. In der Smartphone-Klasse ist laut Intel ein Dual-Core Silvermont drei relevanten Quad-Cores der Konkurrenz in der Performance bei gleicher core power von 1*W mindestens um Faktor 1,4, im Schnitt gar um Faktor 1,6 überlegen und im Energieverbrauch bei gleicher Performance um Faktor 2,4 geringer.

In der Tablet-Klasse verglich Intel mit vier nicht genannten Konkurrenten bei gleicher Kernzahl und bei gleicher Energieaufnahme der Kerne von 1,5 W. Hier liegt im Schnitt die Performance-Verbesserung bei Faktor 2 und in der Energiedisziplin gemessen bei der jeweiligen Spitzenperformance soll der Vorsprung das 4,3fache betragen.

Silvermont und die Konkurrenz bei den Tablets

(Bild:  Intel)

Auch einen Blick in die Zukunft wagte Intels Fellow Kuttanna und verglich den Nachfolge-Prozessor Airmont in 14-nm-Technik mit den geschätzten Werten der kommenden ARM-Generationen. Von den fünf Designs lag der Performancevorsprung bei 1,5 W Kernverbrauch zwischen Faktor 1,3 und 1,9 und der geringere Energieverbrauch bei Spitzenleistung zwischen Faktor 1,9 und 4,4.

Zu der integrierten Grafik der neuen Chips mit Silvermont-Kernen verriet Intel noch nichts. Der Quad-Core-Chip Bay Trail für Tablets soll dem Vernehmen nach eine Ivy-Bridge-Grafik bekommen. Er ist für die Holiday-Saison geplant, also kurz nach dem amerikanischen Erntedankfest Ende November. Sein kleinerer Kollege Merrifield für Smartphones soll Ende 2013/ Anfang 2014 herauskommen – da bietet sich die CES im Januar 2014 für den Stapellauf an. Der Server-Chip Avoton mit bis zu acht Kernen und der für Storage-Aufgaben optimierte Rangeley sind für die zweite Jahreshälfte 2013 angekündigt.

Präsentation der Silvermont-Architektur (27 Bilder)

(as)

Anzeige
Anzeige