Menü

Intel gibt neue Details zu zukünftigen Prozessoren bekannt

vorlesen Drucken Kommentare lesen 138 Beiträge

Dunnington: 6 Penryn-Kerne und 16 MByte L3-Cache auf einem Chip

Knapp zwei Wochen vor dem Frühjahrs-Entwickler-Forum IDF in Schanghai hat Intel weitere Details zu den nächsten Prozessoren verraten. In einer Telefonkonferenz gab Steve Smith, Vizepräsident und Direktor der Digital Enterprise Group ein paar Einzelheiten zu den Prozessoren Dunnington, Nehalem, Sandy Bridge und Larrabee preis, die sein Chef Gelsinger kurz zuvor schon angekündigt hatte.

Vieles davon war aber schon vorher durchgesickert, etwa dass der für die zweite Jahreshälfte geplante Xeon-Prozessor Dunnington (sockelkompatibel zum Xeon-MP Tigerton) sechs Penryn-Kerne sowie einen L3-Cache von 16 MByte auf einem Chip versammelt und so 1,9 Milliarden Transistoren auf einen Chip bringt. Nur dass der gemeinsame L2-Cache der Penryn-Doppelkerne auf 3 MByte beschränkt ist – wie sich unschwer dem Die-Bild entnehmen lässt – verriet Smith noch nicht.

Wirklich neu sind aber die Cache- und TLB-Informationen zur nächsten Prozessorgeneration Nehalem, die im vierten Quartal erwartet wird. Interessanterweise wird Nehalem vergleichsweise kleine, nicht geteilte L2-Caches aufweisen, nämlich nur 256 KByte pro Core, also nur halb so viel wie Barcelona/Phenom derzeit. Diese sollen aber besonders schnelle Zugriffe ermöglichen (niedrige Latenzzeit). Außerdem wird Nehalem einen gemeinsamen L3-Cache von 8 MByte Kapazität besitzen, viermal so viel wie AMDs K10-Design, dessen ebenfalls für Ende des Jahres angekündigter Nachfolger Shanghai aber auch schon mit 6 MByte L3 bestückt sein wird.

Intel betont, dass es sich bei dem L3-Cache-Design um einen Inklusiv-Cache handelt, bei dem alle Daten der unteren L1- und L2-Ebenen auch im L3-Cache abgespeichert sind. Der Vorteil dieser Redundanz ist, dass der Datenverkehr zwischen mehreren Kernen effizienter gehandhabt werden kann als bei einem Prozessor mit exklusivem Cache. Letzterer bietet allerdings eine größere effektive Kapazität.

Nicht erwähnt hat Intel jedoch, dass AMDs K10 einen trickreich gemischten inklusiv/exklusiven L3-Cache verwaltet, der je nach dem Zustand der Cache-Zeilen (shared/ non shared) mal die eine, mal die andere Strategie wählt und so letztlich wohl noch effizienter sein dürfte.

Und wie bei AMDs K10 wird Nehalem nun auch mit zweistufigen Translation Lookaside Buffers (TLB) aufwarten. Bei der Virtualisierung zieht Intel ebenfalls nach, sie wird um Extended Page Tables (EPT) erweitert, Intels Gegenstück zu den Nested Page Tables, die Konkurrent AMD beim K10 bereits im Angebot hat.

Neue Sprungvorhersage und Prefetch-Techniken sowie erweiterte Return-Stacks kommen außerdem hinzu. Nehalem hat nun mit 128 ein Drittel mehr Instruktionen gleichzeitig in Bearbeitung (Micro-ops in Flight) als die Core-Architektur (96) und erreicht damit wieder Pentium-4-Niveau. Dessen HyperThreading wird in Nehalem ebenfalls wiederbelebt, aber in verbesserter Form.

Mit seinen drei DDR3-1333-Speicherkanälen soll der Nehalem-Xeon mehr als die vierfache Bandbreite des aktuellen Xeon (Harpertown) aufweisen. Der schnelle serielle QuickPath mit 25 GByte/s Gesamtbandbreite ist für Server und Workstations gedacht, für normale Desktop-PCs mit nur einem Prozessor soll so wie derzeit auch eine einfache Bus-Anbindung reichen.

Der Instruktionssatz wird um SSE4.2 erweitert, insbesondere kommen damit "Application Targeted Accelerators" hinzu. Das sind zum Beispiel Stringbefehle, die bis zu 256 Zeichen lange Strings in einem Schritt vergleichen können.

Nehalem-Nachfolger Sandy Bridge wird im Jahre 2010 schließlich auf eine auf 256 Bit verbreiterte SSE-Einheit aufgebohrt: AVX, Advanced Vector Extensions hat Gelsingers Crew diese neue doppeltbreite Einheit getauft, die in passenden Fällen allein dadurch schon doppelte Integer- und Gleitkommaperformance erzielen kann. Und, welch Wunder, erstmals ist bei Intel auch von einer neuen 3-Operanden-Syntax die Rede – just so, wie sie AMD unter SSE5 schon vor geraumer Zeit vorgestellt hat.

Zu der in weitere Ferne verschobenen Architektur für Visual Computing namens Larrabee gab es nur wenige unscharfe Hinweise. Zum einen bestätigte Intel, dass Larrabee mit breiteren SSE-Vektoren in einer Vector Processing Unit (VPU) arbeiten wird. Die wird eine erhebliche Erweiterung des Instruktionssatzes mit sich bringen.

Wahrscheinlich sind die Vektoren noch breiter und tiefer als bei AVX, man munkelt von mit 512 Bit und 128 Registern. Außerdem soll Larrabee mit einem völlig neuen "hardware coherent cache design", ausgelegt für eine Vielzahl von Kernen, debütieren. (as/c't) / (anw)