Auch jenseits der x86-Welt werden noch schnelle CPUs entwickelt: Bei IBM läuft Power7 bereits im Labor, Fujitsu versucht sich an einem 16-Kern-Chip und Sun feilt am Niagara-Nachfolger.
Der zweite Konferenztag der Hot Chips in Stanford – kurz nach dem Redaktionsschluss der letzten c't – stand ganz im Zeichen der „Großen Eisen“, sprich der CPUs für große und zuverlässige Server. Vergleichsweise konservativ lässt es Fujitsu angehen. Der Sparc64 VIIIfx soll nächstes Jahr fertig werden und die Nachfolge des Sparc64 VII antreten. Trotz niedrigerem Takt (2 statt 2,5 GHz) verspricht Fujitsu mit 128 GFlops die dreifache Performance. Dabei soll sich der Stromverbrauch sogar halbieren.
Der neue Chip hat acht – statt bisher vier – Kerne, 760 Millionen Transistoren, 1271 Pins und 5 MByte L2-Cache und wird in einem 45-nm-Prozess gefertigt. Die Anzahl der Integer-Register pro Kern verdoppelt sich von 32 auf 64, die für Gleitkommazahlen steigt gar von 32 auf 256. Damit lassen sich laut Fujitsu Parallelitäten im Code besser automatisch ausnutzen. Dazu kommen einige Erweiterungen am Befehlssatz. So soll beispielsweise der neue Befehl ftrimadd trigonometrischen Berechnungen und Taylorreihen auf die Sprünge helfen.
Die 16 Kerne des Rainbow Falls von Sun jonglieren mit 128 Threads.
Außerdem bekommt die Software Zugriff auf die Organisation der Caches. So kann ein Programm Daten zwei verschiedenen Cache-Sektoren zuweisen. Somit verdrängen Streaming-Daten, die nur einmal gebraucht werden, keine anderen Cache-Lines (mehr). Die Partitionen sind aber nicht fest, sondern die Cache-Lines bekommen nur ein zusätzliches Bit als Marker. Müssen Cache-Einträge weichen, sorgt Sparc64 VIIIfx dafür, dass das Verhältnis zwischen den beiden Sektoren gewahrt bleibt. An der Struktur der Pipeline hat Fujitsu kaum etwas verändert. Die elektrische Leistungsaufnahme spezifiziert Fujitsu mit nur 58 Watt, fordert aber dennoch eine Wasserkühlung, denn der Chip darf nur 30 Grad warm werden, damit die Leckströme nicht zu groß werden. Im Labor sollen die Chips bereits jetzt laufen.
Das kann Sun vom Niagara-2-Nachfolger Rainbow Falls noch nicht behaupten – immerhin wird er entwickelt und ist nicht wie der wohl doch etwas zu komplexe Rock von der Bildfläche verschwunden. Aber auch für Rainbow Falls hat sich Sun viel vorgenommen: Er soll gleich 16 Sparc-Kerne haben, die acht Threads pro Kern parallel ausführen – das ergibt 128 pro Chip. Die Kerne verbindet ein 8x9-Crossbar-Switch mit 16 L2-Caches, an denen wiederum Speicher-Controller und I/O-Links hängen. Eigentlich hätte es für 16 Kerne und 16 Caches mindestens einen 16x16-Switch mit rund 140 Leitungen pro Port gebraucht, so viele Leitungen kann Sun jedoch nicht unterbringen. Daher werden jeweils zwei Kerne zusammengefasst und bekommen zusammen nur einen Link. Dasselbe gilt für die L2-Caches. Diesen Engpass kompensiert der Crossbar-Switch mit höherer Taktfrequenz. Des Weiteren packt Sun jeweils acht L2-Caches in eine Kohärenzdomäne, die jeweils drei Highspeed-Links – den Typ verrät Sun noch nicht – sowie einen Speicher-Controller hat.
Der SPARC64 VIIIfx alias Venus verwandelt 58 Watt elektrische Leistung in 128 Dual-Precision-GFlops.
Viele weitere Punkte ließ Sun jedoch noch im Unklaren, seien es nun Fertigungsprozess, Leistungsaufnahme, Taktfrequenzen oder Cache-Größen. Klar ist jedoch, dass es 16 Beschleuniger-Einheiten beispielsweise für Kryptoaufgaben geben soll. Diese werden nun auch direkt per Software ansprechbar und bekommen teils eigene Befehle.
Recht weit scheint indes IBM mit dem Power7 zu sein, hat sich die Details aber bis zum Schluss der Konferenz aufgespart: Im Labor laufen angeblich schon rund 300 Systeme mit dem neuen Chip. Die Kernzahl erhöht sich von zwei (Power6) auf acht – wobei es auch Chips respektive Module mit nur vier oder sechs Kernen geben soll. Der L3-Cache zieht mit aufs Die und residiert nicht mehr auf dem CPU-Modul. Dabei setzt IBM nicht wie AMD, Intel und Co. auf SRAM-Zellen, sondern auf embedded DRAM (eDRAM). Das spart sehr viele Transistoren, denn eine SRAM-Zelle braucht derer sechs, wohingegen eine DRAM-Zelle mit einem Transistor und einem Kondensator auskommt. Nicht ohne Augenzwinkern präsentierten die IBM-Entwickler daher nicht nur die Zahl von 1,2 Milliarden Transistoren, sondern auch ein Äquivalent von 2,7 Milliarden, wenn die 32 MByte L3-Cache als SRAM ausgeführt wären. Damit hätte IBM dann mal wieder das größte CPU-Die. So dürfte die „Krone“ derzeit an den Nehalem-EX von Intel gehen, der Power7 misst „nur“ 567 mm2.
Pro Kern führt Power7 wahlweise einen, zwei oder vier Threads simultan aus. Die L2-Caches schrumpfen auf 256 KByte; dafür halbiert sich im Vergleich zum Vorgänger ihre Latenz. Zwei Speicher-Controller sorgen für eine kontinuierliche Speichertransferrate von 100 GByte/s. Ein Multi-CPU-Modul mit vier Power7-CPUs schafft gar 400 GByte/s. Für bis zu 32 Prozessorfassungen sieht IBM Links vor.
Bisher galt DRAM allerdings als wenig wünschenswert in CPUs, da die dafür nötigen „deep trenches“ und darauf aufsetzenden Strukturen für den Kondensator der Zelle sich nicht so recht mit der Fertigung schneller Logik vertragen wollten. Dieses fertigungstechnische Problem hat IBM aber nun laut eigenen Angaben im Griff. Den in der Theorie erst einmal etwas höheren Latenzen von eDRAM gegenüber SRAM wirkt der geringe Flächenbedarf entgegen, denn die Distanz wirkt sich stärker aus als die Zelleigenschaften. Außerdem teilt IBM den Shared-Cache geschickt auf: Jeder Kern darf zwar auf alle Bereiche zugreifen, muss für weiter entfernte aber höhere Latenzzeiten in Kauf nehmen. Daher landen seine Daten bevorzugt in einem nahegelegenen Bereich. Zudem darf er in diesem auch Kopien anderer Cache-Lines horten. Trotz der vervierfachten Kernzahl soll die elektrische Leistungsaufnahme der der Vorgänger entsprechen. Es sind sogar CPU-Module vorgesehen, die auch in ältere Power6-Server passen. Taktfrequenzen und weitere Details wollte IBM noch nicht verraten.
Version zum Drucken | Per E-Mail versenden | Heft bestellen
Permalink: http://heise.de/-763733
Das aktuelle Heft ist jetzt im Handel erhältlich.
Ältere Artikel können Sie über unser Zeitschriften-Archiv bestellen.
Mehr zum Thema Halbleiterindustrie Prozessor