Neue Prozessorgenerationen sind das Thema der Entwicklerkonferenz in Kalifornien. Egal, ob Server- oder Handy-Chip: Effizienz ist Trumpf.
Dicke Server-Prozessoren gehörten zu den heißen Themen der Hot Chips 21, die vom 23. bis zum 25. August an der kalifornischen Uni Stanford stattfand. AMD verriet Details über die HyperTransport-3.0-Links des kommenden 12-Kern-Prozessors Magny Cours, Intel sprach über den Nehalem-EX alias Xeon 7500, IBM über Power7, Fujitsu über SPARC64 VIIIfx und Sun über Rainbow Falls, den Nachfolger des UltraSPARC T2+. Alle diese Prozessoren haben mindestens acht Kerne, einige bieten zusätzlich Multi-Threading, jeweils ein wenig unterschiedlich realisiert: Hyper-Threading bei Intel, Chip Multi-Threading (CMT) im 16-Kern-SPARC von Sun, vier Threads pro Core bei Power7.
In einer ganz anderen Disziplin, nämlich beim sparsamen Umgang mit Akkustrom, glänzt der OMAP4430 von Texas Instruments (TI), der trotzdem viel parallel erledigt – aber eben in Handys oder Smartphones. In dem System-on-Chip (SoC) kooperieren drei ARM-Kerne, davon zwei Rechenknechte mit Cortex-A9-Architektur, bis zu 1 GHz Taktfrequenz und 1 MByte L2-Cache sowie ein schlanker Cortex M3 mit 200 MHz, der vorwiegend Verwaltungsaufgaben übernimmt. Ein PowerVR-SGX540-Grafikkern kümmert sich um 2D- und 3D-Bilddaten, ein HD-Video-Beschleuniger – bei TI erwartungsgemäß auf Basis eines DSP – encodiert und dekodiert bis hin zur Auflösung 1080p. Beim Encoding soll ein OMAP4430 0,6 Watt schlucken, beim Decoding ist er sparsamer – und die MP3-Wiedergabe schafft er angeblich 100 Stunden lang mit einem typischen Smartphone-Akku.
So genaue Werte wollte Intel zum ARM-Konkurrenten Lincroft, dem Herz der 2010 erwarteten Moorestown-Plattform für die bisher erfolglosen Mobile Internet Devices (MIDs), lieber nicht verraten; immerhin war zu erfahren, dass auch Lincroft – wie einige Atoms der Z500-Reihe – Hyper-Threading unterstützt. Neu ist ein Übertaktungsmodus, der kurzzeitig die Performance steigert. Der im Lincroft-SoC integrierte Grafikchip soll OpenGL ES 2.0 und OpenVG 1.0 unterstützen, vermutlich kommt wie beim US15W-Chipsatz ein PowerVR-SGX-Kern zum Einsatz.
Doch zurück zu den heißen Server-Eisen: AMD hatte bereits 2008 versprochen, ab 2010 die Maranello-Plattform zu verkaufen, nämlich Serverprozessoren mit vier HyperTransport-3.0-Links und DDR3-Speichercontrollern in Gehäusen für die Fassung G34 mit 1944 Kontaktflächen. Die Magny-Cours-Prozessoren bestehen aus zwei Hexa-Core-Dice, also überarbeiteten Istanbuls; die beiden CPU-Hälften mit jeweils drei HyperTransport-(HT-)Links mit je 16 Lanes kommunizieren untereinander über 24 Lanes, also 1,5 HT-Links. Nach außen führt AMD pro CPU einen nicht kohärenten Link zur Anbindung des kommenden SR5690-Chipsatzes heraus, weitere Prozessoren können – wie bisher – über zwei kohärente x16-Links angedockt werden sowie zusätzlich nun auch über zwei kohärente x8-Links. Damit lassen sich in Servern mit vier physischen Prozessoren alle Fassungen direkt untereinander verbinden. Pro CPU gibt es jetzt vier (bisher zwei) Speicherkanäle für DDR3-SDRAM.
Zwei gegenläufige Ringbusse verbinden die L3-Cache-Segmente des kommenden Xeon 7500.
Wie beim Hexa-Core Istanbul filtert „HT Assist“ die Kommunikation zwischen den einzelnen Kernen und den Caches. Ein Teil des wie bei den anderen 45-Nanometer-K10-Prozessoren 6 MByte fassenden L3-Caches lässt sich für einen Directory-Cache nutzen, der alle Cache Lines aller Prozessoren verfolgt.
Der direkte Magny-Cours-Konkurrent von Intel heißt Nehalem-EX oder Beckton und wird wohl als Xeon 7500 auf den Markt kommen. Die dicksten CPU-Versionen verteilen 2,3 Milliarden Transistoren auf acht physische Kerne, 24 MByte L3-Cache sowie Controller für bis zu acht DDR3-Speicherkanäle und vier QuickPath-Interconnect-(QPI-)Links. So lassen sich vier oder acht Prozessorfassungen direkt untereinander verknüpfen.
Anders als beim Nehalem-EP (Xeon 5500) docken die Speichermodule nicht direkt am Prozessor an, sondern über Zusatzchips namens Scalable Memory Buffers. Xeon-7500-Server ermöglichen einen imposanten Hauptspeicherausbau – schon mit den bereits lieferbaren, wenn auch sehr teuren Quad-Rank-RDIMMs mit 16 GByte Kapazität sind 256 GByte pro CPU-Fassung möglich, also 1 Terabyte im Quad-Socket-Server.
Intel hat viel Hirnschmalz in die CPU-interne Kommunikation der acht Kerne gesteckt: Der L3-Cache setzt sich aus acht je 3 MByte fassenden Slices zusammen, die über zwei gegenläufige Ringbusse verbunden sind. Intel verspricht eine theoretische Datentransferrate dieses Interconnects von über 250 GByte/s. Intelligente Router, eine hohe Zahl an gleichzeitig ausstehenden Operationen, Caching- und Filterfunktionen sollen die Kommunikation zwischen den einzelnen Kernen sowie via QPI mit den Kernen und Speichercontrollern anderer Prozessoren optimieren.
Intel sprach auf der Hot Chips 21 auch über den I/O Controller Hub (IOH) 5520 (Tylersburg), der auf Xeon-5500-Serverboards als Chipsatz dient und in abgespeckter Form als X58 auch auf Core-i7-Mainboards. Der 65-Nanometer-Baustein besteht aus ungefähr 100 Millionen Transistoren auf 141 Quadratmillimetern Fläche, ist also größer als mancher x86-Prozessor. Wenn alle 36 PCI-Express-2.0-Lanes und die beiden QPI-Links unter Volllast stehen, verwandelt er 27 Watt in Abwärme. Der zweite QPI-Link lässt sich entweder nutzen, um beide Prozessoren eines typischen Dual-Xeon-Systems anzubinden, oder auch für einen zweiten IOH, der seinerseits wiederum mit dem zweiten Prozessor verbunden ist. Auf einem Mainboard mit zwei IOHs koordinieren diese ihre Zugriffe, sodass sie gegenüber den Prozessoren wie ein einziger Chipsatz erscheinen.
Der IOH 5520 enthält auch einige 32-Bit-Mikrocontroller-Kerne der Firma ARC International, die unter dem Echtzeitbetriebssystem ThreadX laufen: So realisiert Intel etwa die Management Engine (ME), die Fernwartungsfunktionen bereitstellt.
Zu einer anderen Interconnect-Technik, nämlich der Kommunikation via Glasfaser, hatte Luxtera Interessantes zu berichten: Die „aktiven“ 10/40-Gigabit-Ethernet- und InfiniBand-Kabel, bei denen in den Steckern elektrisch-optische Umsetzerbausteine stecken, gibt es auch von anderen Firmen. Doch diese Wandlung konnte Luxtera mit einem einzigen Spezialchip aus der herkömmlichen CMOS-Fertigung lösen, an den sich Glasfaserkabel direkt anschließen lassen. Ein einziger, separat gefertigter und später aufgesetzter Halbleiter-Laser versorgt vier optische Fasern, Modulatoren und Phasenschieber wurden auf dem Chip realisiert. Die Fotodetektoren sitzen in separaten Germanium-Inseln.
Version zum Drucken | Per E-Mail versenden | Heft bestellen
Permalink: http://heise.de/-763711
Das aktuelle Heft ist jetzt im Handel erhältlich.
Ältere Artikel können Sie über unser Zeitschriften-Archiv bestellen.