Hot Chips

Stelldichein der Halbleiterszene: Zwischen Handy-Chip und Big Iron

Trends & News | News

Während erste ARM-Chips für Server in den Startlöchern stehen, wechselt AMD vom Performance- ins Effizienz-Lager. Intel belebt das Coprozessor-Konzept neu und für Unix-Server gibt es gleich mehrere neue Monster-Chips. Unterdessen tüfteln Mobilpioniere an berührungslosen Bedienkonzepten.

Alljährlich treffen sich auf der renommierten Hot-Chips-Konferenz im Silicon Valley Prozessor-Gurus mit System-on-Chip-Architekten, Programmierern und Unternehmensgründern. Für die Keynotes konnten die Organisatoren unter anderem Pat Gelsinger, den ehemaligen Chefentwickler von Intel und seit ein paar Tagen CEO von VMware, gewinnen. Der seine – durch die Tätigkeit beim Storage-Spezialisten EMC2 geprägte – Vision künftiger Rechenzentren und des Cloud-Computing darlegte. Als alter x86-Hase ließ er es sich aber auch nicht nehmen, ARMs 64-Bit-Schritte in Richtung Server zu kommentieren: Große Chancen sieht er in diesem Markt für den Newcomer nicht.

ARM-Server

Dem widersprach Gaurav Singh vom SoC-Hersteller Applied Micro Circuits (AMCC) umgehend und stellte kurz darauf X-Gene vor, den vermutlich ersten 64-Bit-ARM-Prozessor für Server. Ein frühes Muster durften die Konferenzteilnehmer zwar nur aus der Ferne bewundern, bekamen aber einen Vorgeschmack auf dessen Innenleben: X-Gene implementiert ARMs 64-Bit-Architektur ARMv8A, wurde aber von Grund auf von Applied Micro entwickelt und versteht bei Bedarf auch 32-Bit-ARM- sowie neue SIMD-Befehle.

X-Gene bündelt jeweils zwei Out-of-Order-Kerne mit privatem L1- und gemeinsamem L2-Cache zu einem Modul. Ein Prozessor enthält dann 1 bis 64 solcher Module – also bis zu 128 Kerne. Dazu kommen ein schnelles kohärentes Verbindungsnetzwerk, L3-Cache, Speicher-Controller sowie Ethernet-Adapter für 10 GBit/s und PCIe 3.0. Alles zusammen bildet einen monolithischen „Server-on-Chip“, der sich vollständig synthetisieren lässt und so die Auswahl eines Auftragsfertigers erleichtert.

Das Design erinnerte einige der Fachleute im Publikum stark an AMDs K6- und K8-Kerne (Athlon 64) – kein Wunder, denn die stammen wie der X-Gene aus der Feder von Greg Favor. Konkrete Angaben zur Anzahl der Kerne, deren Taktfrequenz und die Größe der Caches wollte Applied Micro noch nicht machen, versprach aber noch für dieses Jahr fertige Produkte.

Effizienz statt Taktfrequenz

Ebenfalls nicht über Taktfrequenz, sondern viel lieber über Hybrid System Architecture (HSA) wollte AMDs CTO Mark Papermaster reden. Er erklärte am Rande einer Keynote über die kommende Ära des Surround Computing – in der „Computing“ noch stärker mit unserem Alltagsleben verschmelzen soll – kurzerhand das Rennen um blanke CPU-Geschwindigkeit für beendet. So soll etwa die Steamroller-Architektur, die in die Fußstapfen von Piledriver und Bulldozer tritt, keine großen Performance-Gewinne, sondern primär mehr Rechenleistung pro Watt bringen. So sei es gelungen, gegenüber Piledriver alleine die Anzahl der falschen Sprungvorhersagen um 30 Prozent zu senken. Zusammen mit einigen anderen Maßnahmen soll so die Anzahl der Instruktionen pro Taktzyklus um 30 Prozent steigen.

Auffällig ist auch, dass Steamroller eine MMX-Einheit weniger hat als Piledriver. Laut Papermaster war sie ohnehin selten ausgelastet und im Zweifelsfall soll nun eine der FMAC-Einheiten aushelfen. Das spart in der Gleitkommaeinheit rund 25 Prozent Die-Fläche. Neu ist eine Technik, um Teile des L2-Cache dynamisch schlafen zu legen.

Beim Layout von Steamroller geht AMD neue Wege: weg vom alten Ansatz eines handoptimierten Chips hin zu einem mit Standard-Bibliotheken synthetisierbaren Design. Das soll in erster Linie den Wechsel des Auftragsfertigers erleichtern, reduziert laut Papermaster aber auch Fläche und Leistungsaufnahme um 30 Prozent. Ob dafür jedoch die Taktfrequenz sinken muss, sagte er nicht. Auf den Markt kommen soll Steamroller 2013.

Katzennachwuchs

Noch nicht verraten wollte AMD, in welcher Form die neuen Jaguar-Kerne debütieren sollen. Sie treten die Nachfolge des Atom-Konkurrenten Bobcat an, haben aber vier statt zwei Kerne. Außerdem soll Jaguar rund 15 Prozent mehr Instruktionen pro Taktzyklus liefern, 10 Prozent höher takten und dabei mit dem gleichen Power-Budget auskommen. Neu an Bord sind Befehle für SSE 4.1 und 4.2, AES, AVX, CCMUL, MOVBE, XSAVE, F16C und BMI. Zudem erweitert AMD den physischen Adressraum von 36 auf 40 Bit.

Jaguar bekommt – erstmals für AMD – einen Shared Cache, der inklusiv arbeitet. Er besteht trotzdem aus vier Kacheln (Tiles), die einzeln schlafen gehen können und nicht mehr direkt an den einzelnen Kernen hängen. So steht er auch dann noch zur Verfügung, wenn einzelne Cores schlafen.

Solarbetrieb

Von Serienreife kann bei Intels Forschungsprojekt „Claremont“ keine Rede sein. Dafür können die Intel-Forscher den Pentium-Kern P54C aus einer winzigen Solarzelle speisen: Bei 380 mV Kernspannung und 10 MHz Taktfrequenz schluckt er nur 1,5 mW. Damit bewegt sich der in einem 32-nm-Verfahren wiederauferstandene Methusalem aus dem Jahr 1994 im Bereich der Schwellenspannung (Near Threshold Voltage, NTV). Bei Bedarf schafft er aber auch 741 MHz bei 1,1 V und braucht dann 445 mW. Diese Werte enthalten übrigens nicht die 19 Jahre alte Hauptplatine, den Speicher und einige Treiber. Denn die laufen zum Teil mit 3,3 Volt. Alleine die Pegelanpassung zwischen Kern und Frontsidebus erfordert drei Stufen.

Beim verwendeten P54C-Kern handelt es sich übrigens um einen alten Bekannten alias Pentium, den Intel schon mehrfach aus der Versenkung hervorgeholt hat. So liegt er dem Larrabee-Projekt und damit auch Knights Corner alias Xeon Phi zugrunde. Dass der Methusalem allerdings kompatibel mit modernen Tools und Fertigungsverfahren ist, dürfte – je nach Lesart – auf das Pentagon respektive die NASA zurückgehen. Die hatten nämlich nach einem extrem lange verfügbaren Prozessor gesucht und dafür von Intel 1998 den abgelegten P54C bekommen – samt der Erlaubnis, ihn an moderne Verfahren anzupassen und gegen Strahlung zu härten.

Intels langer Weg

Apropos Xeon Phi: Dem Coprozessor für Supercomputer hat Intel einen eigenen Vortrag gewidmet und dabei zwar Details zur Architektur, aber wenig Konkretes zu Taktfrequenzen und Anzahl der Kerne verraten – vermutlich um nicht der Hausmesse IDF vorzugreifen. Pikante Details dazu hat aber unser Prozessorflüsterer entdeckt (siehe S. 26).

Intern verbinden Ringbusse die einzelnen Kerne (mehr als 50), ihre Caches, die Tag -Directories und die Speicher-Controller (für 8 GByte oder mehr GDDR5-Speicher). Dabei überträgt der bidirektionale Block Ring ganze Cache-Lines (64 Byte) in einem Rutsch, während Adressen sowie Kohärenznachrichten jeweils eigene, schmalere Ringe nutzen. Weil auf diesen aber häufiger Transfers stattfinden, existieren sie pro Richtung doppelt. Alle paar Kerne sitzt ein Speichercontroller mit auf dem Bus.

Die einzelnen Cores, von denen jeder einen eigenen L2-Cache hat, erinnern an ältere x86-Designs – sieht man von den vier Threads und der 512-Bit-Vektoreinheit ab. Aber genau die soll mit SIMD-Technik und 16 Lanes für Gleitkommazahlen einfacher respektive 8 mit doppelter Genauigkeit den Löwenanteil der Arbeit erledigen. Letztlich entfallen auf die x86-Logik gerade einmal zwei Prozent der Die-Fläche.

Viel Aufwand hat Intel auch in Stromsparmechanismen gesteckt. Nach einem Stufenmodell werden zuerst unbenutzte Kerne vom Takt und dann auch von der Versorgungsspannung abgeklemmt. Als Nächstes folgen Caches und Interconnects und danach der ganze Uncore-Bereich. Zuletzt wartet nur noch das PCIe-Interface auf ein Wecksignal.

Schwere Geschütze

Ebenfalls Supercomputer hat Fujitsu mit dem SPARC64 X – dem größten und wahrscheinlich heißesten Chip der Konferenz – im Visier. Der SPARC64 X holt aus 16 Kernen, 3 GHz Taktfrequenz und 24 MByte L2-Cache 382 GFLOPS oder 288 Milliarden Integer-Instruktionen pro Sekunde heraus. Mit 2,95 Milliarden Transistoren auf 587 mm2 Die-Fläche verwiesen die Japaner nicht nur Oracles SPARC T5, sondern auch IBMs Power7+ und den Mainframe-Prozessor zNext (siehe S. 28) auf die Plätze. Auch bei der Fertigung zieht Fujitsu mit einem 28-nm-Prozess an IBM (32 nm) vorbei.

Spekulationen, wie es für die mit Sun übernommene Server-Sparte weitergeht, beendete Oracle unter dem Motto „Engineerd to work together“ mit der Vorstellung des SPARC T5: Der Riesenchip bringt auf einem Silizium-Die 16 CPU-Kerne, 8 MByte L3-Cache, 8 DDR3-Controller, 16 PCIe-3.0-Lanes und ein gewaltiges Interconnect-System mit. Damit kann jeder Chip zu sieben weiteren Kontakt aufnehmen. Das bedeutet, dass in einem 8-Sockel-Server jeder Prozessor ohne Umweg direkt mit jedem anderen kommunizieren kann. Ist eine Verbindung trotz ihrer 28 GByte/s doch mal ausgelastet, können die CPUs weitere Prozessoren als Relaisstationen einbinden. Das kostet zwar Latenz, steigert aber die Bandbreite. Kummuliert schaffen die Verbindungen zum Arbeitsspeicher mehr als 1 TByte/s, über das Kohärenznetzwerk sind es noch 840 GByte/s und per PCIe 3.0 256 GByte/s. In Servern mit zwei oder vier Sockeln verbinden jeweils vier respektive zwei Interconnects die einzelnen Knoten. Wird ihre Bandbreite nicht ausgeschöpft, gehen einzelne Interconnects schlafen.

Stolze 2,1 Milliarden Transistoren auf 567 mm2 reichten dem Power7+ auf der Hot Chips nicht für einen Platz in der Big-Iron-Liga, sondern nur für die Data-Center-Session. Auf einem Die bringt IBM acht Kerne mit jeweils 2 Execution Units unter und verkauft sie entweder als Single- oder Dual-Chip-Module. Erstere takten höher, während bei letzteren 16 Kerne in eine CPU-Fassung passen. Wem das noch nicht reicht, der kann bis zu 32 Sockel zusammenschalten.

Flexibler Rechenknecht

Mit einem ganz anderen Ansatz will Altera hohe Gleitkommaperformance und niedrige Leistungsaufnahme kombinieren: Fused Datapath bringt FPGAs wie dem Stratix V das Rechnen mit Gleitkommazahlen bei und geht dabei einen unorthodoxen Weg: So hält es sich zwar bei Ein- und Ausgabe von Zahlen an das IEEE-754-Format, rechnet aber intern so lange wie möglich im 2er-Komplement und nicht mit normalisierten Mantissen. Die dabei eigentlich auftretenden Rundungsfehler kompensiert Altera durch im FPGA leicht realisierbare Zusatzbits für die Mantisse. Normalisiert und gerundet wird erst beim Export der Daten.

Besonders gut stehen Altera-FPGAs angeblich in der Disziplin GFlops pro Watt und bei mittleren Problemgrößen da. Je kleiner die zu berechnende Matrix wird, desto eher fällt der Datentransport gegenüber den Berechnungen ins Gewicht. Bei sehr großen Matrizen punkten indes Grafikchips. Allerdings sieht Altera Anwendungsfälle wie die Steuerung von Kurzstreckenraketen, bei denen weder GPUs noch CPUs ins Strombudget passen. Auf den Markt bringen will Altera Fused Datapath Anfang 2013.

Datenvision

Obwohl die 24. Auflage des Branchentreffens direkt vor Apples Haustür in Cupertino und nicht wie bisher auf dem malerischen Campus der Stanford University stattfand, war Apple nicht vertreten – zumindest offiziell. Dabei haben die Veranstalter Mobilgeräten wie Tablets und Smartphones oder genauer gesagt deren Innenleben und Programmierung erheblichen Raum im Programm eingeräumt.

Einige der Firmen, die vor der eigentlichen Konferenz in den sogenannten Tutorials ihre Forschungsarbeiten präsentierten, betrachten sogar Touch-Displays als Schnee von gestern. Sie tüfteln an Algorithmen und Chips, mit denen man Geräte berührungslos steuern kann. So arbeitet beispielsweise EyeSight an einem System, das Gesten mit einer ganz normalen 2D-Kamera erkennt.

Arcsoft entwickelt Verfahren, um Bilder von Kameras bereits im Bildprozessor aufzubereiten – etwa um aus einer raschen Folge von Einzelbildern ein Gruppenfoto zu montieren, bei dem keiner blinzelt. Metaio präsentierte Verfahren zur Überlagerung von Metainformationen und Kamerabildern, sprich Augmented Reality.

Ganz der Datenbeschaffung hat sich Sensor Platforms verschrieben und will mit „Sensor Fusion“ zum einen möglichst viele Sensordaten miteinander verknüpfen und zum anderen Programmierer von der Ansteuerung der Sensor-Hardware entbinden. Deutlich machte Jim Steele das am Beispiel der Höhenangabe, die ein barometrischer Drucksensor ermittelt. Betritt der Nutzer einen geschlossenen Raum, so ändert sich der Luftdruck, ohne dass das Gerät sich in Richtung der z-Achse bewegt hat. Korrigieren kann man das mit Hilfe der Daten von Beschleunigungssensoren. Steele träumt aber zudem von hoch spezialisierten virtuellen Sensoren, die dem Programmierer etwa die Frage beantworten, ob der Anwender gerade in einem Fahrstuhl steht oder nicht.

Außer bei Arcsoft, deren Verfahren mit einigen 100 MByte Speicher auskommen, herrschte Einigkeit darüber, dass der primäre Engpass für Mobilgeräte derzeit nicht etwa bei der Rechenleistung, sondern vor allem beim Arbeitsspeicher und der Sensorik liege. Dan Wexler von der Firma The 11ers, die Kameradaten in Echtzeit mit Effektfiltern und anderen Algorithmen verziert, forderte eindringlich, Shared Memory auch bei SoCs der Software zugänglich zu machen. Nur so könne man effektiv Rechenarbeit zwischen CPU und GPU verteilen.

Zuvor hatte Neil Trevett – Präsident der Khronos Group – ausführlich über die Bemühungen bei Standards wie OpenCL, WebGL, WebCL, OpenMax und Co. berichtet. Er wies darauf hin, dass Microsoft für die ARM-Version von Windows derzeit einen Alleingang plant und eine Programmierung der GPU nur per DirectX erlaubt. Bisher gebe es noch nicht einmal WebGL-Unterstützung für HTML5 von Microsoft.

Einig waren sich alle aber letztlich darüber, dass man heute oftmals schon mehr Strom für den Transport von Daten als für deren Bearbeitung aufwenden müsse und Strom respektive thermisches Budget derzeit der begrenzende Faktor sei. In gewisser Weise konnten diesem Konferenz-Fazit sogar die Big-Iron-Jünger zustimmen. Ein in vielen Vorträgen thematisierter Ausweg könnte es sein, per Die-Stacking die dritte Dimension zu erschließen – nicht nur für Speicher-Chips. (bbe)

Artikel kostenlos herunterladen

Kommentare

Anzeige