Hot Chips

Stelldichein der Halbleiterszene: Von Prozessoren für Server und Bio-CPUs

Trends & News | News

Während NEC, Fujitsu und IBM bei den Server-Prozessoren vergleichen, wer den größeren hat, kommen die 64-bittige ARM-Prozessoren langsam in die Puschen. Kleine Hersteller zeigen derweil, dass sich mit pfiffigen Ideen manche Probleme auch ganz anders lösen lassen.

Wenn im Sommer die Konferenz Hot Chips ins sonnige Kalifornien lädt, kommen Chip-Entwickler aller namhaften Hersteller. Viele dürfen sogar über Interna ihrer Schützlinge plaudern. Dieses Jahr mussten sie sich allerdings erst einmal am Tutorial-Tag die Leviten lesen lassen. Auf dem Programm standen Security Basics for Computer Architects, vorgetragen unter anderem von Sprechern der Princeton University, und ARM. Danach berichteten AMD und Intel über die Sicherheitsmechanismen ihrer Prozessoren. Allerdings bestehen die bei Intel aus so vielen Puzzlestückchen, dass der Vortragende schon mehrere Folien brauchte, um zu erklären, was wie zusammenarbeiten soll.

Weitspuckwettbewerb

Die eigentliche Konferenz eröffnete NEC mit einem klassischen Big Iron, einem Prozessor für Supercomputer oder große Server. Den prominenten Zeitslot hat das Hot-Chips-Team aber vermutlich nicht aus Bewunderung für den brandneuen Vektor-Prozessor SX-ACE vergeben, sondern der Dramaturgie zuliebe. Immerhin durfte sich NEC so zumindest ein paar Minuten damit rühmen, zur Konkurrenz aufgeschlossen zu haben.

Die vier Kerne des SX-ACE oder genauer gesagt deren Vektoreinheiten holen aus 1 GHz Taktfrequenz 256 GFlops. Das reicht, um knapp an Intels Ivy-Bridge-Xeons, IBMs Power 7 und dem Sparc 64 IXfx von Fujitsu vorbeizuziehen. Lediglich bei der Speichertransferrate von 256 GByte/s, die die 16 DDR3-Controller wuppen, liegt der SX-ACE deutlich vor diesen Konkurrenten, wenn auch nur gleichauf mit seinem Vorgänger SX-9. Den schlägt der SX-ACE wiederum bei der elektrischen Leistungsaufnahme, kommt aber mitnichten an die Effizienz von Xeon oder IXfx heran.

Weil der Sparc64 IXfx aber bereits drei Jahre alt ist, dürfte der für den Folgevortrag bereitstehende Fujitsu-Mitarbeiter bestenfalls geschmunzelt haben. Er durfte nämlich den Sparc64 XIfx vorstellen. Der rechnet mit 32 Kernen und lässt sich von zwei weiteren assistieren. Damit schafft er 1,1 TFlops bei einfacher Genauigkeit – 6,1-mal so viel wie besagter Vorgänger. Bei Gleitkommaoperationen doppelter Genauigkeit überholt er den IXfx um Faktor 3,2. Für den Zuwachs zeichnen die von 1,85 auf 2,2 GHz gestiegene Taktfrequenz und diverse Architekturverbesserungen verantwortlich. So soll der L1-Cache schneller geworden sein und nun 4,4 TByte/s schaffen. Vor allem aber sind die SIMD-Einheiten nun 256 Bit breit.

Intern besteht ein Sparc64 XIfx aus zwei Core Memory Groups (CMG) mit je 16 Compute Cores, 12 MByte L2-Cache sowie einem Assistant Core. An jeder CMG hängen zudem vier Hybrid Memory Cubes, von denen jeder 30 GByte/s pro Richtung schaufelt. Unterm Strich ergibt das 240 GByte/s jeweils ein- und ausgehend. Die Außenanbindung übernehmen zwei Tofu2-Ports mit zusammen 12,5 GByte/s pro Richtung.

Auch beim Fertigungsprozess liegt Fujitsu vor NEC. Der 2 Milliarden Transistoren große SX-ACE entsteht noch in einem 28-nm-Prozess, der Sparc64 XIfx nutzt bereits 20-nm-Strukturen für seine 3,75 Milliarden Transistoren. Nimmt man die Konfigurationen des Vorgängers als Anhaltspunkt, könnte dieser in Systemen mit 4 bis 1024 Racks zu je 96 Nodes auftauchen. Das ergäbe eine theoretische Rechenleistung von mehr als 100 Petaflops.

Auch IBM durfte noch mal mit den Performance-Daten des Power 8 nachtreten: Das 4,2-Milliarden-Transistor-Monster erreicht nun in der Spitze eine Speichertransferrate von bis zu 410 GByte/s und kann zudem 96 MByte lokal im eDRAM-L3-Cache halten. Es liefert mit seinen 12 Kernen sogar die doppelte Performance des Vorgängers und lässt so den brandneuen SX-ACE abermals alt aussehen.

Intel hält mit dem Haswell-E(P) noch ein wenig hinterm Berg, doch dank AVX2 wird er den Ivybridge-E ähnlich überflügeln wie der Desktop-Haswell seinen Vorgänger. Sprich: Auch hier sieht es für NEC schlecht aus, zumal Haswell-E vermutlich vor dem SX-ACE in den Handel kommt. Auf der vergangenen Supercomputer-Konferenz war Intels-Schützling jedenfalls schon und der von NEC noch nicht zu Gast.

Inselbegabung

Nicht vergleichbar mit Super-Rechnern von der Stange ist hingegen Anton 2. Der kommt nicht aus Tirol, sondern von DE Shaw Research aus New York und ist auf Molekulardynamik spezialisiert. Der Chip berechnet ausschließlich die Bewegung von Atomen in biochemischen Systemen, das aber schnell. Das ist auch nötig: Ein typisches System besteht aus bis zu 106 Atomen, für die jeweils etwa 1012 Zeitschritte im Abstand von 2 Femtosekunden simuliert werden müssen. Pro Atom und Zeitschritt fallen 104 Gleitkommaoperationen an.

Anton 2 ist ein ASIC mit 66 spezialisierten Kernen, die mit 1,65 GHz laufen. Zusammen schaffen sie 12,7 × 1012 32-Bit-Festkommaoperationen pro Sekunde, kurz Tfxops. Intern besteht Anton aus 16 Flex-Tiles, die mit jeweils vier Geometry Cores und lokalem SRAM (256 KByte) einfache Einzelberechnungen erledigen. Daten geben sie über ein dreidimensionales Torus-Netzwerk an ihre Nachbarn weiter. Das ist ideal für die Berechnung der Wechselwirkung von Atomen, bei der die räumliche Nähe ebenfalls eine entscheidende Rolle spielt. Zwei High-Throughput Interaction Systems – mit je einem eigenen Geometry Core – kümmern sich um die Interaktion einzelner Partikel. Der Chip selbst hat noch 40-nm-Strukturen und 2 Milliarden Transistoren. Unter voller Last verheizt er 190 Watt. Ein 19-Zoll-Rack mit 512 Anton-2-Chips kommt auf 42 Kilowatt.

Bio-Chip

Eine ganz andere Aufgabe erfüllt der Bio-Chip von InSilixa: Er kann rund 1000 zuvor konfigurierte DNA-Sequenzen erkennen. Das soll medizinische Diagnostik beschleunigen und verbilligen. Der Trick: Die DNA-Probe wird direkt beim Arzt auf das Biosensor-Array des Chips aufgebracht und analysiert. Dazu erhitzt der Chip zuerst die Probe auf 85 °C und kühlt sie dann wieder auf 45 °C ab. Die DNA reagiert mit Linker-Polymeren. Das Ergebnis können Fotozellen dank geeigneter Filter auslesen. Der Chip kann nur einmal verwendet werden, weshalb er als Modul am Lesegerät andockt.

Er besteht aus 1008 Bio- sowie 16 Temperatursensoren. Die Fotozellen lösen Licht mit Wellenlängen zwischen 450 und 700 nm mit 24 Bit auf. Die Kosten sollen bei 7 bis 15 US-Dollar pro Chip und etwa 250 US-Dollar für das Lesegerät liegen. Damit sinken sowohl Anschaffungs- als auch Analysepreise laut InSilixa erheblich. Andere Geräte kosten je nach Verfahren zwischen 20 000 und 700 000 US-Dollar, jede Messung kostet zwischen 80 und 10 000 US-Dollar.

Flachstapler

Eine pfiffige Idee für den Bau von Chipstapeln zeigte die Firma ThruChip: Sie wollen die einzelnen Dice mit Funktechnik koppeln. Das soll extrem flache Die-Stacks bei moderaten Kosten und trotzdem hohen Übertragungsraten ermöglichen. Bisher werden Chips nach zwei Verfahren gestapelt: Entweder man klebt die Chips versetzt aufeinander, um sie am Rand mit Bonding-Drähten zu verbinden. Das ist vergleichsweise billig, limitiert aber sowohl Zahl als auch Geschwindigkeit der Verbindungen. Alternativ bohrt man Durchkontaktierungen durch die einzelnen Chips (Through Silicon Via), das ist schnell aber extrem aufwendig. Bei beiden Verfahren braucht jede Lage winzige Lotkugeln und Kontaktflächen, wodurch die Chip-Stapel dicker werden.

Thruchip dagegen integriert Mini-Spulen mit gerade einmal einer Handvoll Windungen in die einzelnen Dice. Diese werden dann extrem dünn geschliffen und verklebt. Die Kopplung zwischen den Lagen erfolgt induktiv, vergleichsweise sparsam und mit mehr als 40 GBit pro Sekunde und Spule. Weil die Kopplung auch über viele Lagen hinweg erfolgen kann, hat die Funktechnik mit steigender Lagenzahl zunehmend Vorteile gegenüber Through Silicon Vias, bei denen die Signale von Schicht zu Schicht durchgereicht werden. Die Energiemenge zur Übertragung eines Bits soll um Faktor 10 unter der von TSV und sogar Faktor 400 unter der von Wire Bonds liegen. Die Höhe des Stapels könnte bei NAND-Flash (16 Lagen Wire Bond) von 1000 auf 80 µm und bei DRAM (5 Lagen TSV) von 275 auf 40 µm schrumpfen.

Die Wafer sind so dünn (10 µm), dass man alleine durch geschickte Dotierung einen leitfähigen Kanal von der Ober- zur Unterseite ausbilden kann. Nach dem Verkleben der Schichten entstehen vertikale Stromschienen, ohne dass man erst aufwendige TSVs bauen müsste, oder Lotkugeln braucht. Bisher hat Thruchip das Verfahren an 28 Testchips erprobt, vom Serieneinsatz war noch nicht die Rede.

ARM-Eigenbauten

Nvidia war mit dem ARM-Projekt Denver zur Hot Chips angereist. Allerdings gab es – wie üblich – nur Informationshäppchen, aber markige Performance-Schätzungen. So sollen die beiden selbst entwickelten Denver-Kerne im kommenden Tegra K1-64 den ARMv8-Befehlssatz nutzen, 7-fach-skalar arbeiten, 2,5 GHz Taktfrequenz erreichen und größere Caches haben als ihre von ARM in Lizenz genommenen 32-Bit-Vorgänger (ARMv7). Verwirrenderweise will Nvidia den Tegra K1 in zwei Varianten bauen: Den K1-64 mit zwei Denver-Cores und den bereits verfügbaren K1-32 mit vier Cortex-A15-Kernen (32 Bit).

Gegenüber dem Cortex-A15 hat Nvidia die L1-Caches von 2 × 32 KByte auf nun 128 KByte für Instruktionen respektive 64 KByte für Daten vergrößert. Die SIMD-Einheit NEON ist nun 128 Bit breit. Außerdem betonte Nvidia die Vorzüge von Dynamic Code Optimization, bei der der Code zur Laufzeit durch einen Optimierer geschleust wird. Der „optimized Microcode“ landet in einem Cache und steht dort für weitere (Schleifen-)Durchläufe bereit. Der Optimierer versucht unter anderem Schleifen aufzulösen, Register umzubenennen, Load- und Store-Befehle umzusortieren sowie redundante Berechnungen zu unterbinden. Unterm Strich soll Denver nun bis zu sieben Instruktionen pro Zyklus schaffen – mehr als doppelt so viel wie der Cortex-A15.

Einen Vergleich mit ARMs 64-bittigem Cortex-A57 zog Nvidia nicht, wohl aber mit Intels Ultrabook-Celeron, Qualcomms Krait-400 und Apples A7. Bis auf die Gleitkommaoperationen aus dem Benchmark Specfp 2000 und Memcpy siegt der Tegra K1 in allen von Nvidia ausgewählten Disziplinen. Insbesondere der A7 soll zum Teil weit zurückliegen. Aussagekräftige Rückschlüsse lassen die Zahlen noch nicht zu, denn im direkten Vergleich wird ein Handy-Chip einer Tablet-CPU unterlegen sein, weil Letztere ein größeres Strombudget hat.

Mit kleinen Dual-Core-Brötchen hat sich der ARMv8-Pionier Applied Micro schon bei der ersten Version des X-Gene (Storm) nicht abgegeben. Noch dieses Jahr soll X-Gene2 alias Shadowcat mit 8 bis 16 Kernen und 2,8 GHz Taktfrequenz in ARM-Servern debütieren – etwa in einem X-Gene2 High Density Rack. Das bringt auf 42 Höheneinheiten 50 TByte RAM und 6480 Kerne unter.

Skylark alias X-Gene3 soll mit bis zu 64 Kernen und 3 GHz Taktfrequenz noch einen drauf setzen. Applied Micro hält am grundsätzlichen Aufbau der Vorgänger fest: Je zwei 64-Bit-Kerne teilen sich einen L2-Cache. Ein kohärentes On-Chip-Netzwerk verbindet diese „Processor Modules“ mit dem L3-Cache, den Speicher-Controllern und den beiden 10-Gigabit-Ethernet-Ports. Ebenfalls mit auf dem Die sitzen Controller für PCIe 3.0 und SATA 6G. Außer einigen Architekturverbesserungen erfährt X-Gene3 vor allem eine Strukturverkleinerung von 28 auf 16 nm. Außerdem kommen FinFET-Transistoren zum Einsatz. Erste Muster von X-Gene3 will Applied Micro 2015 an Server-Hersteller liefern.

Die Chancen stehen also gut, dass bis zur Hot Chips 17 in einem Jahr konkrete Performance-Messungen vorliegen. Bis dahin haben wir sicher auch Vergleichswerte von diversen anderen 64-bittigen ARM-Kernen. Denn die ersten Android-Smartphones und Tablets mit ARMv8-Chips dürften noch vor Weihnachten im c’t-Labor eintrudeln, bei AMD stehen wir in der Warteschlange für eines der wenigen Stellarton-Testsysteme. (bbe)

Artikel kostenlos herunterladen

Anzeige
Anzeige