Von winzig bis riesig

Intel Developer Forum 2012

Trends & News | News

Vor allem von Haswell, der kommenden vierten Core-i-Generation, wusste Intel viel zu erzählen, als es 5000 Entwickler und viele Hundert Medienvertreter nach San Francisco zog, um sich im Moscone Center die neuesten Informationen aus erster Hand abzuholen.

David „Dadi“ Perlmutter, Intels CPO (Chief Product Officer), eröffnete das Developer Forum mit seiner Keynote unter dem Motto „Reinventing Computing“: Der offensichtliche Trend hin zu mobilen Geräten erfordere nicht nur immer energieeffizientere Prozessoren, damit sie lange Akkulaufzeiten erreichen, sondern auch leistungsfähige Server in Rechenzentren, die ihnen zuarbeiten. Freilich sieht er Intel dafür gut aufgestellt, reicht das Produktportfolio doch vom kleinen Atom Z2460 (Medfield-Plattform, Penwell-SoC) für Smartphones mit 432 Millionen Transistoren auf 64 mm2 Die bis hin zum gigantischen Server-Coprozessor Xeon Phi, der laut Perlmutter zehnmal mehr Transistoren als Medfield enthalten soll. Wahrscheinlich hat er bei der Zahl noch kräftig untertrieben. Und der kleine rechteckige Chip mit der Aufschrift QV84 ES, den Perlmutter in den Händen hielt, war womöglich gar nicht der Z2460 – denn der ist quadratisch –, sondern wohl schon die neue Tablet-Version Clover Trail alias Atom Z2760.

Mit ihm sind – im Unterschied zu Tablets mit Core-i-Prozessoren – genauso dünne Tablets ohne Lüfter möglich wie mit ARM-Prozessoren. Während letztere Windows aber nur in der RT-Variante ausführen können, läuft auf dem Z2760 ein vollwertiges Windows 8 und somit auch (nahezu) jede x86-Applikation – Performance-Wunder darf man natürlich nicht erwarten. Für einige Debatten sorgte, dass Clover Trail ausschließlich Windows 8 und damit keine anderen Betriebssysteme wie Linux oder Android unterstützen soll.

Perlmutter gab einen Ausblick auf die kommende Prozessorgeneration Haswell und ließ den Grafikbenchmark Unigine Heaven sowohl auf einem aktuellen Ultrabook mit Ivy-Bridge-Prozessor als auch auf einem Referenzsystem mit Haswell-Prozessor laufen. Während die Grafik bei Ivy Bridge stotterte, lief sie auf Haswell flüssig – Tesselation war allerdings auf beiden Systemen abgeschaltet. Umgekehrt soll Haswell dieselbe Grafikleistung wie Ivy Bridge bei deutlich geringerer Leistungsaufnahme liefern, was Perlmutter ebenfalls demonstrierte: Jetzt stotterte die Grafik auf beiden Systemen gleich, doch das Haswell-System nahm dabei nur rund 8 Watt auf, während für Ivy-Bridge-Prozessor 17 Watt TDP angezeigt wurde. Intel hat aber gefudelt und beim Ivy-Bridge-System gar nicht gemessen, sondern einfach einen festen Referenzwert angezeigt.

Nächste Prozessorgeneration

Chefarchitekt Ronak Singhal und seine Crew stellten in mehreren Sessions viele weitere Haswell-Interna vor. Der Chip kommt als Tock in Intels Tick-Tock-Modell in nahezu der gleichen Prozess-Technologie von 22 nm (P1270) wie Ivy Bridge heraus, bringt aber eine erheblich veränderte Mikroarchitektur mit. Die wichtigsten Neuerungen im Instruktionssatz hatte Intel bereits vorab bekannt gegeben, nämlich Advanced Vector Extension 2 (AVX2), Fused Multiply-Add (FMA) und Transactional Synchronization Extension (TSX). Nun erfuhr man Details zur Hardware-Implementierung und zu den anderen Neuerungen, etwa mehr Funktionseinheiten sowie breitere Pfade zu den Load/Store-Einheiten und zu den Caches.

Im Kern bleibt Haswell weitgehend bei der Pipeline des Vorgängers Ivy Bridge, und die geht im Grundprinzip immer noch auf den guten alten Pentium Pro zurück. Im Mittelpunkt stehen hierbei der Reorder Buffer (ROB) und die Reservation Station, aus der heraus über diverse Ports die einzelnen Funktionseinheiten bedient werden. Allerdings wurde die Größe beziehungsweise die Anzahl dieser Komponenten im Laufe der Zeit stetig vergrößert. Die Größe des Reorder Buffers – inzwischen auch gern als Out-of-Order Window bezeichnet – stieg von einst 40 (P6) über 128 (Nehalem) und 168 (Sandy Bridge) auf nunmehr 192 Einträge an. Die Reservation Station vergrößerte Intel von 20 (P6) über 36 (Nehalem) und 54 (Sandy Bridge) auf 60 Einträgen und die Anzahl der Ports von ursprünglich 5 über 6 (ab Core) auf nunmehr 8.

Hinzugekommen ist bei Haswell über Port 6 eine weitere, vierte Integer-ALU sowie eine zweite Sprungeinheit. Port 7 entlastet die beiden Load/Store-Ports 2 und 3 durch eine dedizierte Store-Address-Einheit. Auch die Zahl der physischen Register, auf die die logischen x86/64-Register gemappt werden, wurde weiter vergrößert. Wie Singhal ausführte, gab es hier trotz der 144 Gleitkommaregister des Sandy-Bridge-Designs noch gelegentliche Engpässe, daher hat das FP-Registerfile jetzt 168 Einträge. Für Integer hätten die 160 Register von Sandy Bridge zwar gemäß der Simulationen weiterhin ausgereicht, der schöneren Symmetrie wegen gönne man aber diesem Registerfile nun ebenfalls 168 Einträge. Zu den zahlreichen weiteren Verbesserungen gehören größere Puffer, eine verbesserte Sprungvorhersage und ein auf 1024 Einträge verdoppelter L2-TLB, der nun auch große Speicherseiten berücksichtigt.

Wichtiges Ziel des Designs war, so betonte Singhal im Gespräch mit c’t, die Pipeline gegenüber Ivy Bridge nicht zu verlängern und die Latenzzeiten der Caches beizubehalten.

AVX2, FMA, TSX …

Mit AVX2 kann die Vektoreinheit nun auch Integer-Operationen über die volle Breite von 256 Bit ausführen, bislang war das nur für Gleitkommaberechnungen möglich. Hinzu kommen neue Gather-, Shuffle-, Shift-, Blend- und Broadcast-Befehle. Vor allem von Gather verspricht man sich deutliche Performanceverbesserungen, vermag es doch die einzelnen Vektorelemente über eine gesetzte Maske gleichzeitig von unterschiedlichen Adressen zu laden. Diese Maske kann beispielsweise von einer Vergleichsoperation herrühren, worüber sich dann eine Aufgabe wie

if (p[i]==q[i]) c[i]= a[b[i]];  

mit nur zwei AVX2-Befehlen (vpcmpqq,vgatherqq) für vier 64-bittige Elemente (Int oder FP) ohne irgendwelche Sprünge erledigen lässt.

Die kombinierte Multiplikation und Addition (FMA) in einem Schritt war eigentlich schon für die erste Version von AVX vorgesehen. Sie sollte zudem in einer Vieroperandenversion herauskommen, doch Sandy und Ivy Bridge blieb dieses FMA verwehrt. Intel revidierte stattdessen die Spezifikation auf nur drei Operanden und verschob die Hardware-Implementierung auf Haswell.

AMDs Konkurrent Bulldozer hat demgegenüber sämtliche Varianten von FMA eingebaut, samt der hauseigenen SSE5-Version. Bulldozer kann aber nur einen einzigen 256-bittigen FMA-Befehl pro Takt ausführen. Wenn schon FMA, dann aber richtig – so Singhals Kommentar dazu schon im letzten Jahr zu c’t und das konnte nur eins bedeuten: zwei parallele FMA-Einheiten mit kurzer Latenzzeit bei voller 256-bittiger Anbindung. Genau das hat Intel nun auch in Haswell implementiert: zweimal FMA über Port 0 und 1 mit jeweils fünf Takten Latenzzeit, verbunden mit einer Verdopplung der Transferrate zu den beiden Datencaches. Aus dem L1-D kann man nun zwei AVX-Streams (64 Bytes) parallel lesen und einen weiteren (32 Bytes) schreiben. Das reicht bei entsprechender Programmierung, um etwa die Matrixmultiplikation oder den Linpack-Benchmark nahe an die theoretische Spitzenleistung zu bekommen. Sie liegt mit 32 Flops/Takt/Kern bei einfacher Genauigkeit und 16 Flops/Takt/Kern bei doppelter Präzision beim doppelten Wert von Ivy Bridge und damit weit, weit weg von Bulldozer, auch wenn dieser in Gestalt des Steamrollers künftig noch etwas nachlegen dürfte.

TSX ist eine Erweiterung für Transactional Memory, so wie es IBM mit dem BlueGene/Q-Prozessor schon vorgemacht hat – und Sun es mit dem inzwischen eingestampften Rock-Prozessor auch implementieren wollte. Unter der Annahme, dass sich mehrere Threads bei ihren Speicherzugriffen im Normalfall nicht in die Quere kommen, kann man damit viele zeitaufwendige Sperren (Locks) sparen und beim Commit gleich einen größeren Schwung von Speicherzugriffen ausführen. In einigen Fällen können jedoch zwischenzeitliche Zugriffskonflikte aufgetreten sein. Das muss die TM-Hardware erkennen und daraufhin die Transaktionen abbrechen (Abort). Die betroffenen Transaktionen sind dann gegebenenfalls im Zusammenspiel mit der Software mit den traditionellen, sequenzialisierenden Locks neu zu starten.

Haswell bietet dem Programmierer dazu zwei Mechanismen an: HLE (Hardware Locked Elision) und RTM (Restricted Transactional Memory). Bei der ersten Methode erweitert man lediglich die vorhandenen Locks durch ein TSX-Präfix, sie werden dann erst einmal spekulativ ignoriert. Im Konfliktfall wiederholt die Hardware den gleichen Code, nun aber mit Berücksichtigung der Locks. Bei RTM benötigt man ein paar neue Befehle, bekommt dafür aber auch mehr Flexibilität. Hier wird ein Abort an die Software zurückgemeldet, die dafür einen alternativen „nontransactional“ Codepfad bereithalten muss. Dieser braucht nicht unbedingt mit den mitunter sehr langsamen Locks zu arbeiten, sondern kann auch entscheiden, die gesamte Transaktion erst einmal zurückzustellen und irgendwann später zu wiederholen.

Implementiert wird TSX weitgehend im L1-Daten-Cache mit zusätzlichen Tag-Bits. Reicht dieser Cache nicht aus, so bietet Haswell einen transparenten Mechanismus, Teilbereiche in höhere Cache-Level zu swappen.

Aktiver Tiefschlaf

Neben den Verbesserungen in der Kernarchitektur ist insbesondere der neue aktive Powermanagementzustand „S0ix Active Idle“ herauszuheben, der den Energieverbrauch beim Nichtstun auf das sparsame Niveau der Schlafzustände S3 oder S4 herabsenkt, der aber keine lange Aufwachzeit (Resume) erfordert. Das Ganze erfolgt vollautomatisch per Hardware in feinkörnigen Stufen. Hinzu kommen zahlreiche Verbesserungen sowohl im aktiven Zustand als auch in den S3/S4-Schlafzuständen. Die CPU-Kerne selbst bieten dafür neue C-States. Die Übergangszeiten wurden um 25 Prozent beschleunigt und die Links zur Peripherie besitzen neue Powermanagementzustände. Die Ultrabook-Plattform soll Displays mit Autorefresh (PSR: Panel Self Refresh) aufweisen, sodass letztlich die Energieaufnahme der CPU im Idle auf ein Zwanzigstel der aktuellen Werte gesenkt werden kann. Bei der eingebauten Grafik hat Intel drei Ausführungen vorgesehen: GT1, GT2 und GT3. Im Vergleich zur Ivy-Bridge-GPU haben die ersten beiden ein zweites Cluster mit Shader-Rechenkernen (Execution Units/EUs) und Textureinheiten hinzubekommen. Noch leistungsfähiger soll GT3 durch eine zusätzliche Scheibe mit zweitem Rasterizer und zwei weiteren Shader-Clustern sein. Diese zusätzlichen Einheiten kann GT3 im Leerlauf abschalten, um die Leistungsaufnahme zu minimieren. Um die höhere Zahl von Funktionseinheiten beim GT3 schnell genug mit Daten zu versorgen, hat Intel die Leistung der meisten Fixed-Function-Einheiten im Geometrie-Teil der 3D-Pipeline verdoppelt. Diese Verbesserungen kommen auch GT1 und GT2 zugute. Außerdem wurde der Befehlsgeber (Command Streamer) durch einen Resource Streamer ergänzt, um die Einheiten noch effizienter zu füttern und dadurch das Rendern von 3D-Szenen zu beschleunigen. Alle drei Varianten sind auch für universelle Berechnungen via OpenCL 1.2 geeignet – bisher unterstützen die Ivy-Bridge-GPUs in Zusammenspiel mit dem Intel-SDK lediglich OpenCL 1.1. Schließlich gibt es noch den Media-Teil, der für solche Dinge wie Quick Sync zuständig ist. Hier führt Intel nun als sechsten Baustein der GPU die Video Quality Engine (VQE) ein. Sie kümmert sich um die Bildratenkonvertierung (Frame Rate Conversion) und entwackelt Videos, so wie es AMD mit Steady Video schon seit einem Jahr für Radeon-Grafikkarten und APU-Kombiprozessoren anbietet. Darüber hinaus laufen über VQE auch einige neue Funktionen zur Verschönerung von (HD-)Videos, etwa die Korrektur von Hauttönen und Gamut Expansion. Weiterhin unterstützt Haswells Hardware-Decoder MFX nun skalierbares Video-Coding (SVC) und dekodiert Motion-JPEG. MPEG2 kann er on the fly enkodieren, etwa für DNLA-Streaming oder DVD-Erzeugung. Er beherrscht nun auch das Abspielen von 4Kx2K-Videos – wo solche Videos herkommen und wie sie an Displays ausgegeben werden sollen, sagte Intel nicht.

Haswell soll gegen Mitte nächsten Jahres zunächst als Mobile-Version mit bis zu vier Kernen herauskommen, kurz darauf auch mit zwei Kernen und zudem erstmals als SoC-Version für Ultrabooks. Die Serverversion Haswell-EP mit wahrscheinlich bis zu 16 Kernen ist ein Jahr später geplant. Xeons und Server wurden auf dem IDF eher am Rande erwähnt, abgesehen von zahlreichen Sessions rund um die Programmierung des Xeon Phi. Die neue Chefin des Datacenter-Bereichs Diane Bryant kündigte in einem Briefing fürs nächste Jahr die Xeon-Versionen Ivy Bridge-EP und Ivy Bridge-EX an, von denen man sich auch mehr Kerne als aktuell beim Sandy Bridge-EP verspricht. Der immer noch nicht offiziell vom Stapel gelaufene Itanium Poulson blieb jedoch völlig außen vor.

Entwicklungshilfe

Intels Software-Chefin Renée James ging in ihrer Keynote mit dem Thema „Das Zeitalter des transparenten Programmierens“ hauptsächlich auf die App-Entwicklung und App-Entwickler ein. Nur wenige Entwickler könnten bislang von den Einkünften aus den verschiedenen Stores leben. Ein Drittel aller Apps bringen laut James allenfalls 500 US-Dollar im Monat, im Schnitt liegen die Einkünfte bei 1200 bis 3900 US-Dollar.

Daher müsse man es den Programmierern einfacher machen, für mehrere Plattformen zu entwickeln. Der Schlüssel dazu seien Browser-Apps mit HTML5 und JavaScript. 40 Prozent der Entwickler würden schon mit HTML5 arbeiten, weitere 40 Prozent planen es demnächst. Intel will das vielfältig unterstützen, etwa mit dem zusammen mit Mozilla entwickelten Plug-in RiverTrail, welches JavaScript das Multi-Threading beibringt und auch SSE und AVX nutzen soll. 2013 soll RiverTrail standardmäßig in Firefox eingebunden werden.

James präsentierte mit MobBase einen Baukasten der Firma MixMatchMusic.com, mit dem man sich einfach eine HTML5-App zusammenklicken kann, die dann in diversen App-Stores erscheint. Und schließlich gab James die Gründung der Intel Developer Zone bekannt, die die Entwickler mit Software, Dokumentation, Foren und vor allem auch gleich mit Distributionskanälen hin zu den App-Stores versorgt.

Digitalfunk

Intels CTO (Chief Technology Officer) Justin Rattner hat den letzten Tag des IDF genutzt, um ein Versprechen einzulösen, dass der mittlerweile zu VMware gewechselte IDF-Gründer Pat Gelsinger auf seiner IDF-Keynote anno 2002 gab: der Wechsel von analogen zu digitalen Funkadaptern und deren Integration auf demselben Chip wie die Prozessorlogik. Viele Details des Rosepoint genannten Chips hatte Intel schon Anfang 2012 auf der ISSCC enthüllt, mittlerweile wird der Chip in einem 32-nm-SoC-Prozess gefertigt. Die Funkschaltungen hätten ähnliche Charakteristika und Energieeffizienz wie derzeitige analoge Schaltungen, ließen sich aber künftig im selben Maßstab wie CPU-Logik an Fertigungsverfahren mit kleineren Strukturbreiten anpassen – das geht bei Analog-Technik nicht. Ob und wann Rosepoint in konkrete Produkte einfließen soll, wurde nicht gesagt.

Intel ist Mitglied der WiGig-Allianz, die am künftigen Funkstandard IEEE 802.11ad arbeitet, der ein drahtloser Ersatz für USB- und Bildschirmkabel werden soll. 11ad-Adapter funken im 60-GHz-Spektrum (11n-WLAN: 2,4 und 5 GHz) und können auf kurze Distanzen hohe Datenraten bereitstellen, was Rattner auch demonstrierte: Ein Ultrabook-Prototyp holte sich von einer externen Festplatte, die an ein WiGig-Dock angeschlossen war, ein HD-Video und stellte es auf zwei am Dock angeschlossenen Full-HD-Monitoren dar. In diesem Szenario spielen die Nachteile von 60-GHz-Funk keine Rolle: 802.11ad funktioniert nur bei Sichtverbindungen und kommt nicht durch Wände hindurch.

Rattner zeigte dann, wie man künftig die Akkulaufzeiten verbessern will: indem WLAN-Module den Hauptprozessor weiter entlasten. Unter dem Codenamen Spring Meadow arbeite man derzeit an WLAN-Chips, die Pakete selbstständig verwerfen und nicht an den Prozessor weiterreichen, wenn sie nicht für das Gerät bestimmt sind. So kann der Prozessor in seiner Tiefschlafphase bleiben. Wann Spring Meadow in konkrete Produkte einfließt, wollte Rattner nicht sagen. Möglicherweise wird es schon in der nächsten Generation der Centrino-Chips so weit sein, hat Intel bislang doch noch keine WLAN-Adapter für schnellen 802.11ac-Funk vorgestellt.

Rattner stellte aber nicht nur Verbesserungen auf der Client-Seite in Aussicht, sondern auch für Provider und deren Infrastruktur. Durch die (mobile) Nutzung von Videodiensten steige der Internet-Traffic derzeit um jährlich 32 Prozent. Um bestehende Übertragungswege besser auszulasten, warb Rattner für das Video Aware Wireless Network (VAWN), an dem man seit einiger Zeit in Kooperation mit dem Netzwerkausstatter Cisco, dem Netzbetreiber Verizon sowie mehrere Universitäten arbeite.

LTE in Software

Schließlich will Rattner die Intelligenz von Mobilfunknetzen nicht mehr in den einzelnen Basisstationen sehen, sondern diese in Datenzentren sammeln – an der Basisstation sollen nur noch die Antennen selbst vorgehalten werden. Die Rechenkapazität von Basisstationen sei derzeit gnadenlos überdimensioniert, weil die einzelnen Zellen auf ein mögliches Maximum an Nutzern und Durchsatz ausgelegt sein müssen, im Mittel aber deutlich darunter arbeiten würden. Das verschwendet laut Rattner unnötig Energie und sei außerdem ein Kostenfaktor: Netzbetreiber müssen die Zellenauslegung auf das Maximum schließlich bezahlen.

Die Lösung besteht aus zwei Stufen. Zunächst müsse der Protokollstack nicht in spezieller Hardware, sondern als Software realisiert werden, was man bereits vor einem Jahr gezeigt habe: Ein handelsüblicher PC mit Sandy-Bridge-CPU hat damals eine in Software gegossene LTE-Basisstation ausgeführt. Der Vorteil einer Software-Lösung sei zudem, dass man bei neuen Funkstandards oder Erweiterungen einfach ein Software-Update einspielen könne, statt neue Hardware kaufen zu müssen.

Die zweite Stufe sei Cloud Radio Access Network: Bei C-RAN läuft die Basisstation-Software auf Servern in Rechenzentren, wo eine Lastverteilung stattfinde: So könne nachts ein Server viele Basisstationen mit jeweils wenigen Nutzern ausführen, während zur Rushhour mehr Server jeweils weniger Basisstationen ausführen. Der nächste logische Schritt dessen sei die Virtualisierung, sodass die Workload-Portierung und die Erweiterung noch einfacher und schneller gehe.

Intel arbeitet nicht alleine an C-RAN, sondern hat mit China Mobile den weltgrößten Mobilfunk-Provider mit über 680 Millionen Kunden und 900 000 Basisstationen an Bord. Eine Vertreterin von China Mobiles Forschungsabteilung bekräftigte die Vorteile mit konkreten Zahlen: Die Energiekosten für den Betrieb der Basisstations-Hardware machen rund 70 Prozent der gesamten Energiekosten des Unternehmens aus – und die sind bei 30 Milliarden Kilowattstunden Verbrauch beträchtlich. Außerdem wolle man das Funknetz schneller erweitern können: Allein diesem Jahr plant China Mobile noch 20 000 neue LTE-Stationen in Betrieb zu nehmen, im nächsten Jahr 200 000 und 2014 weitere 250 000.

Micro-PCs

Schon im Mai hatte Intel angekündigt, dass das Unternehmen an miniaturisierten PC-Hauptplatinen mit gerade einmal zehn Zentimetern Kantenlänge arbeite. Auf dem IDF waren nun die ersten beiden Modelle unter dem Namen NUC (Next Unit of Computing) zu sehen, die sich nur in den Anschlüssen unterscheiden: Das Modell D33217CK hat zwei HDMI-Ausgänge, der etwas teurere Bruder D33217GKE je einmal HDMI und Thunderbolt. Es stehen jeweils drei USB-Ports bereit sowie ein Eingang für das externe Netzteil; das Modell ohne Thunderbolt hat zusätzlich eine Gigabit-Netzwerkbuchse.

Auf den Boards mit Serie-7-Chipsatz arbeitet mit dem Core i3-3217U ein Doppelkern der aktuellen dritten Core-i-Generation. Es handelt sich um ein ULV-Modell, das man sonst in Ultrabooks findet; wie dort ist die CPU fest auf die Hauptplatine gelötet und benötigt einen Kühler. Ob der geringen Platinenfläche bedient sich Intel auch sonst bei Notebook-Komponenten: Die beiden DDR3-Slots nehmen RAM-Module im SO-DIMM-Format auf, statt einer Festplatte kommt eine kompakte mSATA-SSD zum Einsatz. Ein Mini-PCIe-Schacht nimmt ein WLAN-Modul auf.

Wegen des ungewöhnlich kleinen NUC-Formats passen die beiden Platinen nicht in herkömmliche PC-Gehäuse. Intel will beide Platinen ab Oktober deshalb nicht nur einzeln, sondern auch in Kits mit passenden Gehäusen, Kühlern und Netzteil verkaufen. Die Thunderbolt-lose Kit-Variante soll rund 400 US-Dollar kosten, für das Thunderbolt-Modell war noch kein Preis in Erfahrung zu bringen. In dem Preis sind weder mSATA-SSD noch Arbeitsspeicher enthalten – und auch keine Windows-Lizenz.

Im Gespräch gab Intel zu Protokoll, dass derzeit keine Modelle mit schnelleren i5- oder i7-CPUs geplant sind, auch wenn diese technisch natürlich möglich seien, weil alle ULV-Modelle im gleichen BGA-Gehäuse stecken. Wer nur das Mainboard kauft, muss sich selbst um ein Netzteil (Maximalbelastung 35 Watt) und einen Kühler kümmern. (mue/as)

Artikel kostenlos herunterladen

Kommentare

Anzeige