Andreas Stiller
Prozessorgeflüster
Von vielen Wegen und Verzweigungen
Das war ein schönes Feuerwerk neuer Designs auf der Hot-Chips-Konferenz in Cupertino. Nur von Apples A6 hörte man nichts. Aber von AMD Steamroller, Xeon Phi und – über inoffizielle Quellen – von Atom-Silvermont.
Obwohl manche Hot-Chips-Teilnehmer die Brew Pubs der Umgebung sicherlich intensiver in Augenschein nahmen, wurde nichts von einem Fund eines iPhone-5-Prototyps bekannt. So ist man auf französische Websites wie Nowherelse.fr angewiesen, um mehr Details aus dem Innenleben des iPhone 5 in Erfahrung zu bringen. Auf deren Bildern sieht man zumindest das Label A6; ob sich dahinter zwei (wahrscheinlich) oder vier ARM-Kerne verbergen, weiß man noch nicht.
Ein bekanntes neues Gesicht bei AMD: John Gustafson soll als Chefarchitekt die Grafiksparte leiten.
AMDs neuer CPU-Chefarchitekt Jim Keller wirds wissen, war er doch bis vor Kurzem für die Apple-Prozessoren zuständig. Nun bekommt er Unterstützung durch einen weiteren Altmeister der Szene: John L. Gustafson, der Erfinder des gleichnamigen Gesetzes über die Performancepotenziale großer Multiprozessorsysteme. Die letzten vier Jahre hatte er bei Intel gearbeitet, nun soll er sich als Chief Graphics Product Architect bei AMD um Radeon und FirePro kümmern. Illustren Zuwachs kann auch AMDs HSA-Konsortium vermelden, bei dem in Zukunft Keller und Gustafson Hand in Hand an der Heterogeneous System Architecture mitwirken. Neben Vivante und kleineren Firmen wie Apical, Artersis und Sonics hat nun auch einer der ganz großen – nein, sogar der größte – Fische an der HSA-Angel angebissen: Samsung. Das gibt der Idee mächtig Auftrieb – nun fehlen eigentlich nur noch Intel, Nvidia, Qualcomm und Apple …
AMD hat bei seinen Hot-Chips-Präsentationen zudem auch ein paar Details zur nächsten Prozessorgeneration Steamroller preisgegeben. Der dürfte dann allmählich so sein, wie man sich den Bulldozer von Anfang an gewünscht hätte, nun also mit getrennten Decodern für die beiden Kerne eines Moduls, besserer Sprungvorhersage und einer Micro-Op-Queue unbekannter Größe. Das alles soll den Durchsatz pro Takt laut CTO Mark Papermaster um 30 Prozent erhöhen. Gut möglich, dass AMD den beim Bulldozer nahezu unverändert vom Athlon übernommenen L1-Instruktions-Cache nicht nur in der Kapazität, sondern auch in der Assoziativität vergrößert hat – mit nur zwei Wegen war jene für die Versorgung von zwei Kernen wahrlich nicht geeignet.
Irgendwo auf dem halben Weg zwischen Bulldozer und Steamroller gibt es auch noch den Piledriver-Kern. Den soll man nun tatsächlich für Desktop-Systeme kaufen können, und zwar in Gestalt der Trinity-APU mit integrierter Grafik. Die durchgesickerten US-Preise liegen zwischen 60 Dollar (A4-5300) und 131 Dollar (A10-5800K). Von den Serverversionen Delhi, Seoul und Abu Dhabi ist weiterhin weit und breit nichts zu sehen, aber es verdichten sich die Anzeichen, dass entgegen aller Unkenrufe zumindest die FX-Serie für High-End-Desktop-PCs bald um Piledriver-Chips erweitert wird, um Vishera mit vier, sechs und acht Kernen. Wenn diese wirklich gegen Ende Oktober als Achtkerner AMD FX8350 oder Sechskerner FX 6350 Einzug halten, dann werden sie sich lediglich um ein, zwei Monate verspäten – da ist man anderes gewohnt. Aber vielleicht haben die Unken auch Recht und Vishera wird ganz gestrichen, zugunsten eines weitaus effizienteren Steamroller-Designs – irgendwann mal.
Doch auch die Konkurrenz beherrscht die Verschiebekunst. Hatte Intel-Chef Otellini noch auf dem Entwicklerforum im letzten Jahr eine massive Beschleunigung des Tic-Toc-Taktes bei den Atoms versprochen, so erfordert der kollabierende Netbook-Markt – unter anderem haben Acer und Asus schon den Ausstieg verkündet – ein Umdenken. Bei den jetzt in China „geleakten“ Roadmap-Folien findet man jedenfalls die Bay-Trail-Plattform mit dem Valleyview-SoC und der Silvermont-CPU, eingetragenen unter 2014. Dieser Vier-Nukleonen-Atom in 22-nm-Technik soll mit neuer Out-of-Order-Architektur auf sich aufmerksam machen und die aktuellen D- und N-Linien vereinigen. Die Grafik im SoC soll außerdem bis zu sieben Mal so schnell sein wie die des aktuellen Medfield. Noch vor Kurzem wurde er für Anfang 2013 gehandelt, genauso wie der spezielle Server-Atom mit Codenamen Avoton.
Atomare Zeitdilatation
Wenn dann keine neuen Prozessoren vorhanden sind, kann man ja zu Varianten der alten greifen und so hat Intel erst einmal eine Flut neuer Desktop- und Mobilprozessoren mit ein bis vier Kernen herausgebracht, zumeist mit – und beim Core i5-3350P auch ohne – Grafik. Der preiswerteste davon ist der Celeron G465 mit 1,9 GHz Takt für 37 US-Dollar. Bald erwartet man aber wirkliche Neulinge, etwa den Itanium Poulson oder den gefühlt 10 Jahre verschobenen Larrabee-Nachfolger Xeon Phi. Über dessen Innenleben hat Intel auf der Hot-Chips-Konferenz ein paar weitere Einzelheiten verraten, aber immer noch nicht solche profanen Dinge wie Takt, PCIe-Version und maximale Kernzahl. Letztere stand ja in dem Anfang des Sommers veröffentlichten Knights Corner Instruction Set Reference Manual (62 physische, 244 logische) – aber nur kurz. Gleich nachdem die verräterischen Einträge hier im Geflüster ausposaunt wurden, hat Intel das Paper noch einmal überarbeitet und die Stellen durch */*/* ersetzt.
Damit der Xeon Phi und vor allem seine Programmierer auch ordentlich was zu tun bekommen, hat Intel rechtzeitig wenige Tage vor dem diesjährigen Entwicklertreffen IDF neue Compiler-Suites herausgebracht. Parallel Studio XE 2013 und Cluster Studio XE 2013 unterstützen jetzt die Finessen von Sandy/Ivy Bridge (AVX), Haswell (AVX2, PMA3) und Xeon Phi (IMCI). Okay, mit 2299 US-Dollar ist das Parallel Studio XE für Windows und Linux nicht gerade geschenkt, aber man bekommt hochoptimierte Bibliotheken, leistungsfähige Profiler und einen sehr nützlichen Ratgeber (Intel Advisor XE), mit dem man diverse Parallel-Szenarien bequem durchspielen kann. Interessant ist in diesem Zusammenhang der Vergleich zu den Microsoft- und GNU-Compilern anhand der C/C++-Programme der SPEC-CPU2006-Suite. Bei Integer konnte Intel über 50 Prozent und bei Gleitkomma 100 (Visual Studio 2010) oder gar 164 Prozent (gcc 4.7.1) mehr herausholen. Gemeinerweise hat Intel dabei aber nicht die Multiprozessorwerte („rate“) verglichen, sondern die eigentlich für Single-Threads vorgesehenen Speed-Werte. Hier kann dann vermutlich die ausgebuffte Autoparallelisierung der Intel-Compiler zuschlagen, die die anderen gar nicht oder nur rudimentär bieten. Da muss man wohl noch mal kritisch nachmessen.
(as)



