Prozessorgeflüster

Von Haskell und Haswell

Trends & News | Prozessorgeflüster

Es sei das "am schlechtesten gehütete Geheimnis in der Industrie", so hieß es auf der Supercomputing 2011 (SC11), dass Intels Haswell-Prozessor mit Transactional Memory aufwarten wird. Neuigkeiten sickerten auch zu Intels Ivy Bridge und AMDs Trinity durch.

Vor etwa zwei Jahren, im August 2009, gründeten Intel, IBM und Sun eine „Drafting Group“, um eine gemeinsame Spezifikation für Transactional Memory (TM) zu formulieren. Alle drei waren nämlich dabei, dieses Feature in ihre nächsten Prozessorgenerationen zu gießen. Sun hatte solches mit dem Rock-Prozessor vor, doch der wurde ein Jahr später nach der Übernahme durch Oracle aufgegeben. IBM hingegen war mit Blue Gene/Q erfolgreicher. Unter dem offiziellen Namen PowerPC A2 wurde nun auf der SC11 in Seattle der erste Prozessor mit Hardware Transactional Memory (HTM) vorgestellt (siehe S. 74).

Intel wird beim Haswell-Prozessor Anfang 2013 ebenfalls mit HTM aufwarten. Das gab dann auf der SC11 auch jeder bei Intel unumwunden zu, der gezielt darauf angesprochen wurde. Bald schon wolle Intel die zusätzlichen TM-Befehle, die zu der bereits veröffentlichten AVX2-Erweiterung hinzukommen, bekannt geben. Das wird auch langsam Zeit, denn bei weiter zunehmender Zahl von Prozessorkernen werden nämlich Techniken zu schnellerer Thread-Synchronisation immer dringender benötigt, sonst ist der Prozessor irgendwann nur noch mit sich selbst beschäftigt und kann kaum noch sinnvolle Arbeit erledigen.

Vergrößern Hat AMD etwa noch irgendwelche geheimen Pläne für Transactional Memory in der Tresorschublade? Margaret Lewis (Product Marketing Director) und Pat Patla (General Manager of Server Products) auf der SC11.

Beim Transactional Memory verfolgt man die Idee, aufeinanderfolgende Zugriffe von Threads auf gemeinsame Speicherbereiche nicht jedes Mal zeitverschlingend zu verriegeln (Locks), sondern die Zugriffe zunächst zu einer atomaren Transaktion etwa im L1-Cache zu bündeln, um sie dann später beim „Commit“ zeitsparend in einem Rutsch auszuführen. Das geschieht in der optimistischen Annahme, dass in der Zwischenzeit kein anderer Thread dazwischenfunkt und auf den gemeinsamen Speicher zugreift. Falls doch, hat man Pech gehabt und benötigt einen Rollback-Mechanismus, der die angestrebte, aber inzwischen ungültige Transaktion rückgängig macht. Anschließend startet man einen neuen Versuch mit gegebenenfalls geänderten Ausgangsdaten.

Softwaremäßig hat sich Intel schon seit Jahren intensiv um Software Transactional Memory (STM) gekümmert und den Intel C++ STM Compiler, Prototype Edition gepflegt. Hier wird mit __TM_atomic{} der Bereich festgelegt, der als atomare Transaktion behandelt werden soll.

Auch andere Compiler und Interpreter haben sich zum Teil schon frühzeitig STM auf die Fahnen geschrieben, recht offensiv zum Beispiel die funktionale Programmiersprache Haskell. Der Glasgow Haskell Compiler pflegte es in die Version 6.4 ein und einige darauf beruhende Applikationen (etwa einige Bittorrent-Clients) benutzen es durchaus ausgiebig. Auch bei Java und Python ist man emsig dran.

Das Ganze steht und fällt jedoch mit der jeweiligen Konfliktrate und mit der Zeit, die man für die Konflikterkennung und für das Rollback benötigt. Rein softwaremäßig ist TM zumeist nicht effizient genug, aber es kann durch verschiedene Hardwaremechanismen unterstützt, ergänzt oder ersetzt werden, die die Effizienz ganz erheblich erhöhen.

Bis Haswell wie geplant 2013 erscheint, wird Intel erst einmal den Xeon E5 (Sandy Bridge EP) herausbringen. Zudem erwartet man bei den Desktop-PCs und Notebooks den Ivy Bridge in 22-nm-Technik. Auf den wird man wohl bis zum zweiten Quartal 2012 warten müssen, wie man Intels durchgesickerter NDA Desktop Platform Roadmap WW46 entnehmen kann. Ihr zufolge sollen die neuen 22-nm-Desktop-Prozessoren in der normalen Energieklasse dann mit 77 W TDP etwa 20 Prozent weniger verbrauchen, aber es gibt keine Versionen mit höherem Nominaltakt als heute.

Der Core i5 liegt zwischen 3/3,2 GHz (i5-3300) und 3,4/3,9 GHz (i5-3570) mit vier Kernen ohne HT, 4 MByte Cache, zwei Speicherkanälen DDR3-1333/1600 und besitzt eine integrierte DirectX-11-fähige HD-2500- oder HD-4000-Grafik. Der Spitzenprozessor Core i7-3770 hat HD-4000, 8 MByte Cache, Hyper-Threading und 3,4/3,9 GHz Takt – in der übertaktbaren K-Ausführung auch etwas mehr. Hinzu kommen abgestrippte Low-Power-Versionen mit 65 W bis hinab zu 35 W.

Ein paar Benchmark-Ergebnisse des i7-3770 im Vergleich zum nominal gleich schnell getakteten Sandy Bridge i7-2600 legte Intel auch bei. Der Sprung bei der Grafikleistung mit Faktoren von 2,7 bis 3 bei 3DMark Vantage sieht beeindruckend aus, doch vergleicht Intel hier eine HD-4000 mit einer kaum diskutablen HD-2000. Gegenüber einer HD-3000 dürfte sich die Performance nur verdoppeln.

Die CPU-Benchmarks legten dank kleinerer Architekturverbesserungen und optimiertem Turbo-Boost und vermutlich auch dank schnellerem Speicher auch nicht gerade üppig zwischen 7 Prozent (Sysmark 2012) und im besten Fall 25 Prozent (Excel 2010) zu.

AMD hat zu Transactional Memory noch nichts verlauten lassen, aber schon vor Jahren eine mögliche Architekturerweiterung names Advanced Synchronization Facility (ASF) vorgestellt, die komplette Cache-Lines verriegeln kann und somit eine erheblich verbesserte Basis für STM bietet. Bislang gibts aber nur einen Simulator für PTLsim.

Und nicht nur das ist unklar, sondern auch vieles andere bei AMD, wo der neue Chef Rory Reads offenbar mit eisernem Besen kehrt. Die Entlassungswelle hat insbesondere auch Deutschland heftig getroffen: Im Münchner Büro wurden über 20 von etwa 80 Mitarbeitern entlassen, darunter nahezu die komplette PR-Riege. Mit dem Hersteller Globalfoundries ist man auch schon seit Längerem am Hadern. Herstellungsprobleme mit dem Llano Anfang des Jahres sollen schuld gewesen sein, dass der geplante Deal mit Apple bezüglich McAir platzte. Mit den Bobcat-Nachfolgern Witchia und Krishna sieht es ebenfalls schlecht aus. Es heißt gar, AMD habe sie gestrichen oder plane, die 28-nm-APU-Produktion Globalfoundries ganz zu entziehen und zu TSMC zu verlagern. Die Pläne eines weiteren Werkes in Abu Dhabi hat Globalfoundries jedenfalls erst mal auf Eis gelegt.

Erste durchgesickerte Benchmark-Ergebnisse des Llano-Nachfolgers Trinity mit dem neuen Piledriver-Kern können mit 23 bis 35 Prozent höherer Performance im Grafikbereich (3DMark Vantage) und 7 bis 17 Prozent im Allgemeinen (PCMark Vantage) zwar auch nicht so beeindrucken, immerhin dürfte die Grafikleistung noch locker ausreichen, um den Ivy Bridge in dieser Beziehung in Schach zu halten. (as)

Infos zum Artikel

Kapitel
  1. Leckagen
0Kommentare
Kommentieren
Kommentar verfassen
Anzeige

Anzeige

Anzeige