Prozessorgeflüster

Von Stapelläufen und Seeräubern

Trends & News | Prozessorgeflüster

AMD lässt den Opteron 4100 vom Stapel, HP neue Magny-Cours und Nehalem-EX-Systeme mit einem selbstentwickelten Chipsatz – und Intel einen kleinen Eklat.

Ja, es war schon ein etwas größeres Aufsehen, das Intel-Entwickler am letzten Tag des 37. International Symposium on Computer Architecture (ISCA 2010) in der Seeräuberhochburg Saint-Malo auslösten: die Entlarvung des Hundertmal-schneller-Mythos der GPUs gegenüber CPUs (Debunking the 100X GPU vs. CPU Myth: An Evaluation of Throughput Computing on CPU and GPU). Normalerweise stehen bei diesen Veranstaltungen Grundlagen zukünftiger Architekturen im Vordergrund und weniger Performancevergleiche von kommerzieller Hardware, und wenn, dann sind es eher neutrale Wissenschaftler und keine Mitarbeiter einer beteiligten Firma, die solche Vergleiche anstellen.

Andererseits kann man der Intel-Crew um Käpt’n Victor W. Lee keine größeren handwerklichen Fehler oder eine Auswahl absurder Workloads vorwerfen. „We call them a Klassiker“ könnte man zu den vierzehn weitgehend dem wissenschaftlichen Lager entnommenen Benchmarks sagen: SGEMM, FFT, Lattice Boltzmann (LBM), Ray Casting (RC), Suchen & Sortieren, Kollisionserkennung (GJK), Gleichungen lösen (Solv) und so weiter.

Die Intel-Korsaren schickten eine Nvidia-GTX-280-Grafikfregatte mit einer Intel-Corvette i7-960 in die Regatta. So weit, so gut, nur mit dem Rechnen haperts bei ihnen wohl manchmal, vielleicht eine alte Pentium-Kogge mit FDIV-Bug? Mein alter Athlon-64 jedenfalls ermittelt aus den von Intel angegebenen Werten bei der Kollisionserkennung (GJK) das Verhältnis von 1020/67 zu 15,2 und nicht wie in der Grafik aufgelistet zu 14,9 …

Den problematischen Datentransfer von und zur Grafikkarte haben die Intel-Benchmarker bei allen Benchmarks sogar ganz ausgeklammert, und genau der sorgt ja im praktischen Betrieb oft für eine erhebliche Relativierung der nackten GPU-Performance. So gesehen ist der Vergleich sogar zugunsten von Nvidia geschönt. Die Ergebnisse zum Beispiel bei der Matrixmultiplikation in einfacher Genauigkeit (SGEMM) decken sich recht gut mit denen, die c’t vor einem Jahr veröffentlicht hat, bei uns damals allerdings schon mit etwas leistungsfähigerer Hardware (GTX 285 gegen Core i7 965).

Intels GPU-zu-CPU-Vergleich (Nvidia GTX 280 vs. Core i7 960) kommt im geometrischen Mittel nur auf Faktor 2,5. (Bild: Intel)

Und das ist auch einer der Kritikpunkte, den Nvidia gegen Intels Pamphlet ins Manöver schickt: völlig veraltete Hardware. In der Tat hätte man eigentlich auf einer Veranstaltung für zukünftige Architekturen einen Vergleich neuester Techniken erwartet, also etwa Nvidia GTX 480 (518 Euro) oder Radeon 5970 (560 Euro) gegen Intels Sechskerner Core i7 980X (1000 Euro). Nvidia führt zudem zahlreiche Ergebnisse unabhängiger Universitäten und Forschungseinrichtungen auf, die für ihre Workloads eine mindestens hundertfache Performancesteigerung gegenüber irgendwie gearteten CPUs belegen.

Vielleicht war das Ganze auch nur als Retourkutsche gegen Nvidias Chefwissenschaftler Bill Dally gedacht. Der renommierte frühere Stanford-Professor, dem auf demselben Symposium die bedeutende Eckert-Mauchly-Auszeichnung verliehen wurde, hatte im Mai im Forbes-Magazin indirekt gegen Intel gepoltert, in-dem er das Ende des Mooreschen Gesetzes verkündete und Multi-Cores, zusammengesetzt aus vielen für serielle Performance optimierten Kernen, für einen Irrweg erklärte, um effiziente Parallelcomputer zu bauen.

AMD ist da fein raus, hat die Firma doch als einzige beide Architekturen im Angebot. Unter dem Namen Fusion ist zudem eine interessante Verschmelzung in Arbeit, deren erster Prototyp kürzlich auf der Computex gezeigt wurde. Nun kam endlich auch die lang erwartete und hier schon mehrfach eingeklagte neue GPU-Version fürs High Performance Computing zum Vorschein. Etwa gleichzeitig führte AMD auch die Opteron-4100-Familie mit Codenamen Lisbon ein. Innerlich ist Lisbon weiterhin ein Istanbul-Prozessor mit vier oder sechs Kernen, mit der Außenwelt aber tritt er über den neuen Sockel C32 mit der sogenannten Direct Connect Architecture 2.0 in Kontakt, also mit HyperTransport 3.0 (zwei 16-Bit-Links) , DDR3-1333 (zwei Kanäle auch mit Low-Power), erweiterten Virtualisierungsfeatures (AMD-V, darunter auch I/O-Virtualisierung mit IOMMU) sowie mit einem deutlich verbesserten Powermanagement (AMD-P).

Die kleinen Brüder des Opteron 6100 (Magny-Cours) sind weniger für HPC als vielmehr für den noch größeren Markt des Cloud Computing, für Webservices und fürs kleine und mittlere Unternehmen (SMB) gedacht, wo die Aspekte Skalierbarkeit, Kosten, Dichte und insbesondere auch die Energieeffizienz im Vordergrund stehen. Mit 5,83 Watt/Kern nehmen die Modelle 4162EE/4164EE für sich in Anspruch, den weltweit niedrigsten Leistung-pro-Kern-Wert eines Serverprozessors aufzuweisen, weit unter den 10 W/Kern eines Intel L5609 – nur ist dieser Vergleich reichlich schräg, weil AMD einen mittleren CPU-Verbrauch (ACP) für die Opterons zugrunde legt, Intel für die Xeons indes einen Maximalwert (TDP).

Der kleinste Vertreter mit vier Kernen, Opteron 4122 mit 2,2 GHz, knackt mit 99 Dollar OEM-Preis als erster Serverprozessor für Zweiwegesysteme die 100-Dollar-Marke. Und auch die anderen Familienmitglieder liegen preislich zum Teil weit unter den Gegenstücken von Intel.

So langsam kommen nun die Partner auch mit größeren Opteron-6100-Servern „in die Strümpfe“. Hewlett-Packard brachte den ProLiant DL585 G7 und den Bladeserver BL685c 67 mit vier C34-Sockeln für insgesamt 48 Magny-Cours-Kerne heraus sowie den 2P-Blade-Server BL465c G7. Gleichzeitig stellte HP die schon länger erwarteten Systeme mit Intels Nehalem-EX vor. Der ProLiant DL980 G7 mit Intels Achtkerner kann nun mit bis zu 8 Sockeln, 128 logischen Kernen und 128 DIMM-Slots wuchern.

Die Konkurrenz wie IBM und Dell war mit ihren Nehalem-EX-Systemen schon im März präsent, ein jeder hatte eine Spezialität zu bieten: Dell die FlexBridge, die eingesteckt in einen Prozessorsockel den anderen Prozessoren Zugriff auf den am Sockel angeschlossenen Speicher gewährt, und IBM die eX5-Serie, die mit externen Speicher- und CPU-Erweiterungen auftrumpfen kann. Auch HP hat sich was Besonderes ausgedacht, nämlich die sogenannte PREMA-Architektur mit „Smart CPU Caching“ und „redundantem System Fabric“. Dazu entwickelte HP einen eigenen Chipsatz, der wohl die dreimonatige Verzögerung verursacht hatte. Er soll die von uns bislang als recht lahm kategorisierte Speicherperformance des Nehalem-EX durch eine geschickte Reduzierung des Overheads beim sogenannten Snooping sowie durch Erhöhung des QPI-Durchsatzes um rund 20 Prozent gegenüber Intels 7500-Chipsatz verbessern. Vergleichbare Stream-Werte gibts noch nicht, aber ohnehin ist im Umfeld des Nehalem-EX noch vieles unklar, etwa der geheimnisvolle „Hemisphere-Modus“. (as)