Zusammengeschweißt

AMDs Pläne für schnellere APUs, hUMA und die Mantle-Schnittstelle

Trends & News | News

Auf der Entwicklerkonferenz „APU 13“ gab AMD einen Ausblick auf die Kombiprozessoren Kaveri, Mullins und Beema und verriet mehr Details über die für Dezember erwartete 3D-Schnittstelle Mantle sowie die eigenen Hybrid-Progammiertechniken.

Rund 1100 Teilnehmer und zahlreiche eingeladene Journalisten hegten große Erwartungen an AMDs dritte Entwicklerkonferenz. Die hieß nicht mehr Fusion Developer Summit, sondern APU13, und statt Seattle wählte AMD als Veranstaltungsort San Jose im Herzen des Silicon Valley. AMD zeigte damit Flagge gegen Intel und Nvidia. Endlich gab es im zweiten Quartal ja auch wieder schwarze Zahlen und der x86-Marktanteil wuchs dank der Kombichips für Playstation 4 und Xbox One. Die neue Dominanz bei den Spielkonsolen will AMD in Vorschub für Desktop- und Notebook-Chips ummünzen. Bei den eigenen CPU-GPU-Kombiprozessoren spricht AMD bekanntlich von Accelerated Processing Units, kurz APUs.

Im Januar 2014 soll die Kaveri-APU Intels starke Haswell-Grafikeinheit übertrumpfen. Den Druck auf Nvidia wiederum will AMD mit der neuen 3D-Schnittstelle Mantle steigern, die zunächst Radeon-GPUs mit GCN-Architektur verlangt. Dass Nvidia die Bedrohung ernst nimmt, wurde in San Jose sichtbar: Unter den Konferenzteilnehmern erkannte der Autor hochrangige Nvidia-Entwickler, die fleißig fotografierten. Im nur gut 10 Kilometer vom Messegelände entfernten Nvidia-Hauptquartier ist man offenbar beunruhigt, schließlich sollen sich allein unter dem Dach des Branchenriesen EA mehr als 15 Mantle-Spiele in Entwicklung befinden, darunter populäre Titel wie Need for Speed. AMD weist mit Battlefield-Schöpfer Johan Andersson außerdem einen Unterstützer vor, der zu den wichtigsten Spieleentwicklern weltweit zählt. Er beantwortete auch einige unserer Fragen direkt; das volle Interview finden Sie über den c’t-Link unten bei heise online.

Schlüssel zur Macht

Mantle soll die absolut schnellste Programmierschnittstelle für 3D-Grafik werden, konkurriert unter Windows mit Direct3D und verschafft Entwicklern mehr Kontrolle über die Grafikeinheit. Laut den Mantle-Architekten Guennadi Riguer und Brian Bennet schöpft die neue 3D-Schnittstelle nicht nur die Leistung der GPU besser aus, sondern weitet auch Flaschenhälse auf der CPU-Seite. Demnach nutzen aktuelle PC-Spiele durchschnittlich zwischen 3000 und 5000 Draw Calls pro Frame, bei 10 000 drohten CPU-Limits. Mantle soll bis zu 100 000 ermöglichen, wodurch sich in Spielszenen beispielsweise wesentlich mehr Objekte darstellen lassen.

Mantle-Spiele können außerdem den CPU- und GPU-Speicher verwalten sowie in gewissen Maßen auch die Ausführungsschritte der GPU. Dies soll den Grafiktreiber-Overhead und den Speicherbedarf reduzieren, Multi-Threading vereinfachen und die Effizienz der parallelen Verarbeitung von Threads steigern. Letztere dürfen via Mantle auch selbstständig Command Buffers erzeugen. Mantle vereinfacht laut AMD außerdem die Verwaltung von API-Ressourcen, was Programmierer entlastet: Statt in zahlreiche Index-, Vertex- und Constant-Buffers, Texture Arrays oder UAVs unterteilt Mantle nur noch in „Memory“ und „Images“. Zusätzlich kommt ein verbessertes Binding-Modell für Ressourcen. Spiele müssen die Shader nicht mehr bei jedem Start kompilieren, was Ladezeiten verkürzt. Multi-GPU-Konfigurationen, auch mit APUs, sollen effizienter arbeiten und besser skalieren.

Was Mantle bringt, wird Spielern erstmals Battlefield 4 nach einem Update zeigen, das noch in diesem Jahr kommen soll. Es folgen Titel wie Star Citizen und Thief. Johan Andersson, technischer Direktor der schwedischen Firma DICE, von der die Spiele-Engine Frostbite 3 in Battlefield 4 stammt, sprach mit c’t über die Vorzüge von Mantle. Er wünscht sich Mantle nicht bloß auf Windows-Rechnern, sondern auch für Linux, Mac OS, Smartphones und Tablets. Prinzipiell steht Mantle etwa auch Nvidia offen, verlangt allerdings bestimmte Hardware-Eigenschaften der GPU – und die stecken eben zunächst nur in den jüngsten GCN-Radeons. Wann andere GPU-Typen und Betriebssysteme folgen, konnte er nicht einschätzen.

Über die zu erwartenden Leistungsvorteile durch Mantle in Battlefield 4 wollte sich Andersson nicht genau äußern, noch sei nicht alles implementiert. Das Spiel sei außerdem für Direct3D optimiert und käme mit bloß 2000 Draw Calls pro Frame aus. Das Portieren von Konsolenspielen auf Windows-PCs gelingt nach seiner Meinung unter Direct3D schneller, doch bei anspruchsvollen Titeln biete Mantle klare Vorteile.

Laut Andersson haben DICE und AMD schon vor fünf Jahren im Geheimen über erste Ideen zu Mantle gesprochen. Bei DICE wurde ein komplett neues Render-Backend programmiert, bei AMD ein eigenes Treiber-Team aufgestellt. Er warnt, dass Programmierer bei Mantle auch mehr Verantwortung tragen: Sie müssen beispielsweise sicherstellen, dass sie den Speicher richtig verwalten und die Laufzeiten von Shadern anpassen. In Mantle gibt es einen vierschichtigen Validation-Layer für Entwickler.

Kaveri schneller

Zu kommender Hardware verriet AMD-Vizepräsidentin Lisa Su neue Details. Demnach soll Kaveri, Nachfolger der aktuellen Richland-APU, ab 14. Januar erhältlich sein – zumindest in Desktop-Varianten für Mainboards mit der Fassung FM2+. Ableger für Notebooks, Server und Embedded Systems folgen später. Kaveri-Prozessoren bestehen aus CPU-Kernen der Steamroller-Generation sowie einer Radeon-GPU der R7-Serie (Volcanic Islands) mit GCN-Architektur.

AMD verspricht, dass Kaveri mehr Spieleleistung als jeder andere Kombiprozessor liefern wird. Außerdem kommen Hardware-Funktionen, die CPU und GPU stärker verschmelzen: ein gemeinsamer Speicherbereich via hUMA (heterogeneous Uniform Memory Access) und die enge CPU-GPU-Verzahnung via hq (Heterogeneous Queuing). Beides läuft unter dem Dach der Heterogeneous Systems Architecture (HSA) und soll das Programmieren von Software erleichtern, die nach Bedarf CPU- und GPU-Kerne parallel und effizient nutzt.

Das Desktop-Flaggschiff AMD A10-7850K mit 95 Watt TDP bietet eine kombinierte Rechenleistung von 856 GFlops. Die vier Steamroller-Kerne liefern bei 3,7 GHz zusammen 118,4 GFlops, die 512 GPU-Kerne mit 720 MHz übernehmen den Löwenanteil von 737,3 GFlops. Es ist auch wieder eine langsamere 65-Watt-Version geplant. Laut AMD belegt die Kaveri-GPU 47 Prozent der gesamten Siliziumfläche, bei Haswell sind es angeblich nur 31 Prozent. Ob Kaveri endlich einen L3-Cache hat und ob den auch die GPU nutzen kann, blieb offen.

AMD führte c’t die praktische Leistung des A10-7850K mit schnellem DDR3-2133-Speicher in der Einzelspieler-Kampagne von Battlefield 4 vor. Die DirectX-11-Testszene lief in Full HD mit 30 bis 35 fps bei mittleren Detaileinstellungen und ohne Screen-Space Ambient Occlusion – für einen Kombiprozessor sehr beeindruckend.

Zu den schon bisher vorhandenen Video-Einheiten zum Dekodieren (UVD) und fürs Encoding (Video Compression Engine, VCE) gesellt sich ein programmierbarer Soundprozessor namens TrueAudio hinzu. Er soll in Spielen wie Lichdom, Murdered, Thief und Star Citizen die Berechnung von 3D-Multichannel-Sound übernehmen und die CPU-Kerne entlasten. Die R7-Grafikeinheit ist kompatibel zu DirectX 11.2, OpenGL 4.3 und Mantle.

So imposant die Kaveri-Eigenschaften auch sind, ein Ziel hat AMD verfehlt: Noch 2012 hieß es, Kaveri werde die 1-TFlops-Marke überspringen. Dass das Spitzenmodell nun um etwa 18 Prozent hinter den Versprechungen bleibt, weist auf Fehleinschätzungen von Fertigungstechnik oder Leistungsaufnahme hin.

Eine Nummer kleiner

Nach Schätzungen des Marktforschungsunternehmens Mercury Research tragen die billigeren Mobilprozessoren mit Jaguar- und Bobcat-Kernen rund 28 Prozent des Umsatzes, den AMD insgesamt mit Desktop- und Mobilprozessoren macht. Auf beiden Feldern schrumpfte der Marktanteil von AMD zwar weiter, aber Jaguar ist – außer der GPU – Motor der hauseigenen Wachstumsmaschine, nämlich der Spielkonsolenchips. Die Nachfolger der Atom-Konkurrenten Kabini und Temash mit Jaguar-Kernen kommen 2014 als Beema und Mullins. Ihre zwei oder vier Puma-Kerne sollen pro Watt doppelt so viel Rechenleistung liefern. Die integrierte GCN-GPU ist kompatibel zu DirectX 11, OpenGL 4.3 und OpenCL.

Der Mullins für Tablets wird bei ähnlicher Rechenleistung nur halb so viel schlucken wie Temash, nämlich etwa 2 Watt. Beema beerbt Kabini und nimmt je nach Ausführung zwischen 10 und 25 Watt auf. AMD erklärte auf Anfrage, dass Beema und Mullins anders als Kaveri keine HSA-Funktionen unterstützen werden. Eingebaut ist jedoch die von ARM lizenzierte TrustZone-Erweiterung, gekoppelt an einen Cortex-A5. Man kann sie etwa für ein Firmware-TPM 2.0 nutzen, das Microsoft für Windows-8.1-Tablets mit Instant Go verlangt. (mfi)

Artikel kostenlos herunterladen

weiterführende Links

Anzeige