Leseprobe aus c't 13/12
Martin Fischer
Das richtig dicke Ding
GPU Technology Conference 2012
Nvidia enthüllte in San Jose die Architektur der Kepler- GPU GK110 – ein wahres Monster aus über 7 Milliarden Transistoren. Überdies stellten die Kalifornier die Grafikvirtualisierung VGX vor und wollen zukünftig auch im Cloud-Gaming-Bereich mitspielen.
Kurz vor der Eröffnungspräsentation von Jen-Hsun Huang: Die Halle platzte aus allen Nähten, die Erwartungen waren hoch. Nvidia konnte 2800 Fachbesucher zur diesjährigen GPU Technology Conference nach San Jose locken – 600 mehr als zur letzten GTC.
Mehr als 2800 Fachbesucher machten sich Mitte Mai auf den Weg ins sonnige San Jose und warteten gespannt auf technische Details, die Nvidia-Boss Jen-Hsun Huang auf der GPU Technology Conference verkünden sollte. Und sie wurden nicht enttäuscht: Für herunterklappende Kinnladen sorgte der für Ende des Jahres angekündigte GK110-Chip, der aus 7,1 Milliarden Transistoren besteht – einer pro Erdenbürger.
Mit Hyper-Q und Dynamic Parallelism bringt der Neuling zwei bedeutende Funktionen, die dafür sorgen, dass Programme effizienter ablaufen und einfacher zu schreiben sind. Dazu braucht es neben dem GK110 auch die GPGPU-Schnittstelle CUDA 5.0, die ebenfalls als Preview-Version vorgestellt wurde und registrierten Entwicklern kostenlos zugänglich ist. Des Weiteren stellte Huang die erste Tesla-Rechenkarte vor, die gleich zwei GPUs auf einer Platine hat – sie taugt allerdings nur für Single-Precision-Berechnungen. Und natürlich durfte auch ein Ausflug in die Wolke nicht fehlen: Dort will Nvidia zukünftig mitspielen und beim Cloud Gaming und der Grafikvirtualisierung absahnen.
Kepler 2.0
Einen detaillierten Blick in das Innere des Superchips GK110 gaben Nvidias Architekturspezialist Lars Nyland und CUDA-Entwickler Stephen Jones. GK110 setzt auf eine im Vergleich zum bisherigen Gamer-Chip GK104 überarbeitete und speziell fürs Hochleistungsrechnen (High Performance Computing/HPC) angepasste Kepler-Architektur. Sie soll in Hinblick auf Performance, Effizienz und Programmierbarkeit neue Maßstäbe setzen.
Sein Debüt wird der bis dato komplexeste Mikroprozessor im vierten Quartal des Jahres auf der Tesla-Rechenkarte K20 feiern – mit 2496 oder 2688 Kernen. Bei den für die Naturwissenschaften und das Finanzwesen besonders wichtigen Berechnungen mit doppelter Genauigkeit (Double Precision/DP) soll die bis zu 300 Watt schluckende K20 um den Faktor 3 schneller sein als die derzeitigen Tesla-Karten M2090 mit Fermi-GPUs. Wie viel GDDR5-Speicher zum Einsatz kommt, ist noch unklar, aber 12 GByte dürften es schon sein. GeForce-Spielerkarten sollen erst im Jahr 2013 mit GK110-GPUs bestückt werden.
Der Nvidia-Chef war sichtlich stolz: Seit 2008 hat sich die Zahl der Universitäten, die CUDA einsetzen und lehren, von 60 auf 560 erhöht. Die Zahl der Top500-Supercomputer mit Nvidia-Technik stieg im gleichen Zeitraum von 1 auf 35 Stück an.
Im Vollausbau enthält eine GK110-GPU 2880 Shader-Rechenkerne und die gigantische Anzahl von 240 Textureinheiten – das ist fast die doppelte Menge, die heutige High-End-GPUs bieten. Die Ausführungseinheiten verteilen sich auf bis zu 15 SMX-Blöcke. Jeder davon besteht aus 192 Shader-Rechenkernen (Single-Precision-Cores), 16 Textur- und 64 Double-Precision-Einheiten.
Dazu kommen je SMX ein 64 KByte großer L1-Cache sowie 48 KByte Read-Only-Cache. Von den Load-Store- und Special-Function-Units für transzendente Funktionen existieren pro SMX jeweils 32 Stück. 4 Warp Scheduler und 8 Dispatch-Einheiten füttern den Shader-Cluster. Damit lassen sich bis zu 4 Warps – also 4 Bündel aus je 32 Threads – gleichzeitig ausführen.
Jeder SMX stehen wie bei GK104 weiterhin 65 536 Register zur Seite. Mit GK110 darf ein Thread aber nun bis zu 255 nutzen, bei GK104 war bereits bei 63 Schluss. Das soll laut Lars Nyland besonders die Performance bei Double-Precision-Berechnungen erhöhen. Als Beispiel nannte er eine Anwendung im Bereich der Quantenchromodynamik, die auf GK110 um den Faktor 5,3 schneller ablaufe als auf dem Vorgängerchip (GF110).
Nvidia wird auf den GK110-Boards schnellen GDDR5-Speicher einsetzen. Er kommuniziert über sechs 64-Bit-Speichercontroller mit der GPU – also über 384 Datenleitungen. Das sorgt für eine deutlich höhere Datentransferrate als noch bei GK104-Karten, die nur 256-Bit-Interfaces besitzen. Neben dem Speicher sind auch Register und L1-/L2-Caches ECC-gesichert. Die Leistungseinbußen im ECC-Modus will Nvidia laut eigenen Angaben um 66 Prozent reduziert haben.
Hyper hyper
Von Bedeutung für den Supercomputing-Bereich sind die neuen Funktionen Dynamic Parallelism und Hyper-Q. Dynamic Parallelism bedeutet, dass ein auf der GPU ablaufender Thread dynamisch neue Kernel erzeugen kann und so beispielsweise auch rekursive Funktionen selbstständig abarbeitet, ohne auf die CPU angewiesen zu sein. Die GPU kann sich also an die zu verarbeitenden Daten anpassen. Das erleichtert Programmierern die Arbeit und erlaubt die Ausführung komplexerer Algorithmen als bisher. Laut Nvidia ließe sich so ein zwischen 200 und 300 Zeilen langer Fermi-Programmcode mit Kepler-GK110 auf rund 30 Zeilen reduzieren.
Dank Hyper-Q können CPU-Kerne bis zu 32 MPI-Tasks (Message Passing Interface) parallel auf der GK110-GPU ausführen, die Fermi- und GK104-GPUs schaffen nur jeweils einen. Hyper-Q soll die GK110-GPU also deutlich besser auslasten, was auch Leerlaufzeiten der CPU verringert.
Einen Fortschritt konnte Nvidia außerdem bei der GPUDirect-Technik vorweisen, mit der GPUs Daten direkt zwischen ihren Speichern austauschen können, ohne den Umweg über den langsamen Systemspeicher gehen zu müssen. Mit Kepler-GPUs lässt sich das nun nicht nur innerhalb derselben physischen Maschine bewerkstelligen, sondern auch direkt über eine Netzwerkverbindung zwischen Grafikkarten verschiedener Server (Remote Direct Memory Access/RDMA).
Threads innerhalb eines Warp-Bündels können durch die Shuffle-Instruktion (Shfl) nun einfacher auf Daten gemeinsam zugreifen. Mit Fermi-GPUs war man dafür auf zusätzliche Load-Store-Operationen und Shared-Memory-Zugriffe angewiesen. Dadurch sollen beispielsweise FFT-Berechnungen schneller ablaufen. Auch bei den sogenannten atomaren Operationen (Atomics) hat Nvidia deutlich nachgelegt. GK110 unterstützt nun zusätzliche 64-Bit-Atomics, nämlich atomicMin, atomicMax, atomicAnd, atomicOr und atomicXor.
(mfi)
Den vollständigen Artikel finden Sie in c't 13/2012.








