Menü

GTC 2017: CUDA 9 mit vollem Volta-Support und Cooperative Groups

Die kommende CUDA-Version 9 unterstützt die neue Volta-GPU, erlaubt die Programmierung der Tensor Cores und integriert das neue Programmiermodell Cooperative Groups.

GTC 2017: CUDA 9 mit vollem Volta-Support und Cooperative Groups

CUDA 9 unterstützt Nvidias kommende GPU-Generation Volta.

(Bild: Martin Fischer)

Nvidia hat auf der GPU Technology Conference die nächste Version seiner GPU-Programmierschnittstelle CUDA angekündigt. Die wichtigste Neuerung von CUDA 9 ist die Unterstützung der jüngst enthüllten Volta-Grafikarchitektur samt der neuen Tensor-Kerne – und natürlich der ersten Volta-Rechenkarte Tesla V100, die ab dem dritten Quartal verfügbar sein soll.

Über eine neue Schnittstelle sollen sich Matrixmultiplikationen und Akkumulationen über die Tensor-Kerne der Tesla V100 programmieren lassen. Auch der Nvidia Visual Profiler unterstützt die GV100-GPU und enthält verbesserte Funktionen zur Analyse von Unified-Memory-Operationen.

Überdies bietet CUDA 9 mit den Cooperative Groups ein neues Programmiermodell zur verbesserten Verwaltung von Threads sowie schnellere Bibliotheksroutinen für linerare Algebra, Fast-Fourier-Transformationen und zur Bildverarbeitung. Dazu kommen neue Algorithmen in cuSolver und nvGraph. Außerdem unterstützt CUDA 9 C++14 sowie die Plattformen und Compiler Microsoft Visual Studio 2017, GCC 6.x, Clang 3.9 und PGI 17.1. Insgesamt soll sich in CUDA 9 die Compiler-Performance erhöhen. Die finale Version von CUDA 9 dürfte spätestens im dritten Quartal 2017 verfügbar sein, bis dahin können Interessierte über Nvidias Developer-Programm Release Candidates beziehen.

Von Nvidia veröffentlichter Performance-Vergleich zwischen Tesla V100 (CUDA 9) und Tesla P100 (CUDA 8).

(Bild: Nvidia)

Nvidia hat auf der GPU Technology Conference 2017 seine neue GPU-Generation Volta vorgestellt. Der erste Chip GV100 kommt auf der Rechenkarte Tesla V100 zum Einsatz; er enthält neben seinen 5120 Shader-Rechenkernen auch 640 sogenannte Tensor Cores, die das Training und Inferencing von neuronalen Netzen deutlich beschleunigen sollen. Sie sind nur eingeschränkt programmierbar, erreichen dafür laut Nvidia aber eine Rechenleistung von bis zu 120 Billionen Tensor-Gleitkommaoperationen pro Sekunde. Dazu bietet die Tesla V100 16 GByte an HBM2-Speicher, der mit 900 GByte/s arbeitet – also fast die vor einigen Jahren in Aussicht gestellte Transferrate von 1 TByte/s. (mfi)

Anzeige
Zur Startseite
Anzeige