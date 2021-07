OpenAI hat mit Triton eine neue Programmiersprache vorgestellt, die speziell für Machine-Learning-Anwendungen (ML) ausgelegt ist. Die nun in Version 1.0 veröffentlichte Open-Source-Sprache baut auf das im ML-Umfeld verbreitete Python. Unter der Haube zielt sie auf Optimierungen für die Architektur der GPU – derzeit ausschließlich aus dem Hause Nvidia.

Motivation zur Entwicklung der 2019 vorgestellten Sprache ist laut dem OpenAI-Blog, dass ML-Frameworks auf der einen Seite nicht performant genug für umfangreiche künstliche neuronale Netze (KNN) seien. Die hardwarenahe GPU-Programmierung beispielsweise mit Nvidias CUDA hat auf der anderen Seite eine hohe Einstiegshürde und stellt hohe Anforderungen an die manuelle Optimierung der Prozesse.

Um Software möglichst effizient auf GPUs auszuführen, muss der Code auf die Architektur zugeschnitten sein. So sorgt das Memory Coalescing dafür, dass Speichertransfers vom DRAM in große Transaktionen zusammengefasst werden. Außerdem gilt es das Shared-Memory-Management für die im SRAM gespeicherten Daten zu optimieren. Schließlich müssen die Berechnungen sowohl innerhalb einzelner Streaming Multiprocessors (SMs) als auch SM-übergreifend partitioniert und disponiert werden.

Während Entwicklerinnen und Entwickler unter CUDA die zugehörigen Compiler-Optimierungen manuell vornehmen müssen, kümmert sich der Triton-Compiler offensichtlich automatisch um das Memory Coalescing, das Shared-Memory-Management und das Scheduling innerhalb der SMs. Lediglich für das übergreifende Scheduling sind manuelle Anpassungen erforderlich.

Von der Syntax her setzt Triton auf Python. Beim Umsetzen der spezifischen GPU-Funktionen ähnelt es wohl dem Softwarepaket Numba, das numerische Funktionen mit einem JIT-Compiler (Just-in Time) in Maschinencode übersetzt. Wie Numba verwendet Triton dekorierte Python-Funktionen. Darüber lassen sich Kernels definieren, die parallel mit unterschiedlichen program_id s in einem Grid aus Instanzen laufen.

Im Gegensatz zu Numba kennt Triton die Zeigerarithmetik. Folgendes Codebeispiel zeigt die einfachste Umsetzung eines Kernels, der alle Blockoperationen in einem einzelnen Thread durchführt und Zeigerarithmetik verwendet: