Menü

Nvidia kratzt mit neuen Grafik- und Compute-Prozessoren an der TFLOPS-Schallmauer

vorlesen Drucken Kommentare lesen 95 Beiträge

Der Grafikspezialist Nvidia erkämpft mit den DirectX-10-Prozessoren GeForce GTX 280/260 neue Höchstwerte bei 3D-Grafik- und Rechenleistung. Neue Rekordwerte gibt es aber auch bei der Leistungsaufnahme.

Nvidias positioniert sein neues Flaggschiff GeForce GTX 280 als Grafikkarte und Beschleuniger für rechenintensive Anwendungen.

Die neuen DirectX-10-Chips GeForce GTX 280 und GeForce GTX 260 mit der internen Bezeichnung GT200 schöpfen ihre Rechenleistung aus einer hohen Zahl von Shader-ALUs, die im Vergleich zum Vorgänger G92 fast verdoppelt wurde. Das Spitzenmodell vereint 240 Rechenkerne, die in zehn Clustern zu je dreimal acht ALUs angeordnet sind. Sie erreichen bei 1296 MHz und drei Operation pro Takt (MAD, MUL) zusammen eine theoretische Spitzenleistung von beachtlichen 933 GFLOPS. Die 128 ALUs des schnellsten Vorgängers GeForce 9800 GTX kommen lediglich auf 648 GFLOPS. Dafür musste Nvidia imposante 1,4 Milliarden Transistoren auf dem neuen Chip unterbringen, der sich zusammen mit 1 GByte Grafikspeicher bis zu rekordverdächtigen 236 Watt aus dem Netzteil genehmigt. In vielen Betriebszuständen liegt die Stromaufnahme aber deutlich niedriger. Mit diesem Aufwand sollen aktuelle und kommende DirectX-10-Spiele mit ausgefeilten Grafikeffekten auf HD-Monitoren mit 1920 × 1200 Bildpunkten und mehr spielbar sein.

Die Texturleistung hat Nvidia erstmalig nicht in gleichem Maße erhöht, sondern lediglich von 64 auf 80 Texel/Takt angehoben und berücksichtigt damit das sich verändernde Verhältnis zwischen Arithmetik- und Textur-Operationen in den Shader-Programmen. Die Zahl der Blend-Operationen in den Raster-Endstufen stieg dafür kräftig von 12 auf 32 Pixel/Takt. Der Chiptakt liegt bei moderaten 602 MHz. Hier konnte Nvidia nicht zulegen, da man den GT200 im selben 65-nm-Prozess fertigt wie den Vorgänger GeForce 9800 GTX (G92). Das Speicherinterface läuft mit 1107 MHz und steuert 1 GByte GDDR3-Speicher über einen 512 breiten Datenbus an. Die dadurch hohen Kosten für den Chip und die Leiterplatte nimmt Nvidia bei diesen hochpreisigen Produkten offenbar in Kauf. Vom Konkurrenten AMD erwartet man dagegen schon den Wechsel zu GDDR5-Speicher, der die gleiche Speicherleistung auch über ein kostengünstigeres 256-Bit-Interface erzielen soll.

Nvidia hat sich aber nicht nur auf schiere Rechenkraft konzentriert, sondern sich auch der Schwachstellen des Vorgängers angenommen. Die Zahl der Arbeitsregister pro Thread wurde verdoppelt, was komplexen Shader-Programmen zugute kommt. Der interne Streamout-Buffer soll jetzt sechsmal schneller arbeiten und behindert die ALUs dadurch nicht mehr in der Konfiguration als Geometrieshader. Auch sollen zahlreiche interne Optimierungen des internen Datenflusses die Effizienz gegenüber dem Vorgänger verbessern und beispielsweise dafür sorgen, dass der GTX 280/260 näher an seine theoretische Texturleistung herankommt als die Vorgänger aus der 8er- und 9er-Reihe.

Nvidia betont, dass auch die ALUs flexibler einsetzbar sind und spricht bei den ALU-Achtergruppen nicht mehr von SIMD-, sondern von SIMT-Einheiten (Single Instruction Multiple Threads – Streaming Multiprozessor). Man erreiche die volle Geschwindigkeit jetzt auch, wenn verschiedene Threads mit Vektordaten unterschiedlicher Breite arbeiten. Die SIMD-Einheiten der Vorgänger haben unter dieser Bedingung noch spürbar an Leistung eingebüßt. Die Instruktionseinheit innerhalb jeder Achtergruppe, die Nvidia als Streaming Multiprocessor bezeichnet, ist in der Lage 1024 Threads zu verwalten. Insgesamt kann ein GeForce GTX 280 daher 30720 Threads gleichzeitig verwalten. Beim Vorgänger waren es immerhin schon 12228 Threads.

GPU-Architekt Tony Tamasi hat fast die Hälfte der GTX-280-Chipfläche mit den 240 Rechenkernen belegt.

Schließlich hat Nvidia auch die Stromsparmechanismen verbessert, wodurch die Ruheaufnahme einer GTX-280-Karte laut Hersteller auf relativ bescheidene 25 Watt (9800 GTX: 45 Watt) sinkt. Es gibt sogar einen speziellen Blu-ray-Powermode, in dem die Karte nur 32 Watt aufnehmen soll (9800 GTX: 50 Watt). Im 3DMark06 verheizt der GTX 280 nach Nvidias Angaben dagegen 147 Watt (9800 GTX: 80 Watt). In neueren Mainboards mit Nvidia-Chipsatz kann man den GTX 280/260 unter Windows Vista mittels HybridPower sogar ganz abschalten und auf die integrierte Chipsatzgrafik ausweichen. Trotz dieser Maßnahmen benötigt eine GeForce-GTX-280-Karte eine 8- und eine 6-polige Verbindung zum Netzteil. Die neuen GTX-Chips können die interne 10-Bit-Farbgenauigkeit jetzt auch ausgeben, was aber Grafikkarten mit DisplayPort-Ausgängen und passende Displays voraussetzt.

Beim Funktionsumfang belässt es Nvidia bei DirectX 10 und erhöht nicht – wie die neueren AMD-GPUs aus der 3000er-Reihe – auf DirectX 10.1. Eines der DirectX-10.1-Features soll der GTX 280/260 wie auch die Vorgänger aus der 8er- und 9er-Reihe trotzdem beherrschen: Bei PC-Spielen mit einem "Deferred Renderer", bei denen man das Antialiasing der GPU bislang nicht nutzen konnte, soll dies dank Multisample-Readback doch möglich sein. Schließlich kann man die neuen Grafikkarten in dafür ausgelegten Mainboards mit Nvidia-Chipsatz bis zu dreifach parallel koppeln (3-Wege-SLI), um die Leistung weiter zu steigern.

Die neuen GTX-Chips sollen sich dank ihrer hohen Rechenleistung auch für Physikberechnungen eignen. Nvidia hat dazu seine eigene Physik-Software PhysX so angepasst, dass sie die Rechenkerne der GTX-280/260-Grafikchips nutzt. Davon sollen Spiele wie Unreal Tournament 3, das angekündigte Football-Spiel Backbreaker und auch die Testsoftware 3DMark Vantage profitieren. Der dazu erforderliche Nvidia-Treiber soll in ein bis zwei Monaten verfügbar sein.

Nvidia will mit den GTX-280/260-Chips auch den Einsatz von Grafikchips als Rechenknecht für allgemeine Aufgaben voranbringen (GPGPU) und verweist dazu auf CUDA, einen C-ähnlicher Compiler, der Rechenaufgaben parallelisiert und auf die Shader-ALUs der GPU überträgt. Erstmalig unterstützt Nvidia bei Gleitkommaoperationen jetzt auch Double Precision (64 Bit) nach IEEE745R, erreicht dabei allerdings nur ein Achtel der normalen Geschwindigkeit. Die DP-Performance soll bei etwa 90 GFLOPS liegen, was etwa acht Intel-Xeon-Kernen (bei 3 GHz) entspricht. Nvidia hat zudem die internen Datenpuffer für die Kommunikation zwischen einzelnen Threads von 8 auf 16 KByte vergrößert und das Speicherinterface auch auf einzelne, verstreute Zugriffe optimiert. Nvidia spricht sogar von einem speziellen Compute-Modus, da beispielsweise die Puffer nur im Compute-Modus verfügbar sind. Dann soll der GeForce GTX 280 tatsächlich die doppelte Performance wie ein GeForce 9800 GTX erreichen können, während das bei PC-Spielen Limitierungen etwa durch den Speicherzugriff verhindert.

Eine erste Demonstration der Compute-Möglichkeiten liefert der Video-Transcoder "Badaboom" von Elemental Technologies, der 18-mal schneller arbeiten soll als vergleichbare CPU-Transcoder. Nach jetzigem Stand will ihn Nvidia aber nicht kostenlos abgeben, während AMD eine ähnliche Software als Freeware verteilt. Für den GTX 280/260 steht jetzt auch ein Client für das Distributed-Computing-Projekt Folding@home zur Verfügung, der pro Tag 590 ns Echtzeit berechnen kann. Eine Radeon HD 3870 soll nur 180 ns/Tag und eine Playstation 3 nur 100 ns/Tag berechnen können. Später soll der Client auch für Nvidias 9000er- und 8000er-GPUs verfügbar werden.

Der GeForce GTX 260 ist eine um zwei Cluster abgespeckte Variante mit 192 Rechenkernen und einem Chip-/ALU-Takt von 576 beziehungsweise 1242 MHz. Alle Leistungsdaten reduzieren sich entsprechend. Der Chip spricht 896 MByte Speicher über einen 999 MHz schnellen und 448 Bit breiten Datenbus an, begnügt sich mit maximal 182 Watt und zwei sechspoligen Netzteilverbindungen.

Im c't-Labor kann sich eine GeForce-GTX-280-Grafikkarte von einer GeForce 9800 GX2 mit zwei G92-Chips nicht in jedem Fall absetzen. In der Extreme-Einstellung des 3DMark Vantage ist sie beim Game Test 1 noch um beachtliche 100 Prozent schneller, im Game Test 2 jedoch nur noch 33 Prozent. In der High-Einstellung schrumpft der Vorsprung der GTX 280 in Game Test 2 dagegen sogar auf Null zusammen, weil sich hier die etwas höhere Shader-Leistung der beiden gekoppelten G92-Chips stärker auswirkt. In Crysis kann die GTX 280 die 9800 GX2 nur unwesentlich überbieten und erzielt im Level "Ice" in der Einstellung "very high" bei 1600 × 1200 und zweifachem Antialiasing sowie bei 1920 × 1200 ohne Antialiasing ebenfalls nur maximal 20 Bilder/s. Gegenüber AMDs schnellster Grafikkarte Radeon HD 3870 X2 ist die GTX 280 in 3DMark Vantage fast um den Faktor 2 schneller und liegt in Crysis immerhin noch mit 33 Prozent vorn. In dem Call-of-Juarez-DirectX-10-Test muss sich die GTX 280 der AMD-Karte jedoch mit Rückständen zwischen 12 und 25 Prozent geschlagen geben.

Die GeForce GTX 280 soll von eVGA, Gainward, MSI, XFX und Zotac noch in dieser Woche zu Preisen von 500 bis 550 Euro in den Handel kommen. EVGA und MSI wollen auch übertaktete Varianten herausbringen und den Chiptakt auf bis zu 700 MHz anheben. Die GeForce GTX 260 soll erst ab Donnerstag, dem 26. Juni, verfügbar sein. Hier empfiehlt Nvidia einen Preis von 310 Euro, Kartenhersteller halten aber aufgrund ihres Einkaufspreises eher 350 bis 400 Euro für realistisch. (Manfred Bertuch) / (chh)