Menü

Red Storm: Cray stellt massiv-parallelen Rechner XT3 vor

Lesezeit: 1 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 214 Beiträge
Von

Gemeinsam mit den Sandia National Labs entwickelte Cray in einem 93-Millionen-Dollar-Projekt den Rechner Red Storm, der derzeit bei Sandia installiert wird. Die 11.648 AMD-Opteron-Prozessoren in 140 Kabinetten erreichen zusammen eine Spitzenleistung von 42 TeraFlop/s. Insgesamt stehen 10 TeraByte Haupt- und 240 TeraByte Plattenspeicher zur Verfügung.

Auf dieser Basis hat Cray nun ein kommerzielles System marktreif gemacht und sieht es als Nachfolger der massiv-parallelen und erfolgreichen Rechner Cray T3D und T3E. Im Unterschied zur XD1, die als Einstiegsmodell ins High Performance Computing (HPC) zu sehen ist, ist die XT3 für die höchsten Benutzeranforderungen gedacht. Die Besonderheit des Rechners ist das Cray-spezifische Verbindungsnetzwerk, wie bei der T3E ein 3D-Torus. Die SeaStar-Kommunikationsprozessoren und Router-Chips entlasten die Rechenprozessoren vom Message-Passing und der Ein/Ausgabe zum globalen Dateisystem -- hier hat Cray Lustre ausgewählt. Die SeaStar-Router sind mit den sechs Nachbarn verbunden und verfügen über eine dauerhafte Bandbreite von 4 GBit/s.

Als Rechenknoten nutzt Cray die jeweils aktuellen 64-Bit-Prozessoren aus AMDs Opteron-Baureihe. Der Hersteller kann die XT3 auch auf die kommenden Dual-Core-Prozessoren nachrüsten. Als Betriebssystem hat Cray Unicos/lc ausgewählt, mit einem Mikrokernel für die Rechenknoten und dem vollen Systemumfang für die Login-, Netzwerk- und Einausgabeprozessoren. Für die Serviceprozessoren ist Suse Linux vorgesehen. Das Betriebssystem und die SeaStar-Kommunikationsprozessoren unterstützen mehr als 30.000 CPUs.

Besonderen Wert hat Cray auf die Zuverlässigkeit gelegt; so dient ein eigenes System mit Prozessoren, Software und Netzwerk zum Darstellen und Verwalten der wichtigsten Hardware- und Software-Komponenten. Es unterstützt das Wiederaufsetzen von Jobs bei Hard- oder Software-Fehlern und das automatische Ausschalten von fehlerhaften Komponenten, sodass die übrigen Teile des Systems funktionsfähig bleiben. Damit will Cray eine mittlere Zeit zwischen dem Auftreten von Fehlern von 400 Stunden bei 1000 Prozessoren sicherstellen.

Siehe zum High Perfomance Computing auch:

  • Kosmos im Computer -- Wie super sind Supercomputer?, c't 22/2004, S. 104
  • Der große summende Gott -- Zu Besuch beim schnellsten Rechner der Welt, c't 7/2004, S. 84

(Uwe Harms) / (jk)