High-Performance Computing: HPE bringt Hochleistungssystem für Machine Learning

Hewlett Packard Enterprise beschleunigt mit dem ML-Komplettsystem das Entwickeln und Trainieren von KI-Modellen der nächsten Größen- und Leistungsklasse.

Lesezeit: 7 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen

(Bild: alphaspirit/Shutterstock.com)

Von
  • Silke Hahn

Der Kauf von Determined AI trägt offenbar erste Früchte: Hewlett Packard Enterprise (HPE) hat die Technik des im Juni 2021 erworbenen kalifornischen Spezialisten für verteiltes Deep Learning in der High-Performance-Klasse mit seiner bisherigen Entwicklungsumgebung vereint und ein vollintegriertes Produkt namens HPE Machine Learning System auf den Markt gebracht.

Das neue Hochleistungssystem ist laut Ankündigung speziell auf Machine Learning (ML) abgestimmt und bietet alle für das hochskalierbare Deep Learning notwendigen Elemente in einem Komplettpaket: Zusätzlich zu der Softwareplattform für maschinelles Lernen umfasst es Hardware für Rechenleistung, Beschleunigung mittels eingebauter Acceleratoren sowie passende Netzwerkkomponenten.

Gerade für mittlere und kleinere Unternehmen sind die hohen Anforderungen an die Infrastruktur oft eine Hürde, eigene KI-Anwendungen zu erstellen oder Künstliche Intelligenz (KI) in bestehende Software zu integrieren. Die skalierbare Technik von HPE soll KI-Teams laut Hersteller nun in die Lage versetzen, ihre ML-Modelle schneller und in größerem Maßstab als bisher zu entwickeln, um mehrere Trainingsjobs gemeinsam zu überwachen. Den Weg zur Fertig- und Bereitstellung praxistauglicher KI-Anwendungen würde das im Vergleich zur bisherigen Dauer deutlich verkürzen. So ließe sich der Ankündigung zufolge die vom Konzept bis zum produktionsreifen Modell erforderliche Trainingsphase von bislang mehreren Wochen und Monaten auf wenige Tage eindampfen, wie Evan Sparks, Vice President bei HPE für die Bereiche KI und High-Performance Computing (HPC), im Rahmen einer Pressekonferenz vor dem Release betonte.

HPE Machine Learning Development System: Schema der Prozessabläufe – von der Datenaufbereitung über die Entwicklung und das Training zu Deployment und Inferenz der ML-Modelle

(Bild: Hewelett Packard Enterprise)

Das HPE Machine Learning Development System soll Sparks zufolge High-Performance Computing für den gesamten KI-Bereich erschließen. Um im Machine Learning zu experimentieren, Prototypen zu bauen, Modelle im großen Maßstab zu entwickeln und sie zu trainieren sowie zu skalieren, sei spezielle Hard- und Software nötig, die möglichst zahlreiche Workflows rasch und zuverlässig parallel verarbeiten können müsse.

Eine entsprechend robuste Rechenleistung, die erforderliche Speicherkapazität, Konnektivität und Geschwindigkeit (durch Acceleratoren) sind dem Vice President zufolge Voraussetzung, um den Betrieb aufzunehmen. Die Anschaffung solcher Hardware gehe ins Geld, und auch Setup und Verwaltung können komplexe Angelegenheiten sein und Kreativität binden, wenn für Forschung, Entwicklung oder Engineering bestimmte Arbeitskraft stattdessen mit Infrastrukturaufgaben belegt sei. Hewlett Packard Enterprise setzt nach eigenen Angaben an diesem Punkt an und warb bei der vorgelagerten Pressekonferenz damit, die übliche Komplexität einer ML-tauglichen Umgebung zu reduzieren.

Ein Referenzkunde des HPE Machine Learning System ist das Heidelberger KI-Unternehmen Aleph Alpha, das für seine in Deutschland entwickelten großen multimodalen KI-Modelle im Umfang von derzeit bis zu 200 Milliarden Parametern auf die Infrastruktur von HPE setzt, wie Aleph-Alpha-Firmengründer und CEO Jonas Andrulis auf der Supercomputing Conference angekündigt hatte. Das Start-up verfügt mittlerweile über ein eigenes Rechenzentrum für das Hochleistungstraining seiner Modelle. Laut Justin Hotard, Executive Vice President bei HPE, habe Aleph Alpha bereits zwei Tage nach dem Installieren des HPE-Systems mit dem Trainieren von ML-Modellen beginnen können. Erste Ergebnisse haben bereits die Markteinführung erlebt, so ging das multimodale KI-Modell LUMINOUS Mitte April offiziell an den Start.

Evan Sparks betonte, dass ein Partner wie Aleph Alpha für HPE von besonderem Interesse sei, da das Training der von den Heidelbergern entwickelten großen Modelle einen Sonderfall darstelle und von Haus aus eine High-Performance-Leistungsklasse erfordere. Die Herausforderung in diesem Use Case sei gewesen, ein für große NLP-Modelle taugliches Gesamtsystem zu entwerfen, das sowohl Training als auch Inferenz zu leisten vermag. Folgende Grafik schlüsselt das technische Setup auf, für das Aleph Alpha sich für den Bedarf als Large-Scale Adopter entschieden hat:

Technisches Setup bei Aleph Alpha: Die Heidelberger KI-Experten benötigten für das Training und die Inferenz ihrer großen NLP-Modelle ein besonders leistungsfähiges System, HPE hat geliefert.

(Bild: Hewlett Packard Enterprise | Aleph Alpha)

Herzstück der Infrastruktur ist dabei das Apollo-6500-System der 10. Generation, das mit jeweils acht Grafikprozessoren (GPUs) des Typs A100 Tensor Core von Nvidia zu jeweils 80 GByte ausgerüstet ist. Im Falle des Referenzkunden kommen 64 Stück davon mit einem parallelen Datensystemspeicher zum Einsatz. Das Apollo-System dieser Ausführung gilt als besonders zuverlässig, stabil und hochverfügbar, umfasst NVLink für eine rasche Kommunikation zwischen den GPUs und unterstützt unter anderem skalierbare Prozessoren von Intel sowie eine Reihe von Fabrics für die Hochgeschwindigkeitsvernetzung mit hoher Bandbreite bei niedriger Latenz. Das System ist für Deep-Learning-Workflows optimiert, soll aber für komplexe Simulations- und Modellierungs-Workloads ebenso geeignet sein. KI-Teams dürfte entgegenkommen, dass die Hardware sich benutzerdefiniert anpassen lässt, denn die GPU-Topologie ist je nach Workloads und Bedarf weitreichend konfigurierbar.

Das Herzstück des vollintegrierten ML-Entwicklungssystems ist das HPE Apollo 6500 Gen10 System.

(Bild: Hewlett Packard Enterprise)

Zum Überwachen und Steuern der Performance bietet das System eine feingliedrige zentrale Cluster-Verwaltung, den HPE Performance Cluster Manager. Die Software soll mit allen Hochleistungs-Clustern und Supercomputern von HPE kompatibel sein, beim Einrichten unterstützen, die Hardware sowie Images überwachen und verwalten – zudem soll sie Softwareupdates und die Energieverwaltung steuern können. Auch zum Verwalten der einzelnen Systemkomponenten hat die Infrastruktur Werkzeuge an Bord wie die stapelbaren (stackable) Switches der Aruba-CX-6300-Serie, die unter anderem den Zugang zum Unternehmensnetzwerk regeln und Top-of-Rack-Deployments (ToR) im Rechenzentrum ermöglichen. Das System lässt sich ab einer Grundausstattung der verschiedenen Komponenten beliebig nach oben aufstocken – folgende Übersicht zeigt die technischen Bestandteile der kleinsten Ausführung des ML Development System:

Technische Übersicht der Infrastruktur mit Software- und Service-Stack – hier die kleinste Ausführung des HPE Machine Learning Development System

(Bild: Hewlett Packard Enterprise)

Sein Einsatzbereich deckt unter anderem auch IoT, Mobile und Cloud-Computing ab (genaue Performance-Daten lassen sich dem oben verlinkten Datenblatt entnehmen). Zudem kommen die ProLiant-DL325-Server von HPE zum Einsatz, und Nvidia InfiniBand HDR Switches sind enthalten, die die serielle Hochgeschwindigkeitskommunikation zwischen den Rechen- und Speicherkomponenten in den Servern, Clustern und Rechenzentren gewährleisten.

Parallel zu dem neuen Entwicklungssystem hat HPE Swarm Learning vorgestellt, ein Framework für verteiltes Machine Learning auf der Permissioned Blockchain. Der neue Ansatz für dezentrale Deep-Learning-Prozesse soll in besonderem Maße die Privatsphäre der Datenspender wahren: Swarm Learning ermöglicht das Trainieren von KI-Modellen, ohne personenbezogene Daten zusammenzuführen, da es nicht die Grunddaten, sondern lediglich die aus ihnen gewonnen Einsichten teilt.

Erste Use Cases gibt es in der medizinischen Diagnostik. Die Zusammenarbeit großer Organisationen kann dabei schützenswerte Daten intern halten und zugleich relevante Erkenntnisse zu leistungsfähigeren Modellen zusammenführen. Der neue Ansatz erschließt eine deutlich umfangreichere Datenbasis und dürfte die weltweite Zusammenarbeit über Organisationsgrenzen hinweg fördern – mehr Informationen bietet die iX-Berichterstattung zum Launch des Swarm-Learning-Frameworks von HPE.

(sih)