Starcraft 2: Verbesserte DeepMind-KI schlägt 99,8 % der menschlichen Spieler

DeepMind hat die KI AlphaStar nach Schummelvorwürfen realistischer gestaltet, bleibt damit aber voll auf Grandmaster-Kurs.

Lesezeit: 2 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 98 Beiträge

(Bild: Blizzard)

Von
  • Stefan Krempl

DeepMind hat seine KI überarbeitet und so eingeschränkt, dass sie Starcraft 2 unter ähnlichen Bedingungen wie menschliche Gegner spielt. Dies geht aus einer am Mittwoch im Magazin Nature veröffentlichten Studie von DeepMind-Mitarbeitern und Forschern aus den Niederlanden hervor.

Im Januar hatte die zu Google gehörende britische Firma mit ihrer Künstlichen Intelligenz (KI) AlphaStar für Schlagzeilen gesorgt, da diese einen Starcraft-2-Wettbewerb gegen Profi-Spieler gewann. Beobachter kritisierten aber, dass das System "unmenschliche" Vorteile gehabt habe: Es konnte im Gegensatz zu Spielern aus Fleisch und Blut am Bildschirm etwa die ganze Karte des komplexen Games gleichzeitig sehen. Auch konnte das Programm viel mehr Aktionen pro Minute (APM) ausführen als Menschen. Dies führte zu einer fast perfekten Kontrolle einzelner Einheiten.

Von Juli an traten die nun weiter trainierten Versionen von AlphaStar anonym in öffentlichen Ranglistenspielen auf dem europäischen Starcraft-2-Server unter Standardmaßgaben gegen Menschen an. Dort konnte die KI mit allen drei Fraktionen die höchste Grandmaster-Ebene erreichen. Es gelang ihr, am Ende einen höheren Rang ein als 99,8 Prozent der im vorherigen Monat aktiven Spieler einzunehmen.

Da es gerade im höchsten Prozentrang der Spieler noch große Stärkenunterschiede gibt, bedeutet dieses gute Ergebnis laut Nature aber noch nicht, dass AlphaStar die besten professionellen Spieler auch konstant schlagen kann. Die erfolgreiche KI trainierte DeepMind erneut mit der Methode "Reinforcement Learning". Das System lernt so mit der Zeit, welche Aktionen wann zum Erfolg führen und kann darauf aufbauende Strategien perfektionieren.

Dieser Ansatz führte etwa auch schon bei Go, Backgammon und Schach zu Durchbrüchen, ein Strategiespiel wie Starcraft 2 ist aber anspruchsvoller, da mehrere Beteiligte ihre Aktionen interaktiv, simultan und in Echtzeit ausführen. Sie müssen zu jeder Zeit die aktuelle Situation und Handlungsalternativen bewerten. Eine mit "Supervised Learning" trainierte Version, in der der Computer zunächst anhand gekennzeichneter beispielhafter Datensätze Muster zu erkennen lernt, schnitt hier auch "nur" besser ab als 84 Prozent der aktiven menschlichen Spieler. Die Autoren meinen, dass die eingesetzten Methoden theoretisch auch auf andere komplexe Bereiche anwendbar sind.

An dem Experiment unbeteiligte Forscher sprechen von einem neuen Meilenstein in der KI-Forschung. "Es ist faszinierend, dass ein KI-System ein so komplexes Echtzeit-Strategiespiel wie StarCraft 2 auf einem so hohen Niveau spielen kann", erklärte Kristian Kersting, Leiter des Fachgebiets Maschinelles Lernen an der TU Darmstadt. Wie schon AlphaGo, CrazyAra und viele andere Systeme zeige AlphaStar, dass eine hybride KI "Inselbegabungen sehr gut erlernen" könne. Die Studie sei methodisch auch sehr gut aufgebaut und durchgeführt.

Eine "sehr beeindruckende Leistung" erkennt Jan Peters an, Professor für Intelligente Autonome Systeme an der gleichen TU Darmstadt. Die fortentwickelte AlphaStar-Version habe die meisten ihrer Spiele "mit übermenschlicher Reaktionszeit und Kontrolle" gewonnen. Das menschliche sensormotorische System sei da "weder so schnell noch so genau wie ein Computer".

Anzeichen von "Intelligenz" kann Peters trotzdem anhand des Nature-Beitrags nicht erkennen. "Die Gesamtstrategie der KI scheint vorausgeplant zu sein, mit wenig Anpassung an den Gegner", erläutert er. Ein Spitzenspieler habe bemerkt, dass das System nicht "scouted”, also keine "Einheiten schickte, um Informationen über den Gegner zu sammeln". Der Profi habe dies dafür genutzt, seine Armee im toten Winkel aufzubauen. Die KI habe so "auf dumme Weise" verloren und es seien ihr Fehler unterlaufen, "die selbst Zwischenspieler nicht machen würden".

Marcus Liwicki, Leiter der Gruppe Maschinenlernen an der Luleå University of Technology in Schweden, bezeichnete es als besonders interessant, "dass die KI 'selbst gelernt hat', gut zu spielen". Er hält es aber trotz der Korrekturen nach wie vor für zweifelhaft, "ob die gegebenen Limits wirklich 'fair' sind". Die Klickrate liege bei rund 270 pro Minute. Eine solchen Wert könnten zwar auch Profispieler erreichen, führten dabei aber meist nur Leerklicks aus, um aktiv zu bleiben. Es sei schwer vorstellbar, dass Menschen über die ganze Länge mehrerer Spiele ununterbrochen pro Sekunde mindestens vier sinnvolle Aktionen durchführten.

(anw)