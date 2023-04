Mit Visual ChatGPT hat Microsoft ein multimodales Konversationsmodell veröffentlicht, das auf ChatGPT aufbaut und OpenAIs KI-System mit verschiedenen Visual Foundation Models (VFM) wie Stable Diffusion kombiniert. Mit solchen visuellen Basismodellen können Computer komplexe Bilder analysieren und selbst erzeugen. Dabei betont das Team aus Wissenschaftlern rund um den Senior Researcher Dr. Chenfei Wu von Microsoft Asia in Peking, kein multimodales ChatGPT von Grund auf neu trainieren zu wollen. Stattdessen wähle der für Visual ChatGPT zentrale Prompt Manager anhand der Nutzeranweisungen jeweils zum Auftrag passende Modelle aus. Bei Visual ChatGPT dürfte es sich um eines der Anfang März 2023 von Microsoft Germany angekündigten multimodalen Modelle handeln.

Ansonsten kann Visual ChatGPT den Inhalt von Bildern beschreiben und Fragen zu Bildern beantworten. So erklärt Visual ChatGPT etwa, was passiert könnte, wenn man mit einer Nadel in einen Luftballon sticht.

Chatverlauf in Visual ChatGPT (Bild: Microsoft)

Dazu nutzt Visual ChatGPT unter anderem das BLIP-Modell (Bootstrapping Language-Image Pre-Training for Unified Vision-Language Understanding and Generation, Paper bei arXiv.org). Das KI-Modell ControlNet etwa hilft mit zusätzlichen Anweisungen bei der Steuerung des KI-Bildgenerators Stable Diffusion, indem es eine interaktive Feedbackschleife in den Bilderstellungsprozess einbaut. Durch Konversations-KI wie ChatGPT kann dieser Prompt so angepasst werden, dass Visual ChatGPT ein Ergebnis bereitstellt oder den Output in weiteren Iterationen mittels Nutzerfeedback überarbeitet.

Architektur von VisualGPT (Bild: Chenfei Wu et al.)

Bildbearbeitung mit Visual ChatGPT

Visual ChatGPT kann nicht nur Prompts an Stable Diffusion weitergeben, sondern auch Bilder im Chat auf Anweisungen hin bearbeiten oder erklären. Wer ein Bild mit einem anderen Hintergrund oder einer anderen Farbe für einen Gegenstand versehen möchte, kann dies über den Chat tun. Es ist auch möglich, einfache handgemalte Skizzen in den Chat zu posten und diese verbessern oder bearbeiten zu lassen.

Laut Angaben des Microsoft-Asia-Teams ist Visual ChatGPT hochgradig von ChatGPT abhängig und benötigt Zugang zu OpenAIs KI-Chatsystem, um Aufgaben zuzuweisen. Zudem ist es abhängig vom Zugang zu anderen Visual Foundation Models, um die Aufgaben auszuführen. Daher hängt auch die Performance von Visual ChatGPT von diesen Modellen ab.

Visual ChatGPT unterstützt SegmentAnything von Meta AI

Segmentiertes Beispielbild von SegmentAnything Model (SAM), Facebook AI Research (Bild: Facebook AI Research (FAIR))

Microsofts VFM unterstützt neuerdings auch GroundingDINO und SegmentAnything Model (SAM). Facebook AI Research (FAIR beziehungsweise Meta AI) hatte den Bildsegmentierer SAM Anfang April 2023 veröffentlicht. Damit lassen sich Objekte pixelgenau freistellen, zu jeder Texteingabe gültige Masken erzeugen und Nutzer können Bereiche hinzufügen oder ausschließen. Meta AI legte damit das erste Basismodell für Bildsegmentierung vor. Fachleute der KI-Szene, die professionell an Multimodalität arbeiten, bezeichnen SegmentAnything als "einen GPT-3-Moment für Computervision", da Metas Segmentierer ein starkes Kontextverständnis aufweist.

Nutzer können über einen Chat in verschiedenen Sprachen wie Englisch oder Chinesisch eine Anfrage an Visual ChatGPT senden und auch Bilder mitgeben. Der vollständig in Python beziehungsweise hauptsächlich in Jupyter Notebook geschriebene Code von Visual ChatGPT ist unter MIT-Lizenz auf GitHub frei verfügbar. Wer Visual ChatGPT ausprobieren will, benötigt laut Angaben im Repository darüber hinaus einen OpenAI-API-Zugang. Dadurch können zusätzliche Kosten entstehen.

Andere Anbieter und auch Open-Source-Vereine wie etwa LAION arbeiten zurzeit an quelloffenen Alternativen zu den Produkten von OpenAI und Microsoft, um Nutzerinnen und Entwicklern Wahlmöglichkeiten zu erhalten und die KI-Entwicklung weiter zu demokratisieren. Als ChatGPT-Alternative wurde soeben OpenAssistant veröffentlicht.

(mack)