Microsoft-Bot zeichnet auf "Ansage" erstaunliche Bilder - von Grund auf

Künstliche Intelligenzen lernen fast täglich neue "Tricks" hinzu, eines der auf diesem Gebiet besonders aktiven Unternehmen ist Microsoft. Die Research-Sparte der Redmonder hat nun einen weiteren überaus interessanten Bot vorgestellt, dieser zeichnet hochwertige Bilder per (Text-)Ansage.

Witold Pryjda, 19.01.2018 13:09 Uhr

Microsoft Research

Microsoft Research ist immer wieder für aufsehenerregende Entwicklungen gut, auch der Drawing Bot dürfte für einige hochgezogene Augenbrauen sorgen. Denn die Microsoft-Forscher kombinieren hier diverse KI-Werkzeuge wie Computer-Vision und Erkennung natürlicher Sprache zur Erschaffung eines Programms, das in der Lage ist, ein Bild lediglich auf Basis einer Beschreibung zu zeichnen. Microsoft Research: Drawing Bot

Ein gelber Vogel ist für den Drawing Bot kein großes Problem

Pixel für Pixel

Was für Menschen womöglich trivial klingt, ist für eine Künstliche Intelligenz eine ziemliche Herausforderung. "Wenn man auf Bing geht und nach einem Vogel sucht, dann findet man auch ein passendes Bild. Hier aber werden die Bilder vom Computer erschaffen und zwar von Grund auf, Pixel für Pixel", erläutert Xiaodong He von Microsoft Research per Blogbeitrag (via GeekWire).
Microsoft Research: Drawing Bot

Bei komplexen Ansagen muss er passen
Begonnen hat das Ganze mit dem CaptionBot, einem Programm, das Fotobeschriftungen erstellt, weil es die Bildinhalte erkennen kann. Danach folgte Seeing AI, ein umfangreiches Tool, das Blinden hilft, den Alltag zu meistern. Nun schließt man den Kreis gewissermaßen, so die Microsoft-Forscher, da man der KI beibringt, selbst "Zeichnungen" zu erschaffen.

Die KI muss "kreativ" werden

Problematisch sind hier aber vor allem die "Zwischenräume", die in der Vorgabe, also der Beschreibung eines Bildes, nicht erwähnt werden. Der Bot muss also eigene Fantasie oder Kreativität entwickeln, um die Lücken zu füllen.

Und diese nennt Microsoft Generative Adversarial Network (GAN). Ein Modell generiert hier das Bild, basierend auf Verbindungen zwischen beschreibenden Begriffen und Bildern. Parallel überprüft ein separates Modell, wie authentisch das Bild aussieht. Dieses Hin und Her erschafft dann das Bild und das klappt auch mit erstaunlicher Präzision, jedenfalls bei einfachen Begriffen wie "blauer Vogel" oder "immergrüner Baum". Je komplizierter die Beschreibung ist, desto schwerer tut sich der Bot auch.

Wenn die KI etwas völlig "Verrücktes" zeichnen soll, dann muss sie teils ganz passen, etwa bei der Aufgabe "roter Doppeldeckerbus, der auf einem See schwimmt". Hier kämpft der Bot mit dem Wissen, dass nur ein Boot schwimmen darf, aber ein Bus "bestellt" worden ist. Das Resultat ist ein verschwommenes und fast schon surrealistisches Bild, doch auch komplizierte Fälle will man irgendwann einmal per maschinellem Lernen meistern.

Spannend: Microsoft-App Seeing AI beschreibt Blinden, was um sie passiert

Thema:

Microsoft Research

Kommentieren9

Hinweis einsenden

Weitere Nachrichten zum Thema AutoML Vision: Google greift Microsoft mit intuitivem KI-Dienst anStandardisierter Leseverständnis-Test: KI schlägt erstmals MenschenMicrosoft will mit KI-Super-Bluttest die Medizin revolutionierenIhr werdet Ohren machen: Google-KI spricht wie echte MenschenBildanalyse-KI täuschen: Das ist keine Waffe, es ist ein Hubschrauber