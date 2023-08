Nvidia-Forscher erregen gerade mit einer neu entwickelten Bild-KI einiges an Aufsehen. Bei Perfusion handelt es sich nicht um ein millionenschweres Superschwergewicht, sondern um lediglich 100 Kilobyte Code, die in wenigen Minuten trainiert werden können.

Zusammenfassung Nvidia und Universität Tel-Aviv entwickeln neue Bild-KI "Perfusion".

KI mit nur 100KB Code kann führende KI-Bildgeneratoren übertreffen.

Feature "Key-Locking" verknüpft neue Inhalte mit allg. Kategorie.

KI kombiniert individuelle Objekte, ohne Kernidentität zu verlieren.

Benutzer kann Bilderzeugung mit Textaufforderungen steuern.

Kompromiss zwischen Text- und Bildähnlichkeit erfordert Übung.

Code wird in Kürze veröffentlicht.

Entwickelt wurde Perfusion in Kooperation Nvidias mit der Universität Tel-Aviv in Israel, die Vorstellung erfolgte jetzt im Rahmen eines gemeinsamen Forschungs-Papers . Trotz seiner geringen Größe soll das Tool in der Lage sein, führende KI-Bildgeneratoren wie Stable Diffusion und MidJourney hinsichtlich der Effizienz und einiger anderer Merkmale zu übertreffen.Eines der wichtigsten Features der neuen Bild-KI heißt "Key-Locking". Dabei werden neue Inhalte, die ein Benutzer hinzufügen möchte, wie beispielsweise eine bestimmte Katze oder ein Stuhl, während der Bilderzeugung mit einer allgemeineren Kategorie verknüpft. Zum Beispiel würde die Katze mit dem weiter gefassten Bild von "Katze" verbunden. Das soll die sogenannte Überanpassung verhindern, die es einer KI schwer macht, neue kreative Versionen eines Konzepts zu entwickeln.Das macht es für den Algorithmus am Ende leichter, die vorgegebene Katze in vielen verschiedenen Posen, Erscheinungsbildern und Umgebungen darzustellen. Dabei behält sie ihre individuellen Merkmale und sieht nicht irgendwann wie eine beliebige andere Katze aus. So können individuelle Objekte flexibler dargestellt werden, während sie ihre Kernidentität bewahren.Perfusion ermöglicht es auch, mehrere personalisierte Konzepte in einem einzigen Bild mit natürlichen Interaktionen zu kombinieren - im Gegensatz zu bestehenden Tools, die Konzepte isoliert erlernen. Der Benutzer kann den Prozess der Bilderstellung mithilfe von Textaufforderungen steuern und Konzepte wie eine bestimmte Katze und einen Stuhl miteinander kombinieren.Tests zufolge erfordert das neue KI-System allerdings einiges an Übung, um den optimalen Kompromiss zwischen Textähnlichkeit und Bildähnlichkeit zu erreichen. Wenn man sich zu sehr auf die Reproduktion des Modells konzentriert, führt dies dazu, dass das Modell immer wieder die gleiche Ausgabe produziert. Wenn man es hingegen dazu bringt, sich zu eng an die Eingabeaufforderung zu halten, ohne dabei Freiheiten zu gewähren, führt dies in der Regel zu einem schlechten Ergebnis.Wie sich das neue KI-System konkret in der Praxis schlagen wird, muss sich allerdings noch zeigen - auch wenn es bereits recht vielversprechend aussieht. Aktuell wurde lediglich das Forschungs-Paper bereitgestellt. Nvidia sicherte allerdings zu, in Kürze auch den Code zu veröffentlichen.