Nvidia: Bilderzeugungs-KI nur 100 KB groß und in Minuten trainiert

Nvidia-Forscher erregen gerade mit einer neu entwickelten Bild-KI einiges an Aufsehen. Bei Perfusion handelt es sich nicht um ein millionenschweres Superschwergewicht, sondern um lediglich 100 Kilobyte Code, die in wenigen Minuten trainiert werden können.

Christian Kahle, 02.08.2023 08:39 Uhr

Ki, Künstliche Intelligenz, Forschung, Datenschutz, Wissenschaft, Privatsphäre, AI, Cloud, Artificial Intelligence, Entwicklung, Stockfotos, DSGVO, Datenverarbeitung, scientist, Team, Forschen, Produkt, Teamwork, Porjekt, Wüfel

Locking ist zentrales Feature

Entwickelt wurde Perfusion in Kooperation Nvidias mit der Universität Tel-Aviv in Israel, die Vorstellung erfolgte jetzt im Rahmen eines gemeinsamen Forschungs-Papers. Trotz seiner geringen Größe soll das Tool in der Lage sein, führende KI-Bildgeneratoren wie Stable Diffusion und MidJourney hinsichtlich der Effizienz und einiger anderer Merkmale zu übertreffen.

Eines der wichtigsten Features der neuen Bild-KI heißt "Key-Locking". Dabei werden neue Inhalte, die ein Benutzer hinzufügen möchte, wie beispielsweise eine bestimmte Katze oder ein Stuhl, während der Bilderzeugung mit einer allgemeineren Kategorie verknüpft. Zum Beispiel würde die Katze mit dem weiter gefassten Bild von "Katze" verbunden. Das soll die sogenannte Überanpassung verhindern, die es einer KI schwer macht, neue kreative Versionen eines Konzepts zu entwickeln. Nvidia Perfusion

Bild- und Text-Quelle: https://arxiv.org/pdf/2305.01644.pdf Das macht es für den Algorithmus am Ende leichter, die vorgegebene Katze in vielen verschiedenen Posen, Erscheinungsbildern und Umgebungen darzustellen. Dabei behält sie ihre individuellen Merkmale und sieht nicht irgendwann wie eine beliebige andere Katze aus. So können individuelle Objekte flexibler dargestellt werden, während sie ihre Kernidentität bewahren.

Übung erforderlich

Perfusion ermöglicht es auch, mehrere personalisierte Konzepte in einem einzigen Bild mit natürlichen Interaktionen zu kombinieren - im Gegensatz zu bestehenden Tools, die Konzepte isoliert erlernen. Der Benutzer kann den Prozess der Bilderstellung mithilfe von Textaufforderungen steuern und Konzepte wie eine bestimmte Katze und einen Stuhl miteinander kombinieren.

Tests zufolge erfordert das neue KI-System allerdings einiges an Übung, um den optimalen Kompromiss zwischen Textähnlichkeit und Bildähnlichkeit zu erreichen. Wenn man sich zu sehr auf die Reproduktion des Modells konzentriert, führt dies dazu, dass das Modell immer wieder die gleiche Ausgabe produziert. Wenn man es hingegen dazu bringt, sich zu eng an die Eingabeaufforderung zu halten, ohne dabei Freiheiten zu gewähren, führt dies in der Regel zu einem schlechten Ergebnis. Nvidia Perfusion

Bild- und Text-Quelle: https://arxiv.org/pdf/2305.01644.pdf Wie sich das neue KI-System konkret in der Praxis schlagen wird, muss sich allerdings noch zeigen - auch wenn es bereits recht vielversprechend aussieht. Aktuell wurde lediglich das Forschungs-Paper bereitgestellt. Nvidia sicherte allerdings zu, in Kürze auch den Code zu veröffentlichen.

Zusammenfassung

Nvidia und Universität Tel-Aviv entwickeln neue Bild-KI "Perfusion".
KI mit nur 100KB Code kann führende KI-Bildgeneratoren übertreffen.
Feature "Key-Locking" verknüpft neue Inhalte mit allg. Kategorie.
KI kombiniert individuelle Objekte, ohne Kernidentität zu verlieren.
Benutzer kann Bilderzeugung mit Textaufforderungen steuern.
Kompromiss zwischen Text- und Bildähnlichkeit erfordert Übung.
Code wird in Kürze veröffentlicht.

Siehe auch:

Thema:

Nvidia

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren3

Hinweis einsenden

Weitere Nachrichten zum Thema Stable Video Diffusion: KI generiert Videos aus Fotos und BildernKI ist das neue Öl: Arabische Staaten kaufen etliche Nvidia-SuperchipsMeta AI: Facebook startet KI für Sticker und das geht spektakulär schiefNvidias KI ließ sich zur Preisgabe von Firmen-Geheimnissen überredenNvidia ordert massenweise neue KI-GPUs, bald wieder Chip-Engpässe?Nvidia wird zur Billion-Dollar-Firma: GPU-Hersteller reitet die KI-Welle