Nvidia: Bilderzeugungs-KI nur 100 KB groß und in Minuten trainiert
Nvidia-Forscher erregen gerade mit einer neu entwickelten Bild-KI einiges an Aufsehen. Bei Perfusion handelt es sich nicht um ein millionenschweres Superschwergewicht, sondern um lediglich 100 Kilobyte Code, die in wenigen Minuten trainiert werden können.
Eines der wichtigsten Features der neuen Bild-KI heißt "Key-Locking". Dabei werden neue Inhalte, die ein Benutzer hinzufügen möchte, wie beispielsweise eine bestimmte Katze oder ein Stuhl, während der Bilderzeugung mit einer allgemeineren Kategorie verknüpft. Zum Beispiel würde die Katze mit dem weiter gefassten Bild von "Katze" verbunden. Das soll die sogenannte Überanpassung verhindern, die es einer KI schwer macht, neue kreative Versionen eines Konzepts zu entwickeln.
Bild- und Text-Quelle: https://arxiv.org/pdf/2305.01644.pdf
Das macht es für den Algorithmus am Ende leichter, die vorgegebene Katze in vielen verschiedenen Posen, Erscheinungsbildern und Umgebungen darzustellen. Dabei behält sie ihre individuellen Merkmale und sieht nicht irgendwann wie eine beliebige andere Katze aus. So können individuelle Objekte flexibler dargestellt werden, während sie ihre Kernidentität bewahren.
Tests zufolge erfordert das neue KI-System allerdings einiges an Übung, um den optimalen Kompromiss zwischen Textähnlichkeit und Bildähnlichkeit zu erreichen. Wenn man sich zu sehr auf die Reproduktion des Modells konzentriert, führt dies dazu, dass das Modell immer wieder die gleiche Ausgabe produziert. Wenn man es hingegen dazu bringt, sich zu eng an die Eingabeaufforderung zu halten, ohne dabei Freiheiten zu gewähren, führt dies in der Regel zu einem schlechten Ergebnis.
Bild- und Text-Quelle: https://arxiv.org/pdf/2305.01644.pdf
Wie sich das neue KI-System konkret in der Praxis schlagen wird, muss sich allerdings noch zeigen - auch wenn es bereits recht vielversprechend aussieht. Aktuell wurde lediglich das Forschungs-Paper bereitgestellt. Nvidia sicherte allerdings zu, in Kürze auch den Code zu veröffentlichen.
Siehe auch:
Locking ist zentrales Feature
Entwickelt wurde Perfusion in Kooperation Nvidias mit der Universität Tel-Aviv in Israel, die Vorstellung erfolgte jetzt im Rahmen eines gemeinsamen Forschungs-Papers. Trotz seiner geringen Größe soll das Tool in der Lage sein, führende KI-Bildgeneratoren wie Stable Diffusion und MidJourney hinsichtlich der Effizienz und einiger anderer Merkmale zu übertreffen.Eines der wichtigsten Features der neuen Bild-KI heißt "Key-Locking". Dabei werden neue Inhalte, die ein Benutzer hinzufügen möchte, wie beispielsweise eine bestimmte Katze oder ein Stuhl, während der Bilderzeugung mit einer allgemeineren Kategorie verknüpft. Zum Beispiel würde die Katze mit dem weiter gefassten Bild von "Katze" verbunden. Das soll die sogenannte Überanpassung verhindern, die es einer KI schwer macht, neue kreative Versionen eines Konzepts zu entwickeln.
Bild- und Text-Quelle: https://arxiv.org/pdf/2305.01644.pdf
Das macht es für den Algorithmus am Ende leichter, die vorgegebene Katze in vielen verschiedenen Posen, Erscheinungsbildern und Umgebungen darzustellen. Dabei behält sie ihre individuellen Merkmale und sieht nicht irgendwann wie eine beliebige andere Katze aus. So können individuelle Objekte flexibler dargestellt werden, während sie ihre Kernidentität bewahren.
Übung erforderlich
Perfusion ermöglicht es auch, mehrere personalisierte Konzepte in einem einzigen Bild mit natürlichen Interaktionen zu kombinieren - im Gegensatz zu bestehenden Tools, die Konzepte isoliert erlernen. Der Benutzer kann den Prozess der Bilderstellung mithilfe von Textaufforderungen steuern und Konzepte wie eine bestimmte Katze und einen Stuhl miteinander kombinieren.Tests zufolge erfordert das neue KI-System allerdings einiges an Übung, um den optimalen Kompromiss zwischen Textähnlichkeit und Bildähnlichkeit zu erreichen. Wenn man sich zu sehr auf die Reproduktion des Modells konzentriert, führt dies dazu, dass das Modell immer wieder die gleiche Ausgabe produziert. Wenn man es hingegen dazu bringt, sich zu eng an die Eingabeaufforderung zu halten, ohne dabei Freiheiten zu gewähren, führt dies in der Regel zu einem schlechten Ergebnis.
Bild- und Text-Quelle: https://arxiv.org/pdf/2305.01644.pdf
Wie sich das neue KI-System konkret in der Praxis schlagen wird, muss sich allerdings noch zeigen - auch wenn es bereits recht vielversprechend aussieht. Aktuell wurde lediglich das Forschungs-Paper bereitgestellt. Nvidia sicherte allerdings zu, in Kürze auch den Code zu veröffentlichen.
Zusammenfassung
- Nvidia und Universität Tel-Aviv entwickeln neue Bild-KI "Perfusion".
- KI mit nur 100KB Code kann führende KI-Bildgeneratoren übertreffen.
- Feature "Key-Locking" verknüpft neue Inhalte mit allg. Kategorie.
- KI kombiniert individuelle Objekte, ohne Kernidentität zu verlieren.
- Benutzer kann Bilderzeugung mit Textaufforderungen steuern.
- Kompromiss zwischen Text- und Bildähnlichkeit erfordert Übung.
- Code wird in Kürze veröffentlicht.
Siehe auch:
Thema:
Nvidia Aktienkurs in Euro
Videos zum Thema Nvidia
- Ninkear A16 Pro: Großes Notebook mit großer Nachfrage im Test
- Oscal PV800 Pro: Günstiger, heller Beamer mit Kompromissen im Test
- AMD Radeon RX 6700 XT: So schlägt sich die betagte Grafikkarte heute
- Alter Gaming-PC: So lässt sich ein i7-8700K per GPU-Upgrade retten
- Etoe Seal Pro: Günstiger Beamer mit einigen Stärken im Test
Neue Nvidia-Downloads
Beliebt im Preisvergleich
- PCIe:
Beiträge aus dem Forum
Weiterführende Links
Neue Nachrichten
- Aktuelle Technik-Blitzangebote von Amazon im Überblick
- 1&1 krempelt Mobilfunktarife um: Jetzt teils mehr für weniger Geld
- Starlink-Konkurrent: Amazon hat genügend Satelliten, um zu starten
- Intel hebt Preise für beliebte Budget-Gaming-CPUs still und heimlich an
- FritzOS 8.25: Neues FritzBox-Update erreicht weitere Modelle
- WM 2026 für 4,99 Euro: Waipu.tv haut 4K-Stick (fast) gratis raus
- Samsung verklagt eine Stadt in NRW: Streit um Schul-iPads eskaliert
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen