Google Genie 3-Durchbruch:
KI wird zum ultimativen Weltenbauer

Google stellt mit Genie 3 ein neues KI-System vor, das aus Textbefehlen interaktive 3D-Welten in Echtzeit generiert - fast wie in einem Videospiel. Nutzer können ihre eigene Welt mit 24 FPS bei 720p-Auflösung betreten und darin mit KI-Agenten experimentieren.

Stefan Trunzik, 06.08.2025 08:34 Uhr

Google, Ki, Künstliche Intelligenz, AI, Artificial Intelligence, Simulation, Echtzeit, Google DeepMind, Genie 3

Google Deepmind

Genie 3 bringt interaktive KI-Welten in Echtzeit

Google Deepmind hat mit Genie 3 sein neuestes World-Model vorgestellt, das aus einfachen Textbefehlen interaktive 3D-Umgebungen in Echtzeit generieren kann. Das System erstellt dynamische Welten, durch die Nutzer mit 24 Bildern pro Sekunde bei 720p-Auflösung navigieren können und dabei mehrere Minuten lang konsistent bleiben.

Forschungsdirektor Shlomi Fruchter bezeichnet Genie 3 als "das erste interaktive Echtzeit-World-Model für allgemeine Zwecke". Die KI-Systeme versuchen, die physikalischen Gesetze und Zusammenhänge der realen Welt zu verstehen und zu simulieren, was sie von herkömmlichen KI-Videogeneratoren unterscheiden.

Google Deepmind Genie 3: Erstellen dynamischer Welten in Echtzeit

Deutliche Verbesserungen zum Vorgänger

Während Genie 2 noch mit 360p-Auflösung arbeitete und theoretisch bis zu 60 Sekunden lief, in der Praxis aber oft früher Artefakte zeigte, kann Genie 3 mehrere Minuten lang konsistente Simulationen aufrechterhalten. Das Gedächtnis des Vorgängermodells war auf etwa zehn Sekunden begrenzt. Ähnlich einem Chatbot, der sein Kontextfenster überschreitet, vergaß das System schnell, wie Teile der Welt aussahen, sobald sie nicht mehr sichtbar waren.

Genie 3 kann visuelle Informationen bis zu einer Minute zurück im Gedächtnis behalten. Diese Fähigkeit entwickelte sich laut Deepmind spontan, ohne dass die Forscher sie explizit programmiert hatten. Das System lernt eigenständig, wie die Welt funktioniert - wie Objekte sich bewegen, fallen und interagieren - indem es sich an das Generierte erinnert, ähnlich wie Menschen verstehen, dass ein Glas am Tischrand fallen wird.

Die Verbesserung der Auflösung von 360p auf 720p mag auf den ersten Blick bescheiden erscheinen, stellt aber eine Vervierfachung der Pixelanzahl dar. Für ein System, das diese Bilder in Echtzeit berechnet, ist das ein durchaus erheblicher technischer Fortschritt. Zum Vergleich: Die meisten aktuellen KI-Videogeneratoren benötigen Minuten oder Stunden, um wenige Sekunden Video zu erstellen.

Promptable Events für dynamische Änderungen

Ein Highlight sind die sogenannten "Promptable World Events". Nutzer können die Simulation mit Textbefehlen in Echtzeit verändern - etwa eine Hirschherde in eine Ski-Szene einfügen. Diese Funktion verwandelt die Simulation von einem statischen Raum in eine flexible und editierbare Umgebung.

Google Genie 3: Erstellung natürlicher Landschaften

Das System kann vielfältige Szenarien erstellen, von realistischen Landschaften mit dynamischen Wettereffekten wie Wind, Regen und Lava bis hin zu futuristischen Umgebungen mit Portalen und fliegenden Inseln. Auch historische Orte wie Venedig oder das antike Knossos können rekonstruiert werden. Die Bandbreite reicht von fotorealistischen Naturszenen bis hin zu stilisierten Cartoon-Welten.

Training für KI-Agenten als Hauptzweck

Während Genie 3 Potenzial für Bildung und Gaming besitzt, sieht Google Deepmind den Hauptnutzen im Training von KI-Agenten für allgemeine Aufgaben - ein wesentlicher Baustein auf dem Weg zur Artificial General Intelligence (AGI). Deepmind testet das System bereits mit seinem SIMA-Agenten (Scalable Instructable Multiworld Agent), der in einer Lagerumgebung noch simple Aufgaben wie "Gehe zum grünen Müllkompressor" erfolgreich bewältigte.

Ein Hauptproblem beim AGI-Fortschritt ist der Mangel an zuverlässigen Trainingsdaten. Nachdem praktisch alle Webseiten und Videos der Welt in KI-Modelle eingespeist wurden, wenden sich Forscher synthetischen Daten zu. World-Models wie Genie 3 könnten hier eine Schlüsselrolle spielen, da sie unendlich viele Trainingsszenarien generieren können, ohne auf reale Daten angewiesen zu sein.

Grenzen und technische Herausforderungen

Das Modell kann reale Orte nicht perfekt nachbilden und hat Schwierigkeiten bei der Textdarstellung. Für echte Nützlichkeit müsste Genie stundenlang, nicht nur minutenlang, konsistente Welten erzeugen. Die Interaktionsmöglichkeiten der KI-Agenten sind noch begrenzt - sie können sich nur in der Welt bewegen, aber diese nicht selbst verändern.

Google Genie 3: Auch für die Spieleentwicklung ein Thema

Genie 3 ist vorerst zudem nur als eingeschränkte Forschungsvorschau verfügbar und wird zunächst nur einer kleinen Gruppe von Akademikern und Kreativen zugänglich gemacht. Der hohe Rechenaufwand - das System rendert praktisch sehr lange Videos in Echtzeit - macht eine breitere Verfügbarkeit derzeit unrealistisch.

Ein weiteres Problem ist der sogenannte "Drift" - kleine Ungenauigkeiten, die sich über die Zeit akkumulieren und zu unrealistischen Szenarien führen können. Obwohl Genie 3 hier Fortschritte gemacht hat, bleibt das eine fundamentale Herausforderung für alle generativen World-Models.

Was haltet ihr von Genie 3 und seinen Möglichkeiten? Seht ihr das System eher als Forschungswerkzeug oder als Zukunft des Gamings? Teilt uns eure Gedanken in den Kommentaren mit.

Was ist Genie 3 und wozu dient es?

Genie 3 ist ein KI-basiertes "World Model" von Google DeepMind, das interaktive 3D-Welten in Echtzeit erzeugt. Es kann auf Basis eines Textprompts oder Bildes dynamische Umgebungen generieren, in denen sich Nutzer oder KI-Agenten bewegen können.

Ziel ist es, KI-Agenten in simulierten, physikalisch konsistenten Welten zu trainieren. Genie 3 wird daher als wichtiger Schritt in Richtung Artificial General Intelligence (AGI) betrachtet - also KI mit menschenähnlicher Lernfähigkeit.

Wie unterscheidet sich Genie 3 von Genie 2?

Genie 3 bietet eine deutlich längere Interaktionsdauer (mehrere Minuten statt 10-20 Sekunden) und eine verbesserte visuelle Qualität mit 720p bei 24 FPS. Zudem kann es sich an frühere Weltzustände erinnern und diese konsistent fortführen.

Neu ist auch die Funktion "promptable world events", mit der sich Umgebungen per Texteingabe dynamisch verändern lassen - z. B. Wetterwechsel oder das Einfügen neuer Objekte.

Welche praktischen Anwendungen gibt es?

Genie 3 kann in der Spieleentwicklung, im Bildungsbereich oder zur Prototypenerstellung eingesetzt werden. Entwickler könnten damit z. B. Leveldesigns testen oder interaktive Lernumgebungen erstellen.

Besonders relevant ist das Modell für das Training von KI-Agenten: Es ermöglicht risikofreie Tests in simulierten "Was-wäre-wenn"-Szenarien, etwa für autonome Fahrzeuge oder Roboter.

Wie interagieren KI-Agenten mit Genie 3?

KI-Agenten können sich in den von Genie 3 erzeugten Welten bewegen und Aufgaben ausführen. In Tests konnte ein Agent etwa gezielt ein Objekt in einer Lagerhalle ansteuern.

Allerdings sind die Interaktionsmöglichkeiten noch eingeschränkt: Agenten können die Welt nicht aktiv verändern. DeepMind arbeitet daran, auch komplexe Agenten-Interaktionen in künftigen Versionen zu ermöglichen.

Wie realistisch sind die Simulationen?

Genie 3 erzeugt fotorealistische oder fantasievolle Welten, allerdings mit Einschränkungen. Bewegungen wirken teils unnatürlich, z. B. laufen Figuren gelegentlich rückwärts oder der Text ist nur lesbar, wenn er im Prompt definiert wurde.

Die physikalische Konsistenz wurde verbessert - etwa erkennt das Modell, dass ein Glas auf der Tischkante fallen könnte. Dennoch gibt es noch keine perfekte Physik-Engine, was sich in Details wie Schneebewegungen zeigt.

Ist Genie 3 öffentlich zugänglich?

Nein, derzeit ist Genie 3 nur im Rahmen einer limitierten Forschungsvorschau verfügbar. Zugang erhalten ausgewählte Forscher und Entwickler, um Risiken zu evaluieren und das Modell weiterzuentwickeln.

DeepMind plant jedoch, den Zugang künftig auf weitere Tester auszuweiten. Ein öffentliches Release ist bisher nicht angekündigt worden.

Welche technischen Grenzen hat Genie 3?

Die Simulationen laufen nur wenige Minuten stabil. Für viele Trainingszwecke wären jedoch Stunden notwendig. Zudem ist die Modellierung mehrerer Agenten in einer Welt bislang nicht ausgereift.

Auch die Rechenleistung ist ein limitierender Faktor: Genie 3 rendert interaktive Welten quasi als Video in Echtzeit - ein enormer Ressourcenaufwand, der aktuell eine breite Nutzung verhindert.

Warum ist Genie 3 wichtig für AGI?

DeepMind sieht in Weltmodellen wie Genie 3 einen Schlüssel zur Entwicklung von AGI. Sie ermöglichen es, KI-Agenten in vielfältigen, interaktiven Szenarien zu trainieren - ähnlich wie Menschen durch Erfahrung lernen.

Durch die Kombination aus Gedächtnis, physikalischem Verständnis und Interaktivität könnten Agenten künftig eigenständig planen, explorieren und sich durch Versuch und Irrtum verbessern - zentrale Fähigkeiten auf dem Weg zur allgemeinen Intelligenz.

Zusammenfassung

Genie 3 erzeugt interaktive 3D-Welten in Echtzeit mit 24 FPS bei 720p
Nutzer können durch textbasierte Befehle die Simulation in Echtzeit ändern
Das KI-System behält visuelle Informationen bis zu einer Minute im Gedächtnis
Von realistischen Landschaften bis zu Cartoon-Welten ist alles generierbar
Google sieht Hauptnutzen im Training von KI-Agenten für AGI-Entwicklung
Mangelnde Konsistenz über längere Zeiträume bleibt eine Herausforderung
Aktuell nur für eine kleine Gruppe von Forschern und Kreativen verfügbar

Siehe auch:

Thema:

Künstliche Intelligenz

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren10

Hinweis einsenden

Jetzt einen Kommentar schreiben

Alle Kommentare zu dieser News anzeigen

Videos zum Thema KI

Neueste
Beliebte
Empfehlung

Mehr Videos zum Thema KI

Beiträge aus dem Forum

Zum WinFuture Forum

Interessante Links

Neue Nachrichten

Tipp einsenden

Hinweise zum Einsenden von Tipps

❤ WinFuture unterstützen

Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen:

Vielen Dank!