Google Genie 3-Durchbruch:
KI wird zum ultimativen Weltenbauer
Google stellt mit Genie 3 ein neues KI-System vor, das aus Textbefehlen interaktive 3D-Welten in Echtzeit generiert - fast wie in einem Videospiel. Nutzer können ihre eigene Welt mit 24 FPS bei 720p-Auflösung betreten und darin mit KI-Agenten experimentieren.
Forschungsdirektor Shlomi Fruchter bezeichnet Genie 3 als "das erste interaktive Echtzeit-World-Model für allgemeine Zwecke". Die KI-Systeme versuchen, die physikalischen Gesetze und Zusammenhänge der realen Welt zu verstehen und zu simulieren, was sie von herkömmlichen KI-Videogeneratoren unterscheiden.
Genie 3 kann visuelle Informationen bis zu einer Minute zurück im Gedächtnis behalten. Diese Fähigkeit entwickelte sich laut Deepmind spontan, ohne dass die Forscher sie explizit programmiert hatten. Das System lernt eigenständig, wie die Welt funktioniert - wie Objekte sich bewegen, fallen und interagieren - indem es sich an das Generierte erinnert, ähnlich wie Menschen verstehen, dass ein Glas am Tischrand fallen wird.
Die Verbesserung der Auflösung von 360p auf 720p mag auf den ersten Blick bescheiden erscheinen, stellt aber eine Vervierfachung der Pixelanzahl dar. Für ein System, das diese Bilder in Echtzeit berechnet, ist das ein durchaus erheblicher technischer Fortschritt. Zum Vergleich: Die meisten aktuellen KI-Videogeneratoren benötigen Minuten oder Stunden, um wenige Sekunden Video zu erstellen.
Das System kann vielfältige Szenarien erstellen, von realistischen Landschaften mit dynamischen Wettereffekten wie Wind, Regen und Lava bis hin zu futuristischen Umgebungen mit Portalen und fliegenden Inseln. Auch historische Orte wie Venedig oder das antike Knossos können rekonstruiert werden. Die Bandbreite reicht von fotorealistischen Naturszenen bis hin zu stilisierten Cartoon-Welten.
Ein Hauptproblem beim AGI-Fortschritt ist der Mangel an zuverlässigen Trainingsdaten. Nachdem praktisch alle Webseiten und Videos der Welt in KI-Modelle eingespeist wurden, wenden sich Forscher synthetischen Daten zu. World-Models wie Genie 3 könnten hier eine Schlüsselrolle spielen, da sie unendlich viele Trainingsszenarien generieren können, ohne auf reale Daten angewiesen zu sein.
Genie 3 ist vorerst zudem nur als eingeschränkte Forschungsvorschau verfügbar und wird zunächst nur einer kleinen Gruppe von Akademikern und Kreativen zugänglich gemacht. Der hohe Rechenaufwand - das System rendert praktisch sehr lange Videos in Echtzeit - macht eine breitere Verfügbarkeit derzeit unrealistisch.
Ein weiteres Problem ist der sogenannte "Drift" - kleine Ungenauigkeiten, die sich über die Zeit akkumulieren und zu unrealistischen Szenarien führen können. Obwohl Genie 3 hier Fortschritte gemacht hat, bleibt das eine fundamentale Herausforderung für alle generativen World-Models.
Was haltet ihr von Genie 3 und seinen Möglichkeiten? Seht ihr das System eher als Forschungswerkzeug oder als Zukunft des Gamings? Teilt uns eure Gedanken in den Kommentaren mit.
Siehe auch:
Genie 3 bringt interaktive KI-Welten in Echtzeit
Google Deepmind hat mit Genie 3 sein neuestes World-Model vorgestellt, das aus einfachen Textbefehlen interaktive 3D-Umgebungen in Echtzeit generieren kann. Das System erstellt dynamische Welten, durch die Nutzer mit 24 Bildern pro Sekunde bei 720p-Auflösung navigieren können und dabei mehrere Minuten lang konsistent bleiben.Forschungsdirektor Shlomi Fruchter bezeichnet Genie 3 als "das erste interaktive Echtzeit-World-Model für allgemeine Zwecke". Die KI-Systeme versuchen, die physikalischen Gesetze und Zusammenhänge der realen Welt zu verstehen und zu simulieren, was sie von herkömmlichen KI-Videogeneratoren unterscheiden.
Google Deepmind Genie 3: Erstellen dynamischer Welten in Echtzeit
Deutliche Verbesserungen zum Vorgänger
Während Genie 2 noch mit 360p-Auflösung arbeitete und theoretisch bis zu 60 Sekunden lief, in der Praxis aber oft früher Artefakte zeigte, kann Genie 3 mehrere Minuten lang konsistente Simulationen aufrechterhalten. Das Gedächtnis des Vorgängermodells war auf etwa zehn Sekunden begrenzt. Ähnlich einem Chatbot, der sein Kontextfenster überschreitet, vergaß das System schnell, wie Teile der Welt aussahen, sobald sie nicht mehr sichtbar waren.Genie 3 kann visuelle Informationen bis zu einer Minute zurück im Gedächtnis behalten. Diese Fähigkeit entwickelte sich laut Deepmind spontan, ohne dass die Forscher sie explizit programmiert hatten. Das System lernt eigenständig, wie die Welt funktioniert - wie Objekte sich bewegen, fallen und interagieren - indem es sich an das Generierte erinnert, ähnlich wie Menschen verstehen, dass ein Glas am Tischrand fallen wird.
Die Verbesserung der Auflösung von 360p auf 720p mag auf den ersten Blick bescheiden erscheinen, stellt aber eine Vervierfachung der Pixelanzahl dar. Für ein System, das diese Bilder in Echtzeit berechnet, ist das ein durchaus erheblicher technischer Fortschritt. Zum Vergleich: Die meisten aktuellen KI-Videogeneratoren benötigen Minuten oder Stunden, um wenige Sekunden Video zu erstellen.
Promptable Events für dynamische Änderungen
Ein Highlight sind die sogenannten "Promptable World Events". Nutzer können die Simulation mit Textbefehlen in Echtzeit verändern - etwa eine Hirschherde in eine Ski-Szene einfügen. Diese Funktion verwandelt die Simulation von einem statischen Raum in eine flexible und editierbare Umgebung.Google Genie 3: Erstellung natürlicher Landschaften
Das System kann vielfältige Szenarien erstellen, von realistischen Landschaften mit dynamischen Wettereffekten wie Wind, Regen und Lava bis hin zu futuristischen Umgebungen mit Portalen und fliegenden Inseln. Auch historische Orte wie Venedig oder das antike Knossos können rekonstruiert werden. Die Bandbreite reicht von fotorealistischen Naturszenen bis hin zu stilisierten Cartoon-Welten.
Training für KI-Agenten als Hauptzweck
Während Genie 3 Potenzial für Bildung und Gaming besitzt, sieht Google Deepmind den Hauptnutzen im Training von KI-Agenten für allgemeine Aufgaben - ein wesentlicher Baustein auf dem Weg zur Artificial General Intelligence (AGI). Deepmind testet das System bereits mit seinem SIMA-Agenten (Scalable Instructable Multiworld Agent), der in einer Lagerumgebung noch simple Aufgaben wie "Gehe zum grünen Müllkompressor" erfolgreich bewältigte.Ein Hauptproblem beim AGI-Fortschritt ist der Mangel an zuverlässigen Trainingsdaten. Nachdem praktisch alle Webseiten und Videos der Welt in KI-Modelle eingespeist wurden, wenden sich Forscher synthetischen Daten zu. World-Models wie Genie 3 könnten hier eine Schlüsselrolle spielen, da sie unendlich viele Trainingsszenarien generieren können, ohne auf reale Daten angewiesen zu sein.
Grenzen und technische Herausforderungen
Das Modell kann reale Orte nicht perfekt nachbilden und hat Schwierigkeiten bei der Textdarstellung. Für echte Nützlichkeit müsste Genie stundenlang, nicht nur minutenlang, konsistente Welten erzeugen. Die Interaktionsmöglichkeiten der KI-Agenten sind noch begrenzt - sie können sich nur in der Welt bewegen, aber diese nicht selbst verändern.Google Genie 3: Auch für die Spieleentwicklung ein Thema
Genie 3 ist vorerst zudem nur als eingeschränkte Forschungsvorschau verfügbar und wird zunächst nur einer kleinen Gruppe von Akademikern und Kreativen zugänglich gemacht. Der hohe Rechenaufwand - das System rendert praktisch sehr lange Videos in Echtzeit - macht eine breitere Verfügbarkeit derzeit unrealistisch.
Ein weiteres Problem ist der sogenannte "Drift" - kleine Ungenauigkeiten, die sich über die Zeit akkumulieren und zu unrealistischen Szenarien führen können. Obwohl Genie 3 hier Fortschritte gemacht hat, bleibt das eine fundamentale Herausforderung für alle generativen World-Models.
Was haltet ihr von Genie 3 und seinen Möglichkeiten? Seht ihr das System eher als Forschungswerkzeug oder als Zukunft des Gamings? Teilt uns eure Gedanken in den Kommentaren mit.
Was ist Genie 3 und wozu dient es?
Genie 3 ist ein KI-basiertes "World Model" von Google DeepMind, das interaktive 3D-Welten in Echtzeit erzeugt. Es kann auf Basis eines Textprompts oder Bildes dynamische Umgebungen generieren, in denen sich Nutzer oder KI-Agenten bewegen können.
Ziel ist es, KI-Agenten in simulierten, physikalisch konsistenten Welten zu trainieren. Genie 3 wird daher als wichtiger Schritt in Richtung Artificial General Intelligence (AGI) betrachtet - also KI mit menschenähnlicher Lernfähigkeit.
Ziel ist es, KI-Agenten in simulierten, physikalisch konsistenten Welten zu trainieren. Genie 3 wird daher als wichtiger Schritt in Richtung Artificial General Intelligence (AGI) betrachtet - also KI mit menschenähnlicher Lernfähigkeit.
Wie unterscheidet sich Genie 3 von Genie 2?
Genie 3 bietet eine deutlich längere Interaktionsdauer (mehrere Minuten statt 10-20 Sekunden) und eine verbesserte visuelle Qualität mit 720p bei 24 FPS. Zudem kann es sich an frühere Weltzustände erinnern und diese konsistent fortführen.
Neu ist auch die Funktion "promptable world events", mit der sich Umgebungen per Texteingabe dynamisch verändern lassen - z. B. Wetterwechsel oder das Einfügen neuer Objekte.
Neu ist auch die Funktion "promptable world events", mit der sich Umgebungen per Texteingabe dynamisch verändern lassen - z. B. Wetterwechsel oder das Einfügen neuer Objekte.
Welche praktischen Anwendungen gibt es?
Genie 3 kann in der Spieleentwicklung, im Bildungsbereich oder zur Prototypenerstellung eingesetzt werden. Entwickler könnten damit z. B. Leveldesigns testen oder interaktive Lernumgebungen erstellen.
Besonders relevant ist das Modell für das Training von KI-Agenten: Es ermöglicht risikofreie Tests in simulierten "Was-wäre-wenn"-Szenarien, etwa für autonome Fahrzeuge oder Roboter.
Besonders relevant ist das Modell für das Training von KI-Agenten: Es ermöglicht risikofreie Tests in simulierten "Was-wäre-wenn"-Szenarien, etwa für autonome Fahrzeuge oder Roboter.
Wie interagieren KI-Agenten mit Genie 3?
KI-Agenten können sich in den von Genie 3 erzeugten Welten bewegen und Aufgaben ausführen. In Tests konnte ein Agent etwa gezielt ein Objekt in einer Lagerhalle ansteuern.
Allerdings sind die Interaktionsmöglichkeiten noch eingeschränkt: Agenten können die Welt nicht aktiv verändern. DeepMind arbeitet daran, auch komplexe Agenten-Interaktionen in künftigen Versionen zu ermöglichen.
Allerdings sind die Interaktionsmöglichkeiten noch eingeschränkt: Agenten können die Welt nicht aktiv verändern. DeepMind arbeitet daran, auch komplexe Agenten-Interaktionen in künftigen Versionen zu ermöglichen.
Wie realistisch sind die Simulationen?
Genie 3 erzeugt fotorealistische oder fantasievolle Welten, allerdings mit Einschränkungen. Bewegungen wirken teils unnatürlich, z. B. laufen Figuren gelegentlich rückwärts oder der Text ist nur lesbar, wenn er im Prompt definiert wurde.
Die physikalische Konsistenz wurde verbessert - etwa erkennt das Modell, dass ein Glas auf der Tischkante fallen könnte. Dennoch gibt es noch keine perfekte Physik-Engine, was sich in Details wie Schneebewegungen zeigt.
Die physikalische Konsistenz wurde verbessert - etwa erkennt das Modell, dass ein Glas auf der Tischkante fallen könnte. Dennoch gibt es noch keine perfekte Physik-Engine, was sich in Details wie Schneebewegungen zeigt.
Ist Genie 3 öffentlich zugänglich?
Nein, derzeit ist Genie 3 nur im Rahmen einer limitierten Forschungsvorschau verfügbar. Zugang erhalten ausgewählte Forscher und Entwickler, um Risiken zu evaluieren und das Modell weiterzuentwickeln.
DeepMind plant jedoch, den Zugang künftig auf weitere Tester auszuweiten. Ein öffentliches Release ist bisher nicht angekündigt worden.
DeepMind plant jedoch, den Zugang künftig auf weitere Tester auszuweiten. Ein öffentliches Release ist bisher nicht angekündigt worden.
Welche technischen Grenzen hat Genie 3?
Die Simulationen laufen nur wenige Minuten stabil. Für viele Trainingszwecke wären jedoch Stunden notwendig. Zudem ist die Modellierung mehrerer Agenten in einer Welt bislang nicht ausgereift.
Auch die Rechenleistung ist ein limitierender Faktor: Genie 3 rendert interaktive Welten quasi als Video in Echtzeit - ein enormer Ressourcenaufwand, der aktuell eine breite Nutzung verhindert.
Auch die Rechenleistung ist ein limitierender Faktor: Genie 3 rendert interaktive Welten quasi als Video in Echtzeit - ein enormer Ressourcenaufwand, der aktuell eine breite Nutzung verhindert.
Warum ist Genie 3 wichtig für AGI?
DeepMind sieht in Weltmodellen wie Genie 3 einen Schlüssel zur Entwicklung von AGI. Sie ermöglichen es, KI-Agenten in vielfältigen, interaktiven Szenarien zu trainieren - ähnlich wie Menschen durch Erfahrung lernen.
Durch die Kombination aus Gedächtnis, physikalischem Verständnis und Interaktivität könnten Agenten künftig eigenständig planen, explorieren und sich durch Versuch und Irrtum verbessern - zentrale Fähigkeiten auf dem Weg zur allgemeinen Intelligenz.
Durch die Kombination aus Gedächtnis, physikalischem Verständnis und Interaktivität könnten Agenten künftig eigenständig planen, explorieren und sich durch Versuch und Irrtum verbessern - zentrale Fähigkeiten auf dem Weg zur allgemeinen Intelligenz.
Zusammenfassung
- Genie 3 erzeugt interaktive 3D-Welten in Echtzeit mit 24 FPS bei 720p
- Nutzer können durch textbasierte Befehle die Simulation in Echtzeit ändern
- Das KI-System behält visuelle Informationen bis zu einer Minute im Gedächtnis
- Von realistischen Landschaften bis zu Cartoon-Welten ist alles generierbar
- Google sieht Hauptnutzen im Training von KI-Agenten für AGI-Entwicklung
- Mangelnde Konsistenz über längere Zeiträume bleibt eine Herausforderung
- Aktuell nur für eine kleine Gruppe von Forschern und Kreativen verfügbar
Siehe auch:
- Vorsicht geboten: ChatGPT-Gespräche können in Google-Suche landen
- Microsoft: Diese 40 Berufe sind am meisten/wenigsten von KIs bedroht
- Zuckerberg: Menschen ohne KI-Brillen werden künftig Nachteile haben
- Betrug auf Airbnb: Host fälschte Schäden auf Beweisbildern wohl mit KI
- Strategiewechsel bei Apple: Jetzt ist doch eigener KI-Chatbot geplant
Thema:
Videos zum Thema KI
- KI hält in Kameras Einzug: Was sie dort tut und was es bringt
- Super Bowl 2026: OpenAI lässt uns mit Codex Neues erschaffen
- Super Bowl 2026: Claude verrät, wie man einen Sixpack bekommt
- Super Bowl 2026: Oakley Meta-Brillen halten epische Sportmomente fest
- Super Bowl 2026: Base44 zeigt, wie KI jeden zum Programmierer macht
Beiträge aus dem Forum
Interessante Links
Neue Nachrichten
- Amazon Prime Day: Die Tages- und Blitzangebote im Vergleich
- Optionales Windows-11-Update mit neuer Wiederherstellung gestartet
- Neue Ikea-Smart-Home-Produkte aufgetaucht - das soll bald kommen
- Preis-Kracher im Vodafone-Netz: 70 GB Allnet-Flat für nur 9,99 Euro
- AMD bestätigt Probleme mit FSR-Treiber 26.6.2 auf vielen Windows-PCs
- Apple startet iOS 27 Beta 2 und zeigt, was Nutzer ab Herbst erwartet
- Samsung Galaxy Z Flip8, Fold8 & Fold8 Ultra: Infos zu Farben & Speicher
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen