Stable Video Diffusion: KI generiert Videos aus Fotos und Bildern

Der KI-Entwickler Stability AI hat seinen Bildgenerator um eine Video­funktion ergänzt. Mit dieser kann jedes Bild oder Foto in einen kurzen, animierten Videoclip umgerechnet werden. Dies lässt sich auch auf einem lokalen PC mit Nvidia-Grafikkarte erledigen.
Internet, Ki, Künstliche Intelligenz, Forschung, Wissenschaft, Daten, Netzwerk, AI, Artificial Intelligence, Datenübertragung, Stockfotos, Telekommunikation, Traffic, Datenverarbeitung, scientist, Cyber, Forschen, Netzwerke, Hub, Zentrale

Kurze Clips

Derzeit besteht die neue Funktion namens "Stable Video Diffusion" aus zwei Modellen: Das erste erzeugt eine Bild-zu-Video-Synthese mit 14 Frames Länge, das andere erzeugt 25 Frames. Sie können mit unterschiedlichen Geschwindigkeiten von 3 bis 30 Bildern pro Sekunde arbeiten und geben kurze (typischerweise 2-4 Sekunden lange) MP4-Videoclips mit einer Auflösung von 576 × 1024 Pixeln aus.

Die Berechnungen der einzelnen Frames aus einem starren Bild benötigt einiges an Leistung - so kann ein aus 14 Frames bestehender kurzer Clip durchaus bis zu einer halben Stunde dauern, wenn man ihn auf einem lokalen PC generieren lässt. Es gibt aber auch Features, bei denen die Berechnungen in der Cloud durchgeführt werden, was zu einem Geschwindigkeits-Gewinn führt.

Stable Video Diffusion animiert Bilder zu kurzen Videoclips

Stability AI betont, dass sich das Video-Feature derzeit noch in einem relativ frühen Entwicklungs-Stadium befindet und eher als Experiment anzusehen ist. "Während wir unsere Modelle eifrig mit den neuesten Fortschritten aktualisieren und daran arbeiten, Ihr Feedback einzubeziehen, ist dieses Modell in diesem Stadium nicht für reale oder kommerzielle Anwendungen gedacht", hieß es. Allerdings setze man auf das Feedback der Nutzer, um das Modell für eine spätere Bereitstellung als offizielles Feature zu verfeinern.

Umfassendes Training

Mit welcher Datenbasis das Modell konkret trainiert wurde, führten die Entwickler nicht näher aus. Es soll sich aber um eine große Sammlung von Videos gehandelt haben, die aus rund 580 Millionen kommentierten Clips bestand. Später soll neben dem Bild-zu-Video-Modell auch eine Möglichkeit geboten werden, von einem Text-Prompt direkt zu einem Videoclip zu kommen.

Neben Stability AI arbeiten auch verschiedene andere KI-Entwickler an vergleichbaren Funktionen. Sowohl Meta, Google als auch Adobe haben in der letzten Zeit bereits Einblicke in ihre Arbeit an Videosynthesemethoden gegeben.

Zusammenfassung
  • Stability AI erweitert Bildgenerator um Videofunktion.
  • Neue Funktion "Stable Video Diffusion" erstellt Clips.
  • Zwei Modelle generieren 14 oder 25 Frames.
  • Clips sind 2-4 Sekunden lang, Auflösung 576 × 1024px.
  • Berechnung dauert lokal bis zu 30 Minuten.
  • Feature noch experimentell, nicht für reale Nutzung.
  • Trainiert mit 580 Mio. kommentierten Video-Clips.

Siehe auch:


Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!