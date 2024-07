Es gibt schon lange Bedenken, dass echte Videos von Deepfakes bald nicht mehr unterscheidbar sind, bisher erwiesen sich diese jedoch als unbegründet. Denn solche KI-Videos waren immer noch tendenziell hölzern. Doch Microsoft zeigt, dass sich das bald ändern könnte.

Ein Foto und ein Audio-Clip genügen

VASA-1: Gleicher Bewegungsablauf mit unterschiedlichen Fotos

VASA-1 ist (vorerst?) nur Forschung

Echtzeit-Demonstration, wie derartige Videos erschaffen werden

Ein einziges Foto und ein Audio-Clip reichen, um ein Video zu erstellen, das erstaunliche und erschreckend realistische Ergebnisse liefert. Das jedenfalls ist das Ergebnis von VASA-1, einem Modell, das von Microsoft geschaffen wurde und eben erstaunlich gute Videos zum Resultat hat."VASA-1 ist nicht nur in der Lage, Lippenbewegungen zu erzeugen, die hervorragend mit dem Ton synchronisiert sind, sondern auch ein großes Spektrum an Gesichtsnuancen und natürlichen Kopfbewegungen zu erfassen, die zur Wahrnehmung von Authentizität und Lebendigkeit beitragen", erklärt Microsoft in einem Blogbeitrag. "Zu den Kerninnovationen gehören ein ganzheitliches Modell zur Erzeugung von Gesichtsdynamik und Kopfbewegungen, das in einem latenten Gesichtsraum arbeitet, und die Entwicklung eines solchen ausdrucksstarken und entwirrten latenten Gesichtsraums anhand von Videos."Anders gesagt: VASA-1 passt nicht nur die Lippenbewegungen an, sondern sorgt auch durch simulierte Emotionen für Tiefe und entsprechende Glaubwürdigkeit. Bei diesem Modell besteht auch Kontrolle über bestimmte Aspekte, Nutzer können Blickrichtung der Figur, die wahrgenommene Entfernung und sogar den emotionalen Zustand vorgeben.Auf der Seite des Forschungsprojekts kann man zahlreiche Beispielvideos dazu finden, diese arbeiten allerdings ausschließlich mit virtuellen und nicht echten Personen - was eine Beurteilung erschwert, wie gut das mit echten Menschen funktionieren würde.Microsoft betont dabei, dass es sich hier ausschließlich um ein Forschungsprojekt handelt: "Wir erforschen visuelle, affektive Fähigkeiten für virtuelle, interaktive Charaktere, die NICHT eine Person in der realen Welt verkörpern. Dies ist nur eine Forschungsdemonstration und es gibt keinen Plan für die Veröffentlichung eines Produkts oder einer API."