Nvidias KI-Wunderwaffe: Fugatto erschafft nie zuvor gehörte Klänge

Nvidias neues KI-Modell Fugatto soll die Audiogenerierung zukünftig re­volutionieren. Die Technologie ermöglicht die Erstellung und Bearbeitung von Musik, Sprache und Soundeffekten. Neben kreativen Möglichkeiten birgt sie auch Risiken für Missbrauch durch Deepfakes.
Ki, Künstliche Intelligenz, Forschung, Wissenschaft, AI, Artificial Intelligence, Roboter, Stockfotos, Science, Wissenschaftler, scientist, Bot, Cyber, Hirnsteuerung, Gedanken

Schweizer Taschenmesser für Audio-KI

Der Chip-Hersteller Nvidia hat mit Fugatto ein neues KI-Modell für die Au­dio­ge­ne­rie­rung vorgestellt. Das als "Foundational Generative Audio Trans­for­mer Opus 1" bezeichnete System kann basierend auf Textanweisungen eine breite Palette von Klängen erzeugen oder bestehende Audiodateien modifizieren.

Fugatto geht dabei über die Möglichkeiten bisheriger Audio-KI-Modelle hinaus. Es kann nicht nur Musik oder Stimmen generieren, sondern beliebige Kombinationen aus Musik, Sprache und Soundeffekten erstellen. Nvidia bezeichnet die Technologie daher als "Schweizer Taschenmesser für Audio".

Nvidia Research: Audio-AI Fugatto generiert Sound aus Text

Vielseitige Anwendungsmöglichkeiten

Die Einsatzmöglichkeiten von Fugatto sind vielfältig. Musikproduzenten könnten das Tool nutzen, um schnell Songideen zu prototypisieren und verschiedene Instrumente oder Stile auszuprobieren. In der Werbeindustrie ließe sich Fugatto einsetzen, um Voiceover-Aufnahmen mit unterschiedlichen Akzenten oder Emotionen zu generieren. Auch für Spieleentwickler bietet die Technologie Optionen zur dynamischen Erstellung von Soundeffekten.

Eine Besonderheit von Fugatto ist die Fähigkeit, neuartige Klänge zu erzeugen. So kann das System beispielsweise eine "miauende Trompete" oder ein "bellendes Saxofon" generieren - Sounds, die in der Realität so nicht existieren. Auch die Kombination verschiedener Anweisungen ist möglich, etwa um einen vorgelesenen Text mit trauriger Stimmung und französischem Akzent zu erstellen.

Technische Grundlagen und Entwicklung

Hinter Fugatto steckt ein KI-Modell mit 2,5 Milliarden Parametern, das auf einem Cluster von Nvidia DGX-Systemen mit 32 H100 Tensor Core GPUs trainiert wurde. Die Entwicklung dauerte über ein Jahr und wurde von einem internationalen Forscherteam vorangetrieben.

Größte Herausforderung soll die Erstellung eines umfangreichen Trainingsdatensatzes mit Millionen von Audiosamples gewesen sein. Dabei kamen auch Open-Source-Daten und eine Soundeffekt-Bibliothek der BBC zum Einsatz. Die Forscher entwickelten zudem spezielle Techniken, um die Vielseitigkeit und Genauigkeit des Modells zu verbessern.


Fähigkeiten wecken auch Bedenken

Die Möglichkeiten von Fugatto sind weitreichend. Das System kann nicht nur neue Audiodateien generieren, sondern auch bestehende Aufnahmen umfassend modifizieren. So lassen sich etwa einzelne Instrumente oder Gesangsspuren aus einem Musikstück entfernen oder hinzufügen. Auch die Veränderung von Akzenten oder Emotionen in Sprachaufnahmen ist möglich.

Diese Fähigkeiten wecken allerdings auch Bedenken hinsichtlich möglicher Missbrauchsszenarien. Die Erstellung täuschend echter Deepfakes könnte durch solche Technologien erleichtert werden. Nvidia ist sich dieser Problematik bewusst:

Jede generative Technologie birgt immer gewisse Risiken, da Menschen sie nutzen könnten, um Dinge zu generieren, die wir lieber nicht hätten.
Bryan Catanzaro, Nvidia VP für Deep-Learning-Forschung

Zukunft noch ungewiss

Aufgrund dieser Bedenken hat Nvidia bislang keine konkreten Pläne für eine öffentliche Freigabe von Fugatto bekannt gegeben. Auch andere Tech-Unternehmen wie Meta und OpenAI halten sich mit der Veröffentlichung ähnlicher Audio-KI-Modelle noch zurück. Dennoch dürfte die Technologie die Audio- und Musikbranche in den kommenden Jahren beeinflussen.

Wie seht ihr die Möglichkeiten und Risiken von Audio-KI wie Fugatto? Überwiegen für euch die Chancen oder die Gefahren? Teilt eure Gedanken dazu in den Kommentaren!

Zusammenfassung
  • Nvidias neues KI-Modell Fugatto revolutioniert die Audiogenerierung
  • Erstellung und Bearbeitung von Musik, Sprache und Soundeffekten möglich
  • Vielfältige Einsatzmöglichkeiten in Musik, Werbung und Spieleentwicklung
  • KI-Modell mit 2,5 Milliarden Parametern auf Nvidia-GPUs trainiert
  • Umfassende Modifikation bestehender Audioaufnahmen realisierbar
  • Bedenken bezüglich Missbrauch durch täuschend echte Deepfakes
  • Keine konkreten Pläne zur öffentlichen Freigabe von Fugatto bisher

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Nvidia Aktienkurs in Euro
GeForce RTX 4070 Ti im Preisvergleich
Derzeit keine Angebote im Preisvergleich
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!