Nvidias KI-Wunderwaffe: Fugatto erschafft nie zuvor gehörte Klänge

Nvidias neues KI-Modell Fugatto soll die Audiogenerierung zukünftig revolutionieren. Die Technologie ermöglicht die Erstellung und Bearbeitung von Musik, Sprache und Soundeffekten. Neben kreativen Möglichkeiten birgt sie auch Risiken für Missbrauch durch Deepfakes.

Stefan Trunzik, 26.11.2024 07:40 Uhr

Ki, Künstliche Intelligenz, Forschung, Wissenschaft, AI, Artificial Intelligence, Roboter, Stockfotos, Science, Wissenschaftler, scientist, Bot, Cyber, Hirnsteuerung, Gedanken

Schweizer Taschenmesser für Audio-KI

Der Chip-Hersteller Nvidia hat mit Fugatto ein neues KI-Modell für die Audiogenerierung vorgestellt. Das als "Foundational Generative Audio Transformer Opus 1" bezeichnete System kann basierend auf Textanweisungen eine breite Palette von Klängen erzeugen oder bestehende Audiodateien modifizieren.

Fugatto geht dabei über die Möglichkeiten bisheriger Audio-KI-Modelle hinaus. Es kann nicht nur Musik oder Stimmen generieren, sondern beliebige Kombinationen aus Musik, Sprache und Soundeffekten erstellen. Nvidia bezeichnet die Technologie daher als "Schweizer Taschenmesser für Audio".

Nvidia Research: Audio-AI Fugatto generiert Sound aus Text

Vielseitige Anwendungsmöglichkeiten

Die Einsatzmöglichkeiten von Fugatto sind vielfältig. Musikproduzenten könnten das Tool nutzen, um schnell Songideen zu prototypisieren und verschiedene Instrumente oder Stile auszuprobieren. In der Werbeindustrie ließe sich Fugatto einsetzen, um Voiceover-Aufnahmen mit unterschiedlichen Akzenten oder Emotionen zu generieren. Auch für Spieleentwickler bietet die Technologie Optionen zur dynamischen Erstellung von Soundeffekten.

Eine Besonderheit von Fugatto ist die Fähigkeit, neuartige Klänge zu erzeugen. So kann das System beispielsweise eine "miauende Trompete" oder ein "bellendes Saxofon" generieren - Sounds, die in der Realität so nicht existieren. Auch die Kombination verschiedener Anweisungen ist möglich, etwa um einen vorgelesenen Text mit trauriger Stimmung und französischem Akzent zu erstellen.

Technische Grundlagen und Entwicklung

Hinter Fugatto steckt ein KI-Modell mit 2,5 Milliarden Parametern, das auf einem Cluster von Nvidia DGX-Systemen mit 32 H100 Tensor Core GPUs trainiert wurde. Die Entwicklung dauerte über ein Jahr und wurde von einem internationalen Forscherteam vorangetrieben.

Größte Herausforderung soll die Erstellung eines umfangreichen Trainingsdatensatzes mit Millionen von Audiosamples gewesen sein. Dabei kamen auch Open-Source-Daten und eine Soundeffekt-Bibliothek der BBC zum Einsatz. Die Forscher entwickelten zudem spezielle Techniken, um die Vielseitigkeit und Genauigkeit des Modells zu verbessern.

Fähigkeiten wecken auch Bedenken

Die Möglichkeiten von Fugatto sind weitreichend. Das System kann nicht nur neue Audiodateien generieren, sondern auch bestehende Aufnahmen umfassend modifizieren. So lassen sich etwa einzelne Instrumente oder Gesangsspuren aus einem Musikstück entfernen oder hinzufügen. Auch die Veränderung von Akzenten oder Emotionen in Sprachaufnahmen ist möglich.

Diese Fähigkeiten wecken allerdings auch Bedenken hinsichtlich möglicher Missbrauchsszenarien. Die Erstellung täuschend echter Deepfakes könnte durch solche Technologien erleichtert werden. Nvidia ist sich dieser Problematik bewusst:

Jede generative Technologie birgt immer gewisse Risiken, da Menschen sie nutzen könnten, um Dinge zu generieren, die wir lieber nicht hätten.
Bryan Catanzaro, Nvidia VP für Deep-Learning-Forschung

Zukunft noch ungewiss

Aufgrund dieser Bedenken hat Nvidia bislang keine konkreten Pläne für eine öffentliche Freigabe von Fugatto bekannt gegeben. Auch andere Tech-Unternehmen wie Meta und OpenAI halten sich mit der Veröffentlichung ähnlicher Audio-KI-Modelle noch zurück. Dennoch dürfte die Technologie die Audio- und Musikbranche in den kommenden Jahren beeinflussen.

Wie seht ihr die Möglichkeiten und Risiken von Audio-KI wie Fugatto? Überwiegen für euch die Chancen oder die Gefahren? Teilt eure Gedanken dazu in den Kommentaren!

Zusammenfassung

Nvidias neues KI-Modell Fugatto revolutioniert die Audiogenerierung
Erstellung und Bearbeitung von Musik, Sprache und Soundeffekten möglich
Vielfältige Einsatzmöglichkeiten in Musik, Werbung und Spieleentwicklung
KI-Modell mit 2,5 Milliarden Parametern auf Nvidia-GPUs trainiert
Umfassende Modifikation bestehender Audioaufnahmen realisierbar
Bedenken bezüglich Missbrauch durch täuschend echte Deepfakes
Keine konkreten Pläne zur öffentlichen Freigabe von Fugatto bisher

Siehe auch:

Thema:

Kommentieren1

Hinweis einsenden

Weitere Nachrichten zum Thema Neuer Aldi-PC für Gamer: Desktop mit Nvidia RTX 4080 Super ist daVerdächtig schnell erfolgreich: EU-Wettbewerbshüter prüfen NvidiaMehr Leistung, halber Preis: Nvidia zeigt neues Jetson-ComputermodulHack mit 100 % Erfolgsquote: So leicht lassen sich KI-Roboter knackenChef der größten US-Bank: KI wird zu 3,5-Arbeitstage-Woche führenIntelligenter und gesprächiger: Apples Siri wird mehr KI bekommen

Jetzt einen Kommentar schreiben

Alle Kommentare zu dieser News anzeigen

Nvidia Aktienkurs in Euro

Videos zum Thema Nvidia

Neueste
Beliebte
Empfehlung

Mehr Nvidia-Videos

Neue Nvidia-Downloads

GeForce RTX 4070 Ti im Preisvergleich

Derzeit keine Angebote im Preisvergleich

Weitere Grafikkarten von Nvidia

Beliebt im Preisvergleich

PCIe Preisvergleich

Beiträge aus dem Forum

Zum Grafikkarten-Forum

Weiterführende Links

Neue Nachrichten

Tipp einsenden

Hinweise zum Einsenden von Tipps

❤ WinFuture unterstützen

Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen:

Vielen Dank!