Die Entwicklung von Fugatto

Fugatto (Foundational Generative Audio Transformer Opus 1) ist ein von NVIDIA entwickeltes KI-Tool, mit dem jede beliebige Mischung aus Musik, Stimmen und Geräuschen, die durch Prompts beschrieben werden, erzeugt oder verändert werden kann. Selbstbewusst bezeichnet man es als „World’s Most Flexible Sound Machine“.

Fugatto – ein Modell, das Klänge versteht

KI-basierte Anwendungen sind in der Musikproduktion längst Alltag. Einige Tools haben eher unterstützenden Charakter, andere wollen gleich den gesamten Prozess (oder zumindest große Teile davon) übernehmen.

Der Ansatz von Fugatto ist „ein Modell, das Klänge wie Menschen versteht und erzeugt“, wie es der Komponist/Dirigent und Manager Rafael Valle beschreibt. Musikproduzenten sollen Fugatto beispielsweise nutzen können, um schnell eine Songidee zu entwickeln oder zu bearbeiten und dabei verschiedene Stile, Stimmen und Instrumente auszuprobieren. Darüber hinaus kann sich Valle den Einsatz bei Sprachlern-Tools oder im Bereich interaktiver Spiele vorstellen.

Die Technik hinter der KI

Fugatto ist ein generatives Transformationsmodell, das auf früheren Arbeiten in den Bereichen Sprachmodellierung, Audio-Vocoding und Audioverständnis aufbaut. Die Vollversion verwendet 2,5 Milliarden Parameter und wurde auf einer Reihe von NVIDIA DGX Systemen mit 32 NVIDIA H100 Tensor Core GPUs trainiert.

Für die Erstellung des hybriden Datensatzes von Fugatto wurden Millionen von Audiosamples verwendet. Über die Art und Herkunft dieses Materials schweigt man sich jedoch aus, ist doch dieser Punkt auch schon bei bisherigen KI-Anwendungen nicht nur strittig, sondern möglicherweise auch rechtlich relevant.

Die Herausforderung bestand dann darin, Beziehungen zwischen dem gesamten Material herzustellen, Beziehungen zwischen dem gesamten Material herzustellen, damit die Beschreibungen mit Prompts auch zu brauchbaren Ergebnissen führt. Leider wird nicht erklärt, welche Technik die Generierung verwendet.

Die Anwendungsmöglichkeiten sind vielfältig: Erzeugung von Sounds und Effekten, Isolierung von Audiospuren, Hinzufügen von Instrumenten zu einer Aufnahme, Erzeugung von Sprache mit unterschiedlichem Ausdruck. Einige der vorgestellten Ergebnisse sind vielversprechend, bei anderen ist noch „Luft nach oben“.

Die Entwicklung von Fugatto ist noch nicht abgeschlossen, es bleibt abzuwarten, was die endgültige Version zu leisten vermag. Über die Auswirkungen dieses KI-Tools, insbesondere auf die „konventionelle“ Musikproduktion, kann derzeit nur spekuliert werden. Schnell arbeitende und kurzlebige Bereiche wie Werbung, Content Creation und Promotion werden aber wahrscheinlich von Fugatto profitieren.

Unsere neuesten Beiträge