2min Analytics

Nvidia-model Fugatto kan audio afmaken en aanpassen

Nvidia-model Fugatto kan audio afmaken en aanpassen

Het model kan stemmen aanpassen en geluiden genereren, maar er zijn voorlopig geen plannen om de technologie op korte termijn beschikbaar te maken.

Fugatto, voluit Foundational Generative Audio Transformer Opus 1, belooft vooral waardevol te worden voor muziek-, game- en filmproducenten. Nvidia betreedt hiermee een concurrerende markt waarin al meerdere spelers zich richten op het genereren van audio of video op basis van prompts. Zo onthulde OpenAI eerder dit jaar het nog niet beschikbare Sora-model, dat video’s kan genereren op basis van tekst. Nvidia’s model onderscheidt zich echter door zijn meer geavanceerde capaciteiten.

Fugatto kan een audiobestand significant aanpassen. Zo kan een stukje pianospel worden omgezet in een audiobestand waarin het klinkt alsof een man zingt. Ook kan een gesproken boodschap door het model worden aangepast naar een ander accent. Voor de training van het nieuwe model maakte Nvidia gebruik van open-source data.

Het is echter nog onduidelijk of en hoe het model op de markt komt. Dit hangt deels samen met de zorgen over misbruik van audio- en videomodellen. “Elke generatieve technologie brengt altijd wat risico’s met zich mee, omdat mensen het kunnen gebruiken om dingen te genereren die we liever niet zouden willen”, aldus vice president of applied deep learning research Bryan Catanzaro van Nvidia. “Daar moeten we voorzichtig mee zijn, en daarom hebben we geen directe plannen om dit uit te brengen.”

Tip: Onduidelijkheid over trainingsdata Sora-model voor genereren video’s