2min Analytics

Mistral lanceert Voxtral: open-source spraakherkenning voor bedrijven

Mistral lanceert Voxtral: open-source spraakherkenning voor bedrijven

Mistral brengt zijn nieuwe Voxtral-spraakmodellen op de markt, die een alternatief moeten zijn voor gesloten API’s van concurrenten. De open-source modellen bevatten geavanceerde spraakherkenning, native meertaligheid en uitgebreide contextverwerking voor productieomgevingen.

Tot nu toe moesten bedrijven kiezen tussen open-source ASR-systemen met hoge foutenpercentages en dure propriëtaire API’s. Mistral wil deze kloof overbruggen met de nieuwe Voxtral-modellen, die state-of-the-art nauwkeurigheid combineren met native semantisch begrip voor minder dan de helft van de prijs van vergelijkbare oplossingen.

Geavanceerde spraakfunctionaliteit

Het bedrijf heeft twee varianten uitgebracht: een 24B-model voor productieomgevingen en een 3B-variant voor lokale en edge-implementaties. Beide versies zijn beschikbaar onder de Apache 2.0-licentie, wat open gebruik mogelijk maakt.

De modellen gaan verder dan alleen transcriptie. Ze beschikken over een 32k token contextlengte voor audio tot 30 minuten bij transcriptie of 40 minuten bij begripsanalyse. Daarnaast hebben ze ingebouwde vraag-en-antwoord functionaliteit en kunnen ze direct gestructureerde samenvattingen genereren.

“Deze capaciteiten maken de Voxtral-modellen ideaal voor echte interacties en vervolgacties, zoals samenvattingen, antwoorden, analyses en inzichten,” aldus Mistral. Voor kosteneffectieve use cases presteert Voxtral Mini Transcribe.

Meertalige prestaties

Voxtral herkent automatisch talen en behaalt state-of-the-art prestaties in de veelgebruikte talen Engels, Spaans, Frans, Portugees, Hindi, Duits, Nederlands en Italiaans. Dit helpt teams een wereldwijd publiek te bedienen met één systeem.

In benchmark-tests overtreft Voxtral Small consistent Whisper large-v3 en verslaat het GPT-4o mini Transcribe en Gemini 2.5 Flash in alle taken. Bij de FLEURS-evaluatie presteert het superieur aan Whisper in elke taak en behaalt het state-of-the-art resultaten in meerdere Europese talen.

De modellen kunnen ook direct functie-aanroepen uitvoeren vanuit spraak. Dit maakt het mogelijk om backend-functies, workflows of API-calls te triggeren op basis van gesproken gebruikersintenties, zonder tussenliggende verwerkingsstappen.

Tip: Mistral wil een miljard ophalen voor Franse AI-clouddienst