2min

ChatGPT Voice is nu beschikbaar voor alle gebruikers van de Android- en iOS-app. Daarmee werken verschillende AI-modellen samen om een zo natuurlijk mogelijk gesprek te voeren met de chatbot.

Tussen alle tumult rondom het bedrijf door heeft OpenAI de tijd gevonden om de algemene beschikbaarheid van ChatGPT Voice aan te kondigen. President en mede-oprichter Greg Brockman liet op X weten dat de AI-tool voortaan niet meer achter de betaalde diensten ChatGPT Plus en Enterprise verstopt zit. In het voorbeeld steekt het bedrijf de draak met de onrust die sinds vorig weekend domineerde, door de chatbot te vragen hoeveel 16-inch pizza’s besteld moeten worden voor 778 mensen.

Meerdere modellen werken samen

In praktische zin is de interactie met ChatGPT Voice vergelijkbaar met de conventionele tekstversie. Echter vindt er achter te schermen veel meer plaats dan ‘enkel’ het draaien van de GPT-4-LLM. De stemondersteuning wordt namelijk mogelijk gemaakt door een text-to-speech-model dat OpenAI in september introduceerde, waarmee (hoe subjectief ook) een bijzonder geloofwaardige menselijke stem wordt nagebootst.

Er valt te kiezen uit meerdere sprekers, die hun gegenereerde uitspraken baseren op trainingsdata van stemacteurs.

Andersom gaat een ander AI-model te werk: Whisper, een open-source systeem voor spraakherkenning. Fundamenteel verschillen de in- en outputs dus niet van een tekstgebaseerd gesprek met ChatGPT, hoe variabel die ook zijn. Toch zal de mogelijkheid voor eindgebruikers tot een andere omgang kunnen leiden met de chatbot. OpenAI zelf gaf al eerder sterk variërende voorbeelden van wat met ChatGPT Voice mogelijk is, naast andere mogelijkheden zoals de interactie op basis van afbeeldingen.

“Doorbraak” in ontwikkeling AI

Al jaren proberen talloze bedrijven AI-stemmen zo geloofwaardig mogelijk te maken, maar lang was er geen doorbraak te bespeuren. Echter lieten meerdere incidenten eerder dit jaar al zien dat er ook realistische audio-deepfakes te creëren zijn. Zo leek een Slowaakse politicus verkiezingsfraude te willen plegen in een gelekt audiofragment, waarna de stem in kwestie AI-gegenereerd bleek te zijn. Gezien de nadruk die met name CEO Altman heeft gelegd op de veiligheid van AI-ontwikkeling, is het niet verwonderlijk dat alleen het systeem voor spraakherkenning open-source beschikbaar is. Het model dat AI-stemmen genereert, zal men uit angst voor deepfakes niet zo snel prijsgeven.

Daar waar het bedrijf zelf komt met de aankondiging van ChatGPT Voice, was er elders een lek van een nog opvallendere ontwikkeling. Het veelbesproken ontslag van CEO Sam Altman (die inmiddels weer in ere hersteld is) zou kort na een ontdekking van het bestuur hebben plaatsgevonden. Een brief van enkele OpenAI-werknemers sprak namelijk over een belangrijke doorbraak op het gebied van AI. Het zou gaan om technologie die krachtig genoeg is om een gevaar voor de mensheid te zijn. Dat lijkt ChatGPT Voice in ieder geval zelf nog niet.

Lees ook: Het geheime Q* kan OpenAI’s doorbraak naar AI met menselijke intelligentie zijn