DeepMind en Google recreëren met AI stem van ALS-patiënt

Abonneer je gratis op Techzine!

Google-onderzoekers in het Euphonia-project, een speech-to-text-dienst voor mensen met spraakbelemmeringen, hebben samen met DeepMind-onderzoekers de stem van een Amerikaanse NFL-speler Tim Shaw gerecreëerd. Dit is een bijzonder prestatie, aangezien Shaw lijdt aan de ernstige spierziekte ALS.

In augustus deelden Google AI-onderzoekers die met het ALS Therapy Development Institute werken, details over Project Euphonia, een spraak-naar-tekst-transcriptiedienst voor mensen met een spraakgebrek. Ze toonden aan dat ze de kwaliteit van de spraaksynthese en -generatie drastisch konden verbeteren. Dit met behulp van datasets van zowel moedertaalsprekers als niet-moedertaalsprekers met neurodegeneratieve ziekten, gecombineerd met technieken van Parrotron, een AI-tool voor mensen met een spraakstoornis.

De Google-onderzoekers hebben samen met een team van DeepMind (ook een dochteronderneming van Alphabet) Euphonia gebruikt om de stem van Tim Shaw, een voormalige NFL-speler die voor de Carolina Panthers, Jacksonville Jaguars, Chicago Bears en Tennessee Titans speelde, te recreëren. Shaw werd gediagnosticeerd met ALS, waarvoor hij ondertussen een rolstoel moet gebruiken, en waardoor hij niet in staat is om te praten, te slikken of te ademen zonder hulp.

WaveNet-model erg efficiënt

In ongeveer zes maanden heeft het onderzoeksteam een generatief AI-model, genaamd WaveNet, aangepast voor de taak om spraak te creëren uit samples van Shaw’s stem toen hij nog niet te maken had met zijn ziekte.

WaveNet bootst emoties na zoals stress en past de intonatie aan, door het identificeren van bepaalde toonpatronen in de spraak. De techniek produceert veel overtuigendere stemfragmenten dan eerdere modellen- Google meldt zelf dat het de kwaliteitskloof met menselijke spraak al met 70 procent heeft gedicht, als er gekeken wordt naar het gemiddelde. Ook is de techniek efficiënter, omdat deze werkt op Google tensor processing units (TPU’s), aangepaste chips met circuits die geoptimaliseerd zijn voor AI-modeltraining. Het duurt maar 50 milliseconden om een fragment van één seconde te bouwen.