Google maakt spraak-engine van Live Transcribe open source

Google maakt de spraak-engine die gebruikt wordt voor Live Transcribe open source. Het bedrijf hoopt dat dit ontwikkelaars in staat stelt om lange gesprekken te transcriberen. De source code is te vinden op GitHub.

De engine wordt op dit moment al gebruikt voor Live Transcribe op Android. Deze tool maakt gebruik van algoritmes en machine learning, voor het omzetten van audio in tekst, in real-time. De app heeft echter een aantal beperkingen. Zo kunnen er geen oneindig lange streams worden ondersteund en werkt de tool vanuit de cloud. Google hoopt ontwikkelaars de mogelijkheid te geven om dit soort functies zelf te creëren.

Functies

De beschikbaar gestelde libraries zijn volgens Google bijna identiek aan die uit de Live Transcribe-app. De technologiegigant meldt verder dat ze uitgebreid getest zijn, maar dat die tests niet open-source waren. Wel worden er APK’s aangeboden zodat een library uitgeprobeerd kan worden zonder te hoeven coderen. Zie hieronder voor een overzicht van functies van de open-source engine:

  • Onbeperkte streaming.
  • Ondersteuning voor meer dan 70 talen.
  • Ondersteuning bij kort verlies van netwerkverbinding (bij reizen of schakelen tussen netwerk en wifi). Tekst gaat niet verloren, maar kan wel trager verschijnen. Ook op langdurige onderbrekingen is de engine voorbereid. Er zal opnieuw verbinding worden gemaakt, zelfs als het netwerk urenlang buiten gebruik is geweest (er kan uiteraard geen spraakherkenning worden geleverd zonder een verbinding).
  • Ondersteuning in het geval van serverfouten.
  • Opus-, AMR-WB- en FLAC-codering kunnen eenvoudig worden ingeschakeld en geconfigureerd.
  • Bevat een library voor tekstopmaak en het visualiseren van ASR-confidence, luidspreker-ID e.d.
  • Uit te breiden naar offline modellen.
  • Ingebouwde ondersteuning voor spraakdetectoren, om ASR te stoppen tijdens langdurige stiltes, om geld en data te besparen.
  • Ingebouwde ondersteuning voor luidsprekeridentificatie. Dit is bedoeld om tekst te labelen of markeren op basis van het luidsprekernummer.