2min

Tags in dit artikel

, ,

Een team van Google Brain en het Imperial College van Londen heeft een AI-systeem gebouwd, genaamd Pre-training with Extracted Gap-sentences for Abstractive SUmmarization Sequence-to-sequence, oftewel Pegasus. Het systeem maakt gebruik van Google Transformers-architectuur in combinatie met pre-training-doelstellingen voor het genereren van tekst.

Het team stelt dat het systeem state-of-the-art resultaten bereikt in 12 velden, waaronder nieuws, wetenschap, verhalen, handleidingen, e-mails, patenten en wetsvoorstellen, en dat het systeem “verrassende” prestaties laat zien op het gebied van samenvattingen waarbij erg weinig resources voorhanden zijn. In die gevallen gevallen worden eerdere topresultaten overtroffen.

Het team heeft een taak bedacht waarbij hele zinnen in documenten worden gemaskeerd. De AI moest die leegtes opvullen door datasets te gebruiken die bestonden uit web- en nieuwsartikelen, waaronder ook artikelen uit een nieuw corpus (genaamd HugeNews) dat de onderzoekers zelf hebben samengesteld.

Beste model geselecteerd

In een aantal experimenten selecteerde het team het best presterende Pegasus model. Dit was een model met 568 miljoen parameters. Dit model werd getraind op 750GB aan tekst uit 350 miljoen webpagina’s of op data uit HugeNews, wat neerkomt op 1.5 miljard artikelen die in totaal 3.8TB aan nieuws bevatten.

Pegasus bereikte uiteindelijk een hoog taalkundig niveau, bijvoorbeeld wat betreft de tekstcoherentie en hoe goed de tekst loopt, volgens de onderzoekers. Er waren bovendien geen tegenmaatregelen nodig om “disfluences” te verhelpen. Bovendien genereerde het AI-systeem in een omgeving met weinig resources, en met slechts 100 voorbeeldartikelen, samenvattingen van een kwaliteit die vergelijkbaar is met een model dat was getraind op een volledige dataset (van 20.000 tot 200.000 artikelen).