AI van Google vat extreem accuraat teksten samen

Een team van Google Brain en het Imperial College van Londen heeft een AI-systeem gebouwd, genaamd Pre-training with Extracted Gap-sentences for Abstractive SUmmarization Sequence-to-sequence, oftewel Pegasus. Het systeem maakt gebruik van Google Transformers-architectuur in combinatie met pre-training-doelstellingen voor het genereren van tekst.

Het team stelt dat het systeem state-of-the-art resultaten bereikt in 12 velden, waaronder nieuws, wetenschap, verhalen, handleidingen, e-mails, patenten en wetsvoorstellen, en dat het systeem “verrassende” prestaties laat zien op het gebied van samenvattingen waarbij erg weinig resources voorhanden zijn. In die gevallen gevallen worden eerdere topresultaten overtroffen.

Het team heeft een taak bedacht waarbij hele zinnen in documenten worden gemaskeerd. De AI moest die leegtes opvullen door datasets te gebruiken die bestonden uit web- en nieuwsartikelen, waaronder ook artikelen uit een nieuw corpus (genaamd HugeNews) dat de onderzoekers zelf hebben samengesteld.

Beste model geselecteerd

In een aantal experimenten selecteerde het team het best presterende Pegasus model. Dit was een model met 568 miljoen parameters. Dit model werd getraind op 750GB aan tekst uit 350 miljoen webpagina’s of op data uit HugeNews, wat neerkomt op 1.5 miljard artikelen die in totaal 3.8TB aan nieuws bevatten.

Pegasus bereikte uiteindelijk een hoog taalkundig niveau, bijvoorbeeld wat betreft de tekstcoherentie en hoe goed de tekst loopt, volgens de onderzoekers. Er waren bovendien geen tegenmaatregelen nodig om “disfluences” te verhelpen. Bovendien genereerde het AI-systeem in een omgeving met weinig resources, en met slechts 100 voorbeeldartikelen, samenvattingen van een kwaliteit die vergelijkbaar is met een model dat was getraind op een volledige dataset (van 20.000 tot 200.000 artikelen).

Lees meer over Data Management

Topartikel

Expert aan het woord

AI van Google vat extreem accuraat teksten samen

Beste model geselecteerd

Blijf op de hoogte, abonneer!

AI traint op AI: destillatie is grote kopzorg voor AI-labs

Nederlands ToqanClaw is Europees OpenClaw-alternatief

Trump: Anthropic niet langer veiligheidsrisico

OpenAI stelt GPT-5.6 en beursgang uit: waarom?

AI security threats facing open source ecosystems in 2026

How Linkerd brings simplicity to service mesh and AI security

ServiceNow unveils Action Fabric AI platform architecture

Why OpenTelemetry is winning the observability battle

Hoe inconsistente AI een probleem is voor multinationals

Waarom een AI die ‘goed genoeg’ is vaak de slimste keuze is

Bewegend speelveld: vier datamanagementvaardigheden die Nederlandse bedrijven nu nodig hebben

AI-security begint in de boardroom

GITEX AI EUROPE 2026

GOTO Copenhagen 2026

Tijd om virtualisatie te evalueren

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Zo gaat jouw IT-organisatie van reactief trainen naar roadmap-gedreven skills-opbouw