GPT-NL positioneert zich als alternatief in strijd om AI-data

GPT-NL positioneert zich als alternatief in strijd om AI-data

GPT-NL is deze maand live gegaan bij de eerste organisaties, op een moment dat de discussie over AI-training en auteursrecht in Nederland op scherp staat. Auteurs- en journalistenorganisaties eisen dat Meta stopt met het gebruiken van teksten van Nederlandse schrijvers, journalisten en vertalers voor het trainen van AI-modellen, omdat dit volgens hen gebeurt zonder toestemming en zonder vergoeding. Als Meta niet ingrijpt, dreigt een rechtszaak.

Dit meldt de NOS. Juist die discussie raakt aan de kern van GPT-NL. Het Nederlandse taalmodel is opgezet als publiek verankerd en soeverein alternatief voor commerciële generatieve AI, met expliciete afspraken over datagebruik, herkomst en vergoedingen voor rechthebbenden. In het tweede voortgangsrapport, gepubliceerd op 26 februari, beschrijft het team hoe het project bewust is ingericht om de spanningen rond data-eigendom, auteursrecht en transparantie te adresseren.

GPT-NL in operationele pilots

Tegelijkertijd is GPT-NL een nieuwe fase ingegaan, blijkt uit een rapportage. De eerste versies van het taalmodel draaien inmiddels bij een beperkte groep zogenoemde launching customers, volledig op lokale infrastructuur. Het doel is om te toetsen waar en hoe het model waarde toevoegt in omgevingen waar privacy, security en compliance leidend zijn, zoals bij overheden, kennisinstellingen en organisaties die werken met gevoelige of geclassificeerde informatie.

In het voorwoord van het rapport plaatst productmanager Saskia Lensink deze stap in een bredere context. Na twee jaar bouwen is volgens haar het moment aangebroken om te laten zien dat soevereine en waardengedreven generatieve AI in Nederland niet alleen een beleidsambitie is, maar ook praktisch toepasbaar kan zijn. Ze wijst op verschuivende geopolitieke verhoudingen en de beperkte grip die Europa heeft op sleuteltechnologieën zoals AI. Met een startbudget van 13,5 miljoen euro moest het project scherpe keuzes maken, maar juist daardoor, zo stelt Lensink, is het team erin geslaagd om data te verzamelen onder strenge kwaliteits- en compliance-eisen en innovatie en privacy met elkaar te verbinden.

Afspraken over data als fundament

Een belangrijk onderdeel daarvan is de manier waarop GPT-NL zijn trainingsdata heeft verkregen. In het rapport beschrijven Lensink en R&D-manager Frank Brinkkemper hoe de dataverzameling grotendeels al doende tot stand kwam, zonder vast draaiboek of bestaande best practices. In plaats van losse transacties met dataleveranciers koos GPT-NL voor het opbouwen van een ecosysteem, onder meer via een Content Board waarin afspraken, governance en rollen gezamenlijk zijn vastgelegd. Daarbij is ook expliciet aandacht voor de technische beperkingen van taalmodellen. Content kan niet eenvoudig uit een eenmaal getraind model worden verwijderd. Als een partij zich terugtrekt, worden daarom maatregelen genomen om herkomst in de output te beperken, of blijft een vergoeding doorlopen totdat een nieuwe modelversie wordt uitgebracht.

In dat licht springt de overeenkomst met de commerciële nieuwsmedia via NDP Nieuwsmedia eruit. Volgens het rapport is dit wereldwijd het eerste initiatief waarin alle aangesloten uitgevers collectief afspraken hebben gemaakt over het gebruik van hun content voor AI-training, inclusief vergoeding en aanvullende waarborgen. Het project benadrukt dat juist nieuwsmedia kwetsbaar zijn in de opkomst van grote taalmodellen, omdat hun content vaak zonder toestemming wordt gebruikt en vervolgens concurreert met door AI gegenereerde teksten. Met deze overeenkomst wil GPT-NL laten zien dat AI-ontwikkeling ook mogelijk is op een manier die de positie van de journalistiek versterkt en als voorbeeld kan dienen voor andere sectoren.

Prestaties met focus op toepasbaarheid

Technisch gezien is de pre-training van GPT-NL afgerond. Volgens het team presteert het model op specifieke Nederlandstalige taken, zoals samenvatten, beter dan oudere generaties commerciële modellen. Die prestaties zijn getoetst met gangbare benchmarks, waarbij correcties zijn toegepast waar deze onvoldoende op het Nederlands waren afgestemd. Tegelijkertijd maakt het rapport duidelijk dat GPT-NL niet primair wil concurreren op schaal of absolute prestaties, maar op betrouwbaarheid en bruikbaarheid in concrete toepassingen.

Die focus komt terug in de samenwerking met de launching customers. Er is gestart met vijf organisaties en dat aantal groeit richting tien. Met elke partij wordt eerst onderzocht hoe GPT-NL functioneert binnen de eigen technische omgeving en voor specifieke use cases. In het rapport worden onder meer pilots genoemd rond gemeentelijke chatbots, digitale assistenten voor overheidsdienstverlening, ondersteuning bij het schrijven van begrijpelijke overheidsbrieven en toepassingen in forensische analyse en intern kenniswerk.

Vooruitkijkend verwacht het team in de tweede helft van 2026 een bredere uitrol via professionele licenties, mogelijk ook via hostingproviders. Op korte termijn wordt gewerkt aan verbeterde retrieval-augmented generation-functionaliteiten en ondersteuning van spraak. De huidige discussie rond Meta onderstreept volgens betrokkenen waarom die route relevant is. De vraag is niet alleen wie de beste AI bouwt, maar ook onder welke voorwaarden dat gebeurt. GPT-NL positioneert zich daarmee als een poging om een alternatief te bieden waarin technologieontwikkeling, makersrechten en publieke waarden vanaf het begin met elkaar zijn verweven.