TNO toont GPT-NL, dat tóch niet helemaal open-source is

TNO toont GPT-NL, dat tóch niet helemaal open-source is

In de YouTube-serie TNO Unboxed onthulde TNO deze week trots GPT-NL als een betrouwbaar en veilig stuk gereedschap. In tegenstelling tot eerdere verwachtingen wordt niet het hele model open-source.

Terwijl internationale techreuzen de AI-markt domineren, zet Nederland in op digitale soevereiniteit met GPT-NL, een initiatief van SURF, NFI en TNO. Dit taalmodel biedt een ethisch en veilig alternatief voor buitenlandse AI-oplossingen en is cruciaal voor de bescherming van nationale data en kennis.  

GPT-NL is volgens TNO niet zomaar een taalmodel; het is een aanpasbaar Large Language Model. Organisaties kunnen het specifiek afstemmen op hun behoeften, zoals het analyseren van dreigingsinformatie of juridische documentatie. In tegenstelling tot commerciële AI-modellen, verzamelt TNO data naar eigen zeggen op een zorgvuldige en ethische manier. Met respect voor privacy en intellectuele eigendomsrechten.  

Datakwaliteit is een uitdaging

Het project loopt, zo meldt TNO, op volle snelheid, met een eerste versie verwacht in 2025. Er zijn uitdagingen, zoals financiering en datakwaliteit, maar GPT-NL blijft zich ontwikkelen binnen ethische en wettelijke kaders.  

Het door TNO ontwikkelde Nederlandse taalmodel GPT-NL wordt niet volledig opensource. Het onderzoeksinstituut legt aan Tweakers uit dat het taalmodel vanwege subsidievoorwaarden niet zomaar volledig geopenbaard mag worden.

GPT-NL is een door de Nederlandse overheid gefinancierd project van 13,5 miljoen euro dat in 2023 werd aangekondigd. TNO ontwikkelt het samen met SURF en het Nederlands Forensisch Instituut als alternatief voor commerciële taalmodellen zoals ChatGPT. Omdat het project met subsidie gefinancierd is, moeten de makers aan bepaalde voorwaarden voldoen die het ‘volledig opensource maken van het gehele taalmodel mogelijk verhinderen.

Opensourcelicentie

Een woordvoerder van TNO legt uit dat alle broncode en alle data die men mag vrijgeven openbaar worden gepubliceerd onder een opensourcelicentie. Het is nog niet duidelijk onder welke opensourcelicentie de gegevens gepubliceerd gaan worden, maar het instituut benadrukt dat commercieel gebruik, hergebruik en aanpassing hieronder mogelijk zullen zijn.

Het project voor GPT-NL moet daarbij onder de subsidievoorwaarden wel de kosten voor de instandhouding en herinvesteringen in het trainen van het model terugverdienen. Hieronder vallen bijvoorbeeld kosten voor dataleveranciers en de benodigde infrastructuur.

Het doel van de makers is naar eigen zeggen om alle code onder een opensourcelicentie te publiceren. Dat geldt dus voor de broncode en alle data die vrijgegeven mogen worden. Alleen het taalmodel komt enkel onder de eerdergenoemde onderzoekslicentie beschikbaar.