Data Provenance Initiative pakt transparantieproblemen AI aan

Een groep vooraanstaande instituten heeft het Data Provenance Initiative gelanceerd om de “crisis in datatransparantie en hun consequenties” aan te pakken.

Aan het initiatief nemen universiteiten als MIT en Harvard Law School deel, maar ook techgigant Apple en non-profit Cohere For AI. De twaalf deelnemende partijen lanceren per direct het interactieve platform Data Provenance Explorer.

Het initiatief voerde een grote audit uit op AI-datasets die worden gebruikt voor het trainen van large language models. Het Data Provenance Initiative heeft tot nu toe meer dan 1800 populaire text-to-text finetuning datasets beoordeeld, die gezamenlijk tientallen miljoenen keren gedownload zijn.

Hierbij werden databronnen, licenties, makers en andere metadata gecatalogiseerd. Bijvoorbeeld studenten en journalisten kunnen dit gebruiken om waarborgen te krijgen over transparantie, documentatie en of datasets in AI goed geïnformeerd zijn.

Transparantieprobleem

Met het initiatief willen de partijen transparantieproblemen aanpakken die zij signaleren. “Steeds vaker worden veelgebruikte datasetverzamelingen als monolithisch beschouwd, in plaats van als een reeks databronnen, geschraapt (of door een model gegenereerd), samengesteld en geannoteerd, vaak met meerdere rondes van herverpakken (en opnieuw licentiëren) door opeenvolgende beoefenaars”, aldus Data Provenance Initiative in een paper. “De belemmeringen om deze data lineage te erkennen komen zowel voort uit de omvang van de moderne dataverzameling (de poging om deze op de juiste manier toe te schrijven) als uit de toegenomen controle op het auteursrecht.”

Volgens Data Provenance Initiative heeft het tot minder datasheets geleid, alsmede het niet-openbaar maken van trainingsbronnen. In het laatste geval doelt het initiatief in het bijzonder op OpenAI, dat met ChatGPT populair is geworden door het gebruik van grote datasets. Het initiatief ziet uiteindelijk een afname van het begrijpen van trainingsdata ontstaan.

“Dit gebrek aan inzicht kan leiden tot datalekken tussen trainings- en testdata; personally identifiable information blootstellen, onbedoelde vooroordelen of gedrag vertonen; en resulteren over het algemeen in modellen van lagere kwaliteit dan verwacht”, concluderen de partijen. Bovendien zien ze ethische en juridische risico’s ontstaan.

Tip: Vertrouwen in AI begint voor de eerste coderegel

Keuze van de redactie

AI vraagt volwassen keuzes van bedrijven

De razendsnelle opmars van AI zet organisaties onder druk om hun infr...

Insight: IT in Retail

Lees meer over Analytics

Tech calendar

Data Provenance Initiative pakt transparantieproblemen AI aan

Transparantieprobleem

Blijf op de hoogte, abonneer!

AI vraagt volwassen keuzes van bedrijven

Ingram Micro krabbelt langzaam op na ransomware-aanval

Cybersubsidie keert terug: 1 miljoen euro beschikbaar in 2025

Vijf redenen waarom AI in je ERP-systeem onmisbaar is voor duurzame retailorganisatie

Aanbieder van e-commerceoplossingen zet eigen portfolio in de etalage

Manhattan Associates levert supply chain-software, is het meer dan een fancy naam?

Sligro-CISO gebruikt NIST-framework om met management te communiceren

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Webdevcon

Is jouw endpointbeveiliging op orde?

Hoe maak je duurzaamheid echt praktisch?

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing