2min

Een groep vooraanstaande instituten heeft het Data Provenance Initiative gelanceerd om de “crisis in datatransparantie en hun consequenties” aan te pakken.

Aan het initiatief nemen universiteiten als MIT en Harvard Law School deel, maar ook techgigant Apple en non-profit Cohere For AI. De twaalf deelnemende partijen lanceren per direct het interactieve platform Data Provenance Explorer.

Het initiatief voerde een grote audit uit op AI-datasets die worden gebruikt voor het trainen van large language models. Het Data Provenance Initiative heeft tot nu toe meer dan 1800 populaire text-to-text finetuning datasets beoordeeld, die gezamenlijk tientallen miljoenen keren gedownload zijn.

Hierbij werden databronnen, licenties, makers en andere metadata gecatalogiseerd. Bijvoorbeeld studenten en journalisten kunnen dit gebruiken om waarborgen te krijgen over transparantie, documentatie en of datasets in AI goed geïnformeerd zijn.

Transparantieprobleem

Met het initiatief willen de partijen transparantieproblemen aanpakken die zij signaleren. “Steeds vaker worden veelgebruikte datasetverzamelingen als monolithisch beschouwd, in plaats van als een reeks databronnen, geschraapt (of door een model gegenereerd), samengesteld en geannoteerd, vaak met meerdere rondes van herverpakken (en opnieuw licentiëren) door opeenvolgende beoefenaars”, aldus Data Provenance Initiative in een paper. “De belemmeringen om deze data lineage te erkennen komen zowel voort uit de omvang van de moderne dataverzameling (de poging om deze op de juiste manier toe te schrijven) als uit de toegenomen controle op het auteursrecht.”

Volgens Data Provenance Initiative heeft het tot minder datasheets geleid, alsmede het niet-openbaar maken van trainingsbronnen. In het laatste geval doelt het initiatief in het bijzonder op OpenAI, dat met ChatGPT populair is geworden door het gebruik van grote datasets. Het initiatief ziet uiteindelijk een afname van het begrijpen van trainingsdata ontstaan.

“Dit gebrek aan inzicht kan leiden tot datalekken tussen trainings- en testdata; personally identifiable information blootstellen, onbedoelde vooroordelen of gedrag vertonen; en resulteren over het algemeen in modellen van lagere kwaliteit dan verwacht”, concluderen de partijen. Bovendien zien ze ethische en juridische risico’s ontstaan.

Tip: Vertrouwen in AI begint voor de eerste coderegel