2min

OpenAI wil de kwaliteit van de trainingsdata voor het trainen van zijn LLM-modellen verbeteren. Deze moet zo breed mogelijk zijn. Hiervoor wil de AI-gigant nu via het programma Data Partnerships de samenwerking aangaan met publieke en private partijen. Een beloning voor de partner is er in principe niet.

Volgens OpenAI is een goede datakwaliteit van de data waarop zijn modellen worden getraind extreem belangrijk. Onder meer om AI veilig te maken en te verzorgen dat de technologie voor iedereen geschikt is om te gebruiken.

Hiervoor moeten volgens de AI-techgigant de gebruikte AI-modellen goed alle informatie over onderwerpen, bedrijfssectoren, maar ook culturen en talen ‘begrijpen.’ Deze modellen moeten daarom zo goed mogelijk worden getraind met een zo breed mogelijk dataset.

OpenAI zoekt hiervoor nu actief de steun van publieke en private derde partijen voor het genereren van deze zeer brede trainingsdata voor zijn AI-modellen. Het leveren van deze data, zo zegt de AI-gigant, kan ervoor zorgen dat zijn modellen meer weten over de specifieke domeinen van deze partijen.

Specifieke ‘menselijke’ data

Er hangen wel voorwaarden vast aan de aangeleverde data. Meer specifiek is OpenAI binnen de Data Partnerships op zoek naar data die de ‘menselijke maatschappij’ betreft en nu nog niet online openbaar beschikbaar is. Denk aan teksten, afbeeldingen, audio of video. Vooral die data die ‘menselijke expressies’ uitdrukken, zoals langere teksten of conversaties in plaats van korte stukjes of sound bites. Dit in iedere taal, over ieder onderwerp en in elk formaat.

OpenAI geeft aan dat het partijen kan helpen met het digitaliseren van deze bronnen en data. Onder meer biedt het OCR-, en ASR-diensten voor gedrukte teksten en gesproken woorden. Wel moeten de datasets geen gevoelige en persoonlijke informatie bevatten of eigendom zijn van een andere derde partij.

Data kan privaat blijven

Potentiële partners kunnen op twee manieren deelnemen aan de OpenAI Data Partnerships. De eerste manier is via een Open-Source Archive. Partners helpen de AI-gigant hierbij met het opzetten van een open-source-dataset voor het trainen van LLM-modellen. Ook OpenAI zelf zou deze data willen gebruiken voor het onderzoeken hoe het veilig open-source-datasets kan trainen.

De tweede manier is via Private datasets. Deze datasets worden gebruikt voor het trainen van de eigen AI-modellen van de AI-gigant, zoals de foundation-modellen, GPT-4 en GPT-3.5, en fine-tunes en custom-modellen.

De geleverde data van de partner blijft hierbij private, maar wordt wel gebruikt om meer kennis over het domein van de specifieke partner te verkrijgen. Volgens OpenAI kan de partner zelf ook profiteren, op termijn, als een aangepast taalmodel lanceert. Verder zit er voor partners niets in en is OpenAI dus voornamelijk afhankelijk van gewillige zielen die hun data graag gratis en voor niets delen aan in dit laatste geval alleen OpenAI.

Lees ook: OpenAI introduceert actuelere GPT-4 Turbo voor complexere taken