OpenAI zoekt online onbeschikbare data via gewillige derde partijen

OpenAI wil de kwaliteit van de trainingsdata voor het trainen van zijn LLM-modellen verbeteren. Deze moet zo breed mogelijk zijn. Hiervoor wil de AI-gigant nu via het programma Data Partnerships de samenwerking aangaan met publieke en private partijen. Een beloning voor de partner is er in principe niet.

Volgens OpenAI is een goede datakwaliteit van de data waarop zijn modellen worden getraind extreem belangrijk. Onder meer om AI veilig te maken en te verzorgen dat de technologie voor iedereen geschikt is om te gebruiken.

Hiervoor moeten volgens de AI-techgigant de gebruikte AI-modellen goed alle informatie over onderwerpen, bedrijfssectoren, maar ook culturen en talen ‘begrijpen.’ Deze modellen moeten daarom zo goed mogelijk worden getraind met een zo breed mogelijk dataset.

OpenAI zoekt hiervoor nu actief de steun van publieke en private derde partijen voor het genereren van deze zeer brede trainingsdata voor zijn AI-modellen. Het leveren van deze data, zo zegt de AI-gigant, kan ervoor zorgen dat zijn modellen meer weten over de specifieke domeinen van deze partijen.

Specifieke ‘menselijke’ data

Er hangen wel voorwaarden vast aan de aangeleverde data. Meer specifiek is OpenAI binnen de Data Partnerships op zoek naar data die de ‘menselijke maatschappij’ betreft en nu nog niet online openbaar beschikbaar is. Denk aan teksten, afbeeldingen, audio of video. Vooral die data die ‘menselijke expressies’ uitdrukken, zoals langere teksten of conversaties in plaats van korte stukjes of sound bites. Dit in iedere taal, over ieder onderwerp en in elk formaat.

OpenAI geeft aan dat het partijen kan helpen met het digitaliseren van deze bronnen en data. Onder meer biedt het OCR-, en ASR-diensten voor gedrukte teksten en gesproken woorden. Wel moeten de datasets geen gevoelige en persoonlijke informatie bevatten of eigendom zijn van een andere derde partij.

Data kan privaat blijven

Potentiële partners kunnen op twee manieren deelnemen aan de OpenAI Data Partnerships. De eerste manier is via een Open-Source Archive. Partners helpen de AI-gigant hierbij met het opzetten van een open-source-dataset voor het trainen van LLM-modellen. Ook OpenAI zelf zou deze data willen gebruiken voor het onderzoeken hoe het veilig open-source-datasets kan trainen.

De tweede manier is via Private datasets. Deze datasets worden gebruikt voor het trainen van de eigen AI-modellen van de AI-gigant, zoals de foundation-modellen, GPT-4 en GPT-3.5, en fine-tunes en custom-modellen.

De geleverde data van de partner blijft hierbij private, maar wordt wel gebruikt om meer kennis over het domein van de specifieke partner te verkrijgen. Volgens OpenAI kan de partner zelf ook profiteren, op termijn, als een aangepast taalmodel lanceert. Verder zit er voor partners niets in en is OpenAI dus voornamelijk afhankelijk van gewillige zielen die hun data graag gratis en voor niets delen aan in dit laatste geval alleen OpenAI.

Lees ook: OpenAI introduceert actuelere GPT-4 Turbo voor complexere taken

Lees meer over Applications

Expert aan het woord

Whitepapers

Tijd om virtualisatie te evalueren

Het is begrijpelijk dat veranderingen in de fundering van de IT-infra...

OpenAI zoekt online onbeschikbare data via gewillige derde partijen

Specifieke ‘menselijke’ data

Data kan privaat blijven

Blijf op de hoogte, abonneer!

Red Hat OpenShift gaat taai virtualisatie-hoofdpijndossier te lijf

Digitale soevereiniteit: van idealistische theorie naar harde praktijk

Claude-maker Anthropic lijkt OpenAI voor te zijn met beursgang

Juridische problemen Supermicro stapelen zich op

How Nutanix is tackling multi-cloud Kubernetes and AI workloads

How New Orleans monitors 2,000+ cameras in real time

Why OpenSearch doubled downloads under open governance

Why OpenTelemetry is winning the observability battle

Device code phishing-aanval: een ongeluk zit in een klein hoekje

Hoe inconsistente AI een probleem is voor multinationals

Waarom een AI die ‘goed genoeg’ is vaak de slimste keuze is

Bewegend speelveld: vier datamanagementvaardigheden die Nederlandse bedrijven nu nodig hebben

GOTO Copenhagen 2026

Tijd om virtualisatie te evalueren

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Zo gaat jouw IT-organisatie van reactief trainen naar roadmap-gedreven skills-opbouw