OpenAI opent de deur naar reinforcement fine-tuning voor o4-mini

OpenAI opent de deur naar reinforcement fine-tuning voor o4-mini

OpenAI stelt reinforcement fine-tuning (RFT) beschikbaar voor externe ontwikkelaars die gebruikmaken van het o4-mini redeneermodel. Daarmee krijgen bedrijven voor het eerst de mogelijkheid om deze compacte AI-engine aan te passen aan hun eigen bedrijfscontext. Dit, zonder dat ze zelf complexe machine learning-infrastructuur hoeven op te zetten.

De aankondiging verscheen op het ontwikkelaarsaccount van OpenAI op X. Ontwikkelaars kunnen nu via het platform van OpenAI een aangepaste versie van het o4-mini model trainen. En wel afgestemd op specifieke interne behoeften zoals producten, processen, terminologie of veiligheidsnormen. Bedrijven kunnen het aangepaste model vervolgens inzetten via de OpenAI API en koppelen aan interne systemen, zoals databanken, bedrijfsapplicaties of custom chatbots.

Fijnere afstemming

Reinforcement fine-tuning verschilt fundamenteel van traditionele supervised training. Waar klassieke modellen worden getraind op vaste vraag-antwoordparen, werkt RFT met een beoordelingsmodel dat meerdere antwoorden per prompt beoordeelt en op basis daarvan het taalmodel bijstuurt. Dit zorgt voor veel fijnere afstemming op subtiele vereisten, zoals het hanteren van een specifieke communicatiestijl, beleidsrichtlijnen of domeinspecifieke expertise.

Volgens OpenAI kunnen ontwikkelaars het hele proces relatief eenvoudig doorlopen. Via het dashboard of een API kunnen ze een trainingssessie starten, datasets uploaden, beoordelingslogica instellen en de voortgang in real-time volgen. RFT is momenteel alleen beschikbaar voor modellen in de o-serie, en dan specifiek voor het o4-mini model.

De eerste resultaten uit het bedrijfsleven zijn veelbelovend. Zo wist Accordance AI de prestaties van een model voor belastinganalyses met bijna 40 procent te verbeteren. Ambience Healthcare verhoogde de nauwkeurigheid bij medische codering en Harvey boekte succes bij juridische documentanalyse. Andere toepassingen, zoals het genereren van Stripe API-code (Runloop), complexe planningsscenario’s (Milo) en contentmoderatie (SafetyKit), lieten vergelijkbare verbeteringen zien.

Transparanter kostenmodel

Het kostenmodel van RFT is transparanter dan eerdere fine-tuningopties. In plaats van af te rekenen per verwerkte token, wordt er gefactureerd per seconde actieve trainingstijd, tegen een tarief van $100 per uur. Alleen daadwerkelijke modelaanpassingen worden in rekening gebracht; voorbereidende fases of wachttijden niet. Wie OpenAI-modellen inzet om antwoorden te beoordelen, betaalt daarvoor apart via de reguliere API-tarieven, maar kan ook kiezen voor goedkopere, externe beoordelaars. Organisaties die hun trainingsdata delen met OpenAI krijgen bovendien 50 procent korting, een duidelijke stimulans voor samenwerking en verdere verbetering van de modellen.

Met RFT biedt OpenAI organisaties meer controle en expressiviteit bij de inzet van AI, zonder dat daar specialistische AI-teams of eigen infrastructuur voor nodig zijn. Voor bedrijven met goed gedefinieerde taken en meetbare doelstellingen betekent dit een nieuwe manier om taalmodellen nauwkeurig af te stemmen op de praktijk.

Geïnteresseerde ontwikkelaars kunnen meteen aan de slag via de fine-tuningdocumentatie van OpenAI.