OpenAI heeft het nieuwe model CriticGPT ontwikkeld om fouten in door ChatGPT gegenereerde code te identificeren. Dit moet bijdragen aan het accurater maken van de output van large language models (LLM’s).
Normaliter wordt voor het verbeteren van de output Reinforcement Learning from Human Feedback (RLHF) gebruikt. Hierbij beoordeelt een mens de uitkomst van het model om deze vervolgens verder te verfijnen. Dit kan veel tijd in beslag nemen en een foutgevoelige taak zijn. Zeker wanneer een model enorm groot is, kan het aantal foutieve of ongewenste reacties groot zijn.
OpenAI wil daar verandering in brengen door GPT-4 aan de basis te laten staan van CriticGPT. “Wanneer mensen hulp krijgen van CriticGPT om ChatGPT-code te beoordelen, overtreffen ze mensen zonder deze hulp 60 procent van de keren”, aldus de maker van de nieuwe tool. CriticGPT zou ook hallucinaties opsporen die mensen zelf soms niet waarnemen.
Het nieuwe model is getraind op basis van een dataset van code samples met opzettelijke bugs en sample feedback. Hierdoor is CriticGPT in staat veel voorkomende fouten op te sporen, maar ook fouten die minder vaak voorkomen.
Prestaties
Om aan te tonen hoe CriticGPT presteert, vergeleek OpenAI het model met de prestaties van mensen. Het bleek capabeler te zijn dan de gemiddelde menselijke code reviewer. De critiques, dus de constateringen en omschrijvingen van de fouten, kregen in 63 procent van de gevallen zelfs de voorkeur boven critiques geschreven door mensen. Dit komt volgens OpenAI doordat het model minder muggenzift over code en minder false positives genereert dan mensen zelf.
Het is de bedoeling dat OpenAI CriticGPT-achtige modellen integreert in zijn RLHF-labeling pipeline, zodat modeltrainers assistentie krijgen. Veel van de resultaten die OpenAI nu nog toont, zijn vooral afkomstig uit een onderzoeksfase.