OpenAI lanceert o1, de slimste krachtbron ooit voor ChatGPT

OpenAI lanceert o1, de slimste krachtbron ooit voor ChatGPT

Om complexe zaken te bespreken, moest ChatGPT slimmer worden. Het AI-model o1-preview is het startschot van OpenAI om de populaire chatbot beter dan ooit te laten redeneren, coderen en rekenen.

o1, dat allereerst lanceert in previewvorm, is de nieuwe naam voor “Project Strawberry”. Deze LLM gooide in de geruchtenmachine al hoge ogen. Nu legt OpenAI eindelijk zelf uit wat o1 precies kan.

De redeneerstap

“o1 denkt voordat het antwoordt”, luidt de introductie van OpenAI rondom het AI-model. Voordat een antwoord daadwerkelijk bij de gebruiker belandt, is het eventjes wachten. In tegenstelling tot GPT-4o, de vorige stap vooruit in de OpenAI-modellenreeks, is o1 langzamer dan zijn voorgangers.

Het eindresultaat is een chatbot die beter controleert of wat het gaat zeggen ook echt klopt. OpenAI heeft hiervoor Chain-of-Thought Prompting ingebouwd in het model. Voorheen was het aan eindgebruikers om zelf te sleutelen aan een prompt die vanuit de API verscheen. Nu herkent en corrigeert OpenAI zelf de fouten die al sinds de introductie van ChatGPT een hardnekkig probleem zijn gebleven.

Inzichtelijk

Een belangrijke uitbreiding van o1-preview is dat het eindelijk meer inzicht geeft in de creatie van een AI-antwoord. OpenAI geeft een dropdownmenu met als naam “Thought for a few seconds” en laat daarin zien wat er achter de schermen plaatsvindt tijdens het “gedachtenproces” van ChatGPT. Hieronder een voorbeeld:

Screenshot 2024-09-13 090656

Afgezien van het feit dat o1-preview het aantal r-en correct optelt in ‘strawberry’ (iets waar GPT-3, GPT-4 en andere OpenAI-modellen niet in slaagden), is dit stukje inzicht uiterst nuttig. Voor complexe rekenproblemen presteert o1-preview al aanzienlijk beter dan GPT-4o, de vorige leider vanuit OpenAI. De MATH-benchmark, dat rekenproblemen voorlegt in menselijke taal, wordt door o1 met een score van 94,8 procent behaald. GPT-4o bleef haken bij 60,3.

Daarnaast behoort o1 tot het 89e percentiel in de competitieve programmeertest van Codeforces. Ook zou het een PhD kunnen behalen in natuurkunde, biologie en scheikunde.

Direct beschikbaar

Wie o1-preview uit wil proberen, kan direct aan de slag. Althans, als men een ChatGPT Plus-abonnement afneemt. In tegenstelling tot GPT-4o wacht OpenAI nog even met de uitrol naar algemene gebruikers.

Lees ook: ‘AI-supermodel’ Strawberry komt eerder dan verwacht