3min Analytics

OpenAI ruilt met GPT-5.3-Codex-Spark Nvidia in voor Cerebras

OpenAI ruilt met GPT-5.3-Codex-Spark Nvidia in voor Cerebras

OpenAI brengt GPT-5.3-Codex-Spark uit, een kleiner AI-codeermodel dat meer dan 1000 tokens per seconde genereert op Cerebras-hardware. Het is het eerste GPT-model van OpenAI dat niet op Nvidia draait.

Het model is geoptimaliseerd voor ultrasnelle inferencing op Cerebras’ Wafer Scale Engine 3, waarbij OpenAI een latency-first serving tier toevoegt aan de bestaande infrastructuur. De snelheid komt goed van pas bij interactief werk waar ontwikkelaars direct feedback nodig hebben.

OpenAI kondigde in januari een meerjarige samenwerking met Cerebras aan, waarbij het bedrijf grootschalige rekenkracht inkoopt ter ondersteuning van zijn AI-diensten. Die deal omvat naar verluidt tot 750 megawatt rekenvermogen over drie jaar. Codex-Spark is het eerste concrete resultaat van deze samenwerking.

Snelheid versus intelligentie

De nieuwste frontier-modellen van OpenAI kunnen uren, dagen of weken autonoom werken aan langlopende taken. Codex-Spark vult dat aan met een model voor real-time aanpassingen. Ontwikkelaars kunnen tijdens het werk onderbreken of bijsturen, waarbij het model direct reageert met gerichte edits aan code, logica of interfaces.

Door de focus op snelheid houdt Codex-Spark de werkmethode licht. Het maakt minimale, gerichte aanpassingen. Bij de lancering beschikt het model over een 128k contextvenster en is het alleen tekstueel. Tijdens de preview gelden aparte rate limits die kunnen fluctueren bij hoge vraag.

Op benchmarks als SWE-Bench Pro en Terminal-Bench 2.0 presteert GPT-5.3-Codex-Spark sterk, waarbij taken in een fractie van de tijd worden voltooid vergeleken met GPT-5.3-Codex. Op Terminal-Bench 2.0 haalde Codex-Spark 77,3 procent nauwkeurigheid, een verbetering ten opzichte van de 64 procent van GPT-5.2-Codex.

Latency-verbeteringen voor alle modellen

OpenAI implementeerde latency-verbeteringen in de volledige request-response pipeline die alle modellen ten goede komen. Het bedrijf stroomlijnde hoe responses streamen tussen client en server, herschreef delen van de inference stack en paste sessie-initialisatie aan.

Via een WebSocket-verbinding en gerichte optimalisaties in de Responses API daalde de overhead per client-server roundtrip met 80 procent. Ook de per-token overhead verminderde met 30 procent, terwijl time-to-first-token halveerde. Het WebSocket-pad is standaard ingeschakeld voor Codex-Spark en wordt binnenkort de standaard voor alle modellen.

Samenwerking met Cerebras

Codex-Spark draait op Cerebras’ Wafer Scale Engine 3, een gespecialiseerde AI-accelerator voor snelle inferencing. OpenAI integreerde dit low-latency pad in dezelfde productie-serving stack als de rest van de infrastructuur, zodat het naadloos werkt binnen Codex en toekomstige modellen ondersteunt.

GPU’s blijven fundamenteel voor training en inferencing bij OpenAI en leveren de meest kosteneffectieve tokens voor breed gebruik. Cerebras vult dat aan door uit te blinken in workflows die extreem lage latentie vereisen. Volgens OpenAI kunnen GPU’s en Cerebras gecombineerd worden voor enkele workloads om de beste prestaties te bereiken.

Codex-Spark is per direct beschikbaar voor ChatGPT Pro-gebruikers in de nieuwste versies van de Codex-app, CLI en VS Code-extensie. Omdat het model op gespecialiseerde low-latency hardware draait, gelden aparte rate limits die kunnen wijzigen op basis van vraag. Voor een kleine groep design partners is Codex-Spark ook via de API beschikbaar. Toegang wordt de komende weken uitgebreid.