3min

De startup Cognition AI heeft een chatbot ontwikkeld die generatieve AI gebruikt voor softwareontwikkeling. Dat is op zich nog niet zo heel interessant. Wel interessant is dat Devin dit volledig zelfstandig kan doen. De prestaties zijn op basis van eerste benchmarks ook nog eens behoorlijk goed. Moeten developers zich zorgen gaan maken?

Devin wil dus een stap verder gaan dan wat op dit moment mogelijk is met GPT-4, Llama en Claude 2. Het is in staat om zelfstandig softwareontwikkeling uit te voeren. Een ontwikkelaar kan bijvoorbeeld aan Devin vragen om een website te bouwen die alle supermarkten in Breda in kaart brengt. Vervolgens gaat Devin op zoek naar de adressen en contactinformatie van de supermarkten, waarna het de website bouwt waarop de supermarkten zichtbaar zijn. De ontwikkelaar ziet stapsgewijs wat er gebeurt, de codeprojecten en dataonderzoekstaken zijn allemaal zichtbaar.

Hieronder zie je een video die Cognition AI online heeft gezet rondom de lancering van Devin:

De chatbot beschikt over de tools die developers normaliter gebruiken voor hun ontwikkeltaken. Het beschikt over een code editor, browser en shell. “Alles wat een mens nodig heeft om zijn werk te doen” is volgens Cognition AI CEO Scott Wu aanwezig. De tools zijn in een sandbox-omgeving te draaien. Devin moet binnen deze omgeving samenwerken met de ontwikkelaar door naast de real-time reporting over het project feedback te verwerken en designkeuzes door te voeren.

Op de website heeft Cognition AI ook demo’s gepubliceerd van de verschillende developmenttaken die Devin afhandelt. Hierin is te zien hoe de chatbot helpt bij het oplossen van veel voorkomende problemen van code. Zo kan Devin automatisch bugs in code vinden en ze oplossen. Dergelijke bugs kunnen bijvoorbeeld in softwareprojecten sluipen door het gebruik van open-source repositories.

Devin verslaat GPT-4, Llama en Claude 2

Daarmee is Devin in theorie een interessante optie voor het ontwikkelen van software. Cognition AI heeft bij de introductie van Devin echter ook een benchmark gepubliceerd. Deze benchmark zegt wat meer over de software engineering-prestaties. Er werd vertrouwd op de SWE-bench, een test die vraagt om GitHub-problemen uit open-source projecten als Django en scikit-learn op te lossen. Dit zijn problemen waar developers bij hun werkzaamheden regelmatig tegenaan kunnen lopen.

De performance van Devin werd geëvalueerd op basis van 25 procent willekeurige data. Uiteindelijk zijn de prestaties vergeleken met de andere modellen. Daaruit zijn de volgende statistieken naar voren gekomen.

Een grafiek van blauwe vierkantjes.

Een belangrijk verschil tussen de prestaties van de modellen in bovenstaande grafiek is dat Devin zelfstandig werkt. Als Claude 2 zelfstandig werkt, haalt het een percentage van 1,96. Beide Llama-modellen scoren in de SWE-bench in dat geval 0,7 procent, terwijl ChatGPT 3.5 uitkomt op 0,2 procent. GPT-4 wist zelfs niets op te lossen. Het is echter vermeldenswaardig dat de resultaten van de concurrerende modellen allemaal dateren van 10 oktober 2023, wat betekent dat ze mogelijk zijn verbeterd sinds die tijd en meer problemen kunnen oplossen.

Belofte moet zich nog bewijzen

De benchmark geeft inzicht in de belofte van Devin, maar aanvullende tests zullen moeten laten zien hoe ver de chatbot echt is. Cognition AI zegt dat het snel met aanvullende technische onderzoeken komt. Dit zal meer duidelijkheid scheppen over hoe Devin in andere tests presteert ten opzichte van concurrenten.

Tot slot is het goed op te merken dat het bedrijf Cognition AI pas twee maanden bestaat en het zichzelf nog volop moet bewijzen. Wel zitten er gezien het veelbelovende karakter al miljoeneninvesteringen in het bedrijf.

Vooralsnog is Devin enkel te gebruiken via een early access-programma. Ontwikkelaars kunnen toegang krijgen door het aan te vragen via een Google Docs.

Tip: ‘Claude 3 is beter dan GPT-4 en Gemini’: OpenAI heeft steeds meer concurrenten