4min Devops

Devin is de eerste AI software engineer: moeten ontwikkelaars zich zorgen maken?

Insight: Generatieve AI

Berry Zwets13 maart 2024 11:2329 april 2024

De startup Cognition AI heeft een chatbot ontwikkeld die generatieve AI gebruikt voor softwareontwikkeling. Dat is op zich nog niet zo heel interessant. Wel interessant is dat Devin dit volledig zelfstandig kan doen. De prestaties zijn op basis van eerste benchmarks ook nog eens behoorlijk goed. Moeten developers zich zorgen gaan maken?

Devin wil dus een stap verder gaan dan wat op dit moment mogelijk is met GPT-4, Llama en Claude 2. Het is in staat om zelfstandig softwareontwikkeling uit te voeren. Een ontwikkelaar kan bijvoorbeeld aan Devin vragen om een website te bouwen die alle supermarkten in Breda in kaart brengt. Vervolgens gaat Devin op zoek naar de adressen en contactinformatie van de supermarkten, waarna het de website bouwt waarop de supermarkten zichtbaar zijn. De ontwikkelaar ziet stapsgewijs wat er gebeurt, de codeprojecten en dataonderzoekstaken zijn allemaal zichtbaar.

Hieronder zie je een video die Cognition AI online heeft gezet rondom de lancering van Devin:

De chatbot beschikt over de tools die developers normaliter gebruiken voor hun ontwikkeltaken. Het beschikt over een code editor, browser en shell. “Alles wat een mens nodig heeft om zijn werk te doen” is volgens Cognition AI CEO Scott Wu aanwezig. De tools zijn in een sandbox-omgeving te draaien. Devin moet binnen deze omgeving samenwerken met de ontwikkelaar door naast de real-time reporting over het project feedback te verwerken en designkeuzes door te voeren.

Op de website heeft Cognition AI ook demo’s gepubliceerd van de verschillende developmenttaken die Devin afhandelt. Hierin is te zien hoe de chatbot helpt bij het oplossen van veel voorkomende problemen van code. Zo kan Devin automatisch bugs in code vinden en ze oplossen. Dergelijke bugs kunnen bijvoorbeeld in softwareprojecten sluipen door het gebruik van open-source repositories.

Devin verslaat GPT-4, Llama en Claude 2

Daarmee is Devin in theorie een interessante optie voor het ontwikkelen van software. Cognition AI heeft bij de introductie van Devin echter ook een benchmark gepubliceerd. Deze benchmark zegt wat meer over de software engineering-prestaties. Er werd vertrouwd op de SWE-bench, een test die vraagt om GitHub-problemen uit open-source projecten als Django en scikit-learn op te lossen. Dit zijn problemen waar developers bij hun werkzaamheden regelmatig tegenaan kunnen lopen.

De performance van Devin werd geëvalueerd op basis van 25 procent willekeurige data. Uiteindelijk zijn de prestaties vergeleken met de andere modellen. Daaruit zijn de volgende statistieken naar voren gekomen.

Een grafiek van blauwe vierkantjes.

Een belangrijk verschil tussen de prestaties van de modellen in bovenstaande grafiek is dat Devin zelfstandig werkt. Als Claude 2 zelfstandig werkt, haalt het een percentage van 1,96. Beide Llama-modellen scoren in de SWE-bench in dat geval 0,7 procent, terwijl ChatGPT 3.5 uitkomt op 0,2 procent. GPT-4 wist zelfs niets op te lossen. Het is echter vermeldenswaardig dat de resultaten van de concurrerende modellen allemaal dateren van 10 oktober 2023, wat betekent dat ze mogelijk zijn verbeterd sinds die tijd en meer problemen kunnen oplossen.

Belofte moet zich nog bewijzen

De benchmark geeft inzicht in de belofte van Devin, maar aanvullende tests zullen moeten laten zien hoe ver de chatbot echt is. Cognition AI zegt dat het snel met aanvullende technische onderzoeken komt. Dit zal meer duidelijkheid scheppen over hoe Devin in andere tests presteert ten opzichte van concurrenten.

Tot slot is het goed op te merken dat het bedrijf Cognition AI pas twee maanden bestaat en het zichzelf nog volop moet bewijzen. Wel zitten er gezien het veelbelovende karakter al miljoeneninvesteringen in het bedrijf.

Vooralsnog is Devin enkel te gebruiken via een early access-programma. Ontwikkelaars kunnen toegang krijgen door het aan te vragen via een Google Docs.

Tip: ‘Claude 3 is beter dan GPT-4 en Gemini’: OpenAI heeft steeds meer concurrenten

Keuze van de redactie

Achter de schermen van de Formule E strijdt TCS digitaal mee

De wereld van de Formule E is er een van technologie en snelheid, maa...

Siemens voegt AI-copilot en VR-functies toe aan NX-software

Siemens heeft grote updates aangekondigd voor zijn NX- en NX X-softwa...

Insight: Generatieve AI

AI ondergaat via goede prompts ware metamorfose

Het gebruiken van taalmodellen verandert de manier waarop bedrijven a...

Te veel data gedeeld met Copilot, Microsoft trekt aan rem

Met een Microsoft 365 Copilot deployment blueprint moet het delen van...

Snowflake maakt van de AI Data Cloud het brein van ieder bedrijf

Na meer dan tien jaar bouwen ziet Snowflake zich voor een nieuw tijdp...

Meta onthult krachtig open-source model Llama 3 en chatbot Meta AI

Meta heeft Llama 3 aangekondigd, de opvolger van het zeer succesvolle...

Lees meer over Devops

Google vertelt eigen programmeurs hoe het AI moet gebruiken

In april zei CEO Sundar Pichai (foto) dat AI bij Google meer dan 30 procent van de code genereert. Nu geeft h...

Mels Dees 3 dagen geleden

Windows 11 25H2 beschikbaar voor Insiders

Microsoft stelt Windows 11 versie 25H2 beschikbaar voor deelnemers aan het Windows Insider-programma. De bred...

Mels Dees 30 juni 2025

OpenAI-personeel onder druk, Meta biedt torenhoge tekenbonussen

OpenAI gaat zijn beloningsstructuur herzien nadat meerdere toponderzoekers zijn overgestapt naar concurrent M...

Mels Dees 30 juni 2025

De onvermijdelijke schrikreflex tegen vibe coding

AI-code groeit, code review groeit niet mee

Erik van Klinken 23 juni 2025

Tech calendar

GITEX DIGI_HEALTH 5.0 - Thailand

10 September 2025 BITEC Bangkok, Thailand

IT Arena

26 September 2025 Lviv, Ukraine

Innovation Week 2025

9 October 2025 Prague

Luxembourg Venture Days

22 October 2025 Luxembourg

Appdevcon

10 March 2026 Amsterdam

Webdevcon

10 March 2026 Amsterdam

Whitepapers

Verbeter je digitale ervaringen met de Cisco AI Assistant

In het document "Cisco AI Assistant Solution Brief" wordt de rol van ...

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Hoe garandeer je de veiligheid van bedrijfsdata én zorg je ervoor da...

Versnel je AI-succes met NVIDIA AI Computing van HPE

In het document "Sneller succes met AI dankzij NVIDIA AI Computing va...

Versterk je cybersecurity met DNS best practices

In het whitepaper "DNS Best Practices" van Infoblox worden essentiël...