De toekomst van generatieve AI in softwaretesten

De toekomst van generatieve AI in softwaretesten

De cloud is voor iedereen, maar niet voor alles. Dat weten we. Generatieve AI is zeker ook voor iedereen, maar (volgens de technologie-evangelisten die zich hiervoor inzetten) zou het potentieel kunnen worden toegepast op alles wat met IT te maken heeft. Een gebied waarop het zeker toepasbaar is, is softwaretesten. De belangrijkste redenen hiervoor zijn het feit dat het diverse (en vaak vervelende) testcases kan automatiseren. Ook kan het realistische datastromen genereren en bugs nauwkeurig voorspellen. Dit door het vermogen van AI om codebases te verwerken en te analyseren voordat het mensachtige redeneringen toepast. Wat moeten we nog meer weten op dit gebied?

Een recent rapport van Gartner voorspelde een historisch jaar voor investeringen in generatieve AI. De wereldwijde IT-uitgaven zullen in 2026 naar verwachting 6,15 biljoen dollar bedragen, een stijging van 10,8 procent ten opzichte van vorig jaar. Naarmate die investeringen toenemen, zullen we AI zowel als ontwikkelaar als tester blijven zien, code schrijven, tests genereren en het productgedrag zelf vormgeven. Dat gezegd hebbende, snelheid alleen staat niet gelijk aan gereedheid. Zoals blijkt uit de opkomst van “vibe coding“, is de grootste uitdaging niet of AI output kan produceren, maar of bedrijven kunnen valideren wat het op grote schaal produceert.

Grote fans van generatieve AI in softwaretesten zijn Hélder Ferreira, directeur productmanagement bij Sembi. Dat is een bedrijf dat bekend staat om zijn technologie die softwarekwaliteit en beveiligingsoplossingen verenigt; en Bruno Mazzotta, solution engineer manager bij testRigor, een organisatie die bekend staat om zijn eenvoudige, codeloze testautomatisering.

AI als structurele laag binnen leveringspijplijnen

“Nu QA-teams generatieve AI steeds meer in hun workflows integreren, vindt er een belangrijke culturele verschuiving plaats in de wereld van het testen. AI is niet langer alleen een versneller voor individuele taken, maar wordt een structurele laag binnen delivery pipelines. We gaan van snellere generatie naar scherpere uitvoering, en de QA-teams die succesvol zijn, zijn de teams die naast snelheid ook prioriteit geven aan vertrouwen, traceerbaarheid en risicobewustzijn”, aldus Ferreira en Mazzotta in een gezamenlijk gesprek met Techzine deze maand.

In de begintijd van generatieve AI hoopten QA-teams alleen maar dat ze het genereren van testcases konden versnellen. Hoewel AI al snel bewees dat het binnen enkele seconden testartefacten kon genereren, ontdekten menselijke testers vaak grote discrepanties als gevolg van hallucinaties, bias in de data en verkeerde interpretaties van code en logica. In de meeste gevallen ging snelheid ten koste van kwaliteit en duidelijkheid, en moesten testers artefacten opschonen die er correct uitzagen, maar context misten.

Ferreira en Mazzotta suggereren dat de “illusie van correctheid” hier nu een bredere zorg is voor bedrijven.

“Naarmate door AI gegenereerde code en testartefacten vaker in pijplijnen terechtkomen, moet validatie samen met generatie evolueren. Wat in de praktijk standhoudt, is ondersteuning van de gehele testlevenscyclus: AI helpt bij planning, uitvoering, triage, onderhoud en prioritering, terwijl mensen verantwoordelijk blijven voor wat er wordt geleverd. Het doel is om een intelligenter, verbonden ecosysteem te creëren dat volledige context biedt en continu tussen fasen stroomt”, merken de twee op.

Ferreira en Mazzotta leggen uit hoe dit in de praktijk zal werken en doen voorstellen voor hoe vooruitstrevende QA-leiders AI kunnen integreren in elke laag van de testcyclus, waaronder de volgende vier belangrijke gebieden:

#1 Creatie van testdata: AI stelt scenario-gebaseerde datasets voor die zijn afgestemd op randvoorwaarden en bedrijfsregels. Bijvoorbeeld het genereren van factuurrecords met gedeeltelijke betalingen, verlopen rechten, conflicterende belastingregels of grensdatums. Testers beoordelen en keuren datasets goed voor gebruik, waarbij ze ervoor zorgen dat maskeerbeleid en nalevingsbeperkingen worden gehandhaafd.

#2 Verkennend testen: AI suggereert risicovolle prompts of workflowvariaties op basis van recente codewijzigingen, zoals het combineren van nieuwe filterlogica met oude machtigingen of het stresstesten van meerstaps gebruikersstromen. Testers selecteren de suggesties en geven prioriteit aan scenario’s die het meest waarschijnlijk gedragsafwijkingen of onbedoelde randgevallen aan het licht brengen.

#3 Defecttriage: wanneer er na een implementatie meerdere testfouten optreden, clustert AI gerelateerde fouten, benadrukt het gedeelde indicatoren voor de hoofdoorzaak en vat het waarschijnlijke regressiepatronen samen. In plaats van handmatig logboeken door te spitten, kunnen kwaliteits- en engineeringteams zich eerst richten op het valideren en oplossen van de meest impactvolle problemen.

#4 Contextbewuste uitvoering: Na een code- of modelupdate kan AI de wijzigingsgeschiedenis en historische defectpatronen analyseren om een gerichte subset van regressietests aan te bevelen. In plaats van hele suites opnieuw uit te voeren, richten teams zich op de scenario’s die het meest waarschijnlijk een betekenisvol risico aan het licht brengen.

Wanneer AI in staat is om in het hele systeem te werken in plaats van alleen individuele stappen te optimaliseren, wordt het een verbindend weefsel dat intentie, uitvoering en feedback met elkaar verbindt. Het resultaat is meer afstemming in plaats van meer artefacten.

Een intelligentielaag opzetten voor kwaliteit

“Naarmate de levering versnelt, kunnen QA-teams zich niet veroorloven om knelpunten of wrijvingspunten te worden. Het integreren van een end-to-end-verbinding gedurende de hele lifecycle is essentieel om ervoor te zorgen dat AI de kwaliteit handhaaft en menselijke testers een snellere levering kunnen ondersteunen”, leggen Ferreira en Mazzotta uit, die hieronder gedetailleerd beschrijven hoe een kwaliteitsintelligentielaag er in de praktijk uitziet:

  • De intentie achter de test is verankerd in een testbeheersysteem: het behoud van waarom iets belangrijk is en welk risico het dekt.
  • De uitvoering vindt plaats in een automatiseringslaag die is gebouwd voor veerkracht: stabiel, verklaarbaar en waarneembaar.
  • AI combineert de intentie en de uitvoering: het vertaalt vereisten naar onderhoudbare controles, signaleert afwijkingen, correleert resultaten en helpt teams prioriteiten te stellen voor wat ze vervolgens moeten testen, op basis van de impact van veranderingen en bedrijfsrisico’s.

Deze op risico’s gebaseerde prioritering is waar de waarde van AI strategisch wordt. In plaats van simpelweg meer tests te produceren, kan AI kwaliteitsteams helpen beslissen welke dekking het belangrijkst is na een modelupdate, een codewijziging of een UI-verschuiving.

“Wanneer intentie, uitvoering en resultaten los van elkaar staan, verliezen teams context en traceerbaarheid. Wanneer ze met elkaar verbonden zijn, versterkt AI signalen en versterkt het de kernprincipes van DevOps, zoals gedeelde verantwoordelijkheid, transparante workflows en snellere, weloverwogen release-beslissingen. Om dit model op bedrijfsniveau te laten werken, moeten kwaliteitssystemen adaptief en verklaarbaar zijn. Versnelling zonder zichtbaarheid creëert risico’s; adaptieve, verklaarbare automatisering creëert vertrouwen”, verduidelijken Ferreira en Mazzotta.

Prioriteit geven aan toezicht en mensen in de loop

Nu intelligente automatisering het testen transformeert, moeten QA-teams ervoor zorgen dat AI in lijn blijft met de bedrijfsintentie en governance-normen. Terwijl ongecontroleerde automatisering kan leiden tot instabiliteit, bias en complianceproblemen, kunnen menselijke testers deze risico’s helpen beperken door de intentie van AI te valideren en ervoor te zorgen dat kwaliteit niet wordt opgeofferd voor meer output.

Ferreira en Mazzotta zeggen dat menselijke testers de kwaliteit kunnen waarborgen door:

  • De door AI voorgestelde testreparaties te beoordelen voordat ze in de hoofdtak worden geïntegreerd.
  • Door door AI gegenereerde testgegevens te controleren om naleving van regelgevingsnormen te waarborgen.
  • AI-risicoscores te negeren wanneer een andere releaseprioriteit wordt voorgesteld.

Het gaat hier niet om het vertragen van de levering, zeggen de twee. Het gaat om het behouden van de beslissingsbevoegdheid. AI kan voorstellen doen; mensen keuren deze goed. Na verloop van tijd helpt gestructureerde feedback AI-systemen te leren wat kwaliteit binnen een bepaalde organisatie inhoudt, waardoor normen worden versterkt in plaats van af te wijken.

Het testen van AI-gedreven producten introduceert extra nuances. LLM-functies, copilots en assistenten produceren zelden twee keer identieke outputs. Validatie verschuift van statische beweringen naar op intentie gebaseerde controles: heeft het de taak voltooid? Heeft het de beleidsbeperkingen gerespecteerd? Is het gedrag veranderd na de laatste update?

Met andere woorden, toezicht zorgt ervoor dat versnelling niet ten koste gaat van verantwoordelijkheid.

De toekomst van QA: vertrouwen is een belangrijke maatstaf

“In 2026 en daarna zal het onderscheidende vermogen niet liggen in de hoeveelheid AI die een organisatie inzet, maar in hoe goed zij controle uitoefent op wat AI produceert. GenAI zal zich blijven uitbreiden op het gebied van codegeneratie, automatisering en productfuncties. Maar naarmate het aantal door AI gegenereerde artefacten toeneemt, neemt ook de behoefte aan traceerbaarheid, verklaarbaarheid en gestructureerde validatie toe”, concluderen Ferreira en Mazzotta.

Duurzame snelheid gaat hier niet over meer automatisering, maar over de juiste soort automatisering, ingebed in de hele levenscyclus, gekoppeld aan intentie, afgestemd op risico’s en gebaseerd op menselijk toezicht. Als QA niet kan traceren wat er is getest, wat er tussen de runs is veranderd of waarom dat belangrijk is, versnelt AI alleen maar de output. Als dat wel kan, wordt AI iets krachtigers: een intelligente kwaliteitslaag die organisaties helpt om sneller en met vertrouwen te leveren.