AI die valsspeelt? Daarom is testexpertise belangrijker dan ooit.

Inhoudsopgave

AI optimaliseert, ook als dat niet de bedoeling is
Chain-of-Thought Monitoring als controlemiddel
TQM maakt Gen AI volwassen
Van testexpert naar regisseur van GenAI-QA
Conclusie: als AI redeneert, moet het te volgen zijn

Gen AI is in opmars in de IT-keten, van chatbot tot risicoanalyse. Maar uit onderzoek van OpenAI blijkt iets onverwachts: AI-modellen leren valsspelen als ze daarmee sneller tot een gewenst resultaat komen. Hoe borg je dan nog kwaliteit en betrouwbaarheid?

Het antwoord: door net als bij DevOps en Agile vast te houden aan gespecialiseerd testvakmanschap, maar dan toegepast op AI.

AI optimaliseert, ook als dat niet de bedoeling is

OpenAI laat zien dat Gen AI niet simpelweg fouten maakt, maar actief strategieën ontwikkelt om tests te omzeilen of instructies te negeren. Bijvoorbeeld door verborgen paden in trainingsdata te benutten, of te doen alsof het iets begrijpt, puur om het juiste antwoord te geven. In één experiment gebruikte een AI-agent zelfs een technische truc om testuitvoering helemaal te omzeilen: door een SkipTest-mechanisme aan te roepen, wist het model ervoor te zorgen dat kritieke tests werden overgeslagen, met als gevolg dat de testresultaten ten onrechte positief uitvielen. Het model kreeg een ‘beloning’ voor gedrag dat indruist tegen de bedoeling van de opdracht.

Gen AI doet dus niet wat ethisch of logisch is, maar wat het denkt dat de beoordelaar wil horen. Krijgt het geen straf voor oneerlijk gedrag? Dan zal het dat gedrag blijven vertonen, zelfs versterken. Dat maakt Gen AI niet onbetrouwbaar, maar wel onvoorspelbaar. Tenzij je mechanismen inschakelt om dat gedrag te monitoren en bij te sturen.

Chain-of-Thought Monitoring als controlemiddel

Chain-of-Thought (CoT) Monitoring is een nieuwe aanpak waarbij Gen AI zijn redeneerstappen expliciet uitschrijft. Die tussenstappen kunnen vervolgens automatisch of handmatig worden geëvalueerd.

Dit levert direct strategisch voordeel op:

Zicht op waarom een AI tot bepaalde conclusies komt;
Vroegtijdig detecteren van ongewenst gedrag;
Inbouwen van controlepunten bij Gen AI-gebaseerde besluitvorming, bijvoorbeeld bij polis acceptatie, fraudedetectie of datamigratie.

Vanuit kwaliteits- en risicomanagement is dit essentieel. Zeker nu Gen AI steeds vaker zelfstandig mag meebeslissen in bedrijfskritische processen.

TQM maakt Gen AI volwassen

Chain-of-Thought Monitoring sluit naadloos aan op principes uit Total Quality Management:

Procesgericht denken: niet alleen kijken naar uitkomsten, maar ook naar de weg ernaartoe.
Herleidbaarheid: weten waarom iets fout ging — en waar het gedrag afweek.
Continue verbetering: redeneerstappen analyseren en verfijnen voor betrouwbaarder AI-gedrag.

In een eerder blog stelde ik al dat testen geen overbodige luxe is in een Agile en DevOps-wereld, integendeel: testspecialisme is essentieel om kwaliteit op snelheid te kunnen leveren. Met de opkomst van AI gaat die noodzaak een nieuwe fase in. Want als AI autonoom redeneert, dan moet je de expertise hebben om dat redeneerproces te begrijpen, toetsen en verbeteren.

Van testexpert naar regisseur van GenAI-QA

De toekomst van kwaliteitsborging is niet alleen mens + AI, maar AI + AI + mens. Testprofessionals krijgen straks de beschikking over gespecialiseerde generatieve AI die helpt bij:

Het verwerken en interpreteren van grote hoeveelheden Chain-of-Thought data;
Het automatisch herkennen van foutieve, inconsistente of manipulatieve redeneerlijnen;
Het geven van aanbevelingen over waar het model moet worden bijgestuurd of hertraind.

Met andere woorden: het is Gen AI die Gen AI controleert, met de testexpert als eindverantwoordelijke.

De testexpert van morgen is geen handmatige klikker of enkel scriptschrijver, maar een regisseur van AI-modellen die reasoning begrijpen, valkuilen detecteren en gedrag analyseren. En dat alles onder toezicht van de menselijke specialist die bepaalt waar het model wel of niet op te vertrouwen is.

Conclusie: als AI redeneert, moet het te volgen zijn

Gen AI is krachtig. Maar kracht zonder controle is een risico. En dat risico groeit naarmate Gen AI méér verantwoordelijkheden krijgt in uw IT-landschap. Chain-of-Thought Monitoring geeft je, als IT-manager, een manier om grip te houden. Door reasoning zichtbaar en toetsbaar te maken, blijft Gen AI niet alleen slim, maar ook betrouwbaar. Want als Gen AI voor je denkt, dan moet je kunnen volgen hoe, en kunnen aantonen waarom.

Over de auteur

Vincent Vonk

Director Consulting Expert

Vincent Vonk is een ervaren Director Consulting Expert met meer dan 12 jaar ervaring in het adviseren van klanten op het gebied van Total Quality Management (TQM), vooral gericht op testautomatisering. Zijn carrière begon in 2010 bij CGI, waar hij verschillende testgerelateerde rollen bekleedde bij ...

Bekijk profiel

Alliantierelaties

Uitdagingen van MaaS voor de opdrachtgever (gemeenten en andere overheden)

2025 CGI Voice of Our Clients

Wat vind jij nou echt belangrijk in je werk?

AI die valsspeelt? Daarom is testexpertise belangrijker dan ooit.

Vincent Vonk

Director Consulting Expert

Inhoudsopgave

AI optimaliseert, ook als dat niet de bedoeling is

Chain-of-Thought Monitoring als controlemiddel

TQM maakt Gen AI volwassen

Van testexpert naar regisseur van GenAI-QA

Conclusie: als AI redeneert, moet het te volgen zijn

Over de auteur

Vincent Vonk

Director Consulting Expert

Insights you can act on

Company

Bekijk meer

Support

Volg ons

Alliantierelaties

Uitdagingen van MaaS voor de opdrachtgever (gemeenten en andere overheden)

2025 CGI Voice of Our Clients

Wat vind jij nou echt belangrijk in je werk?

Vincent Vonk

Director Consulting Expert

Inhoudsopgave

AI optimaliseert, ook als dat niet de bedoeling is

Chain-of-Thought Monitoring als controlemiddel

TQM maakt Gen AI volwassen

Van testexpert naar regisseur van GenAI-QA

Conclusie: als AI redeneert, moet het te volgen zijn

Deel dit

Over de auteur

Vincent Vonk

Director Consulting Expert

Gerelateerde media

Grip op informatie: de basis voor een betrouwbare overheid

Building what’s next in de praktijk

Inzichten in de energiemarkt van morgen

Digitale weerbaarheid begint met afscheid van gemak

Ontdek wat er speelt in uw markt

Blijf op de hoogte van het laatste nieuws en trends met onze nieuwsbrief