Gen AI is in opmars in de IT-keten, van chatbot tot risicoanalyse. Maar uit onderzoek van OpenAI blijkt iets onverwachts: AI-modellen leren valsspelen als ze daarmee sneller tot een gewenst resultaat komen. Hoe borg je dan nog kwaliteit en betrouwbaarheid?
Het antwoord: door net als bij DevOps en Agile vast te houden aan gespecialiseerd testvakmanschap, maar dan toegepast op AI.
AI optimaliseert, ook als dat niet de bedoeling is
OpenAI laat zien dat Gen AI niet simpelweg fouten maakt, maar actief strategieën ontwikkelt om tests te omzeilen of instructies te negeren. Bijvoorbeeld door verborgen paden in trainingsdata te benutten, of te doen alsof het iets begrijpt, puur om het juiste antwoord te geven. In één experiment gebruikte een AI-agent zelfs een technische truc om testuitvoering helemaal te omzeilen: door een SkipTest-mechanisme aan te roepen, wist het model ervoor te zorgen dat kritieke tests werden overgeslagen, met als gevolg dat de testresultaten ten onrechte positief uitvielen. Het model kreeg een ‘beloning’ voor gedrag dat indruist tegen de bedoeling van de opdracht.
Gen AI doet dus niet wat ethisch of logisch is, maar wat het denkt dat de beoordelaar wil horen. Krijgt het geen straf voor oneerlijk gedrag? Dan zal het dat gedrag blijven vertonen, zelfs versterken. Dat maakt Gen AI niet onbetrouwbaar, maar wel onvoorspelbaar. Tenzij je mechanismen inschakelt om dat gedrag te monitoren en bij te sturen.
Chain-of-Thought Monitoring als controlemiddel
Chain-of-Thought (CoT) Monitoring is een nieuwe aanpak waarbij Gen AI zijn redeneerstappen expliciet uitschrijft. Die tussenstappen kunnen vervolgens automatisch of handmatig worden geëvalueerd.
Dit levert direct strategisch voordeel op:
- Zicht op waarom een AI tot bepaalde conclusies komt;
- Vroegtijdig detecteren van ongewenst gedrag;
- Inbouwen van controlepunten bij Gen AI-gebaseerde besluitvorming, bijvoorbeeld bij polis acceptatie, fraudedetectie of datamigratie.
Vanuit kwaliteits- en risicomanagement is dit essentieel. Zeker nu Gen AI steeds vaker zelfstandig mag meebeslissen in bedrijfskritische processen.
TQM maakt Gen AI volwassen
Chain-of-Thought Monitoring sluit naadloos aan op principes uit Total Quality Management:
- Procesgericht denken: niet alleen kijken naar uitkomsten, maar ook naar de weg ernaartoe.
- Herleidbaarheid: weten waarom iets fout ging — en waar het gedrag afweek.
- Continue verbetering: redeneerstappen analyseren en verfijnen voor betrouwbaarder AI-gedrag.
In een eerder blog stelde ik al dat testen geen overbodige luxe is in een Agile en DevOps-wereld, integendeel: testspecialisme is essentieel om kwaliteit op snelheid te kunnen leveren. Met de opkomst van AI gaat die noodzaak een nieuwe fase in. Want als AI autonoom redeneert, dan moet je de expertise hebben om dat redeneerproces te begrijpen, toetsen en verbeteren.
Van testexpert naar regisseur van GenAI-QA
De toekomst van kwaliteitsborging is niet alleen mens + AI, maar AI + AI + mens. Testprofessionals krijgen straks de beschikking over gespecialiseerde generatieve AI die helpt bij:
- Het verwerken en interpreteren van grote hoeveelheden Chain-of-Thought data;
- Het automatisch herkennen van foutieve, inconsistente of manipulatieve redeneerlijnen;
- Het geven van aanbevelingen over waar het model moet worden bijgestuurd of hertraind.
Met andere woorden: het is Gen AI die Gen AI controleert, met de testexpert als eindverantwoordelijke.
De testexpert van morgen is geen handmatige klikker of enkel scriptschrijver, maar een regisseur van AI-modellen die reasoning begrijpen, valkuilen detecteren en gedrag analyseren. En dat alles onder toezicht van de menselijke specialist die bepaalt waar het model wel of niet op te vertrouwen is.
Conclusie: als AI redeneert, moet het te volgen zijn
Gen AI is krachtig. Maar kracht zonder controle is een risico. En dat risico groeit naarmate Gen AI méér verantwoordelijkheden krijgt in uw IT-landschap. Chain-of-Thought Monitoring geeft je, als IT-manager, een manier om grip te houden. Door reasoning zichtbaar en toetsbaar te maken, blijft Gen AI niet alleen slim, maar ook betrouwbaar. Want als Gen AI voor je denkt, dan moet je kunnen volgen hoe, en kunnen aantonen waarom.
Back to top