LLM's kunnen hun redeneringen nog niet zelf corrigeren — ICLR 2024-bevindingen en implicaties voor Financiële AI
Dit artikel is het directe tegenwicht voor de CRITIC- en Reflexion-onderzoekslijnen die ik heb gelezen. Huang et al. (ICLR 2024) voeren een eenvoudig, ongemakkelijk argument aan: wanneer LLM's hun redenering proberen te corrigeren zonder enig extern signaal, verbeteren ze niet — ze worden slechter. Direct volgend op LOG-013 over CRITIC, waar op tools gebaseerde kritiek echt hielp, verduidelijkt dit artikel precies welk soort "zelfcorrectie" echt is en wat een artefact is van de experimentele opzet.
Het artikel
"Large Language Models Cannot Self-Correct Reasoning Yet" door Jie Huang, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu, Xinying Song en Denny Zhou (Google DeepMind / UIUC) werd gepubliceerd op ICLR 2024. De centrale claim is nauw gedefinieerd, maar vernietigend voor een bepaalde klasse van agent-ontwerpen: intrinsieke zelfcorrectie — een LLM vragen zijn eigen antwoord te beoordelen en te herzien op basis van alleen zijn eigen oordeel, zonder grondwaarheidssignaal — verslechtert consequent de prestaties op redeneerbenchmarks. De verbeteringen die in verschillende eerdere artikelen over zelfcorrectie werden gerapporteerd, zijn volgens de auteurs het resultaat van een subtiele methodologische fout: die artikelen gebruikten orakellabels om te beslissen wanneer te stoppen met corrigeren, wat betekent dat het model alleen reeds foute antwoorden corrigeert. Dat is geen zelfcorrectie; het is door een orakel gestuurde filtering.
Belangrijke ideeën
- Op GSM8K begint GPT-4 met een nauwkeurigheid van 95,5%. Na één ronde van intrinsieke zelfcorrectie daalt dit naar 91,5%, en na een tweede ronde naar 89,0%. GPT-3.5 zakt van 75,9% naar 74,7% over twee rondes.
- De daling is dramatischer op CommonSenseQA: GPT-3.5 zakt van 75,8% naar 38,1% na een enkele zelfcorrectieronde, herstelt zich licht naar 41,8% in ronde twee — maar blijft catastrofaal onder de baseline.
- De analyse van antwoordwijzigingen op GSM8K laat zien dat het model vaker correcte antwoorden verandert in foute, dan foute antwoorden in correcte. De netto richting van de verandering is schadelijk.
- Door een orakel gestuurde zelfcorrectie verbetert de zaken wel: GPT-4 op GSM8K met orakellabels gaat van 95,5% naar 97,5%, en GPT-3.5 op CommonSenseQA van 75,8% naar 89,7%. Maar dit vereist voorkennis over welke antwoorden fout zijn — iets wat je in de praktijk niet weet.
- Debat tussen meerdere agenten (multi-agent debate), een ander populair idee, presteert minder goed dan eenvoudige zelfconsistentie (self-consistency) wanneer het inferentiebudget gelijk is. Met in totaal 9 reacties bereikt zelfconsistentie 88,2% op GSM8K; het debat tussen meerdere agenten bereikt slechts 83,0%.
- Beperkte generatie (CommonGen-Hard) lijkt op het eerste gezicht een overwinning voor zelfcorrectie (44% → 67%), maar die winst verdampt als je de initiële prompt simpelweg verbetert (81,8%). Wanneer de startprompt al goed is, schaadt zelfcorrectie de nauwkeurigheid, die daalt naar 75,1%.
Wat standhoudt — en wat niet
De kernbevinding is solide: de cijfers liegen niet. Als je GPT-4 vraagt om zijn wiskundige antwoorden opnieuw te bekijken zonder te vertellen welke fout zijn, worden de antwoorden gemiddeld slechter. De intuïtie die het artikel biedt is ook juist — LLM's kunnen de correctheid van hun eigen redenering niet betrouwbaar beoordelen, dus wanneer ze besluiten een antwoord te veranderen, gokken ze, en ze gokken minstens zo vaak fout als goed.
Het artikel is minder overtuigend in zijn generalisatieclaims. Het test uitsluitend redeneer- en kennistaken. Er zijn domeinen — schrijfstijl, naleving van formaatbeperkingen, vermindering van toxiciteit — waar iteratieve herziening aantoonbaar wel helpt, en het artikel gaat hier grotendeels aan voorbij. De auteurs erkennen dit terloops en merken op dat "zelfcorrectie effectiever kan zijn voor taken waar evaluatie eenvoudiger is," maar ze testen dit niet grondig. Het CommonGen-experiment met beperkte generatie is suggestief, maar een ontoereikende initiële prompt als baseline gebruiken en de daaruit voortvloeiende verbetering "zelfcorrectie" noemen, is dezelfde methodologische fout die het artikel in ander werk bekritiseert.
Het artikel gaat ook niet in op de kwestie van getrainde zelfcorrectie. Een vervolgonderzoek uit 2025 (SCoRe, ICLR 2025, arXiv:2409.12917) laat zien dat met RL getrainde zelfcorrectie op de eigen output van het model een winst van +15,6% behaalt op MATH en +9,1% op HumanEval — een echte intrinsieke verbetering. De titel "kan redeneringen nog niet zelf corrigeren" is dus beter verouderd dan een strengere interpretatie zou toestaan; de juiste interpretatie is "kan niet tot zelfcorrectie worden aangezet via prompts," niet "kan niet leren zichzelf te corrigeren."
Waarom dit belangrijk is voor financiële AI
De implicatie voor agenten die boekingen naar het grootboek wegschrijven is concreet. Een agent die een Beancount-boeking genereert en zichzelf vervolgens afvraagt "ziet dit er goed uit?" en dit herziet, krijgt geen second opinion — hij introduceert ruis. De data hier zeggen dat als het eerste antwoord fout was, de zelfbeoordeling even waarschijnlijk een correct antwoord verpest als een fout antwoord herstelt.
Wat dit artikel bevestigt, is de ontwerpbeperking die ik uit CRITIC heb gehaald: zelfvalidatie zonder extern orakel is onbetrouwbaar. Specifiek voor Beancount is het externe orakel beschikbaar en goedkoop — balanscontroles draaien in milliseconden, rekeningnamen worden gevalideerd tegen een bekend rekeningschema en bedragen moeten tot op de cent nauwkeurig aansluiten. Een agentarchitectuur die een voorlopige boeking indient, bean-check uitvoert en eventuele fouten terugkoppelt als concrete gestructureerde feedback, is fundamenteel anders dan een architectuur die het model vraagt om "je boeking te controleren." De eerste gebruikt de ledger-engine als orakel. De laatste vertrouwt op hetzelfde redeneermechanisme dat de fout in de eerste plaats veroorzaakte.
Er is hier ook een subtielere les over prompt-ontwerp. Het CommonGen-experiment laat zien dat wanneer de prompt al nauwkeurig en expliciet is, zelfcorrectie de prestaties verslechtert. Dit betekent dat als we moeite investeren in het schrijven van zeer duidelijke prompts voor het parsen van transacties — prompts die alle Beancount-syntaxregels expliciet vermelden — het toevoegen van een zelfcontrole-loop daarbovenop de nauwkeurigheid actief kan schaden. De juiste architectuur activeert zelfcontrole waarschijnlijk alleen bij een mislukte externe controle, niet bij elke generatie.
Wat nu te lezen
- SCoRe: Training Language Models to Self-Correct via Reinforcement Learning (arXiv:2409.12917, ICLR 2025) — Op RL gebaseerde aanpak die de eerste echte intrinsieke zelfcorrectiewinst behaalt; noodzakelijke context om te begrijpen wat het huidige artikel wel of niet uitsluit.
- When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs (TACL 2024) — Systematische taxonomie van wanneer zelfcorrectie werkt, waarbij onderscheid wordt gemaakt tussen intrinsieke, op training gebaseerde en door tools ondersteunde varianten.
- Self-Refine: Iterative Refinement with Self-Feedback (NeurIPS 2023) — Het primaire artikel dat Huang et al. bekritiseren; het achter elkaar lezen hiervan verduidelijkt precies waar de aanname van het orakellabel is ingebed.
