Doorgaan naar hoofdinhoud

Chain-of-Thought Prompting: Precision-Recall Trade-offs voor Finance AI

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Ik herlees de Chain-of-Thought-paper van Wei et al. uit 2022 (arXiv:2201.11903) met een specifieke vraag in gedachten: eerdere experimenten lieten zien dat CoT-prompting de precisie verbeterde, maar de recall verslechterde bij financiële anomaliedetectie. De paper zou moeten uitleggen waarom — of me tenminste genoeg mechanistische intuïtie moeten geven om een hypothese te vormen.

De paper

2026-04-20-chain-of-thought-prompting-reasoning-tradeoffs

"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" door Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma en collega's (Google Brain) is de paper die CoT op de kaart zette. Het idee is simpel: in plaats van een model te vragen direct naar een antwoord te springen, laat je het een paar voorbeelden zien waarbij het antwoord wordt voorafgegaan door een uitgeschreven redeneringspad. Het model genereert vervolgens zijn eigen redeneringspad voordat het antwoord geeft.

De paper test dit op rekenkundige taken (GSM8K, SVAMP, AQuA), gezond verstand (CommonsenseQA, StrategyQA) en symbolische redeneertaken (letter-concatenatie, munt opgooien) met drie grote taalmodellen — PaLM 540B, GPT-3 175B en LaMDA 137B — en vergelijkt dit met standaard few-shot prompting.

Kernideeën

  • GSM8K (tekstuele rekenopgaven): standaard prompting met PaLM 540B behaalt 17,9%; CoT behaalt 56,9%, een sprong van 39 punten. Dit is een verbluffende winst op een moeilijke benchmark, en het is het resultaat waar de paper terecht om bekend staat.
  • Letter-concatenatie: standaard 7,6%, CoT 99,4%. Voor pure symbolische manipulatie lost CoT de taak op grote schaal in feite op.
  • CommonsenseQA: standaard 78,1%, CoT 79,9%. Minimale winst. Taken die geen meerstap-inferentie vereisen, profiteren er nauwelijks van.
  • Schaaldrempel: CoT helpt pas echt betrouwbaar bij ongeveer 100B+ parameters. Onder de ~10B verslechtert het toevoegen van een redeneringspad de resultaten vaak — het model produceert "vloeiende maar onlogische gedachtegangen," wat het actief misleidt.
  • Eenvoudige taken laten geen voordeel zien: Op MAWPS SingleOp (enkelstaps rekenen) scoorde PaLM 540B 94,1% met zowel standaard als CoT-prompting. Redenerings-overhead voegt geen waarde toe wanneer de taak geen meerstap-inferentie vereist.
  • Geen garantie op correctheid: de auteurs zijn expliciet over het feit dat een LLM een coherent ogend redeneringspad kan produceren dat tot een fout antwoord leidt. Het pad en het antwoord worden gezamenlijk gegenereerd en geen van beide wordt onafhankelijk geverifieerd.

Wat standhoudt — en wat niet

De empirische resultaten houden stand. De winst op GSM8K is herhaald in vervolgonderzoek, de schaaldrempel komt overeen met wat elders is waargenomen, en de cijfers voor symbolisch redeneren zijn consistent met wat je zou verwachten van in-context learning-mechanismen. Deze paper heeft echt wetenschappelijk werk geleverd.

Wat ik onderbelicht vind, is de precisie/recall-asymmetrie. Wei et al. tonen geaggregeerde nauwkeurigheidscijfers — ze maken geen onderscheid tussen fout-positieve en fout-negatieve ratio's. Maar als je nadenkt over hoe CoT de distributie van antwoorden verandert, is het mechanisme suggestief: CoT zet het model aan om een redeneringspad te genereren en zich daaraan te committeren. Deze vernauwing van de generatieruimte verhoogt waarschijnlijk de specificiteit (precisie) ten koste van de dekking (recall). Het model produceert in totaal minder antwoorden, en de antwoorden die het wel produceert zijn meestal beter onderbouwd — maar het kan correcte antwoorden over het hoofd zien die niet in een net stapsgewijs verhaal passen. Voor anomaliedetectie in financiële data, waar de "anomalie"-klasse per definitie zeldzaam en atypisch is, is dit precies de foutmodus die je zou verwachten.

De paper laat de mechanistische vraag ook open. De auteurs passen op dat ze niet beweren dat het model "echt redeneert" in sterke zin. Of CoT echte meerstap-inferentie oproept of een geavanceerde patroonherkenning-shortcut die dergelijke inferentie nabootst, is onopgelost. Een Wharton-rapport uit 2025 waarin moderne redeneermodellen (o3-mini, o4-mini) werden getest, wees uit dat expliciete CoT-instructies slechts 2–3% marginale winst opleverden, en soms de "perfecte nauwkeurigheid" verminderden door fouten te triggeren bij vragen die het model anders correct zou hebben beantwoord. De schaaldrempel van de paper is mogelijk verschoven naarmate modellen beter zijn geworden in impliciet redeneren — maar het variabiliteitsprobleem, waarbij CoT een niet-verwaarloosbare kans introduceert om een anders correct antwoord te laten ontsporen, blijft bestaan.

Waarom dit belangrijk is voor finance AI

Drie connecties met de Bean Labs-agenda:

Ten eerste, het write-back veiligheidsprobleem. Een via CoT geprompte agent die zijn redenering uitlegt voordat hij een grootboekactie uitvoert, biedt een audit trail — maar het redeneringspad is geen garantie voor correctheid. De agent kan een plausibel klinkende verklaring geven voor een foutieve actie. Dit betekent dat het tonen van een redeneringspad aan gebruikers eerder een vals vertrouwen kan creëren dan echte controleerbaarheid.

Ten tweede, de anomaliedetectie-asymmetrie. Als CoT de precisie verhoogt maar de recall verlaagt bij het detecteren van zeldzame gebeurtenissen, dan kan het naïeve gebruik van CoT voor Beancount-use cases — zoals het vinden van foutief geclassificeerde transacties, het markeren van dubbele boekingen of het signaleren van beleidsschendingen — leiden tot minder vals alarm ten koste van het missen van echte problemen. Dat is potentieel de verkeerde afweging. Een financiële agent die vol vertrouwen uitlegt waarom hij iets verdachts niet heeft gemarkeerd, is gevaarlijker dan een agent die te veel markeert.

Ten derde, de schaalafhankelijkheid. Als operationele financiële agents op kleinere modellen draaien vanwege kosten- of latentieredenen, verdampt de winst van CoT — en kan deze zelfs omslaan in een nadeel. Elke evaluatie van een op CoT gebaseerde financiële agent moet worden uitgevoerd op dezelfde modelschaal die in productie wordt gebruikt.

Wat je nu kunt lezen

  • "Self-Consistency Improves Chain of Thought Reasoning in Language Models" (Wang et al., 2022, arXiv:2203.11171) — neemt samples van meerdere CoT-paden en hanteert de meerderheidsstem; pakt direct het variantieprobleem aan dat Wei et al. signaleren.
  • "Large Language Models are Zero-Shot Reasoners" (Kojima et al., 2022, arXiv:2205.11916) — laat zien dat "Let's think step by step" zonder voorbeelden ook redenering oproept; test de grens van wat CoT daadwerkelijk nodig heeft.
  • "Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?" (arXiv:2508.01191) — valt direct de mechanistische vraag aan die de oorspronkelijke paper openlaat.