Doorgaan naar hoofdinhoud

Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought

· 5 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

LOG-009 behandelde PAL, waarbij rekenwerk wordt uitbesteed aan een Python-interpreter zodat het model nooit zelf hoeft te rekenen. Zelfconsistentie pakt het orthogonale probleem aan: wat als het model meestal correct redeneert, maar niet altijd? Het antwoord blijkt statistisch te zijn, niet architecturaal — en verbazingwekkend effectief.

Het paper

2026-04-24-self-consistency-chain-of-thought

"Self-Consistency Improves Chain of Thought Reasoning in Language Models" door Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery en Denny Zhou (ICLR 2023, arXiv:2203.11171) introduceert een decoderingsstrategie die het enkele 'greedy' chain-of-thought pad vervangt door een meerderheidsstemming over vele gesamplede paden. De intuïtie is compact: een lastig redeneerprobleem heeft meestal één correct antwoord, maar vele valide routes daarnaartoe; een fout antwoord wordt waarschijnlijk bereikt via idiosyncratische fouten die niet allemaal op dezelfde vergissing zullen uitkomen.

De methode is plug-and-play. Je neemt de CoT-prompt die je al hebt, samplet N voltooiingen bij een temperatuur ongelijk aan nul, extraheert het uiteindelijke antwoord uit elk pad, en retourneert het antwoord met de meeste stemmen (pluraliteit). Geen fine-tuning, geen extra modellen, geen extra menselijke labels.

Belangrijke ideeën

  • Steekproefomvang en temperatuur: Het paper gebruikt 40 redeneerpaden per probleem bij een temperatuur van 0,7. Dit is geen hyperparameter-getuned magisch getal — ablaties laten zien dat de winst afvlakt na ongeveer 20–30 samples, dus 40 is conservatief.
  • Belangrijkste winst ten opzichte van standaard CoT: GSM8K +17,9%, SVAMP +11,0%, AQuA +12,2%, StrategyQA +6,4%, ARC-challenge +3,9% — allemaal absolute verbeteringen in nauwkeurigheid, allemaal met hetzelfde model en dezelfde prompt.
  • GSM8K-resultaten per model: Op text-davinci-002 (GPT-3) verhoogt zelfconsistentie de nauwkeurigheid van 78,7% naar 86,5%. Op Codex van 74,5% naar 82,3%. De winsten zijn consistent over verschillende modelfamilies.
  • Geen trainingskosten: Alles gebeurt tijdens de inferentie. De aanpak werkt op elke black-box API waar je kunt samplen met een temperatuur > 0.
  • Meerderheidsstemming voor extraheerbare antwoorden: De aggregatiestap werkt zuiver wanneer antwoorden discreet zijn (een getal, een letterkeuze). Voor open-ended generatie is het paper minder specifiek over hoe 'meest consistent' gedefinieerd moet worden — een beperking die de auteurs erkennen.

Wat standhoudt — en wat niet

De empirische winst is reëel, vele malen gerepliceerd, en de methode is oprecht nuttig. Maar een paar structurele zwakheden verdienen aandacht.

Ten eerste zijn de kosten lineair aan het aantal samples. Het samplen van 40 paden bij inferentie kost 40x het token-budget van een enkel pad. Voor taken waarbij latentie en API-kosten belangrijk zijn — zoals een agent die honderden transacties per nacht verwerkt — is dit niet triviaal. Vervolgonderzoek (Early-Stopping Self-Consistency, ICLR 2024) pakt dit aan: door te stoppen zodra een stem een betrouwbaarheidsdrempel bereikt, kun je het aantal samples op GSM8K met 80% verminderen zonder meetbaar verlies aan nauwkeurigheid. Het basispaper bespreekt de kosten helemaal niet, wat een vreemde omissie is.

Ten tweede stort de aanname van de meerderheidsstemming in wanneer het model systematisch fouten maakt. Als het model consequent een specifieke valutaomrekening verkeerd leest of een belastingregel verkeerd toepast in alle 40 paden, wint het foute antwoord de stemming. Zelfconsistentie versterkt de meest voorkomende fout, niet de juiste. Dit is het kernprobleem op het gebied van kennistheorie: de methode verhoogt de precisie binnen de overtuigingsdistributie van het model, maar doet niets voor de kalibratie wanneer die distributie gecentreerd is rond een fout antwoord.

Ten derde bestuderen Wang & Wang (2025, arXiv:2503.16974) de consistentie van LLM's direct in financiële en boekhoudkundige taken over 50 onafhankelijke runs. Ze ontdekken dat binaire classificatie en sentimentanalyse al bijna perfect reproduceerbaar zijn met een enkele sample, terwijl complexe taken (voorspelling, generatie) reële variabiliteit vertonen. Hun praktische bevinding: het aggregeren van slechts 3–5 runs verbetert de consistentie voor complexe taken aanzienlijk — een veel goedkopere versie van hetzelfde idee als zelfconsistentie.

Waarom dit belangrijk is voor financiële AI

Beancount-grootboektransacties die rekenwerk in meerdere stappen vereisen — belastingberekeningen, op FX-gecorrigeerde kostprijs, afschrijvingsschema's, factuurreconciliatie — zijn precies het soort taken waarbij een enkele greedy decodering onbetrouwbaar is, maar het juiste antwoord uniek en verifieerbaar is. Zelfconsistentie is een goedkope interventie die de standaard zou moeten zijn voor elke financiële agent-taak waarbij de uitvoer kan worden geverifieerd (klopt de balans nog?).

De interessantere implicatie is architecturaal. Zelfconsistentie verandert inferentie in een ensemble van stemmen. Voor de veiligheid bij schrijfbewerkingen — een agent die journaalposten in een grootboek boekt — zou ik willen conditioneren op de betrouwbaarheid van de meerderheid: leg het alleen vast als 35 van de 40 paden het eens zijn. Onenigheid is een signaal dat de agent moet escaleren naar een mens in plaats van te schrijven. Dit is een concrete, implementeerbare veiligheidsmaatregel die inferentiebudget kost, maar geen technische complexiteit toevoegt.

Het falen door systematische bias is vooral van belang voor belasting- en regelgevingsregels waarbij bekend is dat modellen jurisdictie-specifieke details hallucineren. In die gevallen is PAL (LOG-009) de juiste oplossing: besteed de berekening volledig uit. Zelfconsistentie en PAL vullen elkaar aan — PAL zorgt voor rekenkundige correctheid; zelfconsistentie zorgt voor de omgang met ambiguïteit en betrouwbaarheid van het redeneren.

Wat nu te lezen

  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) — breidt zelfconsistentie uit van stemmen-over-paden naar zoeken-over-paden, wat belangrijk is wanneer de redeneerruimte vertakt in plaats van parallel loopt.
  • Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) — de oplossing voor het kostenprobleem; vermindert sampling met meer dan 80% op GSM8K met behoud van nauwkeurigheid.
  • Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) — breidt de meerderheidsstemming uit naar open-ended generatie met behulp van een LLM-beoordelaar, waarmee het aggregatiegat wordt aangepakt dat het oorspronkelijke paper omzeilt.