Self-Consistency: Majority-Vote-Sampling steigert die Chain-of-Thought-Genauigkeit
LOG-009 behandelte PAL, das Arithmetik an einen Python-Interpreter auslagert, sodass das Modell niemals selbst rechnen muss. Self-Consistency geht das orthogonale Problem an: Was ist, wenn das Modell meistens, aber nicht immer korrekt argumentiert? Die Antwort erweist sich als statistisch, nicht als architektonisch – und ist verblüffend effektiv.
Das Paper
"Self-Consistency Improves Chain of Thought Reasoning in Language Models" von Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery und Denny Zhou (ICLR 2023, arXiv:2203.11171) führt eine Dekodierungsstrategie ein, die den einzelnen Greedy-Chain-of-Thought-Pfad durch eine Mehrheitsentscheidung (Majority Vote) über viele gesampelte Pfade ersetzt. Die Intuition ist kompakt: Ein schwieriges Argumentationsproblem hat typischerweise eine korrekte Antwort, aber viele valide Wege dorthin; eine falsche Antwort wird eher durch idiosynkratische Fehler erreicht, die nicht alle auf denselben Fehler konvergieren.
Die Methode ist Plug-and-Play. Man nimmt den bereits vorhandenen CoT-Prompt, sampelt N Vervollständigungen bei einer Temperatur ungleich Null, extrahiert die endgültige Antwort aus jeder einzelnen und gibt die Mehrheitsantwort zurück. Kein Fine-Tuning, keine zusätzlichen Modelle, keine weiteren menschlichen Labels.
Kernaussagen
- Stichprobengröße und Temperatur: Das Paper verwendet 40 Argumentationspfade pro Problem bei einer Temperatur von 0,7. Dies ist keine durch Hyperparameter-Optimierung ermittelte magische Zahl – Ablationsstudien zeigen, dass die Gewinne etwa nach 20–30 Samples stagnieren, sodass 40 ein konservativer Wert ist.
- Hauptgewinne gegenüber Standard-CoT: GSM8K +17,9 %, SVAMP +11,0 %, AQuA +12,2 %, StrategyQA +6,4 %, ARC-Challenge +3,9 % – alles absolute Genauigkeitsverbesserungen, alle mit demselben Modell und Prompt.
- GSM8K-Ergebnisse pro Modell: Bei text-davinci-002 (GPT-3) steigert Self-Consistency die Genauigkeit von 78,7 % auf 86,5 %. Bei Codex von 74,5 % auf 82,3 %. Die Gewinne sind über verschiedene Modellfamilien hinweg konsistent.
- Keine Trainingskosten: Alles geschieht während der Inferenz. Der Ansatz funktioniert mit jeder Black-Box-API, bei der man mit einer Temperatur > 0 sampeln kann.
- Mehrheitsentscheidung für extrahierbare Antworten: Der Aggregationsschritt funktioniert sauber, wenn die Antworten diskret sind (eine Zahl, eine Buchstabenauswahl). Für Open-Ended Generation ist das Paper weniger spezifisch bezüglich der Definition von "konsistentester" Antwort – eine Einschränkung, die die Autoren anerkennen.
Was Bestand hat – und was nicht
Die empirischen Gewinne sind real, vielfach repliziert und die Methode ist genuinely nützlich. Aber einige strukturelle Schwächen verdienen eine genauere Betrachtung.
Erstens: Die Kosten steigen linear mit der Anzahl der Samples. Das Sampling von 40 Pfaden bei der Inferenz kostet das 40-fache des Token-Budgets eines einzelnen Pfades. Für Aufgaben, bei denen Latenz und API-Kosten eine Rolle spielen – wie etwa ein Agent, der pro Nacht Hunderte von Transaktionen verarbeitet – ist dies nicht trivial. Folgearbeiten (Early-Stopping Self-Consistency, ICLR 2024) adressieren dies: Indem man stoppt, sobald eine Abstimmung eine Vertrauensschwelle erreicht, kann man die Samples bei GSM8K um 80 % reduzieren, ohne messbaren Genauigkeitsverlust. Das Basispapier diskutiert die Kosten überhaupt nicht, was ein seltsames Versäumnis ist.
Zweitens: Die Annahme der Mehrheitsentscheidung bricht zusammen, wenn das Modell systematisch falsch liegt. Wenn das Modell über alle 40 Pfade hinweg konsequent eine bestimmte Währungsumrechnung falsch liest oder eine Steuerregel falsch anwendet, gewinnt die falsche Antwort die Abstimmung. Self-Consistency verstärkt den häufigsten Fehler, nicht den korrekten. Dies ist die zentrale epistemologische Lücke: Die Methode erhöht die Präzision innerhalb der Überzeugungsverteilung des Modells, trägt aber nichts zur Kalibrierung bei, wenn diese Verteilung auf einer falschen Antwort zentriert ist.
Drittens: Wang & Wang (2025, arXiv:2503.16974) untersuchen die LLM-Konsistenz direkt bei Finanz- und Buchhaltungsaufgaben über 50 unabhängige Durchläufe hinweg. Sie stellen fest, dass binäre Klassifizierung und Sentiment-Analyse bereits mit einem einzigen Sample nahezu perfekt reproduzierbar sind, während komplexe Aufgaben (Vorhersage, Generierung) echte Variabilität zeigen. Ihr praktisches Ergebnis: Die Aggregation von nur 3–5 Durchläufen verbessert die Konsistenz bei komplexen Aufgaben dramatisch – eine wesentlich günstigere Version derselben Idee wie Self-Consistency.
Warum dies für Finanz-KI wichtig ist
Beancount-Ledger-Operationen, die mehrstufige Arithmetik beinhalten – Steuerberechnungen, Devisen-bereinigte Anschaffungskosten, Abschreibungspläne, Rechnungsabgleich – sind genau die Art von Aufgaben, bei denen ein einzelnes Greedy-Decoding unzuverlässig ist, die korrekte Antwort aber eindeutig und verifizierbar ist. Self-Consistency ist eine kostengünstige Intervention, die der Standard für jede Finanz-Agenten-Aufgabe sein sollte, bei der die Ausgabe verifiziert werden kann (ist die Bilanz noch ausgeglichen?).
Die interessantere Implikation ist architektonischer Natur. Self-Consistency macht die Inferenz zu einem Voting-Ensemble. Für die Sicherheit beim Zurückschreiben – ein Agent, der Buchungssätze in ein Ledger einträgt – würde ich eine Bedingung an das Mehrheitsvertrauen knüpfen: Nur buchen, wenn 35 von 40 Pfaden übereinstimmen. Uneinigkeit ist ein Signal, dass der Agent den Fall an einen Menschen eskalieren sollte, anstatt zu schreiben. Dies ist eine konkrete, implementierbare Sicherheitsbarriere, die Inferenzbudget, aber keine technische Komplexität kostet.
Der Fehlerfall durch systematischen Bias ist besonders relevant für Steuer- und Regulierungsregeln, bei denen Modelle bekanntlich jurisdiktionsspezifische Details halluzinieren. In diesen Fällen ist PAL (LOG-009) die richtige Lösung: Die Berechnung wird vollständig ausgelagert. Self-Consistency und PAL ergänzen sich – PAL kümmert sich um die arithmetische Korrektheit; Self-Consistency um die Ambiguität und die Zuverlässigkeit der Argumentation.
Weitere Lektüre
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) – erweitert Self-Consistency von der Abstimmung über Pfade hin zur Suche über Pfade, was wichtig ist, wenn der Argumentationsraum verzweigt statt parallel verläuft.
- Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) – die Lösung für das Kostenproblem; reduziert das Sampling bei GSM8K um über 80 % bei gleichbleibender Genauigkeit.
- Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) – erweitert die Mehrheitsentscheidung auf Open-Ended Generation unter Verwendung eines LLM-Judges und schließt damit die Aggregationslücke, die das ursprüngliche Paper ausspart.
