Chain-of-Thought-Prompting: Precision-Recall-Abwägungen für Finanz-KI
Ich lese das Chain-of-Thought-Paper von Wei et al. aus dem Jahr 2022 (arXiv:2201.11903) mit einer speziellen Frage im Hinterkopf noch einmal: Frühere Experimente zeigten, dass CoT-Prompting die Präzision verbesserte, aber den Recall bei der Finanz-Anomalieerkennung verschlechterte. Das Paper sollte erklären, warum – oder mir zumindest genug mechanistische Intuition geben, um eine Hypothese aufzustellen.
Das Paper
"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" von Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma und Kollegen (Google Brain) ist das Paper, das CoT bekannt gemacht hat. Die Idee ist einfach: Anstatt ein Modell zu bitten, direkt zu einer Antwort zu springen, zeigt man ihm einige Beispiele, bei denen der Antwort eine schriftlich formulierte Argumentationskette (Reasoning Trace) vorausgeht. Das Modell erstellt dann seine eigene Argumentationskette, bevor es antwortet.
Das Paper testet dies bei Aufgaben zur Arithmetik (GSM8K, SVAMP, AQuA), zum gesunden Menschenverstand (CommonsenseQA, StrategyQA) und zum symbolischen Denken (Buchstaben-Verkettung, Münzwurf) über drei Large Language Models hinweg – PaLM 540B, GPT-3 175B und LaMDA 137B – und vergleicht es mit Standard-Few-Shot-Prompting.
Kernideen
- GSM8K (mathematische Wortprobleme): Standard-Prompting mit PaLM 540B erreicht 17,9 %; CoT erreicht 56,9 %, ein Sprung um 39 Punkte. Dies ist ein erstaunlicher Gewinn bei einem schwierigen Benchmark und das Hauptergebnis, für das das Paper zu Recht bekannt ist.
- Buchstaben-Verkettung: Standard 7,6 %, CoT 99,4 %. Bei rein symbolischer Manipulation löst CoT die Aufgabe in großem Maßstab praktisch vollständig.
- CommonsenseQA: Standard 78,1 %, CoT 79,9 %. Minimaler Gewinn. Aufgaben, die keine mehrstufige Schlussfolgerung erfordern, profitieren kaum.
- Skalierungsschwelle: CoT hilft zuverlässig erst ab etwa 100 Mrd. Parametern. Unter ~10 Mrd. schadet das Hinzufügen einer Argumentationskette oft sogar – das Modell erzeugt "flüssige, aber unlogische Gedankengänge", die es aktiv in die Irre führen.
- Einfache Aufgaben zeigen keinen Nutzen: Bei MAWPS SingleOp (einstufige Arithmetik) erreichte PaLM 540B sowohl mit Standard- als auch mit CoT-Prompting 94,1 %. Der Reasoning-Overhead bietet keinen Mehrwert, wenn die Aufgabe keine mehrstufige Inferenz erfordert.
- Keine Garantie für Korrektheit: Die Autoren betonen explizit, dass ein LLM eine kohärent wirkende Argumentationskette erzeugen kann, die zu einer falschen Antwort führt. Die Kette und die Antwort werden gemeinsam generiert, und keine von beiden wird unabhängig verifiziert.
Was Bestand hat – und was nicht
Die empirischen Ergebnisse halten stand. Die Gewinne bei GSM8K wurden in Folgearbeiten repliziert, die Skalierungsschwelle entspricht den Beobachtungen anderer Studien, und die Zahlen zum symbolischen Denken konsistent mit dem, was man von der In-Context-Learning-Mechanik erwarten würde. Dieses Paper hat echte wissenschaftliche Arbeit geleistet.
Was ich für untererforscht halte, ist die Präzisions-/Recall-Asymmetrie. Wei et al. zeigen aggregierte Genauigkeitswerte – sie schlüsseln die Falsch-Positiv- gegenüber den Falsch-Negativ-Raten nicht auf. Aber wenn man darüber nachdenkt, wie CoT die Antwortverteilung verändert, ist der Mechanismus suggestiv: CoT veranlasst das Modell, einen Argumentationspfad zu generieren und sich darauf festzulegen. Diese Einengung des Generierungsraums erhöht wahrscheinlich die Spezifität (Präzision) auf Kosten der Abdeckung (Recall). Das Modell produziert insgesamt weniger Antworten, und die erzeugten Antworten tendieren dazu, besser begründet zu sein – aber es könnte korrekte Antworten übergehen, die nicht in ein ordentliches Schritt-für-Schritt-Narrativ passen. Für die Anomalieerkennung in Finanzdaten, wo die Klasse "Anomalie" per Definition selten und untypisch ist, ist dies genau der Fehlermodus, den man erwarten würde.
Das Paper lässt auch die mechanistische Frage offen. Die Autoren sind vorsichtig und behaupten nicht, dass das Modell in einem starken Sinne "tatsächlich denkt". Ob CoT eine echte mehrstufige Inferenz hervorruft oder eine ausgeklügelte Mustererkennungs-Abkürzung, die eine solche Inferenz imitiert, bleibt ungeklärt. Ein Wharton-Bericht aus dem Jahr 2025, der moderne Reasoning-Modelle (o3-mini, o4-mini) testete, ergab, dass explizite CoT-Anweisungen nur 2–3 % marginale Gewinne brachten und manchmal die "perfekte Genauigkeit" verringerten, indem sie Fehler bei Fragen auslösten, die das Modell ansonsten korrekt beantwortet hätte. Die Skalierungsschwelle des Papers mag sich verschoben haben, da Modelle besser in impliziter Schlussfolgerung geworden sind – aber das Variabilitätsproblem, bei dem CoT eine Chance ungleich Null einführt, eine ansonsten korrekte Antwort entgleisen zu lassen, besteht weiterhin.
Warum das für Finanz-KI wichtig ist
Drei Verbindungen zur Bean Labs Agenda:
Erstens, das Rückschreib-Sicherheitsproblem. Ein CoT-gepriesener Agent, der seine Überlegungen erklärt, bevor er eine Hauptbuch-Aktion ausführt, bietet einen Audit-Trail – aber die Argumentationskette ist keine Garantie für Korrektheit. Der Agent kann eine plausibel aussehende Erklärung für eine falsche Aktion liefern. Das bedeutet, dass das Anzeigen einer Argumentationskette beim Benutzer eher falsches Vertrauen als echte Prüfbarkeit schaffen kann.
Zweitens, die Anomalieerkennungs-Asymmetrie. Wenn CoT die Präzision erhöht, aber den Recall bei der Erkennung seltener Ereignisse senkt, dann könnte die naive Verwendung von CoT für Beancount-Anwendungsfälle – wie das Finden falsch klassifizierter Transaktionen, das Markieren doppelter Einträge oder das Abfangen von Richtlinienverstößen – weniger Fehlalarme auf Kosten des Übersehens echter Probleme produzieren. Das ist potenziell die falsche Abwägung. Ein Finanzagent, der selbstbewusst erklärt, warum er etwas Verdächtiges nicht markiert hat, ist gefährlicher als einer, der zu viel markiert.
Drittens, die Skalierungsabhängigkeit. Wenn Produktions-Finanzagenten aus Kosten- oder Latenzgründen auf kleineren Modellen laufen, verpuffen die CoT-Gewinne – und können sich ins Gegenteil verkehren. Jede Evaluierung eines CoT-basierten Finanzagenten muss auf der gleichen Modellskala durchgeführt werden, die auch in der Produktion zum Einsatz kommt.
Was man als Nächstes lesen sollte
- "Self-Consistency Improves Chain of Thought Reasoning in Language Models" (Wang et al., 2022, arXiv:2203.11171) – samplet mehrere CoT-Pfade und führt eine Mehrheitsentscheidung durch; adressiert direkt das von Wei et al. markierte Varianzproblem.
- "Large Language Models are Zero-Shot Reasoners" (Kojima et al., 2022, arXiv:2205.11916) – zeigt, dass "Let's think step by step" auch ohne Beispiele Schlussfolgerungen hervorruft; testet die Grenzen dessen, was CoT tatsächlich benötigt.
- "Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?" (arXiv:2508.01191) – greift direkt die mechanistische Frage an, die das ursprüngliche Paper offen lässt.
