ConvFinQA: Mehrstufige Finanz-QA und der 21-Punkte-Abstand zwischen Modellen und menschlichen Experten
Nachdem ich mehrere Logs auf einstufige Finanz-QA – FinQA, FinanceBench, TAT-QA – verwendet habe, wollte ich mir ansehen, was passiert, wenn Benutzer Anschlussfragen stellen. ConvFinQA (Chen et al., EMNLP 2022) ist das Paper, das den Rahmen von FinQA auf mehrstufige Konversationen ausweitet. Die Ergebnisse decken einen Fehlermodus auf, den einstufige Benchmarks schlichtweg nicht erfassen können: Modelle, die isoliertes numerisches Denken glänzend meistern, scheitern häufig in dem Moment, in dem sich eine Frage auf etwas bezieht, das zwei Runden zuvor gesagt wurde.
Das Paper
ConvFinQA von Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah und William Yang Wang (UC Santa Barbara und J.P. Morgan) erstellt einen Datensatz aus 3.892 mehrstufigen Konversationen mit insgesamt 14.115 Fragen über 2.066 Finanzberichtsseiten. Jedes Gespräch basiert auf Ergebnisberichten – denselben S&P 500-Unterlagen, die auch in FinQA verwendet wurden – und die Fragen sind so miteinander verknüpft, dass spätere Runden auf frühere Antworten Bezug nehmen können. Das Aufgabenformat ist von FinQA übernommen: Modelle generieren ein Programm in einer kleinen domänenspezifischen Sprache (Addieren, Subtrahieren, Multiplizieren, Dividieren, Größer als, Exp), das dann ausgeführt wird, um die Antwort zu erhalten. Die Bewertung erfolgt über die Ausführungsgenauigkeit (ob das ausgeführte Ergebnis mit der korrekten Antwort übereinstimmt) und die Programmgenauigkeit (ob das generierte Programm mit dem Referenzprogramm übereinstimmt).
Der Datensatz umfasst zwei Konversationstypen. Typ I "einfache" Konversationen zerlegen eine einzige komplexe FinQA-Frage in eine Sequenz von Unterfragen. Typ II "hybride" Konversationen verknüpfen Zerlegungen von zwei verschiedenen FinQA-Fragen zum selben Bericht und erzwingen so aspektübergreifendes Denken. Über 60 % der Fragen weisen Abhängigkeiten von vorherigen Runden auf, und Fragen im zweiten Teil hybrider Konversationen sind wesentlich schwieriger, da das Modell den Zustand der logischen Schlussfolgerung über verschiedene Finanzthemen hinweg beibehalten muss.
Kernideen
- Bestes feinabgestimmtes Modell (FinQANet mit RoBERTa-large): 68,90 % Ausführungsgenauigkeit auf dem Testset. Menschliche Finanzexperten erreichen 89,44 %. Allgemeine Crowd-Worker (MTurk): 46,90 % – ein eklatanter Unterschied, der bestätigt, dass die Aufgabe echtes Domänenwissen erfordert.
- GPT-3 (text-davinci-002, 175B) mit 20 Few-Shot-Beispielen und korrekten unterstützenden Fakten: 50,30 % Ausführungsgenauigkeit – deutlich unter dem feinabgestimmten Spezialisten und kaum über dem Niveau der Crowd.
- Chain-of-Thought-Prompting schadet GPT-3: CoT liefert 40,63 % gegenüber 45,15 % beim Standard-Programm-Prompting. Das Modell ahmt das Format der Argumentation der gegebenen Beispiele nach, anstatt es auf die tatsächliche Frage anzuwenden.
- Hybride Konversationen sind wesentlich schwieriger: Der zweite Teil einer hybriden Konversation erreicht 52,38 % für FinQANet im Vergleich zu 72,37 % bei einfachen Konversationen. Bei aspektübergreifenden Querverweisen versagen aktuelle Modelle.
- GPT-3 hat insbesondere Schwierigkeiten mit Fragen zur Zahlenauswahl – etwa bei der Beantwortung einer Anschlussfrage wie "Was ist mit dem Vorjahr?" – und erreicht nur 35,32 %, während FinQANet 82,54 % erzielt. Die Auflösung konversationeller Anaphern ist der Flaschenhals.
Was Bestand hat – und was nicht
Der Aufbau des Datensatzes ist sorgfältig und die Auswertung sauber. Die Verwendung der Programmgenauigkeit neben der Ausführungsgenauigkeit ist wertvoll: Zwei Programme können durch unterschiedliche (möglicherweise falsche) Denkwege zum gleichen numerischen Ergebnis führen, und die Programmgenauigkeit deckt dies auf. Die Entscheidung, Konversationen in echten S&P 500-Unterlagen zu verankern, hält die Aufgabe realitätsnah statt synthetisch.
Dennoch ist die Vielfalt der Konversationen bauartbedingt begrenzt. Jedes Gespräch wird durch die Zerlegung bestehender FinQA-Fragen konstruiert – es gibt keine wirklich offenen Dialoge, keine Klärungsrunden, keine Korrekturen durch den Benutzer. Reale Buchhaltungskonversationen beinhalten all dies. Der Datensatz ist eine kontrollierte Annäherung an konversationelles Denken, kein naturalistisches Beispiel.
Die GPT-3-Analyse ist etwas in die Jahre gekommen. Zum Zeitpunkt der Veröffentlichung (Ende 2022) fühlte sich ein GPT-3-Wert von unter 50 % wie ein bedeutendes negatives Ergebnis an. Das Paper entstand jedoch vor GPT-4, und spätere Arbeiten zeigen, dass fähigere Modelle einen Großteil dieser Lücke schließen. Der CoT-Befund – dass das Prompting nach hinten losging – ist interessant, könnte aber modellspezifisch sein: CoT funktioniert tendenziell besser in Modellen mit stärkerer Instruction-Following-Fähigkeit.
Die Bewertung konzentriert sich zudem ausschließlich auf die Korrektheit der endgültigen Antwort und ignoriert die Qualität der dazwischen liegenden Argumentationskette. Dies ist wichtig, da ein Modell eine numerisch richtige Antwort über ein falsches Programm (was die Programmgenauigkeit teilweise erfasst) oder ein korrektes Programm über eine instabile Argumentation generieren kann, die bei geringfügigen Umformulierungen scheitern würde. FinChain (2025) kritisiert dies explizit und motiviert eine auf Transparenz ausgerichtete Alternative. Für Produktionssysteme ist es ebenso wichtig zu wissen, warum das Modell die richtige Antwort gefunden hat, wie zu wissen, dass es sie gefunden hat.
Warum das für Finanz-KI wichtig ist
Ein Beancount-Agent, der Benutzeranfragen bearbeitet, erhält selten eine einzelne, in sich geschlossene Frage. Benutzer fragen: "Was habe ich letzten Monat für Lebensmittel ausgegeben?" und dann "Wie ist das im Vergleich zum Vormonat?" und dann "Ist das mehr als ich budgetiert habe?" Jede Frage baut auf der letzten auf. ConvFinQA ist der am nächsten an diesem Interaktionsmuster liegende veröffentlichte Benchmark, und seine Zahlen sind ernüchternd: Selbst mit perfektem Retrieval ließ das beste verfügbare Modell im Jahr 2022 eine Lücke von etwa 21 Prozentpunkten zur Leistung menschlicher Experten offen, und bei aspektübergreifenden Fragen vergrößert sich dieser Abstand.
Das spezifische Scheitern bei hybriden Konversationen ist hervorzuheben. Wenn ein Benutzer in derselben Sitzung von Fragen zum Umsatz zu Fragen zu Ausgaben wechselt, muss das Modell den numerischen Kontext weiterführen und gleichzeitig den thematischen Fokus zurücksetzen. Genau das muss ein Beancount-Agent während einer mehrstufigen Ledger-Review-Sitzung tun. Der Wert von 52,38 % in diesen Runden ist eine direkte Untergrenze dafür, wie gut aktuelle Ansätze dieses Szenario bewältigen.
Der CoT-Befund ist ebenfalls praktisch nützlich: Er legt nahe, dass bei der Aufforderung an ein Modell, über Finanzdaten in einem mehrstufigen Setting nachzudenken, eine strukturierte Programmgenerierung zuverlässiger sein kann als ein freiformuliertes Chain-of-Thought-Verfahren, zumindest für Modelle auf dem Leistungsniveau von GPT-3. Leistungsfähigere Modelle zeigen diese Umkehrung möglicherweise nicht – aber dies ist eine Hypothese, die es zu testen gilt, keine Annahme, die man einfach treffen sollte.
Was man als Nächstes lesen sollte
- ConvFinQA APOLLO Follow-up (arXiv:2212.07249) – erreicht den State-of-the-Art auf ConvFinQA durch zahlensensitives Negative Sampling und konsistenzbasiertes Reinforcement Learning; lesenswert, um zu sehen, wie die Lücke nach dem ursprünglichen Paper geschlossen wurde.
- Program of Thoughts Prompting (arXiv:2211.12737, 2022) – lagert Arithmetik an einen Python-Interpreter statt an eine DSL aus; berichtete über eine Verbesserung von ca. 12 % gegenüber CoT bei Finanz-QA-Aufgaben und erreichte nahezu SoTA auf ConvFinQA; verbindet CodeAct-Ideen direkt mit finanziellem Denken.
- FLARE: Active Retrieval Augmented Generation (arXiv:2305.06983, EMNLP 2023) – ruft Informationen während der Generierung bei Bedarf ab, anstatt nur einmal zu Beginn; direkt relevant für das mehrstufige Setting, in dem sich das, was das Modell nachschlagen muss, von Runde zu Runde ändert.
