DocFinQA: Langkontextuelles finanzielles Schlussfolgern auf vollständigen SEC-Filings
DocFinQA ist ein ACL-Paper aus dem Jahr 2024, das den bestehenden FinQA-Datensatz nutzt und jede Frage zusammen mit dem vollständigen SEC-Filing präsentiert, aus dem sie stammt – wodurch der durchschnittliche Kontext von unter 700 Wörtern auf 123.000 Wörter erweitert wird. Ich lese es, weil es direkt das Szenario testet, mit dem jeder produktive Beancount-Agent konfrontiert ist: keine ordentlich extrahierte Passage, sondern das gesamte unübersichtliche Dokument. Die Ergebnisse sind ernüchternd für jeden, der plant, Langkontext-Modelle über mehrjährige Hauptbücher (Ledger) einzusetzen.
Das Paper
DocFinQA: A Long-Context Financial Reasoning Dataset — Varshini Reddy, Rik Koncel-Kedziorski, Viet Dac Lai, Michael Krumdick, Charles Lovering und Chris Tanner (ACL 2024, Short Papers) — übernimmt die 8.281 QA-Paare aus FinQA und ergänzt 7.621 davon um den vollständigen SEC-Jahresbericht, aus dem die jeweilige Frage ursprünglich stammte. Das Ergebnis sind 1.236 einzigartige Filings, aufgeteilt in 5.798 Trainings-, 791 Entwicklungs- und 1.032 Testbeispiele, wobei der durchschnittliche Kontext um das 175-fache von etwa 700 Wörtern auf 123.453 Wörter ansteigt.
Der Fragensatz ist unverändert – es handelt sich um dieselben mehrstufigen numerischen Schlussfolgerungsfragen, die Python-Programme zur Beantwortung erfordern. Was sich ändert, ist, dass das Modell nun das vollständige Filing erhält und nicht mehr eine fachmännisch kuratierte 700-Wörter-Passage. Die Forschung vergleicht zwei Ansätze: klassische Retrieval-Pipelines (Segmentieren, Ranken, Antworten) und aufkommende Langkontext-LLMs, die versuchen, das gesamte Dokument Ende-zu-Ende zu verarbeiten.
Kernideen
- Beste Genauigkeit der Retrieval-Pipeline im Testset: GPT-3.5 bei 42,64 %. Open-Source-Modelle liegen deutlich dahinter: Mistral/7B bei 24,97 %, CodeLlama/13B bei 21,01 %, MPT/30B bei 18,07 %.
- Der beste Retrieval-Encoder – ein feinabgestimmtes ColBERT – erreicht HR@1 = 0,35 und HR@3 = 0,55, was bedeutet, dass das korrekte Segment in fast der Hälfte der Fälle im Kontext des Modells fehlt, selbst wenn drei Passagen abgerufen werden.
- Langkontext-GPT-4 (evaluiert an einer Stichprobe von 400 Fragen): 46,5 % bei kürzeren Dokumenten (≤100K Token) gegenüber 23,0 % mit einer „Summarize-then-Answer“-Strategie bei den längsten Dokumenten (>100K Token). GPT-4 macht bei langen Dokumenten fast doppelt so viele Fehler wie bei kurzen.
- Finanzspezifisches PDF-Parsing (Kensho Extract) schnitt wesentlich besser ab als generisches HTML-Parsing (BeautifulSoup), insbesondere bei der Erhaltung von Tabellen – eine praktische Erkenntnis für jede Pipeline, die auf SEC-Filings basiert.
- Ein erheblicher Teil der relevanten Segmente liegt jenseits der Dokumentposition 250, was bedeutet, dass Strategien, die auf Kürzung (Truncation) basieren, die richtigen Belege stillschweigend verwerfen, bevor das Modell sie überhaupt sieht.
Was Bestand hat – und was nicht
Der empirische Kernbeitrag ist solide: Der Datensatz ist eine getreue Erweiterung von FinQA mit einer klar definierten Methodik (Four-Gram-Ähnlichkeits-Scoring zur Identifizierung von Golden Chunks, 2.750-Zeichen-Segmente mit 20 % Überlappung), und die Feststellung, dass die Leistung mit der Dokumentenlänge stark abnimmt, ist sowohl bei Retrieval- als auch bei Langkontext-Ansätzen konsistent. Die fast verdoppelte Fehlerquote von GPT-4 bei langen Dokumenten im Vergleich zu kurzen ist auffällig und schwer von der Hand zu weisen.
Was das Paper nicht vollständig adressiert, ist die Speerspitze der Langkontext-Modelle aus dem Jahr 2024. Die Langkontext-Evaluierung umfasst aus Kostengründen nur 400 Proben und testet weder Gemini 1.5 Pro (1 Mio. Token-Fenster) noch Claude 3 (200K). Die Chunking-Hyperparameter sind vernünftig, wurden aber nicht systematisch ablatiert, und die Multi-Call-Strategie „Summarize-then-Answer“ ist wahrscheinlich nicht die beste verfügbare – das verschachtelte Retrieval von IRCoT und die strukturierte Synthese von StructRAG deuten beide darauf hin, dass es bessere Ansätze für die Aggregation von Multi-Hop-Evidenz in langen Dokumenten gibt.
Das feinabgestimmte ColBERT, das HR@3 = 0,55 erreicht, offenbart das tiefere Problem: Retrieval über lange Finanzdokumente ist an sich ungelöst. Selbst mit einem perfekten generativen Modell würde fast die Hälfte der Abfragen eine Antwort erhalten, die auf den falschen Passagen basiert. Das Paper hebt dies als den entscheidenden Engpass hervor, verzichtet jedoch darauf zu quantifizieren, wie stark sich die Genauigkeit verbessert, wenn das Retrieval als Orakel (Oracle Retrieval) fungiert.
Warum dies für Finanz-KI wichtig ist
Mehrjährige Beancount-Hauptbücher (Ledger) umfassen standardmäßig keine 123.000 Wörter, aber ein Jahrzehnt an Transaktionen mit detaillierten Memos erreicht dies leicht, und ein Finanz-Agent, der auf vollständigen Jahresberichten arbeitet, ist genau diesem Regime ausgesetzt. Die Komprimierung von „wir haben die richtigen 700 Wörter handverlesen“ (FinQA) zu „hier ist das vollständige 10-Q“ (DocFinQA) repräsentiert die Lücke zwischen einem Spielzeug-Benchmark und der Produktionsrealität. DocFinQA macht diese Lücke messbar.
Der fast 50-prozentige Rückgang der GPT-4-Genauigkeit von kurzen zu langen Dokumenten spricht gegen eine einfache „Verwenden Sie einfach ein größeres Kontextfenster“-Lösung. Retrieval bleibt notwendig, ist aber bei HR@3 nur zu 55 % zuverlässig. Für einen Beancount-Write-Back-Agenten, der einen Abschreibungsplan finden muss, der in einem jahrealten Anhang zum Jahresabschluss vergraben ist, bietet keine der Architekturen die Zuverlässigkeit, die man sich wünscht, bevor man eine Buchung vornimmt. Die ehrliche Lesart dieses Papers: Besseres Retrieval, bessere Aggregation von Belegen und die explizite Evaluierung von stillschweigenden Fehlern – nicht ein größeres Kontextfenster – sind das, was das Feld tatsächlich benötigt.
Was man als Nächstes lesen sollte
- "Lost in the Middle: How Language Models Use Long Contexts" — Liu et al., 2023, arXiv:2307.03172. Liefert die mechanistische Erklärung für den positionsabhängigen Genauigkeitseinbruch, den DocFinQA misst, mit der mittlerweile kanonischen U-förmigen Leistungskurve.
- FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation — arXiv:2504.15800, ICLR 2025 Workshop. Ein Nachfolge-Benchmark aus dem Jahr 2025 mit 5.703 Abfrage-Beleg-Antwort-Tripletts, die um realistische professionelle Finanz-Suchanfragen herum entwickelt wurden, einschließlich Abkürzungen und Akronymen, die Standard-Retriever übersehen.
- Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings — arXiv:2602.07294. Ein neuerer SEC-Filing-Benchmark, der über die Beantwortung von Fragen zu einzelnen Dokumenten hinaus zeitliche Verfolgungsaufgaben hinzufügt, was eher dem entspricht, was ein Beancount-Prüfungsagent tatsächlich benötigen würde.
