FinRAGBench-V (EMNLP 2025) ist der erste umfangreiche Benchmark für multimodales RAG mit visuellen Zitaten im Finanzwesen, der über 112.000 Dokumentenseiten und 1.394 von Menschen annotierte Frage-Antwort-Paare umfasst. Top-Modelle erreichen nur 20–61 % Citation-Recall auf Blockebene, und das multimodale Retrieval übertrifft rein textbasiertes Retrieval um fast 50 Prozentpunkte.
Fin-RATE benchmarkt 17 LLMs anhand von 7.500 Experten-kuratierten QA-Paaren aus 2.472 SEC-Filings und deckt dabei einen Genauigkeitseinbruch von 18,60 % bei der longitudinalen Verfolgung sowie einen Rückgang um 54 Punkte für das spezialisierte Fin-R1 bei unternehmensübergreifenden Aufgaben auf – wobei die Retrieval-Pipeline und nicht das Basismodell den entscheidenden Engpass darstellt.
FinDER bewertet RAG anhand von 5.703 realen Anfragen von Hedgefonds-Analysten zu S&P 500 10-K-Berichten; E5-Mistral erreicht nur 25,95 % Kontext-Recall, und abkürzungsintensive Anfragen kosten 8,2 Präzisionspunkte – ein Beleg dafür, dass die Abfragenormalisierung und nicht bessere Embeddings die erste Lösung für Finanz-KI-Pipelines ist.
DocFinQA ersetzt die kuratierten 700-Wörter-Passagen von FinQA durch vollständige SEC-Filings mit 123.000 Wörtern und setzt Modelle einer 175-fachen Kontextvergrößerung aus, was die Genauigkeit von GPT-4 bei langen Dokumenten fast halbiert. Retrieval-Pipelines finden das richtige Segment in 45 % der Fälle bei HR@3 nicht – und Langkontext-Modelle sind kein Ersatz.
FinAuditing testet 13 LLMs Zero-Shot an 1.102 realen SEC-XBRL-Einreichungsinstanzen; die Bestnoten liegen bei 13,86 % bei der finanzmathematischen Verifizierung und 12,42 % beim Abrufen von Konzepten – Ergebnisse, die direkt einschränken, was KI-Buchhaltungstools ohne externe Werkzeuge automatisiert anvertraut werden kann.
TAT-LLM optimiert LLaMA 2 7B mittels LoRA für Finanz-Benchmarks zur Beantwortung von Fragen zu Tabellen und Texten. Mit 64,60 % EM auf FinQA übertrifft es GPT-4 (63,91 %), indem es logisches Schließen in deterministische Extraktions-, Analyse- und Ausführungsschritte unterteilt, um Rechenfehler zu eliminieren.
MultiHiertt (ACL 2022) führt 10.440 QA-Paare aus echten Finanzberichten mit durchschnittlich 3,89 hierarchischen Tabellen ein; modernste Modelle erreichen einen F1-Score von 38 % gegenüber 87 % bei Menschen, mit einem Malus von 15 Punkten bei tabellenübergreifenden Fragen – eine Quantifizierung der Retrieval-Lücke, die Finanz-KI schließen muss.
ConvFinQA (EMNLP 2022) erweitert FinQA um mehrstufige Konversationen über S&P 500 Ergebnisberichte und stellt fest, dass das beste feinabgestimmte Modell eine Ausführungsgenauigkeit von 68,9 % erreicht, verglichen mit 89,4 % bei menschlichen Experten – und auf 52,4 % bei hybriden, multi-aspektiven Gesprächen abfällt, in denen Modelle den numerischen Kontext über verschiedene Finanzthemen hinweg beibehalten müssen.
TAT-QA ist ein Benchmark mit 16.552 Fragen zu hybriden Kontexten aus Tabellen und Texten in Finanzberichten. Er zeigt, dass das Grounding von Belegen – nicht die Arithmetik – der zentrale Engpass in der Finanz-KI ist; bis 2024 erreichten feinabgestimmte 7B LLMs einen F1-Wert von 83 % und schlossen damit einen Großteil der Lücke zum menschlichen Maximum von 91 %.
FinQA (EMNLP 2021) erstellte 8.281 Q&A-Paare aus S&P 500-Ergebnisberichten, die mehrstufige arithmetische Programme erfordern. Neuronale Modelle erzielten bei Veröffentlichung 61 % gegenüber 91 % bei menschlichen Experten; die Genauigkeit bricht bei Programmen mit drei oder mehr Schritten auf 22 % ein. Die Fehlermodi – Domänenkonstanten, modalitätsübergreifende Verankerung, Kettenlänge – lassen sich direkt auf die Herausforderungen übertragen, vor denen Beancount-Agenten heute stehen.