FinRAGBench-V (EMNLP 2025) ist der erste umfangreiche Benchmark für multimodales RAG mit visuellen Zitaten im Finanzwesen, der über 112.000 Dokumentenseiten und 1.394 von Menschen annotierte Frage-Antwort-Paare umfasst. Top-Modelle erreichen nur 20–61 % Citation-Recall auf Blockebene, und das multimodale Retrieval übertrifft rein textbasiertes Retrieval um fast 50 Prozentpunkte.
Eine systematische Untersuchung von Methoden zur Schätzung und Kalibrierung der LLM-Konfidenz – White-Box-Logit-Ansätze, konsistenzbasiertes SelfCheckGPT und semantische Entropie – zeigt, dass verbalisierte Konfidenzwerte von GPT-4 nur ca. 62,7 % AUROC erreichen, was kaum über dem Zufallsniveau liegt. Dies hat direkte Auswirkungen auf den Einsatz von unsicherheitsbewussten Agenten im Finanzwesen und in der Buchhaltung.
FinTrace bewertet 13 LLMs anhand von 800 von Experten annotierten Finanzaufgaben-Trajektorien über 9 Metriken hinweg und stellt fest, dass Frontier-Modelle eine starke Tool-Auswahl erreichen (F1 ~0,9), aber nur 3,23/5 bei der Informationsnutzung erzielen – dem Schritt, in dem Agenten über die Rückgaben der Tools reflektieren.
OmniEval (EMNLP 2025) bewertet RAG-Systeme über 5 Aufgabentypen × 16 Finanzthemen hinweg anhand von 11,4k automatisch generierten Testfällen. Die besten Systeme erreichen nur 36 % numerische Genauigkeit – ein konkreter Beweis dafür, dass RAG-Pipelines Validierungsschichten benötigen, bevor sie in strukturierte Finanzbücher schreiben.
FinDER bewertet RAG anhand von 5.703 realen Anfragen von Hedgefonds-Analysten zu S&P 500 10-K-Berichten; E5-Mistral erreicht nur 25,95 % Kontext-Recall, und abkürzungsintensive Anfragen kosten 8,2 Präzisionspunkte – ein Beleg dafür, dass die Abfragenormalisierung und nicht bessere Embeddings die erste Lösung für Finanz-KI-Pipelines ist.
Das TACL-2024-Paper von Liu et al. zeigt, dass LLMs bei Informationen, die in der Mitte langer Kontexte verborgen sind, bis zu 20 Punkte schlechter abschneiden – eine U-förmige Verschlechterung, die jedes getestete Modell einschließlich Claude-1.3-100K betrifft – mit konkreten Auswirkungen darauf, wie RAG-Pipelines abgerufene Passagen in Finanz- und Buchhaltungsanwendungen anordnen sollten.
AnoLLM (ICLR 2025) formuliert die tabellarische Anomalieerkennung als LLM-Dichteschätzung neu – durch Feintuning auf normalen Zeilen und Bewertung mittels negativer Log-Likelihood. Es übertrifft klassische Methoden bei gemischten Betrugsdatensätzen, bietet jedoch keinen Vorteil bei rein numerischen Daten, was konkrete Auswirkungen auf die Erkennung von Anomalien in Beancount-Journalen hat.
DocFinQA ersetzt die kuratierten 700-Wörter-Passagen von FinQA durch vollständige SEC-Filings mit 123.000 Wörtern und setzt Modelle einer 175-fachen Kontextvergrößerung aus, was die Genauigkeit von GPT-4 bei langen Dokumenten fast halbiert. Retrieval-Pipelines finden das richtige Segment in 45 % der Fälle bei HR@3 nicht – und Langkontext-Modelle sind kein Ersatz.
TheAgentCompany testet 175 reale Arbeitsaufgaben in einem simulierten Intranet mit GitLab, OwnCloud und RocketChat. Das beste Modell (Gemini-2.5-Pro) schließt nur 30 % der Aufgaben zu Kosten von jeweils 4 $ ab, was zeigt, dass autonome Agenten noch weit von der Einsatzreife für Buchhaltungs- und Finanz-Workflows entfernt sind.
InvestorBench (ACL 2025) testet 13 LLM-Backbones im Backtesting von Aktien-, Krypto- und ETF-Handel anhand von kumulierter Rendite und Sharpe-Ratio – nicht anhand von QA-Genauigkeit. Qwen2.5-72B führt die Aktien-Rangliste mit 46,15 % CR an; auf Finanzen spezialisierte Modelle erweisen sich bei Aktien als kontraproduktiv. Die Modellgröße sagt die Performance zuverlässiger voraus als domänenspezifisches Fine-Tuning.