Zum Hauptinhalt springen
Data Science

Alles Über Data Science

40 Artikel
Data science methods applied to financial datasets and accounting workflows

FinRAGBench-V: Multimodales RAG mit visuellen Zitaten im Finanzbereich

FinRAGBench-V (EMNLP 2025) ist der erste umfangreiche Benchmark für multimodales RAG mit visuellen Zitaten im Finanzwesen, der über 112.000 Dokumentenseiten und 1.394 von Menschen annotierte Frage-Antwort-Paare umfasst. Top-Modelle erreichen nur 20–61 % Citation-Recall auf Blockebene, und das multimodale Retrieval übertrifft rein textbasiertes Retrieval um fast 50 Prozentpunkte.

LLM-Konfidenz und Kalibrierung: Ein Überblick über den tatsächlichen Stand der Forschung

Eine systematische Untersuchung von Methoden zur Schätzung und Kalibrierung der LLM-Konfidenz – White-Box-Logit-Ansätze, konsistenzbasiertes SelfCheckGPT und semantische Entropie – zeigt, dass verbalisierte Konfidenzwerte von GPT-4 nur ca. 62,7 % AUROC erreichen, was kaum über dem Zufallsniveau liegt. Dies hat direkte Auswirkungen auf den Einsatz von unsicherheitsbewussten Agenten im Finanzwesen und in der Buchhaltung.

FinToolBench: Evaluierung von LLM-Agenten bei der Nutzung von Finanzwerkzeugen in der Praxis

FinToolBench kombiniert 760 Live-Finanz-API-Tools mit 295 ausführbaren Abfragen, um LLM-Agenten bei realen Finanzaufgaben zu benchmarken. Dabei wurde festgestellt, dass die konservative Aufrufrate von GPT-4o von 22,7 % eine höhere Antwortqualität (CSS 0,670) liefert als die aggressive TIR von 87,1 % bei Qwen3-8B, während das Intent-Mismatch bei allen getesteten Modellen 50 % überschreitet.

OmniEval: Omnidirektionaler RAG-Evaluations-Benchmark für den Finanzsektor

OmniEval (EMNLP 2025) bewertet RAG-Systeme über 5 Aufgabentypen × 16 Finanzthemen hinweg anhand von 11,4k automatisch generierten Testfällen. Die besten Systeme erreichen nur 36 % numerische Genauigkeit – ein konkreter Beweis dafür, dass RAG-Pipelines Validierungsschichten benötigen, bevor sie in strukturierte Finanzbücher schreiben.

Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern

Fin-RATE benchmarkt 17 LLMs anhand von 7.500 Experten-kuratierten QA-Paaren aus 2.472 SEC-Filings und deckt dabei einen Genauigkeitseinbruch von 18,60 % bei der longitudinalen Verfolgung sowie einen Rückgang um 54 Punkte für das spezialisierte Fin-R1 bei unternehmensübergreifenden Aufgaben auf – wobei die Retrieval-Pipeline und nicht das Basismodell den entscheidenden Engpass darstellt.

FinDER: Reale Analystenanfragen decken eine Recall-Lücke von 74 % bei Finanz-RAG auf

FinDER bewertet RAG anhand von 5.703 realen Anfragen von Hedgefonds-Analysten zu S&P 500 10-K-Berichten; E5-Mistral erreicht nur 25,95 % Kontext-Recall, und abkürzungsintensive Anfragen kosten 8,2 Präzisionspunkte – ein Beleg dafür, dass die Abfragenormalisierung und nicht bessere Embeddings die erste Lösung für Finanz-KI-Pipelines ist.

Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI

Das TACL-2024-Paper von Liu et al. zeigt, dass LLMs bei Informationen, die in der Mitte langer Kontexte verborgen sind, bis zu 20 Punkte schlechter abschneiden – eine U-förmige Verschlechterung, die jedes getestete Modell einschließlich Claude-1.3-100K betrifft – mit konkreten Auswirkungen darauf, wie RAG-Pipelines abgerufene Passagen in Finanz- und Buchhaltungsanwendungen anordnen sollten.