40 Posts getaggt mit „Data Science“

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Multimodales RAG mit visuellen Zitaten im Finanzbereich

FinRAGBench-V (EMNLP 2025) ist der erste umfangreiche Benchmark für multimodales RAG mit visuellen Zitaten im Finanzwesen, der über 112.000 Dokumentenseiten und 1.394 von Menschen annotierte Frage-Antwort-Paare umfasst. Top-Modelle erreichen nur 20–61 % Citation-Recall auf Blockebene, und das multimodale Retrieval übertrifft rein textbasiertes Retrieval um fast 50 Prozentpunkte.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Warum kein LLM eine Sitzungsgenauigkeit von 15 % bei der realen Tool-Nutzung überschreitet

WildToolBench (ICLR 2026) bewertet 57 LLMs anhand von 1.024 Aufgaben aus realem Nutzerverhalten – kein Modell überschreitet eine Sitzungsgenauigkeit von 15 %, wobei kompositionelle Orchestrierung, verborgene Absichten und Instruktionsübergänge die drei kritischsten Fehlermodi darstellen.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

LLM-Konfidenz und Kalibrierung: Ein Überblick über den tatsächlichen Stand der Forschung

Eine systematische Untersuchung von Methoden zur Schätzung und Kalibrierung der LLM-Konfidenz – White-Box-Logit-Ansätze, konsistenzbasiertes SelfCheckGPT und semantische Entropie – zeigt, dass verbalisierte Konfidenzwerte von GPT-4 nur ca. 62,7 % AUROC erreichen, was kaum über dem Zufallsniveau liegt. Dies hat direkte Auswirkungen auf den Einsatz von unsicherheitsbewussten Agenten im Finanzwesen und in der Buchhaltung.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Evaluierung von LLM-Agenten bei der Nutzung von Finanzwerkzeugen in der Praxis

FinToolBench kombiniert 760 Live-Finanz-API-Tools mit 295 ausführbaren Abfragen, um LLM-Agenten bei realen Finanzaufgaben zu benchmarken. Dabei wurde festgestellt, dass die konservative Aufrufrate von GPT-4o von 22,7 % eine höhere Antwortqualität (CSS 0,670) liefert als die aggressive TIR von 87,1 % bei Qwen3-8B, während das Intent-Mismatch bei allen getesteten Modellen 50 % überschreitet.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Omnidirektionaler RAG-Evaluations-Benchmark für den Finanzsektor

OmniEval (EMNLP 2025) bewertet RAG-Systeme über 5 Aufgabentypen × 16 Finanzthemen hinweg anhand von 11,4k automatisch generierten Testfällen. Die besten Systeme erreichen nur 36 % numerische Genauigkeit – ein konkreter Beweis dafür, dass RAG-Pipelines Validierungsschichten benötigen, bevor sie in strukturierte Finanzbücher schreiben.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

LLM-Anomalieerkennung Survey (NAACL 2025): Starke Taxonomie, fehlende Abdeckung tabellarischer Daten

Eine kritische Analyse des NAACL 2025 Surveys von Xu und Ding zur LLM-basierten Anomalie- und OOD-Erkennung. Während die Taxonomie (Erkennung vs. Generierung) überzeugt, zwingt das fast vollständige Fehlen tabellarischer Daten Finanz-KI-Experten dazu, Erkenntnisse aus Vision-Modellen selbst zu übertragen.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

In der Mitte gefunden: Die Kalibrierung des positionalen Attention-Bias verbessert Long-Context RAG

Eine trainingsfreie Kalibrierung zur Inferenzzeit subtrahiert den positionalen Bias von LLM-Attention-Gewichten und gewinnt bis zu 15 Prozentpunkte an RAG-Genauigkeit zurück, wenn abgerufene Dokumente in der Mitte des Kontextes vergraben sind – und was das für finanzspezifische Agenten-Pipelines bedeutet.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern

Fin-RATE benchmarkt 17 LLMs anhand von 7.500 Experten-kuratierten QA-Paaren aus 2.472 SEC-Filings und deckt dabei einen Genauigkeitseinbruch von 18,60 % bei der longitudinalen Verfolgung sowie einen Rückgang um 54 Punkte für das spezialisierte Fin-R1 bei unternehmensübergreifenden Aufgaben auf – wobei die Retrieval-Pipeline und nicht das Basismodell den entscheidenden Engpass darstellt.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Reale Analystenanfragen decken eine Recall-Lücke von 74 % bei Finanz-RAG auf

FinDER bewertet RAG anhand von 5.703 realen Anfragen von Hedgefonds-Analysten zu S&P 500 10-K-Berichten; E5-Mistral erreicht nur 25,95 % Kontext-Recall, und abkürzungsintensive Anfragen kosten 8,2 Präzisionspunkte – ein Beleg dafür, dass die Abfragenormalisierung und nicht bessere Embeddings die erste Lösung für Finanz-KI-Pipelines ist.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI

Das TACL-2024-Paper von Liu et al. zeigt, dass LLMs bei Informationen, die in der Mitte langer Kontexte verborgen sind, bis zu 20 Punkte schlechter abschneiden – eine U-förmige Verschlechterung, die jedes getestete Modell einschließlich Claude-1.3-100K betrifft – mit konkreten Auswirkungen darauf, wie RAG-Pipelines abgerufene Passagen in Finanz- und Buchhaltungsanwendungen anordnen sollten.

Alles Über Data Science

FinRAGBench-V: Multimodales RAG mit visuellen Zitaten im Finanzbereich

WildToolBench: Warum kein LLM eine Sitzungsgenauigkeit von 15 % bei der realen Tool-Nutzung überschreitet

LLM-Konfidenz und Kalibrierung: Ein Überblick über den tatsächlichen Stand der Forschung

FinToolBench: Evaluierung von LLM-Agenten bei der Nutzung von Finanzwerkzeugen in der Praxis

OmniEval: Omnidirektionaler RAG-Evaluations-Benchmark für den Finanzsektor

LLM-Anomalieerkennung Survey (NAACL 2025): Starke Taxonomie, fehlende Abdeckung tabellarischer Daten

In der Mitte gefunden: Die Kalibrierung des positionalen Attention-Bias verbessert Long-Context RAG

Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern

FinDER: Reale Analystenanfragen decken eine Recall-Lücke von 74 % bei Finanz-RAG auf

Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches