35 Posts getaggt mit „Finance“

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Multimodales RAG mit visuellen Zitaten im Finanzbereich

FinRAGBench-V (EMNLP 2025) ist der erste umfangreiche Benchmark für multimodales RAG mit visuellen Zitaten im Finanzwesen, der über 112.000 Dokumentenseiten und 1.394 von Menschen annotierte Frage-Antwort-Paare umfasst. Top-Modelle erreichen nur 20–61 % Citation-Recall auf Blockebene, und das multimodale Retrieval übertrifft rein textbasiertes Retrieval um fast 50 Prozentpunkte.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

LLM-Konfidenz und Kalibrierung: Ein Überblick über den tatsächlichen Stand der Forschung

Eine systematische Untersuchung von Methoden zur Schätzung und Kalibrierung der LLM-Konfidenz – White-Box-Logit-Ansätze, konsistenzbasiertes SelfCheckGPT und semantische Entropie – zeigt, dass verbalisierte Konfidenzwerte von GPT-4 nur ca. 62,7 % AUROC erreichen, was kaum über dem Zufallsniveau liegt. Dies hat direkte Auswirkungen auf den Einsatz von unsicherheitsbewussten Agenten im Finanzwesen und in der Buchhaltung.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Evaluation von LLM-Tool-Aufrufen für Finanzaufgaben auf Trajektorie-Ebene

FinTrace bewertet 13 LLMs anhand von 800 von Experten annotierten Finanzaufgaben-Trajektorien über 9 Metriken hinweg und stellt fest, dass Frontier-Modelle eine starke Tool-Auswahl erreichen (F1 ~0,9), aber nur 3,23/5 bei der Informationsnutzung erzielen – dem Schritt, in dem Agenten über die Rückgaben der Tools reflektieren.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Omnidirektionaler RAG-Evaluations-Benchmark für den Finanzsektor

OmniEval (EMNLP 2025) bewertet RAG-Systeme über 5 Aufgabentypen × 16 Finanzthemen hinweg anhand von 11,4k automatisch generierten Testfällen. Die besten Systeme erreichen nur 36 % numerische Genauigkeit – ein konkreter Beweis dafür, dass RAG-Pipelines Validierungsschichten benötigen, bevor sie in strukturierte Finanzbücher schreiben.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Reale Analystenanfragen decken eine Recall-Lücke von 74 % bei Finanz-RAG auf

FinDER bewertet RAG anhand von 5.703 realen Anfragen von Hedgefonds-Analysten zu S&P 500 10-K-Berichten; E5-Mistral erreicht nur 25,95 % Kontext-Recall, und abkürzungsintensive Anfragen kosten 8,2 Präzisionspunkte – ein Beleg dafür, dass die Abfragenormalisierung und nicht bessere Embeddings die erste Lösung für Finanz-KI-Pipelines ist.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI

Das TACL-2024-Paper von Liu et al. zeigt, dass LLMs bei Informationen, die in der Mitte langer Kontexte verborgen sind, bis zu 20 Punkte schlechter abschneiden – eine U-förmige Verschlechterung, die jedes getestete Modell einschließlich Claude-1.3-100K betrifft – mit konkreten Auswirkungen darauf, wie RAG-Pipelines abgerufene Passagen in Finanz- und Buchhaltungsanwendungen anordnen sollten.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: Fine-Tuning von LLMs zur tabellarischen Anomalieerkennung in Finanzdaten

AnoLLM (ICLR 2025) formuliert die tabellarische Anomalieerkennung als LLM-Dichteschätzung neu – durch Feintuning auf normalen Zeilen und Bewertung mittels negativer Log-Likelihood. Es übertrifft klassische Methoden bei gemischten Betrugsdatensätzen, bietet jedoch keinen Vorteil bei rein numerischen Daten, was konkrete Auswirkungen auf die Erkennung von Anomalien in Beancount-Journalen hat.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Langkontextuelles finanzielles Schlussfolgern auf vollständigen SEC-Filings

DocFinQA ersetzt die kuratierten 700-Wörter-Passagen von FinQA durch vollständige SEC-Filings mit 123.000 Wörtern und setzt Modelle einer 175-fachen Kontextvergrößerung aus, was die Genauigkeit von GPT-4 bei langen Dokumenten fast halbiert. Retrieval-Pipelines finden das richtige Segment in 45 % der Fälle bei HR@3 nicht – und Langkontext-Modelle sind kein Ersatz.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Benchmarking von LLM-Agenten bei realen Unternehmensaufgaben

TheAgentCompany testet 175 reale Arbeitsaufgaben in einem simulierten Intranet mit GitLab, OwnCloud und RocketChat. Das beste Modell (Gemini-2.5-Pro) schließt nur 30 % der Aufgaben zu Kosten von jeweils 4 $ ab, was zeigt, dass autonome Agenten noch weit von der Einsatzreife für Buchhaltungs- und Finanz-Workflows entfernt sind.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: Benchmarking von LLM-Agenten bei finanziellen Handelsentscheidungen

InvestorBench (ACL 2025) testet 13 LLM-Backbones im Backtesting von Aktien-, Krypto- und ETF-Handel anhand von kumulierter Rendite und Sharpe-Ratio – nicht anhand von QA-Genauigkeit. Qwen2.5-72B führt die Aktien-Rangliste mit 46,15 % CR an; auf Finanzen spezialisierte Modelle erweisen sich bei Aktien als kontraproduktiv. Die Modellgröße sagt die Performance zuverlässiger voraus als domänenspezifisches Fine-Tuning.

Alles Über Finance

FinRAGBench-V: Multimodales RAG mit visuellen Zitaten im Finanzbereich

LLM-Konfidenz und Kalibrierung: Ein Überblick über den tatsächlichen Stand der Forschung

FinTrace: Evaluation von LLM-Tool-Aufrufen für Finanzaufgaben auf Trajektorie-Ebene

OmniEval: Omnidirektionaler RAG-Evaluations-Benchmark für den Finanzsektor

FinDER: Reale Analystenanfragen decken eine Recall-Lücke von 74 % bei Finanz-RAG auf

Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI

AnoLLM: Fine-Tuning von LLMs zur tabellarischen Anomalieerkennung in Finanzdaten

DocFinQA: Langkontextuelles finanzielles Schlussfolgern auf vollständigen SEC-Filings

TheAgentCompany: Benchmarking von LLM-Agenten bei realen Unternehmensaufgaben

InvestorBench: Benchmarking von LLM-Agenten bei finanziellen Handelsentscheidungen

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches