4 Posts getaggt mit „Fintech“

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking von LLM-Agenten für den realen Einsatz von Finanz-Tools unter MCP

FinMCP-Bench evaluiert sechs LLM-Modelle anhand von 613 realen Finanz-Tool-Nutzungsaufgaben, die von 65 MCP-Servern unterstützt werden – das beste Modell erreicht eine exakte Trefferquote von 3,08 % bei mehrstufigen Aufgaben, was einen 20-fachen Leistungseinbruch von Einzel-Tool- zu mehrstufigen Szenarien offenbart.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Evaluation von LLM-Tool-Aufrufen für Finanzaufgaben auf Trajektorie-Ebene

FinTrace bewertet 13 LLMs anhand von 800 von Experten annotierten Finanzaufgaben-Trajektorien über 9 Metriken hinweg und stellt fest, dass Frontier-Modelle eine starke Tool-Auswahl erreichen (F1 ~0,9), aber nur 3,23/5 bei der Informationsnutzung erzielen – dem Schritt, in dem Agenten über die Rückgaben der Tools reflektieren.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Evaluierung von LLM-Agenten bei der Nutzung von Finanzwerkzeugen in der Praxis

FinToolBench kombiniert 760 Live-Finanz-API-Tools mit 295 ausführbaren Abfragen, um LLM-Agenten bei realen Finanzaufgaben zu benchmarken. Dabei wurde festgestellt, dass die konservative Aufrufrate von GPT-4o von 22,7 % eine höhere Antwortqualität (CSS 0,670) liefert als die aggressive TIR von 87,1 % bei Qwen3-8B, während das Intent-Mismatch bei allen getesteten Modellen 50 % überschreitet.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT und die Grenzen domänenspezifischer LLMs im Finanzwesen

Bloomberg trainierte ein LLM mit 50 Mrd. Parametern auf 569 Mrd. Token an Finanzdaten und schlug allgemeine Modelle bei Sentiment- und Tabellen-Logik-Benchmarks – doch dann zog GPT-4 ohne spezifisches Finanz-Vortraining gleich. Was das 10-Millionen-Dollar-Experiment über Abwägungen beim Domänen-Vortraining, die Tokenisierung von Zahlen und die Überlegenheit von Tool-Nutzung gegenüber internen Modellabläufen für Buchhaltungsagenten verrät.

Alles Über Fintech

FinMCP-Bench: Benchmarking von LLM-Agenten für den realen Einsatz von Finanz-Tools unter MCP

FinTrace: Evaluation von LLM-Tool-Aufrufen für Finanzaufgaben auf Trajektorie-Ebene

FinToolBench: Evaluierung von LLM-Agenten bei der Nutzung von Finanzwerkzeugen in der Praxis

BloombergGPT und die Grenzen domänenspezifischer LLMs im Finanzwesen

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches