10 Posts getaggt mit „Reconciliation“

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Multimodales RAG mit visuellen Zitaten im Finanzbereich

FinRAGBench-V (EMNLP 2025) ist der erste umfangreiche Benchmark für multimodales RAG mit visuellen Zitaten im Finanzwesen, der über 112.000 Dokumentenseiten und 1.394 von Menschen annotierte Frage-Antwort-Paare umfasst. Top-Modelle erreichen nur 20–61 % Citation-Recall auf Blockebene, und das multimodale Retrieval übertrifft rein textbasiertes Retrieval um fast 50 Prozentpunkte.

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Können LLM-Agenten CFOs sein? EnterpriseArenas 132-monatige Simulation deckt eine große Lücke auf

EnterpriseArena lässt 11 LLMs eine 132-monatige CFO-Simulation durchlaufen, um Überlebensraten, Endbewertungen und Abschlussraten zu verfolgen. Nur Qwen3.5-9B überlebt 80 % der Durchläufe; GPT-5.4 und DeepSeek-V3.1 erreichen 0 %. Menschliche Experten erzielen 100 % Überleben bei 5-fachem Endwert. Der entscheidende Engpass: LLMs überspringen in 80 % der Fälle den Abgleich des Hauptbuchs und agieren auf veralteten Finanzdaten.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking von LLM-Agenten für den realen Einsatz von Finanz-Tools unter MCP

FinMCP-Bench evaluiert sechs LLM-Modelle anhand von 613 realen Finanz-Tool-Nutzungsaufgaben, die von 65 MCP-Servern unterstützt werden – das beste Modell erreicht eine exakte Trefferquote von 3,08 % bei mehrstufigen Aufgaben, was einen 20-fachen Leistungseinbruch von Einzel-Tool- zu mehrstufigen Szenarien offenbart.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

In der Mitte gefunden: Die Kalibrierung des positionalen Attention-Bias verbessert Long-Context RAG

Eine trainingsfreie Kalibrierung zur Inferenzzeit subtrahiert den positionalen Bias von LLM-Attention-Gewichten und gewinnt bis zu 15 Prozentpunkte an RAG-Genauigkeit zurück, wenn abgerufene Dokumente in der Mitte des Kontextes vergraben sind – und was das für finanzspezifische Agenten-Pipelines bedeutet.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern

Fin-RATE benchmarkt 17 LLMs anhand von 7.500 Experten-kuratierten QA-Paaren aus 2.472 SEC-Filings und deckt dabei einen Genauigkeitseinbruch von 18,60 % bei der longitudinalen Verfolgung sowie einen Rückgang um 54 Punkte für das spezialisierte Fin-R1 bei unternehmensübergreifenden Aufgaben auf – wobei die Retrieval-Pipeline und nicht das Basismodell den entscheidenden Engpass darstellt.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Skill-Bibliotheken als Grundlage für lebenslanges Lernen von KI-Agenten

Voyager, ein GPT-4-gestützter Minecraft-Agent von NVIDIA und Caltech, zeigt, dass eine persistente Code-Skill-Bibliothek echtes lebenslanges Lernen ohne Feintuning ermöglicht — und dabei 3,3-mal mehr Gegenstände entdeckt als der bisherige Stand der Technik. Dieses Muster lässt sich direkt auf die langfristige Beancount-Ledger-Automatisierung übertragen, obwohl finanzielle Korrektheit Staging-Layer erfordert, die in Spiele-Sandboxes nie benötigt werden.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Multi-Agent-Konversations-Frameworks für Finanz-KI

AutoGen (Wu et al., 2023) führt ein Multi-Agent-Konversations-Framework ein, bei dem LLM-gestützte Agenten Nachrichten austauschen, um Aufgaben zu lösen; ein Setup mit zwei Agenten steigert die Genauigkeit im MATH-Benchmark von 55 % auf 69 %, und ein spezieller SafeGuard-Agent verbessert die Erkennung von unsicherem Code um bis zu 35 F1-Punkte – Erkenntnisse, die direkt auf den Aufbau sicherer, modularer Beancount-Automatisierungspipelines anwendbar sind.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: Warum ausführbarer Python-Code LLM-Agenten um 20 % genauer macht

CodeAct (ICML 2024) ersetzt JSON-Tool-Calling durch ausführbaren Python-Code. Dies verbessert die Erfolgsraten von GPT-4-Agenten bei Multi-Tool-Aufgaben um ca. 20 Prozentpunkte und reduziert die Interaktionsschritte um 30 % – mit direkten Auswirkungen auf die Entwicklung zuverlässiger Beancount-Abgleich-Agenten.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Warum die LLM-Selbstkorrektur externes Werkzeug-Feedback erfordert

CRITIC (ICLR 2024) erzielt 7,7 F1-Gewinne bei Open-Domain QA und eine Toxizitätsreduzierung von 79,2 %, indem die LLM-Revision in externen Werkzeugsignalen verankert wird – eine Verify-then-Correct-Schleife, die direkt auf die Rückschreibsicherheit für Beancount-Finanzagenten übertragbar ist.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Synergie von Schlussfolgerung und Handeln in Sprachmodellen

ReAct (Yao et al., ICLR 2023) verschränkt Chain-of-Thought-Schlussfolgerungen mit Werkzeugaktionen in einer einzigen Trajektorie und übertrifft reines CoT bei der Faktenprüfung sowie Imitationslernen bei verkörperten Aufgaben um 34 Prozentpunkte. Diese Analyse behandelt die Fehlermodi des Papers – suchinduzierte Ablenkung und Fehlermultiplikation – und deren Bedeutung für autonome Agenten, die in Beancount-Ledger schreiben.

Alles Über Reconciliation

FinRAGBench-V: Multimodales RAG mit visuellen Zitaten im Finanzbereich

Können LLM-Agenten CFOs sein? EnterpriseArenas 132-monatige Simulation deckt eine große Lücke auf

FinMCP-Bench: Benchmarking von LLM-Agenten für den realen Einsatz von Finanz-Tools unter MCP

In der Mitte gefunden: Die Kalibrierung des positionalen Attention-Bias verbessert Long-Context RAG

Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern

Voyager: Skill-Bibliotheken als Grundlage für lebenslanges Lernen von KI-Agenten

AutoGen: Multi-Agent-Konversations-Frameworks für Finanz-KI

CodeAct: Warum ausführbarer Python-Code LLM-Agenten um 20 % genauer macht

CRITIC: Warum die LLM-Selbstkorrektur externes Werkzeug-Feedback erfordert

ReAct: Synergie von Schlussfolgerung und Handeln in Sprachmodellen

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches