57 Posts getaggt mit „Automation“

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Können LLM-Agenten CFOs sein? EnterpriseArenas 132-monatige Simulation deckt eine große Lücke auf

EnterpriseArena lässt 11 LLMs eine 132-monatige CFO-Simulation durchlaufen, um Überlebensraten, Endbewertungen und Abschlussraten zu verfolgen. Nur Qwen3.5-9B überlebt 80 % der Durchläufe; GPT-5.4 und DeepSeek-V3.1 erreichen 0 %. Menschliche Experten erzielen 100 % Überleben bei 5-fachem Endwert. Der entscheidende Engpass: LLMs überspringen in 80 % der Fälle den Abgleich des Hauptbuchs und agieren auf veralteten Finanzdaten.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Warum kein LLM eine Sitzungsgenauigkeit von 15 % bei der realen Tool-Nutzung überschreitet

WildToolBench (ICLR 2026) bewertet 57 LLMs anhand von 1.024 Aufgaben aus realem Nutzerverhalten – kein Modell überschreitet eine Sitzungsgenauigkeit von 15 %, wobei kompositionelle Orchestrierung, verborgene Absichten und Instruktionsübergänge die drei kritischsten Fehlermodi darstellen.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: Reale Schema-Komplexität bricht Garantien für strukturierten LLM-Output

JSONSchemaBench testet 9.558 reale JSON-Schemata gegen sechs Frameworks für eingeschränktes Dekodieren und stellt fest, dass die Schema-Komplexität die Abdeckung von 86 % bei einfachen Schemata auf 3 % bei komplexen zusammenbrechen lässt, wobei XGrammar unbemerkt 38 nicht-konforme Ausgaben erzeugt und kein Framework alle 45 JSON-Schema-Funktionskategorien abdeckt.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking von LLM-Agenten für den realen Einsatz von Finanz-Tools unter MCP

FinMCP-Bench evaluiert sechs LLM-Modelle anhand von 613 realen Finanz-Tool-Nutzungsaufgaben, die von 65 MCP-Servern unterstützt werden – das beste Modell erreicht eine exakte Trefferquote von 3,08 % bei mehrstufigen Aufgaben, was einen 20-fachen Leistungseinbruch von Einzel-Tool- zu mehrstufigen Szenarien offenbart.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Evaluation von LLM-Tool-Aufrufen für Finanzaufgaben auf Trajektorie-Ebene

FinTrace bewertet 13 LLMs anhand von 800 von Experten annotierten Finanzaufgaben-Trajektorien über 9 Metriken hinweg und stellt fest, dass Frontier-Modelle eine starke Tool-Auswahl erreichen (F1 ~0,9), aber nur 3,23/5 bei der Informationsnutzung erzielen – dem Schritt, in dem Agenten über die Rückgaben der Tools reflektieren.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Evaluierung von LLM-Agenten bei der Nutzung von Finanzwerkzeugen in der Praxis

FinToolBench kombiniert 760 Live-Finanz-API-Tools mit 295 ausführbaren Abfragen, um LLM-Agenten bei realen Finanzaufgaben zu benchmarken. Dabei wurde festgestellt, dass die konservative Aufrufrate von GPT-4o von 22,7 % eine höhere Antwortqualität (CSS 0,670) liefert als die aggressive TIR von 87,1 % bei Qwen3-8B, während das Intent-Mismatch bei allen getesteten Modellen 50 % überschreitet.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Omnidirektionaler RAG-Evaluations-Benchmark für den Finanzsektor

OmniEval (EMNLP 2025) bewertet RAG-Systeme über 5 Aufgabentypen × 16 Finanzthemen hinweg anhand von 11,4k automatisch generierten Testfällen. Die besten Systeme erreichen nur 36 % numerische Genauigkeit – ein konkreter Beweis dafür, dass RAG-Pipelines Validierungsschichten benötigen, bevor sie in strukturierte Finanzbücher schreiben.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

In der Mitte gefunden: Die Kalibrierung des positionalen Attention-Bias verbessert Long-Context RAG

Eine trainingsfreie Kalibrierung zur Inferenzzeit subtrahiert den positionalen Bias von LLM-Attention-Gewichten und gewinnt bis zu 15 Prozentpunkte an RAG-Genauigkeit zurück, wenn abgerufene Dokumente in der Mitte des Kontextes vergraben sind – und was das für finanzspezifische Agenten-Pipelines bedeutet.

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte

ReDAct führt standardmäßig ein kleines Modell aus und eskaliert nur dann zu einem teuren Modell, wenn die Perplexität auf Token-Ebene Unsicherheit signalisiert. Dabei werden 64 % Kosten gegenüber einer reinen GPT-5.2-Nutzung eingespart, bei gleichbleibender oder höherer Genauigkeit – ein direkt anwendbares Muster für Beancount-Transaktionskategorisierungs-Agenten.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet

OpenHands ist eine MIT-lizenzierte, Docker-sandboxed Agenten-Plattform, bei der CodeAct 26 % auf SWE-Bench Lite erreicht – ein ernüchternder Benchmark, der festlegt, was KI-Agenten heute zuverlässig leisten können und warum die ersten produktiven Finanzeinsätze eng gefasst und nicht autonom sein sollten.

Alles Über Automation

Können LLM-Agenten CFOs sein? EnterpriseArenas 132-monatige Simulation deckt eine große Lücke auf

WildToolBench: Warum kein LLM eine Sitzungsgenauigkeit von 15 % bei der realen Tool-Nutzung überschreitet

JSONSchemaBench: Reale Schema-Komplexität bricht Garantien für strukturierten LLM-Output

FinMCP-Bench: Benchmarking von LLM-Agenten für den realen Einsatz von Finanz-Tools unter MCP

FinTrace: Evaluation von LLM-Tool-Aufrufen für Finanzaufgaben auf Trajektorie-Ebene

FinToolBench: Evaluierung von LLM-Agenten bei der Nutzung von Finanzwerkzeugen in der Praxis

OmniEval: Omnidirektionaler RAG-Evaluations-Benchmark für den Finanzsektor

In der Mitte gefunden: Die Kalibrierung des positionalen Attention-Bias verbessert Long-Context RAG

Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte

OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches