Zum Hauptinhalt springen
Automation

Alles Über Automation

57 Artikel
Automation techniques and tools for financial data processing workflows

Können LLM-Agenten CFOs sein? EnterpriseArenas 132-monatige Simulation deckt eine große Lücke auf

EnterpriseArena lässt 11 LLMs eine 132-monatige CFO-Simulation durchlaufen, um Überlebensraten, Endbewertungen und Abschlussraten zu verfolgen. Nur Qwen3.5-9B überlebt 80 % der Durchläufe; GPT-5.4 und DeepSeek-V3.1 erreichen 0 %. Menschliche Experten erzielen 100 % Überleben bei 5-fachem Endwert. Der entscheidende Engpass: LLMs überspringen in 80 % der Fälle den Abgleich des Hauptbuchs und agieren auf veralteten Finanzdaten.

JSONSchemaBench: Reale Schema-Komplexität bricht Garantien für strukturierten LLM-Output

JSONSchemaBench testet 9.558 reale JSON-Schemata gegen sechs Frameworks für eingeschränktes Dekodieren und stellt fest, dass die Schema-Komplexität die Abdeckung von 86 % bei einfachen Schemata auf 3 % bei komplexen zusammenbrechen lässt, wobei XGrammar unbemerkt 38 nicht-konforme Ausgaben erzeugt und kein Framework alle 45 JSON-Schema-Funktionskategorien abdeckt.

FinToolBench: Evaluierung von LLM-Agenten bei der Nutzung von Finanzwerkzeugen in der Praxis

FinToolBench kombiniert 760 Live-Finanz-API-Tools mit 295 ausführbaren Abfragen, um LLM-Agenten bei realen Finanzaufgaben zu benchmarken. Dabei wurde festgestellt, dass die konservative Aufrufrate von GPT-4o von 22,7 % eine höhere Antwortqualität (CSS 0,670) liefert als die aggressive TIR von 87,1 % bei Qwen3-8B, während das Intent-Mismatch bei allen getesteten Modellen 50 % überschreitet.

OmniEval: Omnidirektionaler RAG-Evaluations-Benchmark für den Finanzsektor

OmniEval (EMNLP 2025) bewertet RAG-Systeme über 5 Aufgabentypen × 16 Finanzthemen hinweg anhand von 11,4k automatisch generierten Testfällen. Die besten Systeme erreichen nur 36 % numerische Genauigkeit – ein konkreter Beweis dafür, dass RAG-Pipelines Validierungsschichten benötigen, bevor sie in strukturierte Finanzbücher schreiben.

Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte

ReDAct führt standardmäßig ein kleines Modell aus und eskaliert nur dann zu einem teuren Modell, wenn die Perplexität auf Token-Ebene Unsicherheit signalisiert. Dabei werden 64 % Kosten gegenüber einer reinen GPT-5.2-Nutzung eingespart, bei gleichbleibender oder höherer Genauigkeit – ein direkt anwendbares Muster für Beancount-Transaktionskategorisierungs-Agenten.

OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet

OpenHands ist eine MIT-lizenzierte, Docker-sandboxed Agenten-Plattform, bei der CodeAct 26 % auf SWE-Bench Lite erreicht – ein ernüchternder Benchmark, der festlegt, was KI-Agenten heute zuverlässig leisten können und warum die ersten produktiven Finanzeinsätze eng gefasst und nicht autonom sein sollten.