OpenHands ist eine MIT-lizenzierte, Docker-sandboxed Agenten-Plattform, bei der CodeAct 26 % auf SWE-Bench Lite erreicht – ein ernüchternder Benchmark, der festlegt, was KI-Agenten heute zuverlässig leisten können und warum die ersten produktiven Finanzeinsätze eng gefasst und nicht autonom sein sollten.
ShieldAgent (ICML 2025) ersetzt LLM-basierte Guardrails durch probabilistische Regel-Schaltkreise auf Basis von Markov-Logik-Netzwerken und erreicht eine Genauigkeit von 90,4 % bei Agentenangriffen mit 64,7 % weniger API-Aufrufen – und was dies für die verifizierbare Sicherheit in KI-Finanzsystemen bedeutet.
Ein empirischer Vergleich von RAG gegenüber unüberwachtem Fine-Tuning bei 7B-Parameter-LLMs zeigt, dass RAG eine Genauigkeit von über 0,875 bei Fakten nach dem Wissensstopp erreicht, während Fine-Tuning bei 0,504 stagniert – mit direkten Auswirkungen auf das Design von Beancount-Agenten und Systemen, die häufige Wissensaktualisierungen erfordern.
Gorilla (Patil et al., NeurIPS 2024) optimiert ein 7B LLaMA-Modell mittels Retriever-Aware Training auf abgerufenen API-Dokumentationen und reduziert die Halluzinationsraten von 78 % auf 11 % gegenüber GPT-4 Zero-Shot. Dies hat direkte Folgen für Finanz-KI-Schreibagenten (Write-Back Agents), bei denen falsche Kontonamen oder vertauschte Vorzeichen fundamentale Korrektheitsfehler statt bloßer Unannehmlichkeiten sind.
SWE-agent (NeurIPS 2024) führt Agent-Computer-Interfaces (ACIs) ein – spezialisierte Ebenen zwischen LLMs und Softwareumgebungen. Es zeigt eine Verbesserung von 10,7 Prozentpunkten gegenüber dem reinen Shell-Zugriff und eine Lösungsrate von 12,47 % auf dem SWE-bench mit GPT-4 Turbo. Interface-Design, nicht die Modellfähigkeit, ist der primäre Engpass für autonome Coding-Agenten.
SWE-bench evaluiert Sprachmodelle anhand von 2.294 realen GitHub-Issues aus 12 Python-Repositories mittels ausführungsbasierter Tests; zum Zeitpunkt der Veröffentlichung löste Claude 2 nur 1,96 % der Probleme bei realistischer Informationsbeschaffung (Retrieval), was den De-facto-Benchmark für Coding-Agenten etablierte und Fehlerquellen bei Retrieval und Patch-Länge aufzeigte, die direkt relevant für Beancount-Write-Back-Agenten sind.
Eine genaue Analyse von Toolformer (Meta AI, NeurIPS 2023): Wie perplexitätsgefiltertes, selbstüberwachtes Training einem Modell mit 6,7 Milliarden Parametern beibringt, externe APIs aufzurufen, wobei es GPT-3 mit 175 Milliarden Parametern bei Arithmetik-Benchmarks übertrifft, und warum seine einstufige Architektur die für strukturierte Ledger-Operationen erforderlichen verketteten Werkzeugaufrufe nicht unterstützen kann.