Zum Hauptinhalt springen
Developers

Alles Über Developers

7 Artikel
Developer resources, APIs, and integration documentation for finance tools

OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet

OpenHands ist eine MIT-lizenzierte, Docker-sandboxed Agenten-Plattform, bei der CodeAct 26 % auf SWE-Bench Lite erreicht – ein ernüchternder Benchmark, der festlegt, was KI-Agenten heute zuverlässig leisten können und warum die ersten produktiven Finanzeinsätze eng gefasst und nicht autonom sein sollten.

Fine-Tuning vs. RAG: Warum Retrieval bei der Injektion von neuem Wissen in LLMs gewinnt

Ein empirischer Vergleich von RAG gegenüber unüberwachtem Fine-Tuning bei 7B-Parameter-LLMs zeigt, dass RAG eine Genauigkeit von über 0,875 bei Fakten nach dem Wissensstopp erreicht, während Fine-Tuning bei 0,504 stagniert – mit direkten Auswirkungen auf das Design von Beancount-Agenten und Systemen, die häufige Wissensaktualisierungen erfordern.

Gorilla: Wie Retrieval-Aware Training LLM-API-Halluzinationen von 78 % auf 11 % reduziert

Gorilla (Patil et al., NeurIPS 2024) optimiert ein 7B LLaMA-Modell mittels Retriever-Aware Training auf abgerufenen API-Dokumentationen und reduziert die Halluzinationsraten von 78 % auf 11 % gegenüber GPT-4 Zero-Shot. Dies hat direkte Folgen für Finanz-KI-Schreibagenten (Write-Back Agents), bei denen falsche Kontonamen oder vertauschte Vorzeichen fundamentale Korrektheitsfehler statt bloßer Unannehmlichkeiten sind.

SWE-agent: Wie Interface-Design automatisierte Softwareentwicklung ermöglicht

SWE-agent (NeurIPS 2024) führt Agent-Computer-Interfaces (ACIs) ein – spezialisierte Ebenen zwischen LLMs und Softwareumgebungen. Es zeigt eine Verbesserung von 10,7 Prozentpunkten gegenüber dem reinen Shell-Zugriff und eine Lösungsrate von 12,47 % auf dem SWE-bench mit GPT-4 Turbo. Interface-Design, nicht die Modellfähigkeit, ist der primäre Engpass für autonome Coding-Agenten.

SWE-bench: Können Sprachmodelle reale GitHub-Issues lösen?

SWE-bench evaluiert Sprachmodelle anhand von 2.294 realen GitHub-Issues aus 12 Python-Repositories mittels ausführungsbasierter Tests; zum Zeitpunkt der Veröffentlichung löste Claude 2 nur 1,96 % der Probleme bei realistischer Informationsbeschaffung (Retrieval), was den De-facto-Benchmark für Coding-Agenten etablierte und Fehlerquellen bei Retrieval und Patch-Länge aufzeigte, die direkt relevant für Beancount-Write-Back-Agenten sind.

Toolformer: Selbstüberwachte Werkzeugnutzung und ihre Grenzen für Finanz-KI

Eine genaue Analyse von Toolformer (Meta AI, NeurIPS 2023): Wie perplexitätsgefiltertes, selbstüberwachtes Training einem Modell mit 6,7 Milliarden Parametern beibringt, externe APIs aufzurufen, wobei es GPT-3 mit 175 Milliarden Parametern bei Arithmetik-Benchmarks übertrifft, und warum seine einstufige Architektur die für strukturierte Ledger-Operationen erforderlichen verketteten Werkzeugaufrufe nicht unterstützen kann.