OpenHands ist eine MIT-lizenzierte, Docker-sandboxed Agenten-Plattform, bei der CodeAct 26 % auf SWE-Bench Lite erreicht – ein ernüchternder Benchmark, der festlegt, was KI-Agenten heute zuverlässig leisten können und warum die ersten produktiven Finanzeinsätze eng gefasst und nicht autonom sein sollten.
GPT-4 schließt nur 14,41 % der 812 realistischen Web-Aufgaben von WebArena ab, während Menschen 78,24 % erreichen; der dominierende Fehlermodus ist die falsche Undurchführbarkeit – eine konservative Weigerung zu handeln – mit direkten Auswirkungen auf jeden Agenten, der Fava oder Finanz-Web-UIs bedient.
TableLlama unterzieht Llama 2 (7B) einem Fine-Tuning mit 2,6 Millionen Tabellen-Aufgabenbeispielen und schlägt GPT-4 bei strukturellen Aufgaben wie der Spaltentyp-Annotation (F1 94 vs. 32), bleibt jedoch 33 Punkte hinter dem kompositionellen Denken von WikiTQ zurück – ein kalibrierter Benchmark dafür, was offene 7B-Modelle heute in der Finanz-KI leisten können und was nicht.
SWE-agent (NeurIPS 2024) führt Agent-Computer-Interfaces (ACIs) ein – spezialisierte Ebenen zwischen LLMs und Softwareumgebungen. Es zeigt eine Verbesserung von 10,7 Prozentpunkten gegenüber dem reinen Shell-Zugriff und eine Lösungsrate von 12,47 % auf dem SWE-bench mit GPT-4 Turbo. Interface-Design, nicht die Modellfähigkeit, ist der primäre Engpass für autonome Coding-Agenten.