OpenHands est une plateforme d'agents sous licence MIT et isolée par Docker, où CodeAct atteint 26 % sur SWE-Bench Lite — un benchmark lucide qui établit ce que les agents d'IA peuvent faire de manière fiable aujourd'hui, et pourquoi les premiers déploiements financiers productifs devraient être strictement délimités plutôt qu'autonomes.
GPT-4 ne réalise que 14,41 % des 812 tâches web réalistes de WebArena, tandis que les humains atteignent 78,24 % ; le mode d'échec dominant est la fausse infaisabilité — un refus conservateur d'agir — avec des implications directes pour tout agent exploitant Fava ou des interfaces web financières.
TableLlama affine Llama 2 (7B) sur 2,6 millions d'exemples de tâches liées aux tableaux et surpasse GPT-4 sur les tâches structurelles telles que l'annotation de type de colonne (F1 94 contre 32), mais reste en retrait de 33 points sur le raisonnement compositionnel WikiTQ — un benchmark calibré sur ce que les modèles ouverts 7B peuvent et ne peuvent pas accomplir dans l'IA financière aujourd'hui.
SWE-agent (NeurIPS 2024) introduit les interfaces agent-ordinateur (ACI) — des couches logicielles conçues sur mesure entre les LLMs et les environnements de développement — montrant une amélioration de 10,7 points de pourcentage par rapport à l'accès shell brut et une résolution de 12,47 % sur SWE-bench avec GPT-4 Turbo. La conception de l'interface, et non la capacité du modèle, est le principal goulot d'étranglement pour les agents de codage autonomes.