OpenHands és una plataforma d'agents amb llicència MIT i entorn Docker on CodeAct assoleix un 26% a SWE-Bench Lite — una referència aclaparadora que estableix el que els agents d'IA poden fer de manera fiable avui dia, i per què les primeres implementacions financeres productives haurien de tenir un abast limitat en lloc de ser autònomes.
El GPT-4 completa només el 14,41% de les 812 tasques web realistes de WebArena mentre que els humans arriben al 78,24%; el mode de fallada dominant és la falsa inviabilitat —rebuig conservador a actuar— amb implicacions directes per a qualsevol agent que operi Fava o interfícies web financeres.
TableLlama realitza un ajustament fi de Llama 2 (7B) en 2,6 milions d'exemples de tasques amb taules i supera GPT-4 en tasques estructurals com l'anotació de tipus de columna (F1 94 vs 32), però es queda 33 punts per sota en el raonament compositiu de WikiTQ — un referent calibrat del que els models oberts de 7B poden i no poden fer en la IA financera actual.
SWE-agent (NeurIPS 2024) introdueix les interfícies agent-ordinador (ACI) —capes creades específicament entre els LLM i els entorns de programari—, mostrant una millora de 10,7 punts percentuals respecte a l'accés directe a la shell i una resolució del 12,47% a SWE-bench amb GPT-4 Turbo. El disseny de la interfície, i no la capacitat del model, és el principal coll d'ampolla per als agents de programació autònoms.