OpenHands je platforma pre agentov s licenciou MIT a sandboxom v Dockeri, kde CodeAct dosahuje 26 % na SWE-Bench Lite – triezvy benchmark, ktorý stanovuje, čo dnes AI agenti dokážu spoľahlivo urobiť a prečo by prvé produktívne nasadenia vo financiách mali byť úzko špecifikované namiesto autonómnych.
GPT-4 dokončí iba 14,41 % z 812 realistických webových úloh WebArena, zatiaľ čo ľudia dosahujú 78,24 %; dominantným režimom zlyhania je falošná nerealizovateľnosť — konzervatívne odmietnutie konať — s priamymi dôsledkami pre akéhokoľvek agenta ovládajúceho Fava alebo finančné webové rozhrania.
TableLlama dolaďuje model Llama 2 (7B) na 2,6 milióna príkladoch tabuľkových úloh a prekonáva GPT-4 v štrukturálnych úlohách, ako je anotácia typov stĺpcov (F1 94 vs 32), ale stráca 33 bodov v kompozičnom uvažovaní WikiTQ — kalibrovaný benchmark toho, čo otvorené 7B modely dnes v oblasti finančnej AI dokážu a čo nie.
SWE-agent (NeurIPS 2024) predstavuje rozhrania agent-počítač (ACI) — účelovo vytvorené vrstvy medzi LLM a softvérovými prostrediami — čím vykazuje 10,7-percentuálne zlepšenie oproti priamemu prístupu k shellu a 12,47 % úspešnosť riešenia v SWE-bench s GPT-4 Turbo. Dizajn rozhrania, nie schopnosti modelu, je primárnym úzkym hrdlom pre autonómne programovacie agenty.