OpenHands — це платформа для агентів з ліцензією MIT та пісочницею Docker, де CodeAct досягає 26% на SWE-Bench Lite — протверезний бенчмарк, який визначає, що агенти ШІ можуть надійно робити сьогодні, і чому перші продуктивні впровадження у фінансах мають бути вузькоспрямованими, а не автономними.
GPT-4 виконує лише 14,41% із 812 реалістичних веб-завдань WebArena, тоді як люди досягають 78,24%; основним типом помилок є хибна нездійсненність — консервативна відмова від дій, що має прямі наслідки для будь-якого агента, який працює з Fava або фінансовими веб-інтерфейсами.
TableLlama донавчає Llama 2 (7B) на 2,6 млн прикладах табличних завдань і перевершує GPT-4 у структурних завданнях, як-от анотування типів стовпців (F1 94 проти 32), але відстає на 33 пункти у композиційному мисленні WikiTQ — каліброваному бенчмарку того, що відкриті моделі 7B можуть і чого не можуть у фінансовому ШІ сьогодні.
SWE-agent (NeurIPS 2024) представляє інтерфейси агент-комп'ютер (ACI) — спеціально розроблені рівні між LLM та програмними середовищами — демонструючи покращення на 10,7 відсоткових пунктів порівняно з прямим доступом до оболонки та 12,47% вирішення на SWE-bench з GPT-4 Turbo. Дизайн інтерфейсу, а не можливості моделі, є основним вузьким місцем для автономних агентів кодування.