OpenHands — це платформа для агентів з ліцензією MIT та пісочницею Docker, де CodeAct досягає 26% на SWE-Bench Lite — протверезний бенчмарк, який визначає, що агенти ШІ можуть надійно робити сьогодні, і чому перші продуктивні впровадження у фінансах мають бути вузькоспрямованими, а не автономними.
ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.
Емпіричне порівняння RAG та неконтрольованого тонкого налаштування LLM з 7 млрд параметрів показує, що RAG досягає точності 0,875+ на фактах після дати відсікання знань, тоді як тонке налаштування зупиняється на 0,504. Це має прямі наслідки для розробки агентів Beancount та будь-яких систем, що потребують частого оновлення знань.
Gorilla (Patil та ін., NeurIPS 2024) виконує тонке налаштування моделі LLaMA 7B за допомогою навчання з урахуванням пошуку (Retriever-Aware Training) на знайденій документації API, знижуючи частоту галюцинацій з 78% до 11% порівняно з GPT-4 zero-shot — це має пряме значення для фінансових ШІ-агентів зворотного запису, де помилкові назви рахунків або переплутані знаки є критичними помилками, а не просто незручностями.
SWE-agent (NeurIPS 2024) представляє інтерфейси агент-комп'ютер (ACI) — спеціально розроблені рівні між LLM та програмними середовищами — демонструючи покращення на 10,7 відсоткових пунктів порівняно з прямим доступом до оболонки та 12,47% вирішення на SWE-bench з GPT-4 Turbo. Дизайн інтерфейсу, а не можливості моделі, є основним вузьким місцем для автономних агентів кодування.
SWE-bench оцінює мовні моделі на основі 2294 реальних проблем GitHub у 12 репозиторіях Python за допомогою тестів на основі виконання; на момент публікації Claude 2 вирішив лише 1,96% проблем за умови реалістичного пошуку, ставши бенчмарком де-факто для агентів кодування та виявивши недоліки в пошуку та довжині патчів, які мають безпосереднє значення для агентів запису Beancount.
Детальний аналіз Toolformer (Meta AI, NeurIPS 2023): як самокероване навчання з фільтрацією за перплексією навчає модель із 6,7 млрд параметрів викликати зовнішні API, де вона перевершує GPT-3 175B в арифметичних тестах, і чому її однокрокова архітектура не підтримує ланцюжки викликів інструментів, необхідні для операцій зі структурованими реєстрами.