OpenHands — это платформа для агентов с лицензией MIT и песочницей Docker, где CodeAct достигает 26% на SWE-Bench Lite. Это отрезвляющий бенчмарк, который показывает реальные возможности ИИ-агентов на сегодня и объясняет, почему первые эффективные внедрения в финансах должны иметь четкие границы, а не быть полностью автономными.
ShieldAgent (ICML 2025) заменяет гардрейлы на базе LLM вероятностными логическими схемами, построенными на марковских сетях логики, достигая точности 90,4% при атаках на агентов с сокращением количества вызовов API на 64,7% — и что это значит для верифицируемой безопасности в финансовых ИИ-системах.
Эмпирическое сравнение RAG и неконтролируемого дообучения на моделях LLM с 7 млрд параметров показывает, что RAG достигает точности 0,875+ на фактах после даты отсечки обучения, в то время как дообучение останавливается на уровне 0,504. Это имеет прямое значение для проектирования агентов Beancount и любых систем, требующих частого обновления знаний.
Gorilla (Patil et al., NeurIPS 2024) дообучает модель LLaMA 7B с помощью метода Retriever-Aware Training на найденной документации API, снижая уровень галлюцинаций с 78% до 11% по сравнению с GPT-4 zero-shot. Это имеет прямое значение для ИИ-агентов в сфере финансов, где неверные названия счетов или перепутанные знаки операций являются критическими ошибками.
SWE-agent (NeurIPS 2024) представляет интерфейсы агент-компьютер (ACI) — специализированные уровни между LLM и программными средами. Решение показало улучшение на 10,7 процентных пункта по сравнению с прямым доступом к оболочке и 12,47% успешност и на SWE-bench с GPT-4 Turbo. Дизайн интерфейса, а не возможности модели, является основным узким местом для автономных кодинг-агентов.
SWE-bench оценивает языковые модели на 2 294 реальных проблемах GitHub в 12 репозиториях Python с использованием тестов на основе выполнения; на момент публикации Claude 2 решил только 1,96% проблем при реалистичном поиске, став бенчмарком де-факто для кодинг-агентов и выявив ошибки поиска и длины патчей, имеющие прямое отношение к агентам записи Beancount.
Подробный разбор Toolformer (Meta AI, NeurIPS 2023): как самообучение с фильтрацией по перплексии учит модель с 6,7 млрд параметров вызывать внешние API, в чем она превосходит GPT-3 со 175 млрд параметров в арифметических тестах, и почему ее одношаговая архитектура не поддерживает цепочки вызовов инструментов, необходимые для операций со структурированными бухгалтерскими книгами.