MemGPT применяет подкачку виртуальной памяти в стиле ОС к LLM, используя трехуровневое хранилище — рабочую, оперативную и архивную память — для обеспечения агентов постоянным доступом к данным между сессиями; в бенчмарках многосессионных чатов MemGPT с GPT-4 достигает точности 92,5% против 32,1% у базовой модели с фиксированным контекстом.
SWE-agent (NeurIPS 2024) представляет интерфейсы агент-компьютер (ACI) — специализированные уровни между LLM и программными средами. Решение показало улучшение на 10,7 процентных пункта по сравнению с прямым доступом к оболочке и 12,47% успешности на SWE-bench с GPT-4 Turbo. Дизайн интерфейса, а не возможности модели, является основным узким местом для автономных кодинг-агентов.
SWE-bench оценивает языковые модели на 2 294 реальных проблемах GitHub в 12 репозиториях Python с использованием тестов на основе выполнения; на момент публикации Claude 2 решил только 1,96% проблем при реалистичном поиске, став бенчмарком де-факто для кодинг-агентов и выявив ошибки поиска и длины патчей, имеющие прямое отношение к агентам записи Beancount.
CodeAct (ICML 2024) заменяет вызов инструментов через JSON исполняемым кодом Python, повышая вероятность успеха агентов GPT-4 примерно на 20 процентных пунктов в задачах с использованием нескольких инструментов и сокращая количество итераций взаимодействия на 30% — это имеет прямое значение для создания надежных агентов сверки Beancount.
Хуанг и др. (ICLR 2024) показывают, что LLM, когда их просят пересмотреть собственные рассуждения без внешней обратной связи, стабильно теряют в точности — GPT-4 падает с 95,5% до 91,5% на GSM8K. Мы разберем, что это значит для проектирования надежных агентов для создания журнальных записей Beancount.
Tree of Thoughts (ToT) достигает 74% в «Игре 24» против 4% у стандартного GPT-4 CoT, организуя рассуждения LLM в ветвящееся дерево поиска с отсечением и возвратом — это имеет прямое значение для многоэтапной финансовой классификации и налоговой оптимизации в рабочих процессах Beancount.
CRITIC (ICLR 2024) обеспечивает прирост F1 на 7,7 в задачах QA с открытым доменом и снижение токсичности на 79,2%, основывая пересм отр ответов LLM на сигналах внешних инструментов — цикл «проверка-исправление», который напрямую соотносится с безопасностью записи данных для финансовых агентов Beancount.
Reflexion (NeurIPS 2023) позволяет LLM-агентам совершенствоваться, сохраняя вербальный анализ ошибок в эпизодическом буфере — без необходимости обновления весов. Метод достигает 91% на HumanEval с GPT-4, но терпит неудачу в WebShop, выявляя структурное ограничение: вербальное подкрепление работает только тогда, когда оценщик выдает четкий, действенный сигнал. Вот что это значит для создания самокорректирующегося агента для учета в Beancount.
Self-consistency заменяет жадное декодирование цепочки рассуждений голосованием большинством по N сэмплированным путям рассуждения — повышая точность GPT-3 на GSM8K на 17,9 процентных пункта без дообучения — и напрямую применяется к многоэтапным финансовым расчетам, где однократный вывод LLM ненадежен.