Mike Thrift
Marketing Manager
SWE-agent: как дизайн интерфейса открывает возможности автоматизации разработки ПО
SWE-agent (NeurIPS 2024) представляет интерфейсы агент-компьютер (ACI) — специализированные уровни между LLM и программными средами. Решение показало улучшение на 10,7 процентных пункта по сравнению с прямым доступом к оболочке и 12,47% успешности на SWE-bench с GPT-4 Turbo. Дизайн интерфейса, а не возможности модели, является основным узким местом для автономных кодинг-агентов.
SWE-bench: Могут ли языковые модели решать реальные проблемы на GitHub?
SWE-bench оценивает языковые модели на 2 294 реальных проблемах GitHub в 12 репозиториях Python с использованием тестов на основе выполнения; на момент публикации Claude 2 решил только 1,96% проблем при реалистичном поиске, став бенчмарком де-факто для кодинг-агентов и выявив ошибки поиска и длины патчей, имеющие прямое отношение к агентам записи Beancount.
CodeAct: почему исполняемый код Python делает LLM-агентов на 20% точнее
CodeAct (ICML 2024) заменяет вызов инструментов через JSON исполняемым кодом Python, повышая вероятность успеха агентов GPT-4 примерно на 20 процентных пунктов в задачах с использованием нескольких инструментов и сокращая количество итераций взаимодействия на 30% — это имеет прямое значение для создания надежных агентов сверки Beancount.
LLM пока не могут самостоятельно исправлять свои рассуждения — выводы ICLR 2024 и последствия для ИИ в финансах
Хуанг и др. (ICLR 2024) показывают, что LLM, когда их просят пересмотреть собственные рассуждения без внешней обратной связи, стабильно теряют в точности — GPT-4 падает с 95,5% до 91,5% на GSM8K. Мы разберем, что это значит для проектирования надежных агентов для создания журнальных записей Beancount.
Tree of Thoughts: осознанное решение задач с помощью поиска через LLM
Tree of Thoughts (ToT) достигает 74% в «Игре 24» против 4% у стандартного GPT-4 CoT, организуя рассуждения LLM в ветвящееся дерево поиска с отсечением и возвратом — это имеет прямое значение для многоэтапной финансовой классификации и налоговой оптимизации в рабочих процессах Beancount.
CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов
CRITIC (ICLR 2024) обеспечивает прирост F1 на 7,7 в задачах QA с открытым доменом и снижение токсичности на 79,2%, основывая пересмотр ответов LLM на сигналах внешних инструментов — цикл «проверка-исправление», который напрямую соотносится с безопасностью записи данных для финансовых агентов Beancount.
Reflexion: языковые агенты, которые учатся на ошибках без переобучения
Reflexion (NeurIPS 2023) позволяет LLM-агентам совершенствоваться, сохраняя вербальный анализ ошибок в эпизодическом буфере — без необходимости обновления весов. Метод достигает 91% на HumanEval с GPT-4, но терпит неудачу в WebShop, выявляя структурное ограничение: вербальное подкрепление работает только тогда, когда оценщик выдает четкий, действенный сигнал. Вот что это значит для создания самокорректирующегося агента для учета в Beancount.
Self-Consistency: выборка по принципу большинства повышает точность цепочки рассуждений
Self-consistency заменяет жадное декодирование цепочки рассуждений голосованием большинством по N сэмплированным путям рассуждения — повышая точность GPT-3 на GSM8K на 17,9 процентных пункта без дообучения — и напрямую применяется к многоэтапным финансовым расчетам, где однократный вывод LLM ненадежен.
PAL: Программно-вспомогательные языковые модели для надежной финансовой арифметики
PAL (Program-Aided Language Models) обеспечивает прирост точности на +38 п.п. по сравнению с методом «цепочки рассуждений» в задачах с интенсивными вычислениями за счет делегирования расчетов интерпретатору Python — архитектура, напрямую применимая для надежных запросов к книгам Beancount и финансового ИИ.
Могут ли LLM рассуждать над табличными данными? Чему нас учат четыре бенчмарка для финансового ИИ
Четыре бенчмарка 2024–2025 годов показывают, что GPT-4 набирает 42% в ответах на вопросы по реальным таблицам против 86% у людей, причем точность сложных агрегаций падает до 19,6%. При этом нативный синтаксис Beancount находится в самом конце иерархии сериализации по эффективности для ввода в LLM.
Конституционный ИИ для бухгалтерских агентов: RLAIF, программные правила и риски Гудхарта
Статья Anthropic о конституционном ИИ (Bai et al., 2022) описывает обучение LLM следованию правилам с помощью обратной связи от ИИ, а не меток вреда от человека. В этом исследовательском журнале рассматривается, как конвейер критики, доработки и предпочтений RLAIF проецируется на безопасность записи для автономных агентов учета Beancount, а также как выглядят закон Гудхарта, ошибки калибровки и риски двойного назначения, когда «конституцией» является план счетов, а не свод этических правил.
Цепочка рассуждений (Chain-of-Thought): компромисс между точностью и полнотой для ИИ в финансах
Подробный разбор статьи Вея и др. (2022) о цепочке рассуждений (Chain-of-Thought) и её значение для ИИ в финансах — почему CoT повышает точность, но может снизить полноту при обнаружении редких событий, почему порог масштабируемости важен для производственных агентов и на что стоит обратить внимание финансовым командам при разработке на базе LLM.