FinRAGBench-V (EMNLP 2025) — это первый масштабный бенчмарк для мультимодального RAG с визуальными цитатами в финансах, охватывающий более 112 тыс. страниц документов и 1394 размеченных вручную пар вопросов и ответов. Лучшие модели достигают лишь 20–61% полноты цитирования на уровне блоков, а мультимодальный поиск превосходит текстовый почти на 50 процентных пунктов.
EnterpriseArena проводит 11 LLM через 132-месячную симуляцию финансового директора, отслеживая выживаемость, итоговую оценку и частоту закрытия отчетности. Только Qwen3.5-9B выживает в 80% запусков; показатели GPT-5.4 и DeepSeek-V3.1 составили 0%. Эксперты-люди достигают 100% выживаемости при итоговой стоимости в 5 раз выше. Критическое узкое место — LLM пропускают сверку реестров в 80% случаев, действуя на основе устаревшего финансового состояния.
FinMCP-Bench оценивает шесть моделей LLM в 613 реальных задачах по использованию финансовых инструментов на базе 65 серверов MCP. Лучшая модель показала точность 3,08% в многоходовых задачах, выявляя 20-кратное падение производительности при переходе от одного инструмента к сложным сценариям.
Калибровка на этапе вывода, не требующая дообучения, вычитает позиционное смещение из весов внимания LLM, восстанавливая до 15 процентных пунктов точности RAG, когда извлеченные документы находятся в середине контекста — и что это значит для специализированных финансовых агентских конвейеров.
Fin-RATE тестирует 17 LLM на 7 500 парах вопросов и ответов, отобранных экспертами из 2 472 отчетов SEC. Исследование выявило падение точности на 18,60% при лонгитюдном отслеживании и снижение на 54 пункта для специализированной финансовой модели Fin-R1 в кросс-субъектных задачах. Основным узким местом оказался конвейер поиска данных (retrieval), а не базовая модель.
Voyager, агент для Minecraft на базе GPT-4 от NVIDIA и Caltech, демонстрирует, что постоянная библиотека навыков в виде кода обеспечивает подлинное непрерывное обучение без дообучения — находя в 3,3 раза больше предметов, чем предыдущие передовые решения. Эта модель напрямую применима к долгосрочной автоматизации учета в Beancount, хотя финансовая точность требует промежуточных уровней проверки, которые не нужны в игровых «песочницах».
AutoGen (Wu et al., 2023) представляет собой фреймворк многоагентного диалога, где агенты на базе LLM обмениваются сообщениями для выполнения задач; система из двух агентов повышает точность бенчмарка MATH с 55% до 69%, а специализированный агент SafeGuard улучшает обнаружение небе зопасного кода до 35 пунктов F1 — результаты, применимые для создания безопасных модульных конвейеров автоматизации Beancount.
CodeAct (ICML 2024) заменяет вызов инструментов через JSON исполняемым кодом Python, повышая вероятность успеха агентов GPT-4 примерно на 20 процентных п унктов в задачах с использованием нескольких инструментов и сокращая количество итераций взаимодействия на 30% — это имеет прямое значение для создания надежных агентов сверки Beancount.
CRITIC (ICLR 2024) обеспечивает прирост F1 на 7,7 в задачах QA с открытым доменом и снижение токсичности на 79,2%, основывая пересмотр ответов LLM на сигналах внешних инструментов — цикл «проверка-исправление», который напрямую соотносится с безопасностью записи данных для финансовых агентов Beancount.
ReAct (Yao et al., ICLR 2023) чередует рассуждение в формате «цепочки мыслей» с действиями инструментов в рамках одной траектории, превосходя чистый CoT в проверке фактов и имитационном обучении в прикладных задачах на 34 процентных пункта. Этот анализ рассматривает режимы сбоев — отвлечение, вызванное поиском, и накопление ошибок — и то, что они значат для автономных агентов, выполняющих обратную запись в журналы Beancount.