FinanceBench оценивает 16 конфигураций ИИ на 10 231 вопросе из реальных отчетов SEC; RAG с общим векторным хранилищем дает правильные ответы лишь в 19% случаев, а GPT-4-Turbo даже с «оракулом» достигает точности только в 85%. Это доказывает, что численные рассуждения, а не поиск данных, являются основным ограничением для корпоративного финансового ИИ.
DSPy заменяет написанные вручную строки промптов декларативными сигнатурами и компилятором на основе метрик, что повышает точность Llama2-13b на математических задачах GSM8K с 9,4% до 46,9% и предлагает более устойчивый путь для промышленных ИИ-конвейеров в сфере финансов.
LATS (Language Agent Tree Search, ICML 2024) объединяет ReAct, Tree of Thoughts и Reflexion в единую структуру MCTS, достигая 92,7% pass@1 на HumanEval с GPT-4. Для Beancount-журналов на базе git требование возврата состояния, которое ограничивает LATS в производственных средах, выполняется тривиально.
Self-RAG (ICLR 2024 Oral) обучает языковую модель решать, когда обращаться к поиску, а затем оценивать собственные результаты с помощью четырех токенов рефлексии — достигая 55,8% на PopQA и 80,2 FactScore на биографиях, опережая ChatGPT в пяти бенчмарках. Анализ охватывает механизм, результаты абляции, ограничения воспроизводимости и последствия для финансовых ИИ-агентов, работающих с гроссбухами Beancount.
Voyager, агент для Minecraft на базе GPT-4 от NVIDIA и Caltech, демонстрирует, что постоянная библиотека навыков в виде кода обеспечивает подлинное непрерывное обучение без дообучения — находя в 3,3 раза больше предметов, чем предыдущие передовые решения. Эта модель напрямую применима к долгосрочной автоматизации учета в Beancount, хотя финансовая точность требует промежуточных уровней проверки, которые не нужны в игровых «песочницах».
HippoRAG (NeurIPS 2024) строит граф знаний на основе триплетов OpenIE и применяет персонализированный PageRank во время выполнения запроса, достигая Recall@5 89,1% на 2WikiMultiHopQA против 68,2% у ColBERTv2 — это имеет прямое значение для обработки запросов к сложным финансовым книгам с многолетней историей транзакций.
AgentBench (Liu et al., ICLR 2024) тестирует 27 LLM в 8 интерактивных средах — GPT-4 набрала 4,01 балла против 0,96 у лучшей модели с открытым исходным кодом. Три основных типа сбоев (превышение лимита задач в 67,9% случаев в графах знаний, ошибки формата в 53,3% случаев в базах данных и недопустимые действия) напрямую соотносятся с рисками развертывания агента записи Beancount в реальном журнале.
Компания Bloomberg обучила LLM с 50 млрд параметров на 569 млрд токенов финансовых данных и обошла универсальные модели в бенчмарках на анализ настроений и табличное мышление — однако затем GPT-4 сравнялась с ней без специального дообучения на финансах. Что этот эксперимент стоимостью 10 млн долларов говорит о компромиссах предварительного обучения на конкретной предметной области, токенизации чисел и о том, почему использование инструментов надежнее внутренних механизмов модели для бухгалтерских агентов.
AutoGen (Wu et al., 2023) представляет собой фреймворк многоагентного диалога, где агенты на базе LLM обмениваются сообщениями для выполнения задач; система из двух агентов повышает точность бенчмарка MATH с 55% до 69%, а специализированный агент SafeGuard улучшает обнаружение небезопасного кода до 35 пунктов F1 — результаты, применимые для создания безопасных модульных конвейеров автоматизации Beancount.