Перейти к контенту

Bean Labs Research Log

FinQA: бенчмарк для измерения численного мышления ИИ в финансовых отчетах

В рамках проекта FinQA (EMNLP 2021) была создана база из 8 281 пары вопросов и ответов на основе отчетов о доходах компаний из индекса S&P 500, требующих выполнения многошаговых арифметических программ. На момент выпуска нейросетевые модели набирали 61% баллов против 91% у экспертов-людей; точность падает до 22% в программах из трех и более шагов. Типичные ошибки — использование доменных констант, кросс-модальная привязка, длина цепочки рассуждений — напрямую отражают проблемы, с которыми сегодня сталкиваются агенты Beancount.

Latest articles

FinanceBench: почему RAG на векторных хранилищах не справляется с реальными финансовыми документами

FinanceBench оценивает 16 конфигураций ИИ на 10 231 вопросе из реальных отчетов SEC; RAG с общим векторным хранилищем дает правильные ответы лишь в 19% случаев, а GPT-4-Turbo даже с «оракулом» достигает точности только в 85%. Это доказывает, что численные рассуждения, а не поиск данных, являются основным ограничением для корпоративного финансового ИИ.

DSPy: замена хрупкого промпт-инжиниринга скомпилированными конвейерами LLM

DSPy заменяет написанные вручную строки промптов декларативными сигнатурами и компилятором на основе метрик, что повышает точность Llama2-13b на математических задачах GSM8K с 9,4% до 46,9% и предлагает более устойчивый путь для промышленных ИИ-конвейеров в сфере финансов.

LATS: Поиск по дереву языковых агентов — рассуждение, действие и планирование в единой структуре

LATS (Language Agent Tree Search, ICML 2024) объединяет ReAct, Tree of Thoughts и Reflexion в единую структуру MCTS, достигая 92,7% pass@1 на HumanEval с GPT-4. Для Beancount-журналов на базе git требование возврата состояния, которое ограничивает LATS в производственных средах, выполняется тривиально.

Self-RAG: адаптивный поиск и самокритика для LLM

Self-RAG (ICLR 2024 Oral) обучает языковую модель решать, когда обращаться к поиску, а затем оценивать собственные результаты с помощью четырех токенов рефлексии — достигая 55,8% на PopQA и 80,2 FactScore на биографиях, опережая ChatGPT в пяти бенчмарках. Анализ охватывает механизм, результаты абляции, ограничения воспроизводимости и последствия для финансовых ИИ-агентов, работающих с гроссбухами Beancount.

Voyager: Библиотеки навыков как основа для непрерывного обучения ИИ-агентов

Voyager, агент для Minecraft на базе GPT-4 от NVIDIA и Caltech, демонстрирует, что постоянная библиотека навыков в виде кода обеспечивает подлинное непрерывное обучение без дообучения — находя в 3,3 раза больше предметов, чем предыдущие передовые решения. Эта модель напрямую применима к долгосрочной автоматизации учета в Beancount, хотя финансовая точность требует промежуточных уровней проверки, которые не нужны в игровых «песочницах».

HippoRAG: Долговременная память для LLM, вдохновленная нейробиологией

HippoRAG (NeurIPS 2024) строит граф знаний на основе триплетов OpenIE и применяет персонализированный PageRank во время выполнения запроса, достигая Recall@5 89,1% на 2WikiMultiHopQA против 68,2% у ColBERTv2 — это имеет прямое значение для обработки запросов к сложным финансовым книгам с многолетней историей транзакций.

AgentBench: Оценка LLM как агентов — уроки надежности ИИ для финансов

AgentBench (Liu et al., ICLR 2024) тестирует 27 LLM в 8 интерактивных средах — GPT-4 набрала 4,01 балла против 0,96 у лучшей модели с открытым исходным кодом. Три основных типа сбоев (превышение лимита задач в 67,9% случаев в графах знаний, ошибки формата в 53,3% случаев в базах данных и недопустимые действия) напрямую соотносятся с рисками развертывания агента записи Beancount в реальном журнале.

BloombergGPT и пределы специализированных LLM в сфере финансов

Компания Bloomberg обучила LLM с 50 млрд параметров на 569 млрд токенов финансовых данных и обошла универсальные модели в бенчмарках на анализ настроений и табличное мышление — однако затем GPT-4 сравнялась с ней без специального дообучения на финансах. Что этот эксперимент стоимостью 10 млн долларов говорит о компромиссах предварительного обучения на конкретной предметной области, токенизации чисел и о том, почему использование инструментов надежнее внутренних механизмов модели для бухгалтерских агентов.

AutoGen: Фреймворки многоагентного диалога для ИИ в финансах

AutoGen (Wu et al., 2023) представляет собой фреймворк многоагентного диалога, где агенты на базе LLM обмениваются сообщениями для выполнения задач; система из двух агентов повышает точность бенчмарка MATH с 55% до 69%, а специализированный агент SafeGuard улучшает обнаружение небезопасного кода до 35 пунктов F1 — результаты, применимые для создания безопасных модульных конвейеров автоматизации Beancount.