Перейти к контенту

Bean Labs Research Log

PAL: Программно-вспомогательные языковые модели для надежной финансовой арифметики

PAL (Program-Aided Language Models) обеспечивает прирост точности на +38 п.п. по сравнению с методом «цепочки рассуждений» в задачах с интенсивными вычислениями за счет делегирования расчетов интерпретатору Python — архитектура, напрямую применимая для надежных запросов к книгам Beancount и финансового ИИ.

Latest articles

Могут ли LLM рассуждать над табличными данными? Чему нас учат четыре бенчмарка для финансового ИИ

Четыре бенчмарка 2024–2025 годов показывают, что GPT-4 набирает 42% в ответах на вопросы по реальным таблицам против 86% у людей, причем точность сложных агрегаций падает до 19,6%. При этом нативный синтаксис Beancount находится в самом конце иерархии сериализации по эффективности для ввода в LLM.

Конституционный ИИ для бухгалтерских агентов: RLAIF, программные правила и риски Гудхарта

Статья Anthropic о конституционном ИИ (Bai et al., 2022) описывает обучение LLM следованию правилам с помощью обратной связи от ИИ, а не меток вреда от человека. В этом исследовательском журнале рассматривается, как конвейер критики, доработки и предпочтений RLAIF проецируется на безопасность записи для автономных агентов учета Beancount, а также как выглядят закон Гудхарта, ошибки калибровки и риски двойного назначения, когда «конституцией» является план счетов, а не свод этических правил.

Цепочка рассуждений (Chain-of-Thought): компромисс между точностью и полнотой для ИИ в финансах

Подробный разбор статьи Вея и др. (2022) о цепочке рассуждений (Chain-of-Thought) и её значение для ИИ в финансах — почему CoT повышает точность, но может снизить полноту при обнаружении редких событий, почему порог масштабируемости важен для производственных агентов и на что стоит обратить внимание финансовым командам при разработке на базе LLM.

PHANTOM (NeurIPS 2025): Измерение обнаружения галлюцинаций LLM в финансовых документах

PHANTOM (NeurIPS 2025) — это первый бенчмарк для измерения обнаружения галлюцинаций LLM в реальных отчетах SEC при длине контекста до 30 000 токенов. Qwen3-30B-A3B-Thinking лидирует с F1=0.882; модели 7B показывают результаты на уровне случайного угадывания — что имеет прямые последствия для автономных бухгалтерских агентов.

Бенчмарк FinMaster: почему LLM набирают 96% по финансовой грамотности, но лишь 3% при формировании отчетности

FinMaster (arXiv:2505.13533) оценивает o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансовых задачах, показывая, что модели набирают 96% по финансовой грамотности, но проваливаются до 3% при формировании отчетности, а в многошаговых консалтинговых задачах точность падает на 21 пункт из-за накопления ошибок.

ReAct: Синергия рассуждения и действия в языковых моделях

ReAct (Yao et al., ICLR 2023) чередует рассуждение в формате «цепочки мыслей» с действиями инструментов в рамках одной траектории, превосходя чистый CoT в проверке фактов и имитационном обучении в прикладных задачах на 34 процентных пункта. Этот анализ рассматривает режимы сбоев — отвлечение, вызванное поиском, и накопление ошибок — и то, что они значат для автономных агентов, выполняющих обратную запись в журналы Beancount.

Toolformer: самообучающееся использование инструментов и его ограничения для ИИ в сфере финансов

Подробный разбор Toolformer (Meta AI, NeurIPS 2023): как самообучение с фильтрацией по перплексии учит модель с 6,7 млрд параметров вызывать внешние API, в чем она превосходит GPT-3 со 175 млрд параметров в арифметических тестах, и почему ее одношаговая архитектура не поддерживает цепочки вызовов инструментов, необходимые для операций со структурированными бухгалтерскими книгами.

FinBen: Бенчмаркинг LLM в 36 финансовых задачах — последствия для ИИ в сфере бухгалтерского учета

FinBen оценивает 15 LLM на 36 финансовых наборах данных на NeurIPS 2024. Выявлено, что GPT-4 достигает 0,63 Exact Match в числовых вопросах и ответах и 0,54 в прогнозировании движения акций — почти на уровне случайности. Вот что значат эти цифры для создания надежного бухгалтерского агента в книге Beancount.