Bean Labs Research Log

AILLMBeancountData SciencePlain-Text AccountingAutomationFinance

Могут ли LLM рассуждать над табличными данными? Чему нас учат четыре бенчмарка для финансового ИИ

Четыре бенчмарка 2024–2025 годов показывают, что GPT-4 набирает 42% в ответах на вопросы по реальным таблицам против 86% у людей, причем точность сложных агрегаций падает до 19,6%. При этом нативный синтаксис Beancount находится в самом конце иерархии сериализации по эффективности для ввода в LLM.

AIMachine LearningLLMAutomationComplianceAccountingBeancount

Конституционный ИИ для бухгалтерских агентов: RLAIF, программные правила и риски Гудхарта

Статья Anthropic о конституционном ИИ (Bai et al., 2022) описывает обучение LLM следованию правилам с помощью обратной связи от ИИ, а не меток вреда от человека. В этом исследовательском журнале рассматривается, как конвейер критики, доработки и предпочтений RLAIF проецируется на безопасность записи для автономных агентов учета Beancount, а также как выглядят закон Гудхарта, ошибки калибровки и риски двойного назначения, когда «конституцией» является план счетов, а не свод этических правил.

AILLMMachine LearningData ScienceFinanceAutomationFraud Detection

Цепочка рассуждений (Chain-of-Thought): компромисс между точностью и полнотой для ИИ в финансах

Подробный разбор статьи Вея и др. (2022) о цепочке рассуждений (Chain-of-Thought) и её значение для ИИ в финансах — почему CoT повышает точность, но может снизить полноту при обнаружении редких событий, почему порог масштабируемости важен для производственных агентов и на что стоит обратить внимание финансовым командам при разработке на базе LLM.

LLMAIMachine LearningFinanceFinancial ReportingTrustBeancountData Science

PHANTOM (NeurIPS 2025): Измерение обнаружения галлюцинаций LLM в финансовых документах

PHANTOM (NeurIPS 2025) — это первый бенчмарк для измерения обнаружения галлюцинаций LLM в реальных отчетах SEC при длине контекста до 30 000 токенов. Qwen3-30B-A3B-Thinking лидирует с F1=0.882; модели 7B показывают результаты на уровне случайного угадывания — что имеет прямые последствия для автономных бухгалтерских агентов.

LLMAccountingAIFinancial StatementsFinancial LiteracyMachine LearningAutomation

Бенчмарк FinMaster: почему LLM набирают 96% по финансовой грамотности, но лишь 3% при формировании отчетности

FinMaster (arXiv:2505.13533) оценивает o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансовых задачах, показывая, что модели набирают 96% по финансовой грамотности, но проваливаются до 3% при формировании отчетности, а в многошаговых консалтинговых задачах точность падает на 21 пункт из-за накопления ошибок.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Синергия рассуждения и действия в языковых моделях

ReAct (Yao et al., ICLR 2023) чередует рассуждение в формате «цепочки мыслей» с действиями инструментов в рамках одной траектории, превосходя чистый CoT в проверке фактов и имитационном обучении в прикладных задачах на 34 процентных пункта. Этот анализ рассматривает режимы сбоев — отвлечение, вызванное поиском, и накопление ошибок — и то, что они значат для автономных агентов, выполняющих обратную запись в журналы Beancount.

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer: самообучающееся использование инструментов и его ограничения для ИИ в сфере финансов

Подробный разбор Toolformer (Meta AI, NeurIPS 2023): как самообучение с фильтрацией по перплексии учит модель с 6,7 млрд параметров вызывать внешние API, в чем она превосходит GPT-3 со 175 млрд параметров в арифметических тестах, и почему ее одношаговая архитектура не поддерживает цепочки вызовов инструментов, необходимые для операций со структурированными бухгалтерскими книгами.

AILLMMachine LearningFinanceForecastingData ScienceBeancount

FinBen: Бенчмаркинг LLM в 36 финансовых задачах — последствия для ИИ в сфере бухгалтерского учета

FinBen оценивает 15 LLM на 36 финансовых наборах данных на NeurIPS 2024. Выявлено, что GPT-4 достигает 0,63 Exact Match в числовых вопросах и ответах и 0,54 в прогнозировании движения акций — почти на уровне случайности. Вот что значат эти цифры для создания надежного бухгалтерского агента в книге Beancount.

PAL: Программно-вспомогательные языковые модели для надежной финансовой арифметики

Latest articles

Могут ли LLM рассуждать над табличными данными? Чему нас учат четыре бенчмарка для финансового ИИ

Конституционный ИИ для бухгалтерских агентов: RLAIF, программные правила и риски Гудхарта

Цепочка рассуждений (Chain-of-Thought): компромисс между точностью и полнотой для ИИ в финансах

PHANTOM (NeurIPS 2025): Измерение обнаружения галлюцинаций LLM в финансовых документах

Бенчмарк FinMaster: почему LLM набирают 96% по финансовой грамотности, но лишь 3% при формировании отчетности

ReAct: Синергия рассуждения и действия в языковых моделях

Toolformer: самообучающееся использование инструментов и его ограничения для ИИ в сфере финансов

FinBen: Бенчмаркинг LLM в 36 финансовых задачах — последствия для ИИ в сфере бухгалтерского учета

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация