Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Эволюция таблиц в цепочке рассуждений LLM

Chain-of-Table (ICLR 2024) улучшает табличные рассуждения LLM, превращая саму таблицу в промежуточное состояние — достигая точности 67,31% на WikiTQ против 61,48% у предыдущих базовых моделей, с преимуществом в +10,25 пункта на таблицах объемом более 4 000 токенов и прямой применимостью к агентам запросов в книгах Beancount.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Может ли открытая модель 7B сравниться с GPT-4 в понимании таблиц?

TableLlama дообучает Llama 2 (7B) на 2,6 млн примеров задач с таблицами и превосходит GPT-4 в структурных задачах, таких как аннотирование типов столбцов (F1 94 против 32), но отстает на 33 пункта в композиционном рассуждении WikiTQ — выверенный бенчмарк возможностей и ограничений открытых моделей 7B в финансовом ИИ сегодня.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: слабо контролируемое табличное QA без SQL и что это значит для Beancount

TAPAS (Google Research, ACL 2020) отвечает на вопросы по таблицам, выбирая ячейки и применяя скалярные агрегации без генерации SQL. В этом посте анализируется архитектура, прирост точности SQA на 12 пунктов и причины, по которым парадигма выбора ячеек подходит для небольших запросов к реестру Beancount, но не масштабируется.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL: Мультиагентное совместное преобразование текста в SQL

MAC-SQL (COLING 2025) использует трех специализированных агентов — Selector для сокращения схемы, Decomposer для декомпозиции вопросов и Refiner для исправления SQL на основе выполнения — для достижения точности выполнения 59,59% в бенчмарке BIRD; абляционное исследование показывает, что Refiner вносит наибольший вклад (+4,63 балла), что имеет прямое значение для генерации запросов к книгам Beancount.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: декомпозированное обучение в контексте для преобразования текста в SQL

DIN-SQL (NeurIPS 2023) разделяет процесс преобразования текста в SQL на этапы связывания схемы, классификации сложности и генерации SQL, повышая точность выполнения GPT-4 на Spider с 67,4% до 85,3% без дообучения — и та же стратегия декомпозиции напрямую применима к интерфейсам на естественном языке для языка запросов Beancount (BQL).

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

Бенчмарк BIRD: Разрыв между LLM и реальными базами данных в Text-to-SQL

Бенчмарк BIRD (NeurIPS 2023) тестирует LLM на 95 реальных базах данных — GPT-4 достигает точности выполнения лишь 54,89% с подсказками по домену и 34,88% без них. Этот 20-процентный разрыв напрямую определяет задачи, которые должен решать интерфейс BQL на естественном языке для Beancount.

AILLMSecurityAutomationBeancountComplianceTrust

Верифицируемо безопасное использование инструментов LLM-агентами: STPA встречает MCP

Исследователи из CMU и Университета штата Северная Каролина предлагают использовать системно-теоретический анализ процессов (STPA) и расширенный возможностями протокол Model Context Protocol для вывода формальных спецификаций безопасности использования инструментов LLM-агентами, с верификацией на базе Alloy, демонстрирующей отсутствие небезопасных потоков в кейсе планирования календаря.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: от локального к глобальному суммаризированию по запросам

Microsoft GraphRAG строит граф сущностей с использованием метода Лейдена на основе текстового корпуса и предварительно вычисляет сводки сообществ для ответов на глобальные вопросы, с которыми не справляется стандартный векторный RAG. Однако аудит предвзятости 2025 года показывает, что показатели побед в 72–83% падают после корректировки артефактов позиции и длины в оценке «LLM-как-судья».

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks

FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.

τ-bench: Измерение надежности ИИ-агентов в реальных сценариях использования инструментов

Latest articles

Chain-of-Table: Эволюция таблиц в цепочке рассуждений LLM

TableLlama: Может ли открытая модель 7B сравниться с GPT-4 в понимании таблиц?

TAPAS: слабо контролируемое табличное QA без SQL и что это значит для Beancount

MAC-SQL: Мультиагентное совместное преобразование текста в SQL

DIN-SQL: декомпозированное обучение в контексте для преобразования текста в SQL

Бенчмарк BIRD: Разрыв между LLM и реальными базами данных в Text-to-SQL

Верифицируемо безопасное использование инструментов LLM-агентами: STPA встречает MCP

GraphRAG: от локального к глобальному суммаризированию по запросам

FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация