TableMaster — это конвейер, основанный исключительно на промптах, который достигает 78,13% на WikiTQ с GPT-4o-mini — на 13 пунктов выше, чем Chain-of-Table — благодаря сочетанию извлечения таблицы фокуса, семантической вербализации и адаптивного переключения между текстовым и символьным рассуждением. Вот что эта архитектура значит для ИИ-агентов, работающих с финансовыми гроссбухами, такими как Beancount.
Chain-of-Table (ICLR 2024) улучшает табличные рассуждения LLM, превращая саму таблицу в промежуточное состояние — достигая точности 67,31% на WikiTQ против 61,48% у предыдущих базовых моделей, с преимуществом в +10,25 пункта на таблицах объемом более 4 000 токенов и прямой применимостью к агентам запросов в книгах Beancount.
TableLlama дообучает Llama 2 (7B) на 2,6 млн примеров задач с таблицами и превосходит GPT-4 в структурных задачах, таких как аннотирование типов столбцов (F1 94 против 32), но отстает на 33 пункта в композиционном рассуждении WikiTQ — выверенный бенчмарк возможностей и ограничений открытых моделей 7B в финансовом ИИ сегодня.
TAPAS (Google Research, ACL 2020) отвечает на вопросы по таблицам, выбирая ячейки и применяя скалярные агрегации без генерации SQL. В этом посте анализируется архитектура, прирост точности SQA на 12 пунктов и причины, по которым парадигма выбора ячеек подходит для небольших запросов к реестру Beancount, но не масштабируется.
MAC-SQL (COLING 2025) использует трех специализированных агентов — Selector для сокращения схемы, Decomposer для декомпозиции вопросов и Refiner для исправления SQL на основе выполнения — для достижения точности выполнения 59,59% в бенчмарке BIRD; абляционное исследование показывает, что Refiner вносит наибольший вклад (+4,63 балла), что имеет прямое значение для генерации запросов к книгам Beancount.
DIN-SQL (NeurIPS 2023) разделяет процесс преобразования текста в SQL на этапы связывания схемы, классификации сложности и генерации SQL, повышая точность выполнения GPT-4 на Spider с 67,4% до 85,3% без дообучения — и та же стратегия декомпозиции напрямую применима к интерфейсам на естественном языке для языка запросов Beancount (BQL).
Бенчмарк BIRD (NeurIPS 2023) тестирует LLM на 95 реальных базах данных — GPT-4 достигает точности выполнения лишь 54,89% с подсказками по домену и 34,88% без них. Этот 20-процентный разрыв напрямую определяет задачи, которые должен решать интерфейс BQL на естественном языке для Beancount.
Microsoft GraphRAG строит граф сущностей с использованием метода Лейдена на основе текстового корпуса и предварительно вычисляет сводки сообществ для ответов на глобальные вопросы, с которыми не справляется стандартный векторный RAG. Однако аудит предвзятости 2025 года показывает, что показатели побед в 72–83% падают после корректировки артефактов позиции и длины в оценке «LLM-как-судья».