Chain-of-Table (ICLR 2024) улучшает табличные рассуждения LLM, превращая саму таблицу в промежуточное состояние — достигая точности 67,31% на WikiTQ против 61,48% у предыдущих базовых моделей, с преимуществом в +10,25 пункта на таблицах объемом более 4 000 токенов и прямой применимостью к агентам запросов в книгах Beancount.
TableLlama дообучает Llama 2 (7B) на 2,6 млн примеров задач с таблицами и превосходит GPT-4 в структурных задачах, таких как аннотирование типов столбцов (F1 94 против 32), но отстает на 33 пункта в композиционном рассуждении WikiTQ — выверенный бенчмарк возможностей и ограничений открытых моделей 7B в финансовом ИИ сегодня.
TAPAS (Google Research, ACL 2020) отвечает на вопросы по таблицам, выбирая ячейки и применяя скалярные агрегации без генерации SQL. В этом посте анализируется архитектура, прирост точности SQA на 12 пунктов и причины, по которым парадигма выбора ячеек подходит для небольших запросов к реестру Beancount, но не масштабируется.
MAC-SQL (COLING 2025) использует трех специализированных агентов — Selector для сокращения схемы, Decomposer для декомпозиции вопросов и Refiner для исправления SQL на основе выполнения — для достижения точности выполнения 59,59% в бенчмарке BIRD; абляционное исследование показывает, что Refiner вносит наибольший вклад (+4,63 балла), что имеет прямое значение для генерации запросов к книгам Beancount.
DIN-SQL (NeurIPS 2023) разделяет процесс преобразования текста в SQL на этапы связывания схемы, классификации сложности и генерации SQL, повышая точность выполнения GPT-4 на Spider с 67,4% до 85,3% без дообучения — и та же стратегия декомпозиции напрямую применима к интерфейсам на естественном языке для языка запросов Beancount (BQL).
Бенчмарк BIRD (NeurIPS 2023) тестирует LLM на 95 реальных базах данных — GPT-4 достигает точности выполнения лишь 54,89% с подсказками по домену и 34,88% без них. Этот 20-процентный разрыв напрямую определяет задачи, которые должен решать интерфейс BQL на естественном языке для Beancount.
Исследователи из CMU и Университета штата Северная Каролина предлагают использовать системно-теоретический анализ процессов (STPA) и расширенный возможностями протокол Model Context Protocol для вывода формальных спецификаций безопасности использования инструментов LLM-агентами, с верификацией на базе Alloy, демонстрирующей отсутствие небезопасных потоков в кейсе планирования календаря.
Microsoft GraphRAG строит граф сущностей с использованием метода Лейдена на основе текстового корпуса и предварительно вычисляет сводки сообществ для ответов на глобальные вопросы, с которыми не справляется стандартный векторный RAG. Однако аудит предвзятости 2025 года показывает, что показатели побед в 72–83% падают после корректировки артефактов позиции и длины в оценке «LLM-как-судья ».
FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.