Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.
TableLlama донавчає Llama 2 (7B) на 2,6 млн прикладах табличних завдань і перевершує GPT-4 у структурних завданнях, як-от анотування типів стовпців (F1 94 проти 32), але відстає на 33 пункти у компо зиційному мисленні WikiTQ — каліброваному бенчмарку того, що відкриті моделі 7B можуть і чого не можуть у фінансовому ШІ сьогодні.
TAPAS (Google Research, ACL 2020) відповідає на запитання за таблицями, вибираючи комірки та застосовуючи скалярні агрегації — без генерації SQL. Цей пост аналізує архітектуру, її приріст точності SQA на 12 пунктів і те, чому парадигма вибору комірок підходить для невеликих запитів до реєстру Beancount, але стає неефективною при масштабуванні.
MAC-SQL (COLING 2025) використовує трьох спеціалізованих агентів — Selector для скорочення схеми, Decomposer для декомпозиції питань та Refiner для виправлення SQL на основі результатів виконання — щоб досягти точності виконання 59,59% у бенчмарку BIRD; абляційне дослідження показує, що Refiner робить найбільший внесок (+4,63 пункту), що має пряме значення для генерації запитів до журналів Beancount.
DIN-SQL (NeurIPS 2023) декомпозує text-to-SQL на етапи прив'язки до схеми, класифікації складності та генерації SQL, що підвищує точність виконання GPT-4 на Spider з 67,4% до 85,3% без донавчання — і ця ж стратегія декомпозиції безпосередньо переноситься на інтерфейси природною мовою для мови запитів BQL від Beancount.
Бенчмарк BIRD (NeurIPS 2023) тестує LLM на 95 реальних базах даних — GPT-4 досягає лише 54,89% точності виконання з підказками щодо домену та 34,88% без них. Цей розрив у 20 пунктів безпосередньо визначає завдання, які має вирішити інтерфейс BQL природною мовою для Beancount.
Дослідники з CMU та Університету штату Північна Кароліна пропонують використовувати системно-теоретичний аналіз процесів (STPA) та розширений протокол контексту моделі (MCP) для отримання формальних специфікацій безпеки для використання інструментів агентами LLM, а верифікація на основі Alloy демонструє відсутність небезпечних потоків у тематичному дослідженні планування календаря.
GraphRAG від Microsoft створює граф сутностей, розділений за алгоритмом Лейдена, над корпусом тексту та попередньо обчислює резюме спільнот для відповідей на глобальні питання осмислення, з якими не справляється стандартний векторний RAG — проте аудит упередженості 2025 року показує, що заявлені показники успіху в 72–83% руйнуються після корекції артефактів позиції та довжини в оцінюванні «LLM як суддя».
FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.