Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Чи може відкрита модель 7B зрівнятися з GPT-4 у розумінні таблиць?

TableLlama донавчає Llama 2 (7B) на 2,6 млн прикладах табличних завдань і перевершує GPT-4 у структурних завданнях, як-от анотування типів стовпців (F1 94 проти 32), але відстає на 33 пункти у композиційному мисленні WikiTQ — каліброваному бенчмарку того, що відкриті моделі 7B можуть і чого не можуть у фінансовому ШІ сьогодні.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: Слабко контрольоване табличне QA без SQL та його значення для Beancount

TAPAS (Google Research, ACL 2020) відповідає на запитання за таблицями, вибираючи комірки та застосовуючи скалярні агрегації — без генерації SQL. Цей пост аналізує архітектуру, її приріст точності SQA на 12 пунктів і те, чому парадигма вибору комірок підходить для невеликих запитів до реєстру Beancount, але стає неефективною при масштабуванні.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL: Багатоагентна спільна робота для перетворення тексту в SQL

MAC-SQL (COLING 2025) використовує трьох спеціалізованих агентів — Selector для скорочення схеми, Decomposer для декомпозиції питань та Refiner для виправлення SQL на основі результатів виконання — щоб досягти точності виконання 59,59% у бенчмарку BIRD; абляційне дослідження показує, що Refiner робить найбільший внесок (+4,63 пункту), що має пряме значення для генерації запитів до журналів Beancount.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: Декомпозоване навчання в контексті для Text-to-SQL

DIN-SQL (NeurIPS 2023) декомпозує text-to-SQL на етапи прив'язки до схеми, класифікації складності та генерації SQL, що підвищує точність виконання GPT-4 на Spider з 67,4% до 85,3% без донавчання — і ця ж стратегія декомпозиції безпосередньо переноситься на інтерфейси природною мовою для мови запитів BQL від Beancount.

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

Бенчмарк BIRD: Розрив між реальними базами даних у Text-to-SQL для LLM

Бенчмарк BIRD (NeurIPS 2023) тестує LLM на 95 реальних базах даних — GPT-4 досягає лише 54,89% точності виконання з підказками щодо домену та 34,88% без них. Цей розрив у 20 пунктів безпосередньо визначає завдання, які має вирішити інтерфейс BQL природною мовою для Beancount.

AILLMSecurityAutomationBeancountComplianceTrust

Перевірено безпечне використання інструментів для агентів LLM: STPA зустрічає MCP

Дослідники з CMU та Університету штату Північна Кароліна пропонують використовувати системно-теоретичний аналіз процесів (STPA) та розширений протокол контексту моделі (MCP) для отримання формальних специфікацій безпеки для використання інструментів агентами LLM, а верифікація на основі Alloy демонструє відсутність небезпечних потоків у тематичному дослідженні планування календаря.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: Від локального до глобального узагальнення, орієнтованого на запити

GraphRAG від Microsoft створює граф сутностей, розділений за алгоритмом Лейдена, над корпусом тексту та попередньо обчислює резюме спільнот для відповідей на глобальні питання осмислення, з якими не справляється стандартний векторний RAG — проте аудит упередженості 2025 року показує, що заявлені показники успіху в 72–83% руйнуються після корекції артефактів позиції та довжини в оцінюванні «LLM як суддя».

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks

FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.

τ-bench: Вимірювання надійності ШІ-агентів у реальних сценаріях використання інструментів

Latest articles

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

TableLlama: Чи може відкрита модель 7B зрівнятися з GPT-4 у розумінні таблиць?

TAPAS: Слабко контрольоване табличне QA без SQL та його значення для Beancount

MAC-SQL: Багатоагентна спільна робота для перетворення тексту в SQL

DIN-SQL: Декомпозоване навчання в контексті для Text-to-SQL

Бенчмарк BIRD: Розрив між реальними базами даних у Text-to-SQL для LLM

Перевірено безпечне використання інструментів для агентів LLM: STPA зустрічає MCP

GraphRAG: Від локального до глобального узагальнення, орієнтованого на запити

FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація