Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table：LLM 推理链中的演进表格

Chain-of-Table (ICLR 2024) 通过将表格本身作为演进的中间状态来改进 LLM 的表格推理能力。在 WikiTQ 数据集上达到了 67.31% 的准确率，而之前的基准为 61.48%。在超过 4,000 个 token 的大表格上，其优势达到了 +10.25 个百分点，且可直接应用于 Beancount 账本查询代理。

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama：7B 开源模型在表格理解上能否媲美 GPT-4？

TableLlama 在 260 万个表格任务示例上对 Llama 2 (7B) 进行了微调，在列类型标注等结构化任务上击败了 GPT-4（F1 值 94 对 32），但在 WikiTQ 组合推理上落后 33 分——这为 7B 开源模型在当今金融 AI 领域的能力边界提供了一个经过校准的基准。

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS：无需 SQL 的弱监督表格问答及其对 Beancount 的意义

TAPAS（Google Research, ACL 2020）通过选择单元格并应用标量聚合来回答表格问题，无需生成 SQL。本文分析了其架构、在 SQA 上 12 个百分点的准确率提升，以及为什么单元格选择范式适用于小型 Beancount 账本查询，但在大规模场景下会失效。

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL：多智能体协作的 Text-to-SQL

MAC-SQL (COLING 2025) 使用三个专用智能体——用于模式缩减的 Selector、用于问题分解的 Decomposer 以及用于执行引导的 SQL 纠错的 Refiner——在 BIRD 基准测试上达到了 59.59% 的执行准确率；消融实验表明 Refiner 的贡献最大（+4.63 分），这对 Beancount 账本查询生成具有直接意义。

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL：用于 Text-to-SQL 的分解式上下文学习

DIN-SQL (NeurIPS 2023) 将文本转 SQL 分解为模式链接、复杂度分类和 SQL 生成阶段，在不进行微调的情况下，将 GPT-4 在 Spider 上的执行准确度从 67.4% 提升至 85.3% —— 这种分解策略也可以直接应用于 Beancount 的 BQL 查询语言的自然语言接口。