Bean Labs Research Log

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT：大语言模型智能体的虚拟上下文管理

MemGPT 将操作系统风格的虚拟内存分页应用于大语言模型，使用三层存储——工作内存、召回存储和归档存储——为智能体提供跨会话的持久召回能力；在多会话聊天基准测试中，搭载 GPT-4 的 MemGPT 达到了 92.5% 的准确率，而固定上下文基准仅为 32.1%。

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent：接口设计如何开启自动化软件工程

SWE-agent (NeurIPS 2024) 引入了代理-计算机接口 (ACI) —— LLM 与软件环境之间专门构建的层 —— 在 SWE-bench 上相比原始 shell 访问提升了 10.7 个百分点，并配合 GPT-4 Turbo 实现了 12.47% 的解决率。接口设计而非模型能力，是自主编码代理的主要瓶颈。

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench：语言模型能否解决真实的 GitHub 问题？

SWE-bench 通过基于执行的测试，在 12 个 Python 仓库的 2,294 个真实 GitHub 问题上评估语言模型；在发布时，Claude 2 在现实检索设置下仅解决了 1.96% 的问题，这确立了编程智能体的行业基准，并揭示了检索和补丁长度的失败模式，这与 Beancount 回写智能体直接相关。

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct：为什么可执行的 Python 代码能让 LLM 智能体准确率提升 20%

CodeAct (ICML 2024) 使用可执行的 Python 代码取代了 JSON 工具调用，在多工具任务中将 GPT-4 智能体的成功率提高了约 20 个百分点，并将交互轮数减少了 30% —— 这对于构建可靠的 Beancount 对账智能体具有直接意义。

LLMAIMachine LearningAutomationBeancountFinanceTrust

大语言模型（LLM）尚无法自我纠正推理能力 —— ICLR 2024 研究发现及其对金融 AI 的启示

Huang 等人（ICLR 2024）的研究表明，在没有外部反馈的情况下，要求 LLM 审查其自身推理会导致准确性持续下降 —— GPT-4 在 GSM8K 上的表现从 95.5% 降至 91.5% —— 以及这对设计可靠的 Beancount 账目分录代理意味着什么。

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

思维树：利用大模型搜索实现审慎的问题解决

思维树 (ToT) 在 24 点游戏中实现了 74% 的成功率，而标准的 GPT-4 CoT 仅为 4%。它通过将大模型推理组织成具有剪枝和回溯功能的决策树来实现这一目标，这对 Beancount 工作流中的多步骤财务分类和税务优化具有直接意义。

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC：为什么大模型自我修正需要外部工具反馈

CRITIC (ICLR 2024) 通过将大语言模型（LLM）的修订建立在外部工具信号的基础上，在开放域问答中实现了 7.7 的 F1 值提升，并减少了 79.2% 的有害内容——这种“先验证后修正”的循环直接对应了 Beancount 金融代理的回写安全机制。

AILLMMachine LearningAutomationBeancountPlain-Text Accounting

Reflexion：无需重新训练即可从错误中学习的语言智能体

Reflexion (NeurIPS 2023) 通过将语言事后分析存储在情节缓冲区中，使大语言模型 (LLM) 智能体得以改进，而无需更新权重。它在 GPT-4 的 HumanEval 测试中达到了 91% 的准确率，但在 WebShop 上表现不佳，这揭示了一个结构性限制：只有当评估器产生清晰、可操作的信号时，语言强化才有效。本文探讨了这对构建自校正 Beancount 账本智能体的意义。