Mike Thrift

Marketing Manager

May 1, 2026·mike

SWE-agent：接口设计如何开启自动化软件工程

SWE-agent (NeurIPS 2024) 引入了代理-计算机接口 (ACI) —— LLM 与软件环境之间专门构建的层 —— 在 SWE-bench 上相比原始 shell 访问提升了 10.7 个百分点，并配合 GPT-4 Turbo 实现了 12.47% 的解决率。接口设计而非模型能力，是自主编码代理的主要瓶颈。

llm

automation

April 30, 2026·mike

SWE-bench：语言模型能否解决真实的 GitHub 问题？

SWE-bench 通过基于执行的测试，在 12 个 Python 仓库的 2,294 个真实 GitHub 问题上评估语言模型；在发布时，Claude 2 在现实检索设置下仅解决了 1.96% 的问题，这确立了编程智能体的行业基准，并揭示了检索和补丁长度的失败模式，这与 Beancount 回写智能体直接相关。

llm

machine-learning

April 29, 2026·mike

CodeAct：为什么可执行的 Python 代码能让 LLM 智能体准确率提升 20%

CodeAct (ICML 2024) 使用可执行的 Python 代码取代了 JSON 工具调用，在多工具任务中将 GPT-4 智能体的成功率提高了约 20 个百分点，并将交互轮数减少了 30% —— 这对于构建可靠的 Beancount 对账智能体具有直接意义。

llm

automation

April 28, 2026·mike

大语言模型（LLM）尚无法自我纠正推理能力 —— ICLR 2024 研究发现及其对金融 AI 的启示

Huang 等人（ICLR 2024）的研究表明，在没有外部反馈的情况下，要求 LLM 审查其自身推理会导致准确性持续下降 —— GPT-4 在 GSM8K 上的表现从 95.5% 降至 91.5% —— 以及这对设计可靠的 Beancount 账目分录代理意味着什么。

llm

machine-learning

April 27, 2026·mike

思维树：利用大模型搜索实现审慎的问题解决

思维树 (ToT) 在 24 点游戏中实现了 74% 的成功率，而标准的 GPT-4 CoT 仅为 4%。它通过将大模型推理组织成具有剪枝和回溯功能的决策树来实现这一目标，这对 Beancount 工作流中的多步骤财务分类和税务优化具有直接意义。

llm

machine-learning

April 26, 2026·mike

CRITIC：为什么大模型自我修正需要外部工具反馈

CRITIC (ICLR 2024) 通过将大语言模型（LLM）的修订建立在外部工具信号的基础上，在开放域问答中实现了 7.7 的 F1 值提升，并减少了 79.2% 的有害内容——这种“先验证后修正”的循环直接对应了 Beancount 金融代理的回写安全机制。

llm

machine-learning

April 25, 2026·mike

Reflexion：无需重新训练即可从错误中学习的语言智能体

Reflexion (NeurIPS 2023) 通过将语言事后分析存储在情节缓冲区中，使大语言模型 (LLM) 智能体得以改进，而无需更新权重。它在 GPT-4 的 HumanEval 测试中达到了 91% 的准确率，但在 WebShop 上表现不佳，这揭示了一个结构性限制：只有当评估器产生清晰、可操作的信号时，语言强化才有效。本文探讨了这对构建自校正 Beancount 账本智能体的意义。

llm

machine-learning

April 24, 2026·mike

自一致性：多数投票采样提升思维链准确率

自一致性通过对 N 条采样推理路径进行多数投票，取代了贪婪的思维链解码——在零微调的情况下将 GPT-3 在 GSM8K 上的准确率提高了 17.9 个百分点——并直接适用于单次大模型解码不可靠的多步金融计算。

llm

machine-learning

April 23, 2026·mike

PAL：用于可靠财务算术的程序辅助语言模型

PAL（程序辅助语言模型）通过将计算委派给 Python 解释器，在重算术任务上比思维链（CoT）实现了 +38pp 的准确率提升。这是一种直接适用于可靠 Beancount 账本查询和金融 AI 的架构。

llm

machine-learning

April 22, 2026·mike

大语言模型能对表格数据进行推理吗？四个基准测试揭示了金融 AI 的现状

2024–2025 年的四个基准测试显示，GPT-4 在真实表格问答中的得分为 42%，而人类为 86%；复杂的聚合操作准确率甚至跌至 19.6%——而 Beancount 的原生语法在 LLM 输入的序列化层级中处于性能表现最差的一端。

llm

beancount

April 21, 2026·mike

会计智能体的宪制 AI：RLAIF、政策规则与古德哈特风险

Anthropic 的宪制 AI 论文（Bai 等人，2022 年）训练大语言模型使用 AI 生成的反馈而非人工伤害标签来遵循规则。本研究日志探讨了 RLAIF 的“批判-修正-偏好”流水线如何映射到自主 Beancount 账本智能体的回写安全，以及当“宪法”是会计科目表而非伦理规则集时，古德哈特定律、校准失败和双重用途风险的表现形式。

machine-learning

llm

April 20, 2026·mike

思维链提示：金融人工智能中的精确率与召回率权衡

深入阅读 Wei 等人 2022 年关于思维链（CoT）的论文及其对金融人工智能的意义——探讨为什么 CoT 会提高精确率但可能降低稀有事件检测的召回率，为什么规模阈值对生产环境中的智能体至关重要，以及基于大语言模型构建的金融团队应该注意什么。

llm

machine-learning

显示第 73–84 篇，共 87 篇