Gorilla:检索感知训练如何将 LLM API 幻觉从 78% 降低到 11%
Gorilla (Patil et al., NeurIPS 2024) 通过对检索到的 API 文档进行检索感知训练(Retriever-Aware Training),对 7B LLaMA 模型进行了微调,将幻觉率从 GPT-4 零样本下的 78% 降低到 11% —— 这对金融 AI 回写代理具有直接意义,因为错误的账户名称或正负号颠倒属于正确性故障,而不仅仅是干扰。
Gorilla (Patil et al., NeurIPS 2024) 通过对检索到的 API 文档进行检索感知训练(Retriever-Aware Training),对 7B LLaMA 模型进行了微调,将幻觉率从 GPT-4 零样本下的 78% 降低到 11% —— 这对金融 AI 回写代理具有直接意义,因为错误的账户名称或正负号颠倒属于正确性故障,而不仅仅是干扰。
MemGPT 将操作系统风格的虚拟内存分页应用于大语言模型,使用三层存储——工作内存、召回存储和归档存储——为智能体提供跨会话的持久召回能力;在多会话聊天基准测试中,搭载 GPT-4 的 MemGPT 达到了 92.5% 的准确率,而固定上下文基准仅为 32.1%。
SWE-agent (NeurIPS 2024) 引入了代理-计算机接口 (ACI) —— LLM 与软件环境之间专门构建的层 —— 在 SWE-bench 上相比原始 shell 访问提升了 10.7 个百分点,并配合 GPT-4 Turbo 实现了 12.47% 的解决率。接口设计而非模型能力,是自主编码代理的主要瓶颈。
SWE-bench 通过基于执行的测试,在 12 个 Python 仓库的 2,294 个真实 GitHub 问题上评估语言模型;在发布时,Claude 2 在现实检索设置下仅解决了 1.96% 的问题,这确立了编程智能体的行业基准,并揭示了检索和补丁长度的失败模式,这与 Beancount 回写智能体直接相关。
CodeAct (ICML 2024) 使用可执行的 Python 代码取代了 JSON 工具调用,在多工具任务中将 GPT-4 智能体的成功率提高了约 20 个百分点,并将交互轮数减少了 30% —— 这对于构建可靠的 Beancount 对账智能体具有直接意义。
Huang 等人(ICLR 2024)的研究表明,在没有外部反馈的情况下,要求 LLM 审查其自身推理会导致准确性持续下降 —— GPT-4 在 GSM8K 上的表现从 95.5% 降至 91.5% —— 以及这对设计可靠的 Beancount 账目分录代理意味着什么。
思维树 (ToT) 在 24 点游戏中实现了 74% 的成功率,而标准的 GPT-4 CoT 仅为 4%。它通过将大模型推理组织成具有剪枝和回溯功能的决策树来实现这一目标,这对 Beancount 工作流中的多步骤财务分类和税务优化具有直接意义。
CRITIC (ICLR 2024) 通过将大语言模型(LLM)的修订建立在外部工具信号的基础上,在开放域问答中实现了 7.7 的 F1 值提升,并减少了 79.2% 的有害内容——这种“先验证后修正”的循环直接对应了 Beancount 金融代理的回写安全机制。
Reflexion (NeurIPS 2023) 通过将语言事后分析存储在情节缓冲区中,使大语言模型 (LLM) 智能体得以改进,而无需更新权重。它在 GPT-4 的 HumanEval 测试中达到了 91% 的准确率,但在 WebShop 上表现不佳,这揭示了一个结构性限制:只有当评估器产生清晰、可操作的信号时,语言强化才有效。本文探讨了这对构建自校正 Beancount 账本智能体的意义。
自一致性通过对 N 条采样推理路径进行多数投票,取代了贪婪的思维链解码——在零微调的情况下将 GPT-3 在 GSM8K 上的准确率提高了 17.9 个百分点——并直接适用于单次大模型解码不可靠的多步金融计算。