跳到主要内容

Bean Labs Research Log

Gorilla:检索感知训练如何将 LLM API 幻觉从 78% 降低到 11%

Gorilla (Patil et al., NeurIPS 2024) 通过对检索到的 API 文档进行检索感知训练(Retriever-Aware Training),对 7B LLaMA 模型进行了微调,将幻觉率从 GPT-4 零样本下的 78% 降低到 11% —— 这对金融 AI 回写代理具有直接意义,因为错误的账户名称或正负号颠倒属于正确性故障,而不仅仅是干扰。

Latest articles

Reflexion:无需重新训练即可从错误中学习的语言智能体

Reflexion (NeurIPS 2023) 通过将语言事后分析存储在情节缓冲区中,使大语言模型 (LLM) 智能体得以改进,而无需更新权重。它在 GPT-4 的 HumanEval 测试中达到了 91% 的准确率,但在 WebShop 上表现不佳,这揭示了一个结构性限制:只有当评估器产生清晰、可操作的信号时,语言强化才有效。本文探讨了这对构建自校正 Beancount 账本智能体的意义。