多智能体 LLM 辩论:真实的准确率提升、未受控的计算开销与集体幻觉
· 阅读需 7 分钟
我一直在思考 Beancount 回写安全性的多智能体验证——具体来说,在账本提交生效之前,检查者智能体(checker agent)是否能与编写者智能体(writer agent)进行有意义的辩论。这个问题让我重新审视了关于多智能体辩论的基础论文,该论文发表于 ICML 2024,此后吸引了大量有价值的批判性后续研究。
论文概述
由 Yilun Du、Shuang Li、Antonio Torralba、Joshua B. Tenenbaum 和 Igor Mordatch 撰写的《通过多智能体辩论提高语言模型的事实性和推理能力》(Improving Factuality and Reasoning in Language Models through Multiagent Debate)提出了一种他们称之为“心智社会”(society of minds)的方法:多个 LLM 实例分别生成初始响应,然后阅读全套同行响应,并在多轮迭代中更新自己的答案。核心设计选择是该方法仅 需对模型输出进行黑盒访问——无需梯度、无需微调、无需更改架构。他们在六个基准测试中进行了测试:算术、GSM8K、象棋走法优化、传记事实性、MMLU 和象棋走法有效性。
他们报告结果最多的设定是 3 个智能体进行 2 轮辩论。其核心假设是:分歧会迫使智能体清晰地阐述其推理过程,而收敛则标志着真正的信心,而非侥幸的一致性。
核心观点
- 在算术测试上,辩论达到了 81.8% 的准确率,而单智能体为 67.0%,单智能体反思为 72.1%——比基准线提升了 14.8 个百分点。
- 在 GSM8K(小学数学)上,准确率为 85.0%,对比单智能体的 77.0% 和反思模式的 75.0%。
- 在 MMLU(跨学科的 100 个问题)上,准确率为 71.1%,对比单智能体的 63.9% 和反思模式的 57.7%。
- 在传记事实性上,准确率为 73.8%,对比单智能体的 66.0%。
- 跨模型辩论(ChatGPT + Bard 在 20 个 GSM8K 问题上)解决了 17/20 个问题,而每个模型单独解决 11–14 个——这是论文中最引人注目的结果,因为它展示了异构智能体如何互相纠正错误。
- 性能随着智能体数量和轮次(最多 4 轮)的增加而提升,超过 4 轮后收益递减。显式鼓励智能体在达成共识前“深思熟虑”的“长提示词”(Long prompts)表现始终优于短提示词。