面向 LLM 智能体的不确定性感知委派:何时从小型模型切换到大型模型
ReDAct 默认运行小型模型,仅在 Token 级困惑度显示不确定性时才上报给昂贵的大型模型。在匹配或超过 GPT-5.2 准确率的同时,实现了 64% 的成本节省 —— 这一模式可直接应用于 Beancount 交易分类智能体。
ReDAct 默认运行小型模型,仅在 Token 级困惑度显示不确定性时才上报给昂贵的大型模型。在匹配或超过 GPT-5.2 准确率的同时,实现了 64% 的成本节省 —— 这一模式可直接应用于 Beancount 交易分类智能体。
InvestorBench (ACL 2025) 在股票、加密货币和 ETF 交易的回测中,通过累计回报率和夏普比率(而非问答准确率)对 13 个大语言模型骨干进行了测试。Qwen2.5-72B 以 46.15% 的累计回报率荣登股票榜首;针对金融微调的模型在股票表现上反而不如预期。模型参数量比领域微调更能可靠地预测性能。
LATS(语言智能体树搜索,ICML 2024)将 ReAct、思维树(Tree of Thoughts)和 Reflexion 统一到一个 MCTS 框架中,在 HumanEval 上配合 GPT-4 实现了 92.7% 的 pass@1。对于基于 Git 的 Beancount 账本,LATS 在生产环境中受限的状态回退要求可以被轻易满足。
思维树 (ToT) 在 24 点游戏中实现了 74% 的成功率,而标准的 GPT-4 CoT 仅为 4%。它通过将大模型推理组织成具有剪枝和回溯功能的决策树来实现这一目标,这对 Beancount 工作流中的多步骤财务分类和税务优化具有直接意义。