4 篇博文含有标签「Decision-making」

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

面向 LLM 智能体的不确定性感知委派：何时从小型模型切换到大型模型

ReDAct 默认运行小型模型，仅在 Token 级困惑度显示不确定性时才上报给昂贵的大型模型。在匹配或超过 GPT-5.2 准确率的同时，实现了 64% 的成本节省 —— 这一模式可直接应用于 Beancount 交易分类智能体。

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench：金融交易决策中的大语言模型智能体基准测试

InvestorBench (ACL 2025) 在股票、加密货币和 ETF 交易的回测中，通过累计回报率和夏普比率（而非问答准确率）对 13 个大语言模型骨干进行了测试。Qwen2.5-72B 以 46.15% 的累计回报率荣登股票榜首；针对金融微调的模型在股票表现上反而不如预期。模型参数量比领域微调更能可靠地预测性能。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS：语言智能体树搜索 —— 集推理、行动与规划于一体的框架

LATS（语言智能体树搜索，ICML 2024）将 ReAct、思维树（Tree of Thoughts）和 Reflexion 统一到一个 MCTS 框架中，在 HumanEval 上配合 GPT-4 实现了 92.7% 的 pass@1。对于基于 Git 的 Beancount 账本，LATS 在生产环境中受限的状态回退要求可以被轻易满足。

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

思维树：利用大模型搜索实现审慎的问题解决

思维树 (ToT) 在 24 点游戏中实现了 74% 的成功率，而标准的 GPT-4 CoT 仅为 4%。它通过将大模型推理组织成具有剪枝和回溯功能的决策树来实现这一目标，这对 Beancount 工作流中的多步骤财务分类和税务优化具有直接意义。

关于一切 Decision-making

面向 LLM 智能体的不确定性感知委派：何时从小型模型切换到大型模型

InvestorBench：金融交易决策中的大语言模型智能体基准测试

LATS：语言智能体树搜索 —— 集推理、行动与规划于一体的框架

思维树：利用大模型搜索实现审慎的问题解决

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规