跳到主要内容
Forecasting

关于一切 Forecasting

4 篇文章
Financial forecasting and runway modelling with AI agents

LLM 智能体能担任 CFO 吗?EnterpriseArena 132 个月的模拟揭示了巨大差距

EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟,追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存;GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%,且期末估值是模型的 5 倍。关键瓶颈在于:LLM 在 80% 的时间里跳过了账目对账,导致其基于过时的财务状态进行决策。

InvestorBench:金融交易决策中的大语言模型智能体基准测试

InvestorBench (ACL 2025) 在股票、加密货币和 ETF 交易的回测中,通过累计回报率和夏普比率(而非问答准确率)对 13 个大语言模型骨干进行了测试。Qwen2.5-72B 以 46.15% 的累计回报率荣登股票榜首;针对金融微调的模型在股票表现上反而不如预期。模型参数量比领域微调更能可靠地预测性能。

大语言模型(LLM)对时间序列预测并无用处:NeurIPS 2024 对金融 AI 意味着什么

一篇 NeurIPS 2024 Spotlight 论文对三种基于 LLM 的时间序列预测方法(OneFitsAll、Time-LLM 和 CALF)进行了消融实验,发现移除语言模型在大多数情况下能提高准确度,且训练速度最高可提升 1,383 倍。对于 Beancount 余额预测等金融 AI 应用,轻量级的专用模型表现始终优于改造成的 LLM。