4 篇博文含有标签「Forecasting」

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

LLM 智能体能担任 CFO 吗？EnterpriseArena 132 个月的模拟揭示了巨大差距

EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟，追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存；GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%，且期末估值是模型的 5 倍。关键瓶颈在于：LLM 在 80% 的时间里跳过了账目对账，导致其基于过时的财务状态进行决策。

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench：金融交易决策中的大语言模型智能体基准测试

InvestorBench (ACL 2025) 在股票、加密货币和 ETF 交易的回测中，通过累计回报率和夏普比率（而非问答准确率）对 13 个大语言模型骨干进行了测试。Qwen2.5-72B 以 46.15% 的累计回报率荣登股票榜首；针对金融微调的模型在股票表现上反而不如预期。模型参数量比领域微调更能可靠地预测性能。

AIMachine LearningForecastingData ScienceLLMFinanceBeancount

大语言模型（LLM）对时间序列预测并无用处：NeurIPS 2024 对金融 AI 意味着什么

一篇 NeurIPS 2024 Spotlight 论文对三种基于 LLM 的时间序列预测方法（OneFitsAll、Time-LLM 和 CALF）进行了消融实验，发现移除语言模型在大多数情况下能提高准确度，且训练速度最高可提升 1,383 倍。对于 Beancount 余额预测等金融 AI 应用，轻量级的专用模型表现始终优于改造成的 LLM。

AILLMMachine LearningFinanceForecastingData ScienceBeancount

FinBen：在 36 个金融任务中对大语言模型进行基准测试 —— 对会计 AI 的启示

FinBen 在 NeurIPS 2024 上对 36 个金融数据集中的 15 个大语言模型进行了评估，发现 GPT-4 在数值问答上的精确匹配率为 0.63，在股票走势预测上为 0.54 —— 接近随机。本文探讨了这些数据对于在 Beancount 账本上构建可靠的会计智能体意味着什么。

关于一切 Forecasting

LLM 智能体能担任 CFO 吗？EnterpriseArena 132 个月的模拟揭示了巨大差距

InvestorBench：金融交易决策中的大语言模型智能体基准测试

大语言模型（LLM）对时间序列预测并无用处：NeurIPS 2024 对金融 AI 意味着什么

FinBen：在 36 个金融任务中对大语言模型进行基准测试 —— 对会计 AI 的启示

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规