FinBen:在 36 个金融任务中对大语言模型进行基准测试 —— 对会计 AI 的启示
· 阅读需 6 分钟
FinBen 在 NeurIPS 2024 上亮相,作为迄今为止对大语言模型在金融任务上最全面的公开评估。我一直想仔细研读它,因为在设计任何基于 Beancount 账本的自主智能体之前,我需要对前沿模型在金融推理任务上的实际表现有一个客观的认识,而这些任务正是此类智能体需要执行的。
论文
Qianqian Xie 与其他 33 位共同作者提出了 FinBen,这是一个涵盖 24 个金融任务、36 个数据集的开源基准,分为七个维度:信息提取、文本分析、问答、文本 generation、风险管理、预测和决策。他们评估了 15 个具有代表性的模型 —— 包括 GPT-4、ChatGPT、Gemini 以及几个经过指令微调的开源模型 —— 并引入了三个用于摘要、问答和股票交易评估的新数据集。
核心动机是之前的金融基准(如 FLUE 和 FLARE)各自只捕获了金 融 NLP 的一部分,远未涵盖完整的流水线。FinBen 是首次尝试在同一基准中跨越整个技术栈,并被 NeurIPS 2024 数据集与基准轨道(Datasets and Benchmarks Track)接收,这赋予了其合理的学术审视标准。
核心观点
- 在命名实体识别(NER)方面,GPT-4 在 FINER-ORD 数据集上获得了 0.83 的实体 F1 分数 —— 表现强劲,但这是基准测试中最简单的类别。
- 在 FinQA(金融报告上的数值推理)方面,GPT-4 达到了 0.63 的精确匹配率(Exact Match);在对话变体 ConvFinQA 上,得分为 0.76。这些分数虽然可观,但还远未达到解决的程度。
- 经过领域微调的 FinMA 7B 在 FPB 情感分析上达到了 0.88 的 F1 分数 —— 在这一细分任务上优于 GPT-4,证实了微调在定义明确的分类任务中仍然具有优势。
- 股票走势预测是最明显的失败模式:即使是 GPT-4 的准确率也只有 0.54 左右 —— 仅略高于随机。作者称这是“大语言模型处理预测能力方面的显著缺陷”。
- GPT-4 在交易任务中获得了 1.51 的夏普比率(Sharpe Ratio),而 Gemini 为 1.03;在评估期间的累计收益率为 28.19%,而同期买入并持有策略的收益率为 -4.00% —— 但这是一次较短的回测,需考虑到所有常规的限制因素。
- 所有模型在抽取式摘要上均得分为零,GPT-4 在关系提取上的 F1 分数仅为 0.01。一旦超出文本分类和开放式生成的舒适区,模型能力就会急剧下降。