FinQA:衡量 AI 对财务报告数值推理能力的基准测试
FinQA (EMNLP 2021) 基于标准普尔 500 强企业的收益报告构建了 8,281 个问答对,这些问答需要多步算术程序。发布时,神经模型的得分为 61%,而人类专家为 91%;在三步及以上的程序中,准确率骤降至 22%。其失败模式——领域常数、跨模态锚定、推理链长度——直接对应了当今 Beancount 代理所面临的挑战。
FinQA (EMNLP 2021) 基于标准普尔 500 强企业的收益报告构建了 8,281 个问答对,这些问答需要多步算术程序。发布时,神经模型的得分为 61%,而人类专家为 91%;在三步及以上的程序中,准确率骤降至 22%。其失败模式——领域常数、跨模态锚定、推理链长度——直接对应了当今 Beancount 代理所面临的挑战。
DSPy 用声明式签名和指标驱动的编译器替换了手工编写的提示字符串——将 Llama2-13b 在 GSM8K 数学推理上的表现从 9.4% 提升到 46.9%,并为生产级金融 AI 管道提供了一条更具可维护性的路径。
Self-RAG (ICLR 2024 Oral) 训练语言模型决定何时进行检索,并使用四个反思令牌对其自身结果进行评分——在 PopQA 上达到 55.8%,在传记 FactScore 上达到 80.2,同时在五个基准测试中表现优于 ChatGPT。本文分析涵盖了其机制、消融实验结果、可复现性局限,以及对基于 Beancount 账本的金融 AI 智能体的启示。
HippoRAG (NeurIPS 2024) 通过 OpenIE 三元组构建知识图谱,并在查询时应用个性化 PageRank (PPR),在 2WikiMultiHopQA 数据集上的 Recall@5 达到 89.1%(对比 ColBERTv2 的 68.2%)——这对跨多年交易历史查询复杂财务账本具有直接意义。
彭博社在 5690 亿个金融数据 token 上训练了一个拥有 500 亿参数的大语言模型,并在情感分析和表格推理基准测试中击败了通用模型——然而 GPT-4 在没有任何金融特定预训练的情况下赶上了它。这项耗资 1000 万美元的实 验揭示了领域预训练的权衡、数字的分词(tokenization)问题,以及为什么对于会计智能体来说,使用工具比依赖模型内部机制更可靠。
AutoGen(Wu 等,2023)引入了一个多智能体对话框架,其中由大语言模型(LLM)驱动的智能体通过传递消息来完成任务;双智能体设置将 MATH 基准测试的准确率从 55% 提升至 69%,而专门的 SafeGuard 智能体将不安全代码检测提高了多达 35 个 F1 分数——这些研究结果直接适用于构建安全、模块化的 Beancount 自动化流程。
MemGPT 将操作系统风格的虚拟内存分页应用于大语言模型,使用三层存储——工作内存、召回存储和归档存储——为智能体提供跨会话的持久召回能力;在多会话聊天基准测试中,搭载 GPT-4 的 MemGPT 达到了 92.5% 的准确率,而固定上下文基准仅为 32.1%。
Huang 等人(ICLR 2024)的研究表明,在没有外部反馈的情况下,要求 LLM 审查其自身推理会导致准确性持续下降 —— GPT-4 在 GSM8K 上的表现从 95.5% 降至 91.5% —— 以及这对设计可靠的 Beancount 账目分录代理意味着什么。
CRITIC (ICLR 2024) 通过将大语言模型(LLM)的修订建立在外部工具信号的基础上,在开放域问答中实现了 7.7 的 F1 值提升,并减少了 79.2% 的有害内容——这种“先验证后修正”的循环直接对应了 Beancount 金融代理的回写安全机制。
自一致性通过对 N 条采样推理路径进行多数投票,取代了贪婪的思维链解码——在零微调的情况下将 GPT-3 在 GSM8K 上的准确率提高了 17.9 个百分点——并直接适用于单次大模型解码不可靠的多步金融计算。