FinMCP-Bench:MCP 架构下真实世界金融工具使用的大语言模型代理基准测试
FinMCP-Bench 在 65 个 MCP 服务器支持的 613 个真实世界金融工具使用任务上评估了六个大语言模型——表现最好的模型在多轮任务中的精确匹配率仅为 3.08%,揭示了从单工具到多轮场景下 20 倍的性能崩塌。
FinMCP-Bench 在 65 个 MCP 服务器支持的 613 个真实世界金融工具使用任务上评估了六个大语言模型——表现最好的模型在多轮任务中的精确匹配率仅为 3.08%,揭示了从单工具到多轮场景下 20 倍的性能崩塌。
FinTrace 在 9 个指标上对 13 个大语言模型(LLM)进行了评估,涵盖了 800 条专家标注的金融任务轨迹。研究发现,前沿模型在工具选择方面表现强劲(F1 ~0.9),但在信息利用率(即代理对工具返回结果进行推理的步骤)方面得分仅为 3.23/5。
FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合,在真实金融任务中对 LLM 智能体进行基准测试。研究发现,GPT-4o 保守的 22.7% 调用率带来的回答质量(CSS 0.670)高于 Qwen3-8B 激进的 87.1% 工具调用率(TIR),而所有测试模型的意图不匹配率均超过 50%。
彭博社在 5690 亿个金融数据 token 上训练了一个拥有 500 亿参数的大语言模型,并在情感分析和表格推理基准测试中击败了通用模型——然而 GPT-4 在没有任何金融特定预训练的情况下赶上了它。这项耗资 1000 万美元的实验揭示了领域预训练的权衡、数字的分词(tokenization)问题,以及为什么对于会计智能体来说,使用工具比依赖模型内部机制更可靠。