跳到主要内容
Fintech

关于一切 Fintech

4 篇文章
Financial technology research, platforms, and infrastructure for modern accounting systems

FinToolBench:评估大语言模型智能体在真实金融工具使用中的表现

FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合,在真实金融任务中对 LLM 智能体进行基准测试。研究发现,GPT-4o 保守的 22.7% 调用率带来的回答质量(CSS 0.670)高于 Qwen3-8B 激进的 87.1% 工具调用率(TIR),而所有测试模型的意图不匹配率均超过 50%。

BloombergGPT 与金融特定领域大语言模型的局限性

彭博社在 5690 亿个金融数据 token 上训练了一个拥有 500 亿参数的大语言模型,并在情感分析和表格推理基准测试中击败了通用模型——然而 GPT-4 在没有任何金融特定预训练的情况下赶上了它。这项耗资 1000 万美元的实验揭示了领域预训练的权衡、数字的分词(tokenization)问题,以及为什么对于会计智能体来说,使用工具比依赖模型内部机制更可靠。