跳到主要内容
Machine Learning

关于一切 Machine Learning

85 篇文章
Machine learning techniques for financial data analysis and automation

FinToolBench:评估大语言模型智能体在真实金融工具使用中的表现

FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合,在真实金融任务中对 LLM 智能体进行基准测试。研究发现,GPT-4o 保守的 22.7% 调用率带来的回答质量(CSS 0.670)高于 Qwen3-8B 激进的 87.1% 工具调用率(TIR),而所有测试模型的意图不匹配率均超过 50%。