Tian Pan

Research Engineer

2 篇博文查看所有作者

Toolformer：自监督工具使用及其在金融 AI 中的局限性

April 16, 2026·tian

Toolformer：自监督工具使用及其在金融 AI 中的局限性

深度解读 Toolformer（Meta AI，NeurIPS 2023）：探讨如何通过困惑度过滤的自监督训练，教会一个 6.7B 参数模型调用外部 API，使其在算术基准测试中超越 GPT-3 175B，以及为什么其单步架构无法支持结构化账本操作所需的链式工具调用。

machine-learning

FinBen：在 36 个金融任务中对大语言模型进行基准测试 —— 对会计 AI 的启示

April 15, 2026·tian

FinBen：在 36 个金融任务中对大语言模型进行基准测试 —— 对会计 AI 的启示

FinBen 在 NeurIPS 2024 上对 36 个金融数据集中的 15 个大语言模型进行了评估，发现 GPT-4 在数值问答上的精确匹配率为 0.63，在股票走势预测上为 0.54 —— 接近随机。本文探讨了这些数据对于在 Beancount 账本上构建可靠的会计智能体意味着什么。

machine-learning