Mike Thrift
Marketing Manager
·mike
PHANTOM (NeurIPS 2025):衡量金融文档中的大语言模型幻觉检测
PHANTOM (NeurIPS 2025) 是首个在真实 SEC 备案文件中衡量大语言模型幻觉检测的基准测试,上下文长度可达 30,000 tokens。Qwen3-30B-A3B-Thinking 以 F1=0.882 领跑;7B 模型的得分接近随机猜测——这对自主会计智能体具有直接影响。
llm
ai
machine-learning
finance
+4·mike
FinMaster 基准测试:为何大语言模型在金融素养上得分 96%,但在报表生成上仅为 3%
FinMaster (arXiv:2505.13533) 对 o3-mini、Claude 3.7 Sonnet 和 DeepSeek-V3 在 183 项金融任务中进行了基准测试——揭示了模型在金融素养方面得分 96%,但在报表生成方面暴跌至 3%,多步咨询任务由于错误传播导致准确率下降了 21 个百分点。
llm
accounting
ai
financial-statements
+3·mike
ReAct:在语言模型中协同推理与行动
ReAct (Yao et al., ICLR 2023) 在单个轨迹中交替进行思维链推理和工具行动,在事实验证方面优于纯 CoT,在具身任务的模仿学习方面优于基准 34 个百分点。本文分析了该论文的失效模式——搜索诱导的干扰和复合错误——以及它们对于向 Beancount 账本回写数据的自主代理意味着什么。
ai
llm
machine-learning
automation
+3显示第 85–87 篇,共 87 篇
上一页8 / 8