8 篇博文含有标签「Technology」

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench：为何在真实世界工具调用中没有 LLM 的会话准确率能超过 15%

WildToolBench (ICLR 2026) 评估了 57 个 LLM 在源自真实用户行为的 1,024 个任务上的表现——没有模型的会话准确率超过 15%，其中组合编排、隐藏意图和指令转换是三个最显著的失败模式。

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

迷失在中间：大语言模型中的位置偏差及其对金融 AI 的影响

Liu 等人发表的 TACL 2024 论文表明，大语言模型在处理埋藏在长上下文中间的信息时，性能会下降多达 20 个百分点——这种 U 形性能退化影响了包括 Claude-1.3-100K 在内的所有受测模型——这对 RAG 流水线在金融和会计应用中应如何排列检索到的段落具有具体的指导意义。

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld：桌面 AI 智能体任务成功率仅为 12%，而人类成功率为 72%

OSWorld (NeurIPS 2024) 在 Ubuntu、Windows 和 macOS 的 369 个真实桌面任务中对多模态 AI 智能体进行了基准测试。结果显示，表现最好的模型（12.24%）与人类表现（72.36%）之间存在 60 个百分点的差距，且 75% 的失败归因于视觉运动接地错误，而非推理失败。

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025)：选择正确的文档结构，性能领先 GraphRAG 28 分

StructRAG (ICLR 2025) 在推理前根据每个查询将路由到适当的任务结构类型（表格、图、目录、算法或分块），在 Loong 基准测试中比 GraphRAG 高出 28 分，且运行速度快 22 倍，仅 DPO 训练的路由模型就带来了 15 分的准确率提升。

AILLMMachine LearningAutomationTechnologyPerformanceFinance

在等量思考 Token 预算下，单智能体大模型在多跳推理表现上优于多智能体系统

2026 年斯坦福大学的一篇预印本论文通过统一五种多智能体架构的思考 Token 预算发现，在多跳推理任务中，单智能体大模型表现与多智能体系统相当甚至更优。该研究基于数据处理不等式提供了理论依据，并探讨了其对金融 AI 智能体设计的启示。

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: 大语言模型的自适应检索与自我评判

Self-RAG (ICLR 2024 Oral) 训练语言模型决定何时进行检索，并使用四个反思令牌对其自身结果进行评分——在 PopQA 上达到 55.8%，在传记 FactScore 上达到 80.2，同时在五个基准测试中表现优于 ChatGPT。本文分析涵盖了其机制、消融实验结果、可复现性局限，以及对基于 Beancount 账本的金融 AI 智能体的启示。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench：评估作为代理的 LLM —— 对金融 AI 可靠性的启示

AgentBench（Liu 等人，ICLR 2024）在 8 个交互式环境中对 27 个大语言模型进行了基准测试 —— GPT-4 的综合得分为 4.01，而表现最好的开源模型仅为 0.96。三种主要的失败模式（知识图谱失败中 67.9% 为超出任务限制、数据库失败中 53.3% 为格式错误以及无效操作）直接对应了在真实账本上部署 Beancount 回写代理的风险。