57 篇博文含有标签「Automation」

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS：无需 SQL 的弱监督表格问答及其对 Beancount 的意义

TAPAS（Google Research, ACL 2020）通过选择单元格并应用标量聚合来回答表格问题，无需生成 SQL。本文分析了其架构、在 SQA 上 12 个百分点的准确率提升，以及为什么单元格选择范式适用于小型 Beancount 账本查询，但在大规模场景下会失效。

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL：多智能体协作的 Text-to-SQL

MAC-SQL (COLING 2025) 使用三个专用智能体——用于模式缩减的 Selector、用于问题分解的 Decomposer 以及用于执行引导的 SQL 纠错的 Refiner——在 BIRD 基准测试上达到了 59.59% 的执行准确率；消融实验表明 Refiner 的贡献最大（+4.63 分），这对 Beancount 账本查询生成具有直接意义。

AILLMSecurityAutomationBeancountComplianceTrust

LLM 智能体可验证的安全工具使用：当 STPA 遇上 MCP

CMU 和北卡罗来纳州立大学的研究人员提出利用系统理论过程分析 (STPA) 和能力增强的模型上下文协议 (MCP) 为 LLM 智能体工具使用推导形式化安全规范，并通过基于 Alloy 的验证在日历调度案例研究中证明了不存在不安全流。

AILLMMachine LearningAutomationTechnologyPerformanceFinance

在等量思考 Token 预算下，单智能体大模型在多跳推理表现上优于多智能体系统

2026 年斯坦福大学的一篇预印本论文通过统一五种多智能体架构的思考 Token 预算发现，在多跳推理任务中，单智能体大模型表现与多智能体系统相当甚至更优。该研究基于数据处理不等式提供了理论依据，并探讨了其对金融 AI 智能体设计的启示。

AILLMMachine LearningAutomationFinanceData ScienceMulti-Agent

M3MAD-Bench：多智能体辩论在不同领域和模态下真的有效吗？

M3MAD-Bench 对 9 个模型、5 个领域以及视觉语言设置下的多智能体辩论进行了压力测试，发现“集体幻觉”导致了 65% 的失败，对抗性辩论使准确率下降了高达 12.8%，而自我一致性通常能以更低的 Token 成本达到与辩论相当的准确率。

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail：跨任务学习的 LLM 智能体自适应安全护栏

AGrail (ACL 2025) 引入了一种双 LLM 协作护栏，通过测试时自适应（TTA）在推理阶段调整安全检查。在 Safe-OS 上实现了 0% 的提示注入攻击成功率和 95.6% 的良性操作保留率——相比之下，GuardAgent 和 LLaMA-Guard 拦截了高达 49.2% 的合法操作。

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent：LLM 智能体的可验证安全策略推理

ShieldAgent (ICML 2025) 使用基于马尔可夫逻辑网络构建的概率规则电路取代了基于 LLM 的护栏，在针对智能体攻击的防御中实现了 90.4% 的准确率，同时 API 调用减少了 64.7% —— 以及这对金融 AI 系统中可验证安全的意义。

AIMachine LearningLLMData ScienceBeancountFinanceAutomation

Atlas：检索器-阅读器联合预训练以 11B 参数击败 540B 参数的超大模型

Atlas (JMLR 2023) 在仅有 64 个训练样本的情况下，在 Natural Questions 上实现了 42.4% 的准确率——以 11B 参数击败了拥有 540B 参数的 PaLM 模型 3 个百分点。该模型通过联合预训练基于 Contriever 的稠密检索器和基于 T5 的 Fusion-in-Decoder 阅读器实现。本文分析涵盖了检索准确率限制、587GB 索引基础设施成本，以及对 Beancount 账本问答系统的影响。

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministic Safety Enforcement for LLM Agents via Code Execution

GuardAgent (ICML 2025) places a separate LLM agent between a target agent and its environment, verifying every proposed action by generating and running Python code — achieving 98.7% policy enforcement accuracy while preserving 100% task completion, versus 81% accuracy and 29–71% task failure for prompt-embedded safety rules.