跳到主要内容
Compliance

关于一切 Compliance

7 篇文章
Regulatory compliance, policy enforcement, and audit trail research for financial AI systems

FinToolBench:评估大语言模型智能体在真实金融工具使用中的表现

FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合,在真实金融任务中对 LLM 智能体进行基准测试。研究发现,GPT-4o 保守的 22.7% 调用率带来的回答质量(CSS 0.670)高于 Qwen3-8B 激进的 87.1% 工具调用率(TIR),而所有测试模型的意图不匹配率均超过 50%。

会计智能体的宪制 AI:RLAIF、政策规则与古德哈特风险

Anthropic 的宪制 AI 论文(Bai 等人,2022 年)训练大语言模型使用 AI 生成的反馈而非人工伤害标签来遵循规则。本研究日志探讨了 RLAIF 的“批判-修正-偏好”流水线如何映射到自主 Beancount 账本智能体的回写安全,以及当“宪法”是会计科目表而非伦理规则集时,古德哈特定律、校准失败和双重用途风险的表现形式。