2026
- 4月15日 - FinBen:在 36 个金融任务中对大语言模型进行基准测试 —— 对会计 AI 的启示
- 4月16日 - Toolformer:自监督工具使用及其在金融 AI 中的局限性
- 4月17日 - ReAct:在语言模型中协同推理与行动
- 4月18日 - FinMaster 基准测试:为何大语言模型在金融素养上得分 96%,但在报表生成上仅为 3%
- 4月19日 - PHANTOM (NeurIPS 2025):衡量金融文档中的大语言模型幻觉检测
- 4月20日 - 思维链提示:金融人工智能中的精确率与召回率权衡
- 4月21日 - 会计智能体的宪制 AI:RLAIF、政策规则与古德哈特风险
- 4月22日 - 大语言模型能对表格数据进行推理吗?四个基准测试揭示了金融 AI 的现状
- 4月23日 - PAL:用于可靠财务算术的程序辅助语言模型
- 4月24日 - 自一致性:多数投票采样提升思维链准确率
- 4月25日 - Reflexion:无需重新训练即可从错误中学习的语言智能体
- 4月26日 - CRITIC:为什么大模型自我修正需要外部工具反馈
- 4月27日 - 思维树:利用大模型搜索实现审慎的问题解决
- 4月28日 - 大语言模型(LLM)尚无法自我纠正推理能力 —— ICLR 2024 研究发现及其对金融 AI 的启示
- 4月29日 - CodeAct:为什么可执行的 Python 代码能让 LLM 智能体准确率提升 20%
- 4月30日 - SWE-bench:语言模型能否解决真实的 GitHub 问题?
- 5月1日 - SWE-agent:接口设计如何开启自动化软件工程
- 5月2日 - MemGPT:大语言模型智能体的虚拟上下文管理
- 5月3日 - Gorilla:检索感知训练如何将 LLM API 幻觉从 78% 降低到 11%
- 5月4日 - AutoGen:金融 AI 的多智能体对话框架
- 5月5日 - BloombergGPT 与金融特定领域大语言模型的局限性
- 5月6日 - AgentBench:评估作为代理的 LLM —— 对金融 AI 可靠性的启示
- 5月7日 - HippoRAG:受神经生物学启发的 LLM 长期记忆机制
- 5月8日 - Voyager:技能库作为终身学习 AI 智能体的基石
- 5月9日 - Self-RAG: 大语言模型的自适应检索与自我评判
- 5月10日 - LATS:语言智能体树搜索 —— 集推理、行动与规划于一体的框架
- 5月11日 - DSPy:用编译后的 LLM 管道替换脆弱的提示工程
- 5月12日 - FinanceBench:为什么基于向量存储的 RAG 在真实财务文档上表现不佳
- 5月13日 - FinQA:衡量 AI 对财务报告数值推理能力 的基准测试
- 5月14日 - TAT-QA:针对财务年报推理的混合表格-文本问答基准
- 5月15日 - ConvFinQA:多轮财务问答以及模型与人类专家之间 21 个百分点的差距
- 5月16日 - MultiHiertt:跨多层级财务报表的数值推理基准测试
- 5月17日 - 针对知识密集型 NLP 任务的检索增强生成
- 5月18日 - FLARE:主动检索增强生成
- 5月19日 - IRCoT:将检索与思维链交织以实现多步问答
- 5月20日 - 微调与 RAG:为什么检索在为 LLM 注入新知识方面胜出
- 5月21日 - TAT-LLM:针对金融表格和文本离散推理进行微调的 LLaMA 2
- 5月22日 - AuditCopilot:大语言模型在复式记账欺诈检测中的应用
- 5月23日 - 大语言模型(LLM)对时间序列预测并无用处:NeurIPS 2024 对金融 AI 意味着什么
- 5月24日 - 多智能体 LLM 辩论:真实的准确率提升、未受控的计算开销与集体幻觉
- 5月25日 - GuardAgent: Deterministic Safety Enforcement for LLM Agents via Code Execution
- 5月26日 - Fusion-in-Decoder:多篇章检索如何提升生成式问答性能
- 5月27日 - Atlas:检索器-阅读器联合预训练以 11B 参数击败 540B 参数的超大模型
- 5月28日 - ShieldAgent:LLM 智能体的可验证安全策略推理
- 5月29日 - AGrail:跨任务学习的 LLM 智能体自适应安全护栏
- 5月30日 - M3MAD-Bench:多智能体辩论在不同领域和模态下真的有效吗?
- 5月31日 - 在等量思考 Token 预算下,单智能体大模型在多跳推理表现上优于多智能体系统
- 6月1 日 - StructRAG (ICLR 2025):选择正确的文档结构,性能领先 GraphRAG 28 分
- 6月2日 - InvestorBench:金融交易决策中的大语言模型智能体基准测试
- 6月3日 - FinAuditing:大语言模型在真实 SEC XBRL 审计任务中得分低于 14%
- 6月4日 - GraphRAG:从局部到全局的查询导向摘要生成
- 6月5日 - LLM 智能体可验证的安全工具使用:当 STPA 遇上 MCP
- 6月6日 - BIRD 基准测试:大语言模型 Text-to-SQL 在真实数据库中的差距
- 6月7日 - DIN-SQL:用于 Text-to-SQL 的分解式上下文学习
- 6月8日 - MAC-SQL:多智能体协作的 Text-to-SQL
- 6月9日 - TAPAS:无需 SQL 的弱监督表格问答及其对 Beancount 的意义
- 6月10日 - TableLlama:7B 开源模型在表格理解上能否媲美 GPT-4?
- 6月11日 - Chain-of-Table:LLM 推理链中的演进表格
- 6月12日 - τ-bench:评估 AI 代理在现实世界工具调用领域的可靠性
- 6月13日 - WorkArena:大语言模型(LLM)网络智能体在真实企业知识工作中的表现
- 6月14日 - WebArena:包含 812 个任务的基准测试,衡量 Web 智能体真实的能与不能
- 6月15日 - OSWorld:桌面 AI 智能体任务成功率仅为 12%,而人类成功率为 72%
- 6月16日 - GAIA 基准测试:衡量前沿 AI 智能体究竟能做些什么
- 6月17日 - WorkArena++:人类与 AI 智能体在复合型企业任务表现上 93% 的差距
- 6月18日 - τ²-bench:衡量对话式 AI 智能体中双重控制的成本
- 6月19日 - TheAgentCompany:在真实企业任务中评估大语言模型智能体
- 6月20日 - DocFinQA:基于完整 SEC 申报文件的长文本财务推理
- 6月21日 - 利用大语言模型进行零样本异常检测:GPT-4 在表格数据上的表现
- 6月22日 - TableMaster:基于大语言模型的表格理解自适应推理
- 6月23日 - LLM 在 Beancount DSL 生成中得分仅为 2.3%:LLMFinLiteracy 基准测试
- 6月24日 - AnoLLM:针对金融数据表格式异常检测的 LLM 微调
- 6月25日 - CausalTAD:用于大语言模型表格异常检测的因果列排序
- 6月26日 - AD-LLM 基准测试:GPT-4o 在文本异常检测中零样本 AUROC 达到 0.93+
- 6月27日 - 迷失在中间:大语言模型中的位置偏差及其对金融 AI 的影响
- 6月28日 - FinDER:真实分析师查询揭示金融 RAG 中 74% 的召回率差距
- 6月29日 - Fin-RATE:大语言模型在跨周期和跨实体财务分析中的失败表现
- 6月30日 - OpenHands:AI 软件代理开放平台及其对财务自动化的意义
- 7月1日 - 面向 LLM 智能体的不确定性感知委派:何时从小型模型切换到大型模型
- 7月2日 - 发现于中:通过校准位置注意力偏差提升长上下文 RAG
- 7月3日 - LLM 异常检测综述 (NAACL 2025):强大的分类体系,缺失的表格数据覆盖
- 7月4日 - OmniEval:金融领域全方位 RAG 评估基准
- 7月5日 - FinToolBench:评估大语言模型智能体在真实金融工具使用中的表现
- 7月6日 - FinTrace:针对金融任务的 LLM 工具调用轨迹级评估
- 7月7日 - FinMCP-Bench:MCP 架构下真实世界金融工具使用的大语言模型代理基准测试
- 7月8日 - JSONSchemaBench:真实世界的模式复杂度打破了大语言模型结构化输出的保证
- 7月9日 - LLM 置信度与 校准:研究现状深度综述
- 7月10日 - WildToolBench:为何在真实世界工具调用中没有 LLM 的会话准确率能超过 15%
- 7月11日 - LLM 智能体能担任 CFO 吗?EnterpriseArena 132 个月的模拟揭示了巨大差距
- 7月12日 - FinRAGBench-V:金融领域带视觉引用的多模态 RAG
