2026
- 4月15日 - FinBen: 36の財務タスクにおけるLLMのベンチマーク — 会計AIへの示唆
- 4月16日 - Toolformer:自己教師ありツールの利用とその金融AIにおける限界
- 4月17日 - ReAct:言語モデルにおける推論と行動の相乗効果
- 4月18日 - FinMasterベンチマーク:LLMが金融リテラシーで96%を記録しながら財務諸表作成で3%に沈む理由
- 4月19日 - PHANTOM (NeurIPS 2025): 金融文書におけるLLMのハルシネーション検出の測定
- 4月20日 - Chain-of-Thoughtプロンプティング:金融AIにおける適合率と再現率のトレードオフ
- 4月21日 - 会計エージェントのための憲法AI:RLAIF、ポリシー規則、およびグッドハートの法則のリスク
- 4月22日 - LLMはテーブルデータの推論ができるのか?4つのベンチマークが示す金融AIの現状
- 4月23日 - PAL: 信頼性の高い財務演算のためのプログラム支援言語モデル
- 4月24日 - 自己整合性:多数決サンプリングによる思考の連鎖(Chain-of-Thought)精度の向上
- 4月25日 - Reflexion: 再学習なしにミスから学習する言語エージェント
- 4月26日 - CRITIC:なぜLLMの自己修正には外部ツールのフィードバックが必要なのか
- 4月27日 - Tree of Thoughts: LLMの探索による意図的な問題解決
- 4月28日 - LLMはまだ推論を自己修正できない — ICLR 2024の知見と金融AIへの示唆
- 4月29日 - CodeAct: 実行可能なPythonコードがLLMエージェントの精度を20%向上させる理由
- 4月30日 - SWE-bench: 言語モデルは現実世界のGitHubの問題を解決できるか?
- 5月1日 - SWE-agent: インターフェース設計がいかに自動化ソフトウェアエンジニアリングを解禁するか
- 5月2日 - MemGPT: LLMエージェントのための仮想コンテキスト管理
- 5月3日 - Gorilla: 検索を意識した学習(RAT)により、LLMのAPIハルシネーションを78%から11%に低減する方法
- 5月4日 - AutoGen: 金融AIのためのマルチエージェント対話フレームワーク
- 5月5日 - BloombergGPT と金融におけるドメイン特化型 LLM の限界
- 5月6日 - AgentBench: エージェントとしてのLLM評価 — 金融AIの信頼性向上に向けた教訓
- 5月7日 - HippoRAG: LLMのための神経生物学に着想を得た長期記憶
- 5月8日 - Voyager:生涯にわたるAIエージェント学習の基盤としてのスキルライブラリ
- 5月9日 - Self-RAG:LLMのための適応的リトリーバルと自己批判
- 5月10日 - LATS: Language Agent Tree Search — 推論、行動、計画を一つのフレームワークに統合
- 5月11日 - DSPy: 脆弱なプロンプトエンジニアリングをコンパイル済みのLLMパイプラインで置き換える
- 5月12日 - FinanceBench:ベクトルストアRAGが実際の財務書類で失敗する理由
- 5月13日 - FinQA:財務レポートにおけるAIの数値推論を測定するベンチマーク
- 5月14日 - TAT-QA:財務年次報告書の推論のための表・テキスト・ハイブリッド型QAベンチマーク
- 5月15日 - ConvFinQA:マルチターンの財務QAとモデル・専門家間にある21ポイントの格差
- 5月16日 - MultiHiertt: 多階層財務諸表における数値推論のベンチマーク
- 5月17日 - 知識集約型NLPタスクのための検索拡張生成(RAG)
- 5月18日 - FLARE: 能動的検索拡張生成
- 5月19日 - IRCoT: マルチステップQAに向けた検索と思考の連鎖(Chain-of-Thought)のインターリービング
- 5月20日 - ファインチューニング vs. RAG:LLMへの新しい知識の注入において検索が勝る理由
- 5月21日 - TAT-LLM: 財務表とテキストにおける離散的推論のために微調整されたLLaMA 2
- 5月22日 - AuditCopilot:複式簿記における不正検知のためのLLM
- 5月23日 - LLMは時系列予測には役に立たない:NeurIPS 2024が金融AIにもたらす意味
- 5月24日 - マルチエージェントLLM討論:真の精度向上、制御不能な計算コスト、および集団的妄想
- 5月25日 - GuardAgent: コード実行によるLLMエージェントの確定的安全性の強化
- 5月26日 - Fusion-in-Decoder: 複数パッセージの検索が生成型QAをどのように改善するか
- 5月27日 - Atlas: 検索機と読解機の共同事前学習により、11Bパラメータで540BパラメータのLLMを凌駕
- 5月28日 - ShieldAgent: LLMエージェントのための検証可能な安全ポリシー推論
- 5月29日 - AGrail:タスクを越えて学習するLLMエージェントのための適応型セーフティ・ガードレール
- 5月30日 - M3MAD-Bench:マルチエージェント討論はドメインやモダリティを越えて真に有効なのか?
- 5月31日 - 思考トークンの予算が同一の場合、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムを上回る
- 6月1日 - StructRAG (ICLR 2025): 適切なドキュメント構造の選択により、GraphRAGを28ポイント上回る
- 6月2日 - InvestorBench: 金融取引の意思決定におけるLLMエージェントのベンチマーク評価
- 6月3日 - FinAuditing: LLMによる実在のSEC XBRL監査タスクのスコアは14%未満
- 6月4日 - GraphRAG:ローカルからグローバルなクエリ指向の要約へ
- 6 月5日 - LLMエージェントのための検証可能な安全なツール利用:STPAとMCPの融合
- 6月6日 - BIRDベンチマーク:LLM Text-to-SQLにおける実データベースとの乖離
- 6月7日 - DIN-SQL: Text-to-SQLのための分解されたインコンテキスト学習
- 6月8日 - MAC-SQL:マルチエージェント協調型 Text-to-SQL
- 6月9日 - TAPAS: SQL不要の弱教師ありテーブルQA、そしてそれがBeancountに意味すること
- 6月10日 - TableLlama: 7Bのオープンモデルはテーブル理解においてGPT-4に匹敵するか?
- 6月11日 - Chain-of-Table: LLM推論チェーンにおけるテーブルの進化
- 6月12日 - τ-bench: 実世界のツール使用ドメインにおけるAIエージェントの信頼性の測定
- 6月13日 - WorkArena:LLMウェブエージェントは実社会のエンタープライズ知識労働でどのように機能するか
- 6月14日 - WebArena: Webエージェントの真の能力と限界を測定する812タスクのベンチマーク
- 6月15日 - OSWorld:デスクトップAIエージェントの成功率は12%、人間は72%のタスクで成功
- 6月16日 - GAIAベンチマーク:最先端AIエージェントの真の実力を測定する
- 6月17日 - WorkArena++: 複合的なエンタープライズ・タスクにおける人間とAIエージェントのパフォーマンスの93%の乖離
- 6月18日 - τ²-bench:対話型AIエージェントにおけるデュアルコントロールのコストを測定する
- 6月19日 - TheAgentCompany:実世界の企業業務におけるLLMエージェントのベンチマーキング
- 6月20日 - DocFinQA:完全なSEC提出書類における長文コンテキストの財務推論
- 6月21日 - LLMを用いたゼロショット異常検知:GPT-4はテーブルデータでどのようなパフォーマンスを示すか
- 6月22日 - TableMaster:LLMを用 いたテーブル理解のための適応的推論
- 6月23日 - LLMによるBeancount DSL生成の正解率は2.3%:LLMFinLiteracyベンチマーク
- 6月24日 - AnoLLM: 財務データにおけるテーブルデータの異常検知に向けたLLMのファインチューニング
- 6月25日 - CausalTAD: LLMによるテーブルデータの異常検知のための因果関係に基づく列順序付け
- 6月26日 - AD-LLMベンチマーク:GPT-4oがテキスト異常検知においてゼロショットで0.93以上のAUROCを達成
- 6月27日 - Lost in the Middle:LLMにおける位置バイアスと金融AIへの影響
- 6月28日 - FinDER: 実務のアナリストによるクエリが財務RAGにおける74%の再現率の乖離を露呈
- 6月29日 - Fin-RATE:LLMは期間横断および企業横断の財務分析にいかに失敗するか
- 6月30日 - OpenHands:AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味するこ と
- 7月1日 - LLMエージェントにおける不確実性を考慮したディフェラル:小規模モデルから大規模モデルへいつエスカレーションすべきか
- 7月2日 - Found in the Middle: 位置的アテンションバイアスの校正によるロングコンテキストRAGの改善
- 7月3日 - LLM異常検知サーベイ (NAACL 2025):強力な分類体系、欠如した表形式データへの対応
- 7月4日 - OmniEval: 金融分野向け全方位型RAG評価ベンチマーク
- 7月5日 - FinToolBench:実世界の金融ツール活用におけるLLMエージェントの評価
- 7月6日 - FinTrace:金融タスクにおけるLLMツール呼び出しのトラジェクトリレベル評価
- 7月7日 - FinMCP-Bench: MCP下での実世界の金融ツール利用に向けたLLMエージェントのベンチマーク
- 7月8日 - JSONSchemaBench: 現実世界のスキーマの複雑さがLLMの構造化出力の保証を破壊する
- 7月9日 - LLMの信頼度とキャリブレーション:研究が実際に示していることの調査
- 7月10日 - WildToolBench: なぜ現実世界のツール利用においてLLMのセッション精度は15%を超えないのか
- 7月11日 - LLMエージェントはCFOになれるのか?EnterpriseArenaによる132ヶ月のシミュレーションで明らかになった大きな格差
- 7月12日 - FinRAGBench-V:金融領域における視覚的引用を伴うマルチモーダルRAG
