Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): 適切なドキュメント構造の選択により、GraphRAGを28ポイント上回る

StructRAG (ICLR 2025) は、推論前に各クエリを表、グラフ、カタログ、アルゴリズム、またはチャンクといったタスクに適した構造タイプにルーティングします。これにより、LoongベンチマークにおいてGraphRAGを28ポイント上回るスコアを記録しつつ、22倍の高速化を実現しました。DPOでトレーニングされたルーター単体で、15ポイントの精度向上に寄与しています。

AILLMMachine LearningAutomationTechnologyPerformanceFinance

思考トークンの予算が同一の場合、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムを上回る

2026年のスタンフォード大学のプレプリントでは、5つのマルチエージェントアーキテクチャ間で思考トークン予算を均等化し、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムと同等かそれ以上の性能を発揮することを発見しました。これは情報処理不等式に基づいた理論的根拠を持ち、金融AIエージェントの設計にも影響を与えます。

AILLMMachine LearningAutomationFinanceData ScienceMulti-Agent

M3MAD-Bench：マルチエージェント討論はドメインやモダリティを越えて真に有効なのか？

M3MAD-Benchは、9つのモデル、5つのドメイン、および視覚と言語の設定においてマルチエージェント討論をストレステストしました。その結果、失敗の65%が「集団的妄想」に起因すること、敵対的討論により精度が最大12.8%低下すること、そして自己整合性が通常、より低いトークンコストで討論と同等の精度を達成することが判明しました。

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail：タスクを越えて学習するLLMエージェントのための適応型セーフティ・ガードレール

AGrail（ACL 2025）は、テスト時適応（TTA）を通じて推論時に安全性チェックを適応させる2つのLLMによる協調型ガードレールを導入し、Safe-OSにおいてプロンプトインジェクション攻撃の成功率0%と正当なアクションの95.6%の保持を達成しました。これに対し、GuardAgentやLLaMA-Guardは正当なアクションを最大49.2%ブロックしてしまいます。

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: LLMエージェントのための検証可能な安全ポリシー推論

ShieldAgent (ICML 2025) は、LLMベースのガードレールをマルコフ論理ネットワーク上に構築された確率的ルール回路に置き換え、APIコールを64.7%削減しながらエージェント攻撃に対して90.4%の精度を達成しました。これが金融AIシステムにおける検証可能な安全性にとって何を意味するのかを解説します。

AIMachine LearningLLMData ScienceBeancountFinanceAutomation

Atlas: 検索機と読解機の共同事前学習により、11Bパラメータで540BパラメータのLLMを凌駕

Atlas (JMLR 2023) は、わずか 64 個の学習例で Natural Questions において 42.4% の精度を達成し、11B パラメータでありながら PaLM 540B を 3 ポイント上回りました。これは、Contriever ベースの高密度検索機と T5 Fusion-in-Decoder 読解機を共同で事前学習することで実現されました。本分析では、検索精度の限界、587GB のインデックス・インフラコスト、および Beancount 元帳 QA システムへの影響について解説します。