メインコンテンツまでスキップ

Bean Labs Research Log

InvestorBench: 金融取引の意思決定におけるLLMエージェントのベンチマーク評価

InvestorBench (ACL 2025)は、QAの正解率ではなく、累積収益率とシャープ・レシオを用いて、株式、仮想通貨、ETFのバックテスト取引において13種類のLLMバックボーンをテストしました。株式のリーダーボードではQwen2.5-72Bが累積収益率46.15%で首位に立ち、金融特化型モデルは株式において逆効果となる結果が出ました。モデルの規模は、ドメイン特化の微調整よりも信頼性の高いパフォーマンス予測因子となります。

Latest articles

StructRAG (ICLR 2025): 適切なドキュメント構造の選択により、GraphRAGを28ポイント上回る

StructRAG (ICLR 2025) は、推論前に各クエリを表、グラフ、カタログ、アルゴリズム、またはチャンクといったタスクに適した構造タイプにルーティングします。これにより、LoongベンチマークにおいてGraphRAGを28ポイント上回るスコアを記録しつつ、22倍の高速化を実現しました。DPOでトレーニングされたルーター単体で、15ポイントの精度向上に寄与しています。

思考トークンの予算が同一の場合、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムを上回る

2026年のスタンフォード大学のプレプリントでは、5つのマルチエージェントアーキテクチャ間で思考トークン予算を均等化し、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムと同等かそれ以上の性能を発揮することを発見しました。これは情報処理不等式に基づいた理論的根拠を持ち、金融AIエージェントの設計にも影響を与えます。

M3MAD-Bench:マルチエージェント討論はドメインやモダリティを越えて真に有効なのか?

M3MAD-Benchは、9つのモデル、5つのドメイン、および視覚と言語の設定においてマルチエージェント討論をストレステストしました。その結果、失敗の65%が「集団的妄想」に起因すること、敵対的討論により精度が最大12.8%低下すること、そして自己整合性が通常、より低いトークンコストで討論と同等の精度を達成することが判明しました。

AGrail:タスクを越えて学習するLLMエージェントのための適応型セーフティ・ガードレール

AGrail(ACL 2025)は、テスト時適応(TTA)を通じて推論時に安全性チェックを適応させる2つのLLMによる協調型ガードレールを導入し、Safe-OSにおいてプロンプトインジェクション攻撃の成功率0%と正当なアクションの95.6%の保持を達成しました。これに対し、GuardAgentやLLaMA-Guardは正当なアクションを最大49.2%ブロックしてしまいます。

ShieldAgent: LLMエージェントのための検証可能な安全ポリシー推論

ShieldAgent (ICML 2025) は、LLMベースのガードレールをマルコフ論理ネットワーク上に構築された確率的ルール回路に置き換え、APIコールを64.7%削減しながらエージェント攻撃に対して90.4%の精度を達成しました。これが金融AIシステムにおける検証可能な安全性にとって何を意味するのかを解説します。

Atlas: 検索機と読解機の共同事前学習により、11Bパラメータで540BパラメータのLLMを凌駕

Atlas (JMLR 2023) は、わずか 64 個の学習例で Natural Questions において 42.4% の精度を達成し、11B パラメータでありながら PaLM 540B を 3 ポイント上回りました。これは、Contriever ベースの高密度検索機と T5 Fusion-in-Decoder 読解機を共同で事前学習することで実現されました。本分析では、検索精度の限界、587GB のインデックス・インフラコスト、および Beancount 元帳 QA システムへの影響について解説します。

Fusion-in-Decoder: 複数パッセージの検索が生成型QAをどのように改善するか

IzacardとGraveによるFiDアーキテクチャは、検索されたパッセージを独立してエンコードし、デコーダーで融合させることで、NQおよびTriviaQAにおいてRAG-Sequenceを4〜11ポイント上回りました。本記事では、その設計と、トランザクションをまたぐ複数エントリの統合が一般的であるBeancountの元帳QAへの影響について考察します。

GuardAgent: コード実行によるLLMエージェントの確定的安全性の強化

GuardAgent(ICML 2025)は、ターゲットエージェントと環境の間に独立したLLMエージェントを配置し、Pythonコードを生成・実行することで提案されたすべてのアクションを検証します。これにより、プロンプトに埋め込まれた安全ルールでは81%の精度と29〜71%のタスク失敗率であったのに対し、98.7%のポリシー遵守精度を達成しながら100%のタスク完了率を維持します。

マルチエージェントLLM討論:真の精度向上、制御不能な計算コスト、および集団的妄想

Du氏らによるICML 2024のマルチエージェント討論論文(算術において14.8ポイントの精度向上を報告)の精読。予算を等しくした単一エージェントが討論のパフォーマンスに匹敵することを示す2025年の反論論文と併せて、討論の失敗の65%を占める「集団的妄想」がAI支援による元帳コミットに与える特有のリスクを分析します。