メインコンテンツまでスキップ
Multi-Agent

全てについて Multi-Agent

2つの記事
Multi-agent LLM frameworks and architectures for collaborative financial automation

M3MAD-Bench:マルチエージェント討論はドメインやモダリティを越えて真に有効なのか?

M3MAD-Benchは、9つのモデル、5つのドメイン、および視覚と言語の設定においてマルチエージェント討論をストレステストしました。その結果、失敗の65%が「集団的妄想」に起因すること、敵対的討論により精度が最大12.8%低下すること、そして自己整合性が通常、より低いトークンコストで討論と同等の精度を達成することが判明しました。

AutoGen: 金融AIのためのマルチエージェント対話フレームワーク

AutoGen (Wu et al., 2023) は、LLMベースのエージェントがメッセージをやり取りしてタスクを完了するマルチエージェント対話フレームワークを導入しました。2つのエージェント構成により、MATHベンチマークの精度が55%から69%に向上し、専用のSafeGuardエージェントによって安全でないコードの検出が最大35 F1ポイント改善されました。これらの知見は、安全でモジュール化されたBeancount自動化パイプラインの構築に直接応用可能です。