M3MAD-Bench:マルチエージェント討論はドメインやモダリティを越えて真に有効なのか?
M3MAD-Benchは、9つのモデル、5つのドメイン、および視覚と言語の設定においてマルチエージェント討論をストレステストしました。その結果、失敗の65%が「集団的妄想」に起因すること、敵 対的討論により精度が最大12.8%低下すること、そして自己整合性が通常、より低いトークンコストで討論と同等の精度を達成することが判明しました。
M3MAD-Benchは、9つのモデル、5つのドメイン、および視覚と言語の設定においてマルチエージェント討論をストレステストしました。その結果、失敗の65%が「集団的妄想」に起因すること、敵 対的討論により精度が最大12.8%低下すること、そして自己整合性が通常、より低いトークンコストで討論と同等の精度を達成することが判明しました。
AutoGen (Wu et al., 2023) は、LLMベースのエージェントがメッセージをやり取りしてタスクを完了するマルチエージェント対話フレームワークを導入しました。2つのエージェント構成により、MATHベンチマークの精度が55%から69%に向上し、専用のSafeGuardエージェントによって安全でないコードの検出が最大35 F1 ポイント改善されました。これらの知見は、安全でモジュール化されたBeancount自動化パイプラインの構築に直接応用可能です。