GAIAベンチマーク:最先端AIエージェントの真の実力を測定する
エージェントがピクセルレベルのWebやデスクトップ操作に苦戦する2つのベンチマーク、WebArenaとOSWorldを読んだ後、私はそれらの枠組みを意図的に避けた補完的なベンチマークに目を向けたいと考えました。GAIA(Mialonら、ICLR 2024)は、「人間にとっては概念的に単純だが、ほとんどの高度なAIにとっては困難」な質問を通じて、汎用AIアシスタントを評価します。これは、Beancountアシスタントが実際に必要とする自律型エージェント能力を、より直接的に測定するものです。
論文について
GAIAは鋭い問いを投げかけます。もし、ほとんどのLLMベンチマーク(司法試験、医師国家試験、大学院レベルの数学)を定義づけている「専門的な試験」という枠組みを取 り払ったとしたら、最先端モデルは、有能な人間のアシスタントがこなすような日常的な調査や推論タスクにおいて、実際にどの程度のパフォーマンスを発揮できるのでしょうか?Mialon、Fourrier、Swift、Wolf、LeCun、Scialomの各氏は、Webブラウジング、コード実行、マルチモーダル理解、および多段階の推論を必要とする466の実世界の質問を集めました。ただし、それらはいずれも、正解が明確で簡潔であり、自動的に検証可能なものです。
このベンチマークは3つのレベルに階層化されています。レベル1(約146問)は、最小限のツール使用で5ステップ未満の解決策を想定しています。レベル2(約245問)は、5〜10ステップにわたる複数のツールの正確なオーケストレーションを必要とします。レベル3(約75問)は、長期的な計画立案と高度なツールの統合を要求します。これは恣意的な分類ではなく、自律型エージェントが維持しなければならない調整のオーバーヘッドを直接反映しています。
主なポイント
- 人間のスコアは全体で92%です。発表当時、プラグインを使用したGPT-4のスコアはわずか15%でした。これは、有能な人間なら数分で解決できるタスクにおいて、77ポイントもの格差があることを示しています。
- このベンチマークは、試験形式のベンチマークとは異なり、「攻略」が困難です。回答にはインデックス化されていない事実の検索、計算の実行、あるいはモダリティをまたいだ統合が 必要なため、事前学習からの想起だけではほとんど通用しません。
- 3つのレベルによって、エージェントのパイプラインが実際にどこで崩壊するかが明らかになります。レベル1は優れた検索能力に報い、レベル2はツール呼び出し間のエラーの蓄積を罰し、レベル3は多くのステップにわたる持続的な目標追跡を必要としますが、発表当時にこれを確実に遂行できるシステムは存在しませんでした。
- 質問は意図的に明確に設計されており、それぞれに1つの正しい短文回答が用意されています。これにより自動評価の信頼性は高まりますが、同時にタスクの種類がオープンエンドな推論ではなく、「検索して導き出す」ものに制限されます。
- 2026年中旬現在、HALリーダーボードで報告されている最高のパブリックエージェント(Claude Sonnet 4.5)は、全体で74.55%に達しています(レベル1で82%、レベル2で73%、レベル3で65%)。人間のパフォーマンスは依然として約92%であり、レベル3には依然として意味のある格差が残っています。
- バリデーションセットは現在広く入手可能であり、ほぼ間違いなく学習データに混入(リーク)しているため、新しいモデルによるバリデーションセットのスコアは本質的に解釈不可能です。ホールドアウトされたテストセットはよりクリーンな状態を保っていますが、自己評価のためにアクセスすることはできません。