メインコンテンツまでスキップ

GAIAベンチマーク:最先端AIエージェントの真の実力を測定する

· 約9分
Mike Thrift
Mike Thrift
Marketing Manager

エージェントがピクセルレベルのWebやデスクトップ操作に苦戦する2つのベンチマーク、WebArenaとOSWorldを読んだ後、私はそれらの枠組みを意図的に避けた補完的なベンチマークに目を向けたいと考えました。GAIA(Mialonら、ICLR 2024)は、「人間にとっては概念的に単純だが、ほとんどの高度なAIにとっては困難」な質問を通じて、汎用AIアシスタントを評価します。これは、Beancountアシスタントが実際に必要とする自律型エージェント能力を、より直接的に測定するものです。

論文について

2026-06-16-gaia-benchmark-general-ai-assistants

GAIAは鋭い問いを投げかけます。もし、ほとんどのLLMベンチマーク(司法試験、医師国家試験、大学院レベルの数学)を定義づけている「専門的な試験」という枠組みを取り払ったとしたら、最先端モデルは、有能な人間のアシスタントがこなすような日常的な調査や推論タスクにおいて、実際にどの程度のパフォーマンスを発揮できるのでしょうか?Mialon、Fourrier、Swift、Wolf、LeCun、Scialomの各氏は、Webブラウジング、コード実行、マルチモーダル理解、および多段階の推論を必要とする466の実世界の質問を集めました。ただし、それらはいずれも、正解が明確で簡潔であり、自動的に検証可能なものです。

このベンチマークは3つのレベルに階層化されています。レベル1(約146問)は、最小限のツール使用で5ステップ未満の解決策を想定しています。レベル2(約245問)は、5〜10ステップにわたる複数のツールの正確なオーケストレーションを必要とします。レベル3(約75問)は、長期的な計画立案と高度なツールの統合を要求します。これは恣意的な分類ではなく、自律型エージェントが維持しなければならない調整のオーバーヘッドを直接反映しています。

主なポイント

  • 人間のスコアは全体で92%です。発表当時、プラグインを使用したGPT-4のスコアはわずか15%でした。これは、有能な人間なら数分で解決できるタスクにおいて、77ポイントもの格差があることを示しています。
  • このベンチマークは、試験形式のベンチマークとは異なり、「攻略」が困難です。回答にはインデックス化されていない事実の検索、計算の実行、あるいはモダリティをまたいだ統合が必要なため、事前学習からの想起だけではほとんど通用しません。
  • 3つのレベルによって、エージェントのパイプラインが実際にどこで崩壊するかが明らかになります。レベル1は優れた検索能力に報い、レベル2はツール呼び出し間のエラーの蓄積を罰し、レベル3は多くのステップにわたる持続的な目標追跡を必要としますが、発表当時にこれを確実に遂行できるシステムは存在しませんでした。
  • 質問は意図的に明確に設計されており、それぞれに1つの正しい短文回答が用意されています。これにより自動評価の信頼性は高まりますが、同時にタスクの種類がオープンエンドな推論ではなく、「検索して導き出す」ものに制限されます。
  • 2026年中旬現在、HALリーダーボードで報告されている最高のパブリックエージェント(Claude Sonnet 4.5)は、全体で74.55%に達しています(レベル1で82%、レベル2で73%、レベル3で65%)。人間のパフォーマンスは依然として約92%であり、レベル3には依然として意味のある格差が残っています。
  • バリデーションセットは現在広く入手可能であり、ほぼ間違いなく学習データに混入(リーク)しているため、新しいモデルによるバリデーションセットのスコアは本質的に解釈不可能です。ホールドアウトされたテストセットはよりクリーンな状態を保っていますが、自己評価のためにアクセスすることはできません。

維持されている点と、そうでない点

「最先端のLLMは、実用的なアシスタントタスクにおいて、人間のレベルの堅牢性には遠く及ばない」という核心的な洞察は、2023年末において極めて重要であり、エージェント研究の生産的な波を巻き起こしました。3レベル構造はよく調整されており、レベル1とレベル3は意味のある能力層を占めており、ベンチマークがいずれかの極端な値で飽和することはありません。

この論文が古さを感じさせるのは、評価のセットアップです。「プラグインを使用したGPT-4」というベースラインは、ICLR 2024が開催される頃にはすでに時代遅れとなっていました。Claude 3.7 SonnetやClaude Sonnet 4.5を使用する現代のエージェントは、レベル1と2の格差の多くを埋めています。より深刻なのは、質問の約5%に正解データの誤りや曖昧さが含まれている点です。著者らはこれを認めていますが、修正されたデータセットは公開していません。これは466問のベンチマークにとって、無視できない信頼性の問題です。

さらに深い制限は、回答の形式にあります。GAIAが機能するのは、すべての回答が検証可能な短い文字列だからです。その制約により、タスクは「何かを調べて計算または変換する」ことに限定され、「計画を立案し、実行し、構造化された成果物を生成する」ことには至りません。1ヶ月分のトランザクションの照合、多脚取引の仕訳の作成、年次報告書の生成といった実際のBeancountのユースケースは、この型にはまりません。GAIAは汎用アシスタントが必要とする側面の一つを測定していますが、エンドツーエンドのワークフローの実行を測定しているわけではありません。

データ汚染の状況は現在深刻です。明示的な予防策を講じずにバリデーションセットの精度を主な数値として挙げているエージェントは、疑ってかかるべきです。新しいモデルのリーダーボード順位は、少なくとも部分的には学習データの重複を反映している可能性が極めて高いです。

なぜこれが財務AIにとって重要なのか

2年半で15%から74%へという軌跡は心強いものですが、残されたレベル3の格差こそが、Beancountの自動化が位置する場所です。レベル3のタスクは、目標を見失うことなく、多くのステップにわたって中間状態を追跡することを要求します。これは、元帳への書き戻しエージェントが、口座残高を取得し、照合ルールを適用し、制約に照らして結果を確認し、コミットまたはロールバックを行う際に行うべきことそのものです。人間にとって概念的に単純なレベル3のGAIAの質問に対して、最先端エージェントが依然として35%失敗するのであれば、それは多段階の元帳操作における信頼性に対する直接的な警告となります。

「明確で、検証可能で、人間が扱いやすい」というGAIAの設計原則は、Beancountエージェントを評価するための有用なテンプレートでもあります。私は「FinGAIA」セットがどのようなものになるか考えてきました。「この元帳ファイルが与えられた場合、月末にオーバードロー(残高不足)になっている口座はどれか?」「2024年12月31日時点のEUR残高のUSD換算額はいくらか?」といった質問は、明確でツールの使用を必要とし、3つの複雑さのレベルに応じて段階的に難易度が変化します。GAIAの手法は直接転用可能であり、ドメインを置き換えるだけで済みます。

GAIAが対処しておらず、Bean Labsがいずれ解決しなければならないことの一つは、安全な書き戻し(write-back)です。GAIAのタスクはすべて「読んで答える」ものです。元帳の状態を変更する自律型Beancountエージェントには、正確性、原子性、および可逆性のための別の評価プロトコルが必要です。GAIAはエージェントが正しい答えを得られることを示していますが、それを安全にコミットできるかどうかについては何も語っていません。

次に読むべきもの

  • TheAgentCompany (arXiv:2412.14161) — 実際の内部ツールを備えた模擬ソフトウェア企業内での175のタスク。最高のエージェントは自律的に24%を完了。実際の会計ワークフローに組み込まれたBeancountエージェントを評価するのに最も近い類似例。
  • AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — 実際のユーザーから提出された、現実的で時間のかかるタスクでWebエージェントをベンチマーク。固定された検証可能な回答ではなく、オープンエンドな検索をテストすることでGAIAを補完。
  • WorkArena++ (arXiv:2407.05291) — WorkArenaを682の構成的で多段階のエンタープライズタスクに拡張。最も困難な(レベル3)タスクは現在のどのモデルでも解決されておらず、GAIAレベル3の後の次の難易度のフロンティアとなっている。