WorkArena++: 複合的なエンタープライズ・タスクにおける人間とAIエージェントのパフォーマンスの93%の乖離

2026年6月17日 · 約8分

Mike Thrift

Marketing Manager

WorkArena++ (arXiv:2407.05291, NeurIPS 2024) は、元のWorkArenaベンチマークを拡張し、複数のワークフローを連鎖させる必要がある682の構成的なエンタープライズ・タスクを網羅しています。これは、Beancount自動化エージェントが処理する必要がある多段階の知識労働そのものです。元のWorkArenaログ (LOG-061) では、原子的なタスクを実際のワークフローに組み込んだ場合に何が起こるかという疑問が残されていましたが、この論文が明らかにしているように、現在のすべてのLLMが急激な性能低下に見舞われています。

論文の概要

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

ServiceNow ResearchのBoisvert氏らは、元のWorkArenaから「フォーム入力」「リストのフィルタリング」「ナレッジベース検索」「ダッシュボードの読み取り」といった原子的なタスクコンポーネントを取り出し、それらを現実的な多段階のエンタープライズ・ワークフローに構成しました。このベンチマークは、BrowserGym環境を介して稼働中のServiceNowインスタンス内で完全に実行され、エージェントにHTMLの観察結果と、オプションでスクリーンショットの入力を与えます。

重要な構造的決定は、3つの難易度階層です。L1は元のWorkArenaであり、「ステータス = 終了でこのリストをフィルタリングする」といった単一アクションの原子的なタスクです。L2は、明示的なステップバイステップの指示を伴う構成的タスクを導入します。エージェントはチャットで完全な手順を受け取りますが、見失うことなく異なるServiceNowモジュールにわたる一連のサブタスクを実行しなければなりません。L3はハードバージョンです。エージェントは「新入社員のオンボーディング」といった暗黙的な目標のみを受け取り、ステップを計画・実行する前に、まず会社のナレッジベースから関連する手順を取得しなければなりません。これはまさに、実際の知識労働者が働く方法です。

著者らはまた、オラクル（正解）ソリューションからグラウンドトゥルースの「観察-行動」トレースを自動生成するメカニズムも含めており、手動のアノテーションなしで教師あり微調整を可能にしています。

重要なアイデア

人間は複合タスクの93.9%を解決するが、GPT-4oは2.1%しか解決できない。 これは言語理解の失敗ではなく、大規模なプランニングと実行の失敗です。
どのモデルもL3タスクを1つも完了できなかった。 手順を取得し、ステップを計画し、明示的なガイダンスなしに実行するという要件は、ビジョン機能を備えたGPT-4o-vを含む、テストされたすべてのモデルにおいて完全に未解決のままです。
GPT-4oとGPT-4o-vのみがL2タスクのサブセットで成功したが、主に暗記ベースのサブタスクでした。Llama3ベースのエージェントは、L2とL3の両方で概ね失敗しました。
L3タスクのリアリズムが設計上の鍵である: 手順のない「新入社員のオンボーディング」のような暗黙的な目標を受け取り、それを自分で調べる必要があるというのは、エンタープライズ環境で従業員が実際に業務を割り当てられる方法です。
5つの能力次元がテストされている: 制約下でのプランニング、情報検索、データ駆動型の推論、逐次メモリ、および実行不可能なタスクの認識です。
記録された失敗モード: UI要素に関するハルシネーション、長いコンテキストにわたって多段階の計画を維持できないこと、および別々のドキュメントからの情報を相互参照できないこと。

評価できる点と不十分な点

「93.9%対2.1%」という見出しは衝撃的ですが、メカニズム的には説明可能です。L2とL3では、モデルが3ステップ前に行ったことを記憶し、1つのドキュメントから取得した情報をこれから入力するフォームと関連付け、あるサブステップが前のステップの完了に依存していることを理解する必要があります。これらは特別なことではなく、人間は難なくこなしますが、現在のLLMエージェントは協調動作において破綻してしまいます。

ここで最も価値があると感じるのは、L2対L3の設計です。L2はエージェントに手順を与えますが、L3は与えません。この間の性能の崖は、「明示的な指示への準拠」を「検索＋プランニング」で代用するという、たった1つの能力を浮き彫りにします。これこそが自律的な知識労働の難所であり、ベンチマークはそれを明確に露出させています。

この論文が成し遂げていないのは、トレーニングトレースのメカニズムが実際に役立つことを示すことです。著者らは微調整データを生成するためのインフラを提供し、モデルをそれで訓練できると述べていますが、その結果については報告していません。その実験がなければ、WorkArena++は「現在のすべてのエージェントが失敗し、改善への道筋も示されていないベンチマーク」に留まってしまいます。これは、訓練ターゲットとしての当面の有用性を制限しています。

また、ServiceNowへの依存は汎用性を制約します。ServiceNowは異常なほど構造化され、文書化されたインターフェースを持っています。エージェントがここで失敗するのであれば、ほとんどの組織が実際に運用している、より混沌としたエンタープライズシステムではさらにひどい結果になるでしょう。

財務AIにとっての重要性

Beancount自動化との関連は直接的です。自律的な会計エージェントは、デフォルトでL3スタイルの作業を行います。ユーザーが「先月の経費を照合して」と言えば、エージェントは元帳から関連する勘定科目構造を取得し、どのエントリを検査するかを計画し、インポートされた銀行データと照合し、書き戻し操作を実行しなければなりません。これらすべてをステップバイステップのガイドなしで行う必要があります。WorkArena++は、現在のエージェントがこのパターンをいかに不得手としているかを数値化しています。

トレーニングトレースのメカニズムも、すぐに適用可能です。Beancountのタスクには決定論的なオラクルソリューション（正しい仕訳エントリは検証可能）が存在するため、特化した元帳エージェントの微調整用にグラウンドトゥルースのトレースを大規模に生成できます。これは、WorkArena++自体が論文内では活用しきれなかった、まさにその設計図です。

L3の成功率がゼロであることは、Bean Labsにとって最も有用な較正ポイントです。クリーンなデータと構造化されたインターフェースを持つ制御されたエンタープライズ環境であっても、最先端のエージェントはまだ暗黙的な目標を伴う構成的タスクを処理できません。この乖離こそが、興味深い研究の場となっています。

次に読むべきもの

TheAgentCompany (arXiv:2412.14161) — 実用的な内部ツール（GitLab, RocketChat）を備えたシミュレートされたソフトウェア企業内での175のタスク。最高のエージェントで約30%を完了。ServiceNowよりも自然なエンタープライズ設定。
τ²-bench (arXiv:2506.07982) — エージェントとユーザーの両方が共有ステートを同時に変更できるデュアルコントロール環境にτ-benchを拡張。ユーザーとエージェントが元帳を共同編集するBeancountセッションに直接関連。
CRMArena-Pro (arXiv:2505.18878) — 新しいモデルを使用した、CRMビジネスシナリオにわたる包括的なLLMエージェント評価。WorkArena++の能力乖離が縮まったかどうかをテスト。

Share on Twitter Follow @beancount_io

WorkArena++: 複合的なエンタープライズ・タスクにおける人間とAIエージェントのパフォーマンスの93%の乖離

論文の概要

重要なアイデア

評価できる点と不十分な点

財務AIにとっての重要性

次に読むべきもの

Beancount.ioを始める

はじめに

機能

コミュニティ

法務

論文の概要​

重要なアイデア​

評価できる点と不十分な点​

財務AIにとっての重要性​

次に読むべきもの​

Beancount.ioを始める

はじめに

機能

コミュニティ

法務

論文の概要

重要なアイデア

評価できる点と不十分な点

財務AIにとっての重要性

次に読むべきもの