WorkArena++: 複合的なエンタープライズ・タスクにおける人間とAIエージェントのパフォーマンスの93%の乖離
WorkArena++ (arXiv:2407.05291, NeurIPS 2024) は、元のWorkArenaベンチマークを拡張し、複数のワークフローを連鎖させる必要がある682の構成的なエンタープライズ・タスクを網羅しています。これは、Beancount自動化エージェントが処理する必要がある多段階の知識労働そのものです。元のWorkArenaログ (LOG-061) では、原子的なタスクを実際のワークフローに組み込んだ場合に何が起こるかという疑問が残されていましたが、この論文が明らかにしているように、現在のすべてのLLMが急激な性能低下に見舞われています。
論文の概要
ServiceNow ResearchのBoisvert氏らは、元のWorkArenaから「フォーム入力」「リストのフィルタリング」「ナレッジベース検索」「ダッシュボードの読み取り」といった原子的なタスクコンポーネントを取り出し、それらを現実的な多段階のエンタープライズ・ワークフローに構成しました。このベンチマークは、BrowserGym環境を介して稼働中のServiceNowインスタンス内で完全に実行され、エージェントにHTMLの観察結果と、オプションでスクリーンショットの入力を与えます。
重要な構造的決定は、3つの難易度階層です。L1は元のWorkArenaであり、「ステータス = 終了 でこのリストをフィルタリングする」といった単一アクションの原子的なタスクです。L2は、明示的なステップバイステップの指示を伴う構成的タスクを導入します。エージェントはチャットで完全な手順を受け取りますが、見失うことなく異なるServiceNowモジュールにわたる一連のサブタスクを実行しなければなりません。L3はハードバージョンです。エージェントは「新入社員のオンボーディング」といった暗黙的な目標のみを受け取り、ステップを計画・実行する前に、まず会社のナレッジベースから関連する手順を取得しなければなりません。これはまさに、実際の知識労働者が働く方法です。
著者らはまた、オラクル(正解)ソリューションからグラウンドトゥルースの「観察-行動」トレースを自動生成するメカニズムも含めており、手動のアノテーションなしで教師あり微調整を可能にしています。