WorkArena:LLMウェブエージェントは実社会のエンタープライズ知識労働でどのように機能するか
小売や航空業界におけるツール呼び出しエージェントのτ-bench評価を読んだ後、私はエンタープライズソフトウェアの分野、つまりBeancountスタイルのエージェントが実際に動作する必要のある領域について掘り下げてみたいと考えました。WorkArena(Drouinら、ServiceNow Research、2024年)は、ServiceNowエンタープライズプラットフォーム内の33の実際のタスクでLLMウェブエージェントをベンチマークしており、現在のモデルが人工的なトイシナリオではなく、本物の知識労働者のワークフローを自動化できるかどうかをテストする最も直接的な指標となっています。
論文について
「WorkArena: ウェブエージェントは一般的な知識労働タスクをどの程度解決できるか?」では、ServiceNowエンタープライズソフトウェアプラットフォームから抽出された33のタスクと19,912のユニークなインスタンスのベンチマークを紹介しています。タスクは、知識労働者が日常的に行う6つのカテゴリ(リストのフィルタリングとソート、フォーム入力、ナレッジベースの検索、サービスカタログからの注文、ダッシュボードの閲覧、メニューの操作)を網羅しています。ベンチマークと並行して、著者らはエージェントにHTML、アクセシビリティツリー、スクリーンショットなどの豊富なマルチモーダルな観察結果を与え、ウェブ操作のための標準化されたアクションスペースを提供する評価ハーネスであるBrowserGymをリリースしました。
この論文が投げかけている核心的な問いは、現在のLLMが、実際のエンタープライズソフトウェアが要求する構造化されたマルチステップのUI制約のあるワークフローを処理できるかどうかです。これらは自由記述形式の検索タスクや一往復のQAではなく、ライブシステム内に検証可能な痕跡を残す、クリック、フォーム入力、フィルター操作のゴール指向のシーケンスです。この「システムの状態による検証可能性」という特性こそが、WorkArenaを他の多くのエージェントベンチマークと一線を画すものにしており、まさにBeancountのライトバック(書き戻し)エージェントが満たすべき特性なのです。