メインコンテンツまでスキップ

TheAgentCompany:実世界の企業業務におけるLLMエージェントのベンチマーキング

· 約9分
Mike Thrift
Mike Thrift
Marketing Manager

TheAgentCompanyは、このシリーズでこれまで読んだ中で最も現実的な企業エージェントのベンチマークです。これはカーネギーメロン大学(CMU)のGraham Neubig氏のグループによるもので、NeurIPS 2024に投稿されました。開発の動機は明確なギャップにあります。既存のベンチマークは、孤立したウェブナビゲーションやGitHubのイシュー解決をテストしますが、実際の職場のタスクでは、エージェントが社内プラットフォームを閲覧し、同僚にメッセージを送り、コードを書き、プログラムを実行するといったことを、単一のタスク内で完結させる必要があるからです。LLMエージェントが重要な環境においてデジタル・コワーカーとして実際に機能し得るかどうかについて、これが現在私たちが手にしている中で最も厳密に管理された実験であるため、今これを読み解いています。

論文の内容

2026-06-19-theagentcompany-benchmarking-llm-agents-real-world-tasks

Xuらは、自己完結型のシミュレートされた企業を構築しました。これには、ローカル・ワークスペースに加えて、GitLab、OwnCloud、Plane(プロジェクト管理)、RocketChat(チーム・メッセージング)の実インスタンスが動作するイントラネットが含まれます。この環境には、LLMをバックボーンとするNPC(非プレイヤーキャラクター)による「シミュレートされた同僚」も含まれており、エージェントはタスクの途中でメッセージを送信してガイダンスを受けることができます。タスクは、ソフトウェア開発(SDE)、プロジェクト管理、人事(HR)、データサイエンス、財務、事務、および「その他」の7つの役割カテゴリにわたります。計175のタスクは、20人の計算機科学専攻の学生とソフトウェアエンジニアによって、2ヶ月間にわたり約3,000人時をかけて精査されました。

評価にはチェックポイント方式が採用されています。各タスクには、全体スコアの一部となる中間マイルストーンが設定されており、完全完了にはボーナスが付与されます。評価は、決定論的な手法(ファイル内容、コード出力、環境状態のチェック)またはLLMベースの手法(自由形式のテキストの評価)のいずれかで行われます。すべてのモデルは、単一の構成可能な環境からコード実行、ウェブブラウジング、ターミナルアクセスを提供するOpenHandsエージェント・フレームワークの下で実行されました。

主な知見

  • Gemini-2.5-Proが完全完了率30.3%、部分スコア39.3%で首位。Claude-3.7-Sonnetが26.3% / 36.4%で続き、GPT-4oはわずか8.6% / 16.7%、Llama-3.1-405Bは7.4%にとどまりました。
  • 最良のモデルでも、平均して約27のエージェント・ステップを要し、1タスクあたりのコストは4ドルを超えました。これは、著者が実際の職場の複雑さよりも単純であると説明しているタスクにおいての結果です。
  • 財務タスクは、事務やデータサイエンスと並んで最も困難なカテゴリの一つでした。対照的に、SDEタスクは、より専門的な技術知識が必要であるにもかかわらず、一貫して最も容易でした。
  • 主な失敗パターンは3つに集約されます。複雑なウェブUI(特にOwnCloudのオフィススイート)の操作ミス、同僚からのメッセージを有効に活用できないこと(「ソーシャルスキルの欠如」)、そして面倒なクロスリファレンスを必要とする複数ドキュメントにわたる事務タスクの放棄です。
  • 著者は、SDEの優位性は学習データのバイアスに直接起因すると指摘しています。LLMの事前学習は、著名なベンチマークや豊富な公開シグナルの存在により、コードやGitHubのデータに大きく偏っています。そのため、モデルは人事や財務のワークフローよりも、ソフトウェア関連のタスクに対してはるかに優れた汎化性能を示します。

評価できる点と課題点

環境設計は実に素晴らしいものです。シミュレートされたスタブではなく、本物のGitLab、OwnCloud、RocketChatを動作させることで、エージェントは実際のポップアップ、認証フロー、エッジケースといった「本物のUIの複雑さ」に直面することになります。チェックポイントに基づいた部分加点方式も正しい判断です。成功か失敗かの二択(バイナリ評価)では、ほとんどのタスクが一様に絶望的に見えてしまい、エージェントが実際にどこまで進展したかが分からなくなってしまうからです。

一方で、いくつかの弱点も指摘しておく必要があります。最も重要なのは、人間のパフォーマンス・ベースラインが存在しないことです。著者は、リソースの制約により人間の作業時間や成功率を収集できなかったことを認めています。つまり、比較対象となる「分母」がないのです。エージェントの完了率30%は低く聞こえますが、人間が同じタスクに20分かけるのか3時間かけるのか、あるいは一部のタスクが本質的に曖昧なのかどうかが分からないため、この数値を文脈化することが困難です。

財務カテゴリのタスク数はわずか12件です。これでは、財務特有の失敗について確実な結論を出すには少なすぎます。エージェントが財務で苦戦するのは、財務的な推論の性質によるものなのか、それとも、たまたま財務タスクにOwnCloudのドキュメント操作が多く含まれていたからなのか。この論文の規模ではその違いを判別できず、著者もそれを試みていません。

また、著者は「プログラムやテストケースで自動評価する必要があるため、タスクは概して単純な部類に入る」とも認めています。実際の会計や財務において最も困難なタスク(矛盾するソースデータからの年度末照合の作成、法規制コンプライアンス上の問題の指摘、複数の勘定期間にわたる経営報告書の作成など)は、本質的に自動評価が不可能です。このベンチマークは、自律型財務エージェントにとって最も重要となるタスクを過小評価(サンプリング不足)している可能性があります。

財務AIにとっての意義

ここでの結果は、有益な意味で厳しい現実を突きつけています。著者が「簡略化されている」と呼ぶタスクで30%の完了率ということは、自律型エージェントは実際の会計ワークフローで運用できるレベルには程遠いということです。財務カテゴリは特に弱く、主な失敗パターンである「複雑なUI」「複数ドキュメントの検索」「人間とのコミュニケーションの破綻」は、まさにBeancount自動化エージェントが必要とするスキルそのものです。つまり、ドキュメントストレージからのデータ抽出、レポートをまたいだ取引のクロスリファレンス、そして書き込みを確定させる前の確認質問です。

最良モデルでの1タスク4ドルというコストは、一つの制約条件となります。このレートでは、数十のサブタスクを伴う日常的な月次決算でエージェントを走らせると、信頼性の保証がないまま数百ドルのコストがかかることになります。Gemini-2.0-Flashが見せた、1タスク1ドル未満で19.0%の部分スコアを達成しつつ早めに損切りをするパターンは、失敗する軌道にトークンを浪費するよりも、いつ停止して人間にエスカレーションすべきかを知ることのエンジニアリング的な価値を示唆しています。

「シミュレートされた同僚(NPC)」は、Beancountの実環境の制約に直結する興味深い設計要素です。ユーザーのフィードバックを無視して間違った前提で進むエージェントは、停止して質問するエージェントよりも危険です。現在のモデルが同僚のメッセージから有用な情報を引き出すことに失敗しているというこのベンチマークの知見は、セッションの途中で人間の会計士と対話する「書き戻し(write-back)」エージェントを設計する際の直接的な検討材料となるはずです。

次に読むべき内容

  • OpenHands: An Open Platform for AI Software Developers as Generalist Agents — TheAgentCompanyの基盤となっているエージェント・フレームワーク。arXiv:2407.16741, ICLR 2025。OpenHandsのCodeAct + ブラウジング・アーキテクチャを理解することで、どのエージェント能力がベースラインで、TheAgentCompanyが実際に何をテストしているのかが明確になります。
  • DocFinQA: A Long-Context Financial Reasoning Dataset — 7,437件のFinQAの質問を、平均12万3000語に及ぶ完全なSEC提出書類に拡張。arXiv:2401.06915, ACL 2024。TheAgentCompanyの12の財務タスクでは十分に検証できない、長文ドキュメントに基づく財務推論を直接テストしています。
  • Evaluation and Benchmarking of LLM Agents: A Survey — arXiv:2507.21504。WebArena、OSWorld、SWE-benchなどと並んでTheAgentCompanyを位置づけ、ベンチマークの設計選択がエージェント能力の結論をどのように形作るかを辿る、2025年のエージェント評価状況のサーベイ。