メインコンテンツまでスキップ
Enterprise Software

全てについて Enterprise Software

3つの記事
Enterprise software automation, web agents, and knowledge work task research

TheAgentCompany:実世界の企業業務におけるLLMエージェントのベンチマーキング

TheAgentCompanyは、GitLab、OwnCloud、RocketChatを備えたシミュレートされたイントラネット上で175の実用的な業務タスクをテストします。最高モデル(Gemini-2.5-Pro)は1タスクあたり4ドルのコストでわずか30%の完了率にとどまり、自律型エージェントが会計や財務のワークフローにおいて依然として実用的ではないことを明らかにしています。

WorkArena++: 複合的なエンタープライズ・タスクにおける人間とAIエージェントのパフォーマンスの93%の乖離

WorkArena++ (NeurIPS 2024) は、3つの難易度レベルにわたる682の複合的なエンタープライズ・タスクをベンチマークしています。人間が93.9%を解決する一方で、GPT-4oはわずか2.1%しか解決できず、現在のAIエージェントが暗黙的な目標を伴う知識労働において失敗する理由と、その乖離が自律的な会計自動化にとって何を意味するのかを明らかにしています。

WorkArena:LLMウェブエージェントは実社会のエンタープライズ知識労働でどのように機能するか

WorkArenaは、33の実用的なServiceNowタスクでLLMウェブエージェントをベンチマークします。GPT-4oは全体で42.7%に達しましたが、リストフィルタリングタスクでは0%となり、フォーム入力と構造化UI操作の間に存在する高い壁を露呈させました。これはBeancountの帳簿自動化における課題に直結しています。