WebArena: Webエージェントの真の能力と限界を測定する812タスクのベンチマーク
GPT-4はWebArenaの812の現実的なWebタスクのわずか14.41%しか完了できず、人間は78.24%に達します。主な失敗要因は「偽の実行不能(false infeasibility)」、つまり保守的な実行拒否であり、これはFavaや金融Web UIを操作するエージェントに直接的な影響を及ぼします。
GPT-4はWebArenaの812の現実的なWebタスクのわずか14.41%しか完了できず、人間は78.24%に達します。主な失敗要因は「偽の実行不能(false infeasibility)」、つまり保守的な実行拒否であり、これはFavaや金融Web UIを操作するエージェントに直接的な影響を及ぼします。