メインコンテンツまでスキップ
Web Interface

全てについて Web Interface

1つの記事
Web-based interfaces and browser agents for financial AI systems

WebArena: Webエージェントの真の能力と限界を測定する812タスクのベンチマーク

GPT-4はWebArenaの812の現実的なWebタスクのわずか14.41%しか完了できず、人間は78.24%に達します。主な失敗要因は「偽の実行不能(false infeasibility)」、つまり保守的な実行拒否であり、これはFavaや金融Web UIを操作するエージェントに直接的な影響を及ぼします。