본문으로 건너뛰기
Web Interface

모든 것에 대하여 Web Interface

1개의 기사
Web-based interfaces and browser agents for financial AI systems

WebArena: 웹 에이전트의 실제 수행 능력과 한계를 측정하는 812개 작업 벤치마크

GPT-4는 WebArena의 812개 현실적인 웹 작업 중 14.41%만 완료하는 반면 인간은 78.24%에 도달합니다. 가장 지배적인 실패 모드는 '가짜 불가능성(false infeasibility)' — 즉, 보수적인 행동 거부 — 이며, 이는 Fava나 금융 웹 UI를 운영하는 에이전트에게 직접적인 시사점을 제공합니다.