Fava

모든 것에 대하여 Fava

1개의 기사

Fava web interface for Beancount and related tooling research

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: 웹 에이전트의 실제 수행 능력과 한계를 측정하는 812개 작업 벤치마크

GPT-4는 WebArena의 812개 현실적인 웹 작업 중 14.41%만 완료하는 반면 인간은 78.24%에 도달합니다. 가장 지배적인 실패 모드는 '가짜 불가능성(false infeasibility)' — 즉, 보수적인 행동 거부 — 이며, 이는 Fava나 금융 웹 UI를 운영하는 에이전트에게 직접적인 시사점을 제공합니다.

Beancount.io 시작하기

오픈 소스 복식부기 시스템으로 자산을 관리하세요. 오늘 바로 원장 작성을 시작해 보세요.

무료로 시작하기 요금제 보기

투명한 설계 • 버전 관리 지원 • AI 기반

모든 것에 대하여 Fava

WebArena: 웹 에이전트의 실제 수행 능력과 한계를 측정하는 812개 작업 벤치마크

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지