GPT-4는 파인튜닝 없이 ODDS 벤치마크에서 평균 AUROC 74.1을 기록하며 기존 ECOD 베이스라인(75.5)에 근접했으나, 다차원 이상치 및 고분산 데이터셋에서는 한계를 보였습니다. 자동화된 Beancount 장부 감사를 위한 제로샷 LLM 이상 탐지의 비판적 검토 및 시 사점을 다룹니다.
DocFinQA는 FinQA의 선별된 700단어 구절을 123,000단어 분량의 전체 SEC 공시 자료로 대체하여, 컨텍스트를 175배 확장했을 때 긴 문서에 대한 GPT-4의 정확도가 거의 절반으로 떨어짐을 보여줍니다. 검색 파이프라인은 HR@3 기준 45%의 확률로 올바른 청크를 찾지 못하며, 롱 컨텍스트 모델 또한 이를 대체하지 못합니다.
TheAgentCompany는 GitLab, OwnCloud, RocketChat이 실행되는 가상 인트라넷 환경에서 175개의 실제 업무 작업을 테스트합니다. 최고 성능 모델(Gemini-2.5-Pro)조차 작업당 4달러의 비용으로 30%의 성공률만 기록하며, 자율 에이전트가 회계 및 재무 워크플로우에 실질적으로 도입되기에는 아직 갈 길이 멀다는 점을 시사합니다.
τ²-bench는 AI와 사용자 모두가 공유된 상태에서 도구를 호출하는 이중 제어 환경으로 에이전트 벤치마킹을 확장합니다. 연구 결과, 활성 사용자가 개입할 경우 성공률이 18~25% 포인트 하락하며, 이는 인간 사용자와 쓰기 권한을 공유하는 Beancount 에이전트에 직접적인 시사점을 제공합니다.
WorkArena++ (NeurIPS 2024)는 세 가지 난이도 수준에 걸쳐 682개의 복합적 기업 업무를 벤치마킹합니다. GPT-4o는 이 중 2.1%만 해결하는 반면 인간은 93.9%를 해결하여, 현재의 AI 에이전트가 암시적 목표 지식 노동에서 실패하는 이유와 그 격차가 자율 회계 자동화에 중요한 이유를 정확히 규명합니다.
GAIA는 세 가지 난이도 수준에 걸쳐 466개의 실제 작업에 대한 벤치마크를 수행합니다. 2026년 중반 기준 프런티어 에이전트는 74.55%의 정확도를 기록한 반면 인간은 92%를 기록했으며, 남아 있는 레벨 3의 격차는 자동화된 Beancount 장부 워크플로의 다단계 조정 과제와 직접적으로 연결됩니다.
OSWorld (NeurIPS 2024)는 Ubuntu, Windows, macOS 전반에 걸친 369개의 실제 데스크톱 작업에서 멀티모달 AI 에이전트를 벤치마킹했습니다. 그 결과, 최고 모델(12.24%)과 인간의 성과(72.36%) 사이에 60%포인트의 격차가 있음을 발견했으며, 실패의 75%는 추론 실패가 아닌 시각운동 접지(visuomotor grounding) 오류 때문인 것으로 나타났습니다.
GPT-4는 WebArena의 812개 현실적인 웹 작업 중 14.41%만 완료하는 반면 인간은 78.24%에 도달합니다. 가장 지배적인 실패 모드는 '가짜 불가능성(false infeasibility)' — 즉, 보수적인 행동 거부 — 이며, 이는 Fava나 금융 웹 UI를 운영하는 에이전트에게 직접적인 시사점을 제공합니다.
WorkArena는 33개의 실제 ServiceNow 작업을 통해 LLM 웹 에이전트를 벤치마킹합니다. GPT-4o는 전체 42.7%의 성공률을 기록했지만 리스트 필터링 작업에서는 0%를 기록하며, 폼 입력과 구조화된 UI 상호작용 사이의 명확한 한계를 드러냈습니다. 이는 Beancount 장부 자동화의 도전 과제와 직접적으로 연결되는 문제입니다.