Mike Thrift
Marketing Manager
τ²-bench: 대화형 AI 에이전트의 이중 제어 비용 측정
τ²-bench는 AI와 사용자 모두가 공유된 상태에서 도구를 호출하는 이중 제어 환경으로 에이전트 벤치마킹을 확장합니다. 연구 결과, 활성 사용자가 개입할 경우 성공률이 18~25% 포인트 하락하며, 이는 인간 사용자와 쓰기 권한을 공유하는 Beancount 에이전트에 직접적인 시사점을 제공합니다.
WorkArena++: 복합적 기업 업무에서 인간과 AI 에이전트 간의 93% 성능 격차
WorkArena++ (NeurIPS 2024)는 세 가지 난이도 수준에 걸쳐 682개의 복합적 기업 업무를 벤치마킹합니다. GPT-4o는 이 중 2.1%만 해결하는 반면 인간은 93.9%를 해결하여, 현재의 AI 에이전트가 암시적 목표 지식 노동에서 실패하는 이유와 그 격차가 자율 회계 자동화에 중요한 이유를 정확히 규명합니다.
GAIA 벤치마크: 프런티어 AI 에이전트의 실제 수행 능력 측정
GAIA는 세 가지 난이도 수준에 걸쳐 466개의 실제 작업에 대한 벤치마크를 수행합니다. 2026년 중반 기준 프런티어 에이전트는 74.55%의 정확도를 기록한 반면 인간은 92%를 기록했으며, 남아 있는 레벨 3의 격차는 자동화된 Beancount 장부 워크플로의 다단계 조정 과제와 직접적으로 연결됩니다.
OSWorld: 인간이 72% 성공하는 작업에서 데스크톱 AI 에이전트의 성공률은 12%에 불과함
OSWorld (NeurIPS 2024)는 Ubuntu, Windows, macOS 전반에 걸친 369개의 실제 데스크톱 작업에서 멀티모달 AI 에이전트를 벤치마킹했습니다. 그 결과, 최고 모델(12.24%)과 인간의 성과(72.36%) 사이에 60%포인트의 격차가 있음을 발견했으며, 실패의 75%는 추론 실패가 아닌 시각운동 접지(visuomotor grounding) 오류 때문인 것으로 나타났습니다.
WebArena: 웹 에이전트의 실제 수행 능력과 한계를 측정하는 812개 작업 벤치마크
GPT-4는 WebArena의 812개 현실적인 웹 작업 중 14.41%만 완료하는 반면 인간은 78.24%에 도달합니다. 가장 지배적인 실패 모드는 '가짜 불가능성(false infeasibility)' — 즉, 보수적인 행동 거부 — 이며, 이는 Fava나 금융 웹 UI를 운영하는 에이전트에게 직접적인 시사점을 제공합니다.
WorkArena: LLM 웹 에이전트가 실제 기업 지식 업무에서 보여주는 성능
WorkArena는 33개의 실제 ServiceNow 작업을 통해 LLM 웹 에이전트를 벤치마킹합니다. GPT-4o는 전체 42.7%의 성공률을 기록했지만 리스트 필터링 작업에서는 0%를 기록하며, 폼 입력과 구조화된 UI 상호작용 사이의 명확한 한계를 드러냈습니다. 이는 Beancount 장부 자동화의 도전 과제와 직접적으로 연결되는 문제입니다.
τ-bench: 실제 도구 사용 도메인에서의 AI 에이전트 신뢰도 측정
τ-bench는 Claude 3.5 Sonnet과 같은 최상위 LLM이 소매 고객 서비스 작업에서 pass@1 0.692에서 pass@4 0.462로 떨어진다는 점을 보여줍니다. 이는 Beancount 원장에서 작동하는 모든 쓰기 가능(write-back) 에이전트에게 직접적인 시사점을 주는 일관성의 절벽(consistency cliff)을 나타냅니다.
Chain-of-Table: LLM 추론 체인에서의 테이블 진화
Chain-of-Table (ICLR 2024)는 테이블 자체를 중간 상태로 진화시켜 LLM의 표 형식 추론을 개선합니다. WikiTQ에서 기존 베이스라인의 61.48% 대비 67.31%의 정확도를 달성했으며, 4,000 토큰을 초과하는 테이블에서 +10.25포인트의 이점을 보여 Beancount 원장 쿼리 에이전트에 직접 적용 가능합니다.
TableLlama: Can a 7B Open Model Match GPT-4 on Table Understanding?
TableLlama fine-tunes Llama 2 (7B) on 2.6M table-task examples and beats GPT-4 on structural tasks like column type annotation (F1 94 vs 32), but falls 33 points short on WikiTQ compositional reasoning — a calibrated benchmark for what 7B open models can and cannot do in finance AI today.
TAPAS: SQL 없는 약지도 학습 기반 테이블 질의응답과 Beancount에 주는 의미
TAPAS(Google Research, ACL 2020)는 SQL 생성 없이 셀을 선택하고 스칼라 집계를 적용하여 테이블 관련 질문에 답합니다. 이 포스트에서는 TAPAS의 아키텍처, 12포인트의 SQA 정확도 향상, 그리고 셀 선택 패러다임이 소규모 Beancount 장부 쿼리에는 적합하지만 대규모에서는 한계를 보이는 이유를 분석합니다.
MAC-SQL: 다중 에이전트 협업 텍스트-SQL(Text-to-SQL)
MAC-SQL(COLING 2025)은 스키마 축소를 위한 Selector, 질문 분해를 위한 Decomposer, 실행 가이드 기반 SQL 수정을 위한 Refiner라는 세 가지 전문 에이전트를 사용하여 BIRD 벤치마크에서 59.59%의 실행 정확도를 달성했습니다. 절제 연구(ablation study)에 따르면 Refiner가 가장 큰 기여(+4.63점)를 했으며, 이는 Beancount 장부 쿼리 생성에 직접적인 시사점을 제공합니다.
DIN-SQL: Text-to-SQL을 위한 분해된 인컨텍스트 학습(Decomposed In-Context Learning)
DIN-SQL (NeurIPS 2023)은 텍스트-to-SQL 과정을 스키마 링킹, 복잡성 분류, SQL 생성 단계로 분해하여, 파인튜닝 없이 GPT-4의 Spider 실행 정확도를 67.4%에서 85.3%로 끌어올렸습니다. 이러한 분해 전략은 Beancount의 BQL 쿼리 언어를 위한 자연어 인터페이스에도 직접적으로 적용될 수 있습니다.