τ²-bench: 대화형 AI 에이전트의 이중 제어 비용 측정
지난 몇 주 동안 τ-bench 시리즈를 읽어왔는데, τ²-bench (arXiv:2506.07982)는 제가 기다려온 논문입니다. 이 논문은 마침내 사용자가 수동적인 정보 제공자가 아니라 자신만의 도구 세트를 가진 능동적인 참여자일 때 어떤 일이 벌어지는지를 묻습니다. 대화형 회계 에이전트를 구축하는 사람들에게 그 간극은 항상 눈에 띄는 것이었습니다.
논문 내용
Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan 등(Sierra AI 및 토론토 대학교)은 기존 τ-bench의 직접적인 확장판으로 τ²-bench를 소개합니다. 핵심 관찰 결과는 기존 대화형 AI 에이전트용 벤치마크가 '단일 제어(single-control)' 방식이라는 점입니다. 즉, 에이전트만 도구를 호출할 수 있고 사용자는 자연어 메시지로만 제한됩니다. 하지만 현실 세계의 기술 지원은 이 가정을 깨뜨립니다. 고객 서비스 에이전트가 "비행기 모드를 끄세요"라고 말할 때, 당신은 단순히 선호도를 말하는 것이 아니라 자신의 기기에서 도구 호출을 수행하는 것입니다.
저자들은 이를 분산 부분 관측 마르코프 결정 과정(Dec-POMDP)으로 모델링합니다. 여기서 에이전트와 사용자 시뮬레이터는 공유된 동적 세계 상태에 대해 서로 다른 작업 공간(함수 호출 및 메시지)을 가집니다. 에이전트 측은 표준 CRM과 유사합니다. 고객 기록 조회, 로밍 활성화, SIM 교체 등이 가능합니다. 사용자 측은 읽기 도구(get_status_bar, get_sim_status)와 쓰기 도구(toggle_airplane_mode, toggle_data, reseat_sim_card)를 가진 모의 전화기입니다. 이 벤치마크는 새로운 통신 도메인(프로그래밍 방식으로 생성된 2,285개의 변형 중 샘플링된 114개 작업)과 함께 원본 τ-bench의 검증된 소매(115개 작업) 및 항공(50개 작업) 도메인을 제공합니다.
핵심 아이디어
- 이중 제어 형식화: Dec-POMDP 표현은 각 플레이어가 관찰하는 것과 각자 호출할 수 있는 도구를 명확하게 분리합니다. 이는 기존의 단일 에이전트 하네스에 "전화기를 든 사용자"를 임시방편으로 추가하는 것보다 훨씬 엄격합니다.
- 구성적 작업 생성기: 작업은 세 가지 의도 유형(
service_issue,mobile_data_issue,mms_issue)을 다루는 15개의 원자적 하위 작업 그룹으로 조립되며, 필요한 해결 단계 수에 따라 난이도가 명시적으로 확장됩니다. - 통신 분야 성능 (pass¹): GPT-4.1은 34%, o4-mini는 42%, Claude 3.7 Sonnet은 49%, GPT-4.1-mini는 약 50%를 기록했습니다. 모든 모델이 소매나 항공 분야보다 여기서 상당히 낮은 점수를 받았습니다.
- 이중 제어 페널티: 기본(Default) 모드(사용자가 도구를 가짐)와 사용자 없음(No-User) 모드(에이전트가 모든 도구를 직접 제어함)를 비교 분석했습니다. GPT-4.1은 18% 포인트, o4-mini는 25% 포인트 하락했습니다. 이 격차는 순수한 추론 난이도와는 분리된, 능동적인 사용자와의 협업 비용입니다.
- 오라클 계획 격차: 에이전트에게 사전에 완전한 작업 순서를 제공하더라도 성능이 100%에 도달하지 못했는데, 이는 실행과 사용자 협업이 계획 단계 이상의 오류를 추가한다는 점을 시사합니다.
- 구조화된 사용자 도구로 시뮬레이터 노이즈 대폭 감소: 통신 도메인의 사용자 시뮬레이터는 오류율이 16%(치명적 오류 6%)에 불과한 반면, 원본 τ-bench의 소매 도메인은 오류율이 40%(치명적 오류 12%)였습니다. 이러한 개선은 모호한 자연어 사용자 프롬프트를 장치 상태를 추적하는 엄격하게 제한된 도구 인터페이스로 대체한 결과입니다.
성과와 한계
Dec-POMDP 프레임워크는 에이전트 벤치마킹에서 본 것 중 가장 신중한 문제 정식화 중 하나입니다. 프로그래밍 방식의 작업 생성기는 정말 유용합니다. 대부분의 벤치마크를 괴롭히는 수동 작업 모음과 달리, 증명 가능하게 정확한 작업과 명시적으로 제어 가능한 복잡성을 제공합니다. 사용자 시뮬레이터 신뢰도 수치는 매우 인상적입니다. 평가 신호를 신뢰하려 할 때 치명적인 오류를 12%에서 6%로 줄이는 것은 매우 중요합니다.
하지만 통신 도메인은 범위가 좁습니다. 고객 4명, 회선 9개, 요금제 5개는 기업용 시스템이라기보다 통제된 실험실에 가깝습니다. GPT-4.1-mini와 Claude 3.7 Sonnet의 pass¹ 수치(약 50%)는 저자들이 말하는 도메인의 난이도에 비해 놀라울 정도로 높게 느껴집니다. 이는 114개의 작업이 운 좋게 점수가 부풀려지는 것을 막기에 충분한지 의문을 갖게 합니다. 저자들도 자신들의 작업 세트가 하위 샘플임을 인정합니다. 또한 사용자 페르소나 분석도 부족해 보입니다. 논문에서는 "어려운" 페르소나(기술적 자신감이 낮은 64세 은퇴자)가 "쉬운" 페르소나보다 더 어렵다는 것을 보여주는데, 이는 당연한 결과입니다. 제가 보고 싶었던 것은 협업 실패의 유형이 다른지 여부입니다. 즉, 더 어려운 페르소나가 더 많은 추론 오류를 유발하는지, 아니면 더 많은 의사소통 오류를 유발하는지 말입니다.
또한 이 논문은 에이전트의 정책 문서가 잘못되었거나 불완전할 때 어떤 일이 일어나는지 탐구하지 않는데, 이는 실제 운영 환경에서 매우 현실적인 시나리오입니다. 모든 결과는 에이전트에게 정확한 정책이 제공된다고 가정합니다.
금융 AI에 중요한 이유
τ-bench, WorkArena 및 대부분의 작업 지향 대화 벤치마크에 내재된 단일 제어 가정은 실제 Beancount 지원 시나리오와 잘 맞지 않습니다. Beancount 에이전트에게 원장을 수정해 달라고 요청하는 사용자는 단순히 문제를 설명하는 데 그치지 않습니다. 사용자는 동시에 텍스트 편집기에서 파일을 수정하거나, bean-check를 실행하거나, 은행에서 새로운 CSV 내보내기 파일을 업로드하고 있을 수도 있습니다. 이는 정확히 τ²-bench가 정의한 의미에서의 이중 제어 환경입니다.
사용자 없음 모드에서 기본 모드로 전환할 때 발생하는 18~25% 포인트의 하락 수치는 계속해서 되새기게 될 숫자입니다. 이는 우리가 자율적인 원장 조작에 거의 완벽한 Beancount 에이전트를 구축하더라도, 쓰기 권한을 공유하는 능동적인 사용자가 개입하면 성공률이 약 4분의 1 정도 깎일 것임을 암시합니다. 우리가 고려해 온 안전한 쓰기 저장 설계(GuardAgent, ShieldAgent, 검증 가능한 MCP)는 단일 제어 설정을 위해 설계되었습니다. 사용자가 동일한 환경에서 도구를 호출하는 에이전트이기도 하다면, 이러한 설계는 재고가 필요합니다.
사용자 시뮬레이터의 신뢰성 향상 또한 직접적으로 적용 가능합니다. 실제 회계사를 모집하지 않고 Beancount 에이전트의 오프라인 평가를 수행하려면, 자유로운 형식의 LLM 역할극에 의존하기보다 시뮬레이션된 사용자를 결정론적인 원장 환경과 긴밀하게 결합하는 것이 올바른 엔지니어링 선택입니다.
더 읽어볼 거리
- τ-bench (Yao 등, arXiv:2406.12045): 이 논문의 기반이 되는 벤치마크입니다. τ²-bench 결과를 해석하기 전에 원본의 작업 구성과 pass^k 지표 설계를 읽어볼 가치가 있습니다.
- ToolSandbox (Lu 등, arXiv:2408.04682): 세밀한 에이전트 평가를 위해 상태 유지가 가능한 도구를 도입합니다. 이중 제어 Beancount 테스트 하네스를 설계하는 데 가장 관련성이 높은 아키텍처입니다.
- TheAgentCompany (Xu 등, arXiv:2412.14161): 실제 내부 도구를 사용하는 가상 소프트웨어 회사 내의 175개 작업을 다룹니다. 현재 사용 가능한 가장 현실적인 기업 자동화 벤치마크이며 제 읽기 목록의 다음 논문입니다.
