τ²-bench: Вимірювання вартості подвійного керування в розмовних ШІ-агентах
Протягом останніх кількох тижнів я вивчав лінійку τ-bench, і τ²-bench (arXiv:2506.07982) — це саме та робота, на яку я чекав: вона нарешті ставить питання про те, що відбувається, коли користувач не є пасивним джерелом інформації, а є активним учасником з власним набором інструментів. Для тих, хто розробляє розмовного бухгалтерського агента, ця прогалина завжди була помітною.
Стаття
Віктор Баррес, Хунхуа Донг, Сохам Рей, Сюйцзе Сі та Картік Нарасімхан (Sierra AI та Університет Торонто) представляють τ²-bench як пряме розширення оригінального τ-bench. Основне спостереження полягає в тому, що попередні бенчмарки для розмовних ШІ-агентів є одноосібними (single-control): лише агент може викликати інструменти; користувач обмежений повідомленнями природною мовою. Реальна технічна підтримка порушує це припущення. Коли агент служби підтримки каже вам "вимкнути режим польоту", ви здійснюєте виклик інструменту на власному пристрої, а не просто описуєте свої вподобання.
Автори моделюють це як Децентралізований частково спостережуваний марковський процес прийняття рішень (Dec-POMDP), де і агент, і симулятор користувача мають різні простори дій (виклики функцій та повідомлення) над спільним динамічним станом світу. Сторона агента виглядає як стандартна CRM: вона може шукати записи клієнтів, вмикати роумінг або замінювати SIM-карту. Сторона користувача — це макет телефону з інструментами читання (get_status_bar, get_sim_status) та інструментами запису (toggle_airplane_mode, toggle_data, reseat_sim_card). Бенчмарк постачається з новим доменом телекомунікацій (114 завдань, відібраних з 2285 програмно згенерованих варіантів) разом із перевіреними доменами роздрібної торгівлі (115 завдань) та авіаліній (50 завдань) з оригінального τ-bench.
Ключові ідеї
- Формалізм подвійного керування: Представлення через Dec-POMDP чітко розмежовує те, що бачить кожен гравець і які інструменти кожен може викликати. Це більш суворо, ніж імпровізований "користувач з телефоном", якого можна було б приєднати до існуючої системи тестування одного агента.
- Композиційний генератор завдань: Завдання збираються з 15 атомарних груп підзавдань, що охоплюють три типи намірів (
service_issue,mobile_data_issue,mms_issue) з явним масштабуванням складності за кількістю необхідних кроків вирішення. - Продуктивність у телекомі (pass¹): GPT-4.1 досягає лише 34%; o4-mini — 42%; Claude 3.7 Sonnet — 49%; GPT-4.1-mini — близько 50%. Усі моделі показують тут значно нижчі результати, ніж у доменах роздрібної торгівлі чи авіаліній.
- Штраф за подвійне керування: Абляційне дослідження порівнює режим за замовчуванням (Default, користувач має інструменти) з режимом без користувача (No-User, агент сам керує кожним інструментом). Результативність GPT-4.1 падає на 18 відсоткових пунктів; o4-mini падає на 25 пунктів. Цей розрив — вартість координації з активним користувачем, відокремлена від складності самого міркування.
- Розрив з оракул-планом: Навіть коли агенту заздалегідь надається повна послідовність дій, продуктивність не досягає 100%, що свідчить про те, що виконання та координація з користувачем додають помилок понад планування.
- Структуровані інструменти користувача різко знижують шум симулятора: Симулятор користувача в телекомі створює лише 16% помилок (6% критичних) порівняно з 40% помилок (12% критичних) для роздрібної торгівлі в оригінальному τ-bench. Покращення досягнуто завдяки заміні нечітких підказок природною мовою на жорстко обмежений інтерфейс інструментів, який відстежує стан пристрою.