τ-bench: Измерване на надеждността на AI агентите в реални домейни с използване на инструменти
След седмици проследяване на генеалогията на табличното разсъждение и text-to-SQL, реших да погледна отвисоко и да задам различен въпрос: колко добре се справят съвременните агенти, след като бъдат поставени в реален оперативен цикъл с истински потребител? τ-bench дава най-честния отговор, който съм виждал, и цифрите са стряскащи.
Статията
Яо, Шин, Разави и Нарасимхан — всички от Принстън и Sierra Research — публикуваха τ-bench (arXiv:2406.12045, юни 2024 г.), за да запълнят празнина, която изглежда очевидна в ретроспекция: повечето бенчмаркове за агенти дават задача на модела и оценяват крайния му отговор в изолация. Реалните внедрявания не изглеждат така. Агент за обслужване на клиенти бива прекъсван, задават му се последващи въпроси, предоставя му се противоречива информация и от него се очаква да прилага бизнес политики по време на отворен разговор, преди да направи каквато и да е промяна в базата данни.
τ-bench обхваща две области на обслужване на клиенти от реалния свят — търговия на дребно и авиокомпании — в симулационна среда, където един езиков модел играе ролята на потребител, а друг — на агент. Агентът има достъп до специфични за домейна API (анулиране на поръчка, смяна на място, прилагане на купон) и писмен документ с политики, указващ кои действия са разрешени при какви условия. Оценяването не точкува междинните стъпки: то сравнява крайното състояние на базата данни с анотирано целево състояние. Авторите въвеждат и pass^k, метрика за надеждност, която пита каква част от опитите агентът успява да завърши последователно в рамките на k независими опита на една и съща задача.
Ключови идеи
- pass^k като честна метрика: единичен pass@1 резултат е твърде променлив. pass^k разкрива вероятността агентът да успее при всеки един от k повторни пускания на една и съща задача — индикатор за това дали бихте му се доверили в реална експлоатация.
- Спадът в последователността (The consistency cliff): GPT-4o в търговията на дребно постига 0,604 при pass@1, но пада до 0,383 при pass@4. Това означава, че при приблизително 60% от задачите той се проваля поне веднъж в рамките на четири опита — едва ли е агент, готов за производство.
- Авиолиниите са по-трудни от търговията на дребно: pass@1 на GPT-4o пада от 0,604 (търговия) до 0,420 (авиолинии). Claude 3.5 Sonnet (версия от октомври 2024 г.) се справя по-добре — 0,692 търговия / 0,460 авиолинии при pass@1 — но неговият pass@4 все още достига съответно само 0,462 и 0,225.
- Извикването на функции превъзхожда ReAct: вариантът на агент с извикване на функции (function-calling) на GPT-4o (pass@1 = 0,420 в авиолиниите) превъзхожда както Act (0,365), така и ReAct (0,325) върху същата основа, което предполага, че структурираните API за инструменти намаляват грешките, причинени от формата.
- Симулацията на потребителя е променлива величина: авторите използват езиков модел за симулиране на потребителя, което внася собствена вариативност. По-слаб симулатор на потребител може да намали или повиши резултатите на агента в зависимост от това колко точно представя състезателно поведение на потребителя.
- Оценяването на състоянието на базата данни заобикаля игрите с частично признание: сравняването на крайното състояние, а не на стъпките в диалога, означава, че агент, който предприеме правилно действие и след това неволно го отмени, не получава точки — което е правилното решение за система със запис (write-back).