Перейти к контенту

Бенчмарк GAIA: оценка реальных возможностей передовых ИИ-агентов

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

После изучения WebArena и OSWorld — двух бенчмарков, в которых агенты с трудом справляются с взаимодействием на уровне пикселей в вебе и на рабочем столе — я захотел рассмотреть дополняющий их бенчмарк, который намеренно обходит эти сложности. GAIA (Mialon et al., ICLR 2024) оценивает ИИ-помощников общего назначения по вопросам, которые «концептуально просты для людей, но сложны для большинства продвинутых ИИ», что делает его более прямым показателем способностей автономного агента, необходимых реальному помощнику для Beancount.

О работе

2026-06-16-gaia-benchmark-general-ai-assistants

Авторы GAIA ставят вопрос ребром: если убрать рамки специализированных профессиональных экзаменов, которые определяют большинство бенчмарков LLM (экзамены на юриста, медицинские комиссии, математика для выпускников), насколько хорошо передовые модели справляются с повседневными задачами исследования и рассуждения, которые решил бы человек-помощник? Миалон, Фуррье, Свифт, Вольф, Лекун и Шиалом собрали 466 реальных вопросов, требующих просмотра веб-страниц, выполнения кода, мультимодального понимания и многошаговых рассуждений, но при этом имеющих однозначный и достаточно краткий ответ для автоматической проверки.

Бенчмарк разделен на три уровня. Уровень 1 (около 146 вопросов) предполагает решение менее чем за пять шагов с минимальным использованием инструментов. Уровень 2 (около 245 вопросов) требует правильной оркестровки нескольких инструментов на протяжении пяти-десяти шагов. Уровень 3 (около 75 вопросов) требует долгосрочного планирования и сложной интеграции инструментов. Это не произвольная таксономия: она напрямую отслеживает накладные расходы на координацию, которые должны выдерживать автономные агенты.

Ключевые идеи

  • Люди набирают в среднем 92%. GPT-4 с плагинами на момент публикации набрал всего 15% — разрыв в 77 пунктов в задачах, которые компетентный человек решает за минуты.
  • Бенчмарк устойчив к «натаскиванию» в отличие от экзаменационных тестов: ответы требуют поиска неиндексированных фактов, выполнения вычислений или синтеза данных из разных модальностей, поэтому простое воспроизведение знаний из обучающей выборки (pre-training) редко срабатывает.
  • Три уровня показывают, где именно рушатся конвейеры агентов: Уровень 1 вознаграждает хороший поиск; Уровень 2 наказывает за накапливающиеся ошибки при вызове инструментов; Уровень 3 требует устойчивого отслеживания целей на протяжении многих шагов, что ни одна система на момент публикации не могла делать надежно.
  • Вопросы по определению однозначны — каждый имеет один правильный краткий ответ, — что делает автоматическую оценку надежной, но также ограничивает тип задач поиском и выводом, а не открытыми рассуждениями.
  • По состоянию на середину 2026 года лучший публично заявленный агент в таблице лидеров HAL (Claude Sonnet 4.5) достигает 74,55% в целом: 82% на Уровне 1, 73% на Уровне 2 и 65% на Уровне 3. Результативность человека по-прежнему составляет около 92%, так что на Уровне 3 сохраняется значительный разрыв.
  • Валидационный набор данных сейчас широко доступен и почти наверняка попал в обучающие данные моделей, что делает результаты новых моделей на этом наборе практически не интерпретируемыми. Закрытый тестовый набор остается более «чистым», но недоступен для самостоятельной оценки.

Что подтвердилось, а что — нет

Ключевой вывод о том, что передовые LLM еще далеки от человеческого уровня надежности в практических задачах помощника, был действительно важен в конце 2023 года и породил продуктивную волну исследований агентов. Трехуровневая структура хорошо откалибрована: Уровни 1 и 3 представляют собой качественно разные уровни способностей, и бенчмарк не теряет актуальности ни на одном из полюсов.

Уязвимым местом статьи является методика оценки. Базовый уровень «GPT-4 с плагинами» устарел уже к моменту проведения ICLR 2024; современные агенты на базе Claude 3.7 Sonnet или Claude Sonnet 4.5 закрывают большую часть разрыва на Уровнях 1 и 2. Что более серьезно, около 5% вопросов содержат ошибки или двусмысленности в эталонных ответах, и авторы признают это, но не публикуют исправленный набор данных. Это нетривиальная проблема надежности для бенчмарка из 466 вопросов.

Более глубокое ограничение — формат ответов. GAIA работает, потому что каждый ответ представляет собой короткую проверяемую строку. Это ограничение сводит задачи к «найди что-то и вычисли или преобразуй это», а не к «составь план, выполни его и создай структурированный артефакт». Реальные сценарии использования Beancount — сверка транзакций за месяц, написание записи в журнале для сложной сделки, создание годового отчета — не вписываются в эту форму. GAIA измеряет одну грань того, что нужно универсальному помощнику; она не измеряет выполнение сквозного рабочего процесса.

Ситуация с загрязнением данных (contamination) сейчас критична. К любому агенту, указывающему точность на валидационном наборе как основной показатель без явных мер предосторожности, следует относиться с подозрением. Позиции новых моделей в таблице лидеров почти наверняка частично отражают пересечение с обучающей выборкой.

Почему это важно для финансового ИИ

Траектория от 15% до 74% за два с половиной года обнадеживает, но оставшийся разрыв на Уровне 3 — это именно то место, где «живет» автоматизация Beancount. Задачи Уровня 3 требуют отслеживания промежуточного состояния на протяжении многих шагов без потери цели — именно это должен делать агент записи в книгу, когда он запрашивает остатки на счетах, применяет правило сверки, проверяет результат на соответствие ограничениям, а затем подтверждает (commit) или откатывает изменения. Если передовые агенты все еще не справляются с 35% вопросов Уровня 3 GAIA, которые концептуально просты для людей, это прямое предупреждение о надежности многошаговых операций с бухгалтерской книгой.

Принцип проектирования GAIA — однозначный, проверяемый, доступный человеку — также является полезным шаблоном для оценки агентов Beancount. Я думал о том, как мог бы выглядеть набор «FinGAIA»: вопросы типа «исходя из этого файла книги, на каком счету перерасход в конце месяца?» или «каков эквивалент баланса в EUR в долларах США на 31.12.2024?», которые однозначны, требуют использования инструментов и последовательно усложняются по трем уровням. Методология GAIA переносится напрямую; нужно просто заменить предметную область.

Одна вещь, которую GAIA не затрагивает — и которую Bean Labs в конечном итоге придется решить — это безопасная обратная запись (write-back). Все задачи GAIA построены по принципу «прочитай и ответь». Автономному агенту Beancount, который модифицирует состояние книги, нужен отдельный протокол оценки корректности, атомарности и обратимости. GAIA показывает, что агенты могут находить правильный ответ; она ничего не говорит о том, могут ли они безопасно применить его.

Что почитать дальше

  • TheAgentCompany (arXiv:2412.14161) — 175 задач внутри симулированной софтверной компании с реальными внутренними инструментами; лучший агент выполняет 24% автономно; самый прямой аналог для оценки агента Beancount, встроенного в реальный рабочий процесс бухгалтерского учета.
  • AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — оценивает веб-агентов на реалистичных, трудоемких задачах, представленных реальными пользователями; дополняет GAIA, тестируя открытый поиск, а не фиксированные проверяемые ответы.
  • WorkArena++ (arXiv:2407.05291) — расширяет WorkArena до 682 композиционных многошаговых корпоративных задач; самые сложные (Уровень 3) остаются нерешенными ни одной текущей моделью, что делает их следующим рубежом сложности после GAIA Level 3.