Перейти до основного вмісту

Бенчмарк GAIA: Вимірювання того, що провідні ШІ-агенти насправді можуть робити

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Після ознайомлення з WebArena та OSWorld — двома бенчмарками, де агенти мають великі труднощі з взаємодією на рівні пікселів у вебі та на робочому столі — я захотів зробити крок назад і розглянути додатковий бенчмарк, який свідомо уникає такого підходу. GAIA (Mialon et al., ICLR 2024) оцінює універсальних ШІ-помічників на питаннях, які є «концептуально простими для людей, але складними для більшості просунутих ШІ», що робить його більш прямим мірилом можливостей автономного агента, які насправді знадобилися б помічнику Beancount.

Дослідження

2026-06-16-gaia-benchmark-general-ai-assistants

GAIA ставить гостре запитання: якщо ми відкинемо рамки спеціалізованих професійних іспитів, що визначають більшість бенчмарків LLM (іспити для юристів, медичні ради, математика вищого рівня), наскільки добре передові моделі насправді справляються з повсякденними завданнями з пошуку та міркування, які вирішив би помічник-людина? Міалон, Фур'є, Свіфт, Вольф, Лекун і Шалом зібрали 466 реальних питань, що потребують перегляду вебсторінок, виконання коду, мультимодального розуміння та багатокрокового міркування, але для яких еталонна відповідь є однозначною та досить стислою для автоматичної перевірки.

Бенчмарк розділений на три рівні. Рівень 1 (близько 146 питань) передбачає рішення менш ніж за п’ять кроків із мінімальним використанням інструментів. Рівень 2 (близько 245 питань) вимагає правильної оркестрації кількох інструментів протягом п’яти-десяти кроків. Рівень 3 (близько 75 питань) вимагає довгострокового планування та складної інтеграції інструментів. Це не довільна таксономія: вона безпосередньо відстежує координаційні витрати, які мають витримувати автономні агенти.

Основні ідеї

  • Люди отримують загальний бал 92%. GPT-4 з плагінами на момент публікації набрав лише 15% — розрив у 77 пунктів на завданнях, які компетентна людина вирішує за лічені хвилини.
  • Бенчмарк стійкий до «натягування» результатів (gaming) на відміну від екзаменаційних тестів: відповіді потребують пошуку неіндексованих фактів, виконання обчислень або синтезу даних різних типів, тому просте відтворення знань із етапу навчання рідко спрацьовує.
  • Три рівні показують, де саме руйнуються ланцюжки агентів: Рівень 1 винагороджує за хороший пошук (retrieval); Рівень 2 карає за накопичення помилок між викликами інструментів; Рівень 3 вимагає тривалого відстеження мети протягом багатьох кроків, що жодна система на момент публікації не могла робити надійно.
  • Питання за задумом є однозначними — кожне має одну правильну коротку відповідь — що робить автоматичну оцінку надійною, але також обмежує тип завдань форматом «знайди та виведи», а не відкритими міркуваннями.
  • Станом на середину 2026 року найкращий публічно представлений агент у таблиці лідерів HAL (Claude Sonnet 4.5) досягає 74,55% загалом: 82% на Рівні 1, 73% на Рівні 2 та 65% на Рівні 3. Результативність людей все ще залишається на рівні приблизно 92%, тому на Рівні 3 зберігається суттєвий розрив.
  • Валідаційний набір даних тепер широко доступний і майже напевно потрапив у тренувальні дані, що робить результати валідаційного набору для нових моделей такими, що практично не піддаються інтерпретації. Закритий тестовий набір залишається чистішим, але він недоступний для самостійної оцінки.

Що залишається актуальним, а що ні

Ключовий висновок — про те, що передові LLM навіть близько не стоять до людського рівня надійності в практичних завданнях асистента — був справді важливим наприкінці 2023 року і дав поштовх продуктивній хвилі досліджень агентів. Трьохрівнева структура добре відкалібрована: Рівень 1 і Рівень 3 займають суттєво різні пласти можливостей, і бенчмарк не втрачає своєї цінності на крайнощах.

Там, де робота демонструє ознаки застарілості — це налаштування оцінювання. Базовий рівень «GPT-4 з плагінами» вже застарів до моменту проведення ICLR 2024; сучасні агенти, що використовують Claude 3.7 Sonnet або Claude Sonnet 4.5, значною мірою скорочують розрив на рівнях 1 та 2. Більш серйозно те, що близько 5% питань мають помилки або неоднозначності в еталонних відповідях, і автори визнають це, але не публікують виправлений набір даних. Це нетривіальна проблема надійності для бенчмарка з 466 питань.

Глибшим обмеженням є формат відповіді. GAIA працює, тому що кожна відповідь — це короткий рядок, який можна перевірити. Це обмеження звужує завдання до «знайти щось і обчислити або трансформувати це», замість того щоб «скласти план, виконати його та створити структурований артефакт». Реальні сценарії використання Beancount — звірка транзакцій за місяць, написання запису в журналі для багатоетапної угоди, створення річного звіту — не вписуються в цю модель. GAIA вимірює один аспект того, що потрібно загальному помічнику; він не вимірює виконання наскрізних робочих процесів.

Ситуація із забрудненням даних (contamination) зараз критична. Будь-який агент, який вказує точність на валідаційному наборі як основний показник без чітких запобіжних заходів, має викликати підозру. Позиції нових моделей у таблиці лідерів майже напевно частково відображають перетин із тренувальним набором.

Чому це важливо для фінансового ШІ

Траєкторія з 15% до 74% за два з половиною роки є обнадійливою, але залишковий розрив на Рівні 3 — це саме те місце, де живе автоматизація Beancount. Завдання Рівня 3 вимагають відстеження проміжного стану протягом багатьох кроків без втрати мети — саме це має робити агент для запису в леджер, коли він отримує залишки на рахунках, застосовує правило звірки, перевіряє результат на відповідність обмеженням, а потім фіксує (commit) або скасовує (roll back) зміни. Якщо передові агенти все ще зазнають невдачі у 35% питань GAIA Рівня 3, які концептуально прості для людей, це пряме попередження про надійність багатокрокових операцій із леджером.

Принцип дизайну GAIA — однозначність, перевірюваність, посильність для людини — також є корисною моделлю для оцінки агентів Beancount. Я думав про те, як виглядав би набір «FinGAIA»: питання на кшталт «враховуючи цей файл леджера, на якому рахунку виник овердрафт наприкінці місяця?» або «який еквівалент балансу в EUR у доларах США станом на 2024-12-31?», які є однозначними, вимагають використання інструментів і плавно ускладнюються на трьох рівнях. Методологія GAIA переноситься безпосередньо; потрібно лише замінити домен.

Одна річ, яку GAIA не зачіпає — і яку Bean Labs з часом має вирішити — це безпечний зворотний запис (write-back). Усі завдання GAIA працюють за принципом «прочитай та дай відповідь». Автономному агенту Beancount, який змінює стан леджера, потрібен окремий протокол оцінки коректності, атомарності та оборотності. GAIA показує, що агенти можуть отримати правильну відповідь; він нічого не каже про те, чи можуть вони зафіксувати її безпечно.

Що почитати далі

  • TheAgentCompany (arXiv:2412.14161) — 175 завдань всередині симульованої програмної компанії з реальними внутрішніми інструментами; найкращий агент виконує 24% автономно; найпряміший аналог оцінки агента Beancount, вбудованого в реальний бухгалтерський процес.
  • AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — оцінює веб-агентів на реалістичних, трудомістких завданнях, надісланих реальними користувачами; доповнює GAIA, тестуючи відкритий пошук, а не фіксовані відповіді.
  • WorkArena++ (arXiv:2407.05291) — розширює WorkArena до 682 композиційних багатокрокових корпоративних завдань; найскладніші (Рівень 3) залишаються невирішеними жодною поточною моделлю, що робить його наступним рубежем складності після GAIA Рівня 3.