Преминете към основното съдържание

GAIA Benchmark: Измерване на това, което граничните AI агенти всъщност могат да правят

· 7 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

След като прочетох WebArena и OSWorld — два бенчмарка, при които агентите се затрудняват сериозно с взаимодействия на ниво пиксели в мрежата и десктопа — исках да направя крачка назад и да разгледам допълващ бенчмарк, който умишлено избягва тази рамка. GAIA (Mialon et al., ICLR 2024) оценява AI асистенти с общо предназначение по въпроси, които са „концептуално прости за хората, но предизвикателни за повечето напреднали AI“, което го прави по-директно измерване на способността за автономен агент, от която един Beancount асистент всъщност би имал нужда.

Документът

2026-06-16-gaia-benchmark-general-ai-assistants

GAIA задава остър въпрос: ако премахнем рамката на специализираните професионални изпити, която дефинира повечето LLM бенчмаркове (адвокатски изпити, медицински изпити, математика на ниво магистър), колко добре всъщност се справят граничните модели със ежедневните задачи за проучване и разсъждение, които един човешки асистент би поемал? Mialon, Fourrier, Swift, Wolf, LeCun и Scialom събраха 466 задачи от реалния свят, които изискват сърфиране в мрежата, изпълнение на код, мултимодално разбиране и многостепенно разсъждение — но за които истинският отговор е еднозначен и достатъчно кратък, за да бъде проверен автоматично.

Бенчмаркът е разделен на три нива. Ниво 1 (около 146 въпроса) очаква решения в по-малко от пет стъпки с минимално използване на инструменти. Ниво 2 (около 245 въпроса) изисква правилна оркестрация на множество инструменти в пет до десет стъпки. Ниво 3 (около 75 въпроса) изисква планиране с дълъг хоризонт и сложна интеграция на инструменти. Това не е произволна таксономия: тя директно проследява режийните разходи за координация, които автономните агенти трябва да поддържат.

Ключови идеи

  • Хората постигат общ резултат от 92%. GPT-4 с плъгини отбеляза само 15% при публикуването — разлика от 77 пункта в задачи, които компетентен човек решава за минути.
  • Бенчмаркът е устойчив на „нагласяне“ по начин, по който изпитните бенчмаркове не са: отговорите изискват намиране на неиндексирани факти, извършване на изчисления или синтезиране чрез различни модалности, така че припомнянето само от предварителното обучение рядко работи.
  • Трите нива разкриват къде всъщност се сриват веригите на агентите: Ниво 1 възнаграждава доброто извличане; Ниво 2 наказва натрупващите се грешки при повиквания към инструменти; Ниво 3 изисква устойчиво проследяване на целите през много стъпки, което нито една система към момента на публикуване не можеше да направи надеждно.
  • Въпросите са еднозначни по дизайн — всеки има един правилен кратък отговор — което прави автоматичната оценка надеждна, но също така ограничава типа задачи до търсене и извличане, вместо отворено разсъждение.
  • Към средата на 2026 г. най-добрият публично отчетен агент в класацията на HAL (Claude Sonnet 4.5) достига 74,55% общо: 82% за Ниво 1, 73% за Ниво 2 и 65% за Ниво 3. Човешкото представяне все още е около 92%, така че при Ниво 3 остава значителна разлика.
  • Валидационният набор вече е широко достъпен и почти сигурно е изтекъл в данните за обучение, което прави резултатите от валидационния набор на по-новите модели по същество неинтерпретируеми. Скритият тестов набор остава по-чист, но е недостъпен за самооценка.

Какво се потвърждава и какво — не

Основното прозрение — че граничните LLM не са близо до устойчивост на човешко ниво при практически задачи за асистенти — беше наистина важно в края на 2023 г. и предизвика продуктивна вълна от изследвания върху агенти. Структурата от три нива е добре калибрирана: Ниво 1 и Ниво 3 заемат значително различни нива на способности и бенчмаркът не се срива в едната крайност.

Там, където документът показва възрастта си, е в настройката за оценка. Базовата линия „GPT-4 с плъгини“ вече беше остаряла по време на ICLR 2024; съвременните агенти, използващи Claude 3.7 Sonnet или Claude Sonnet 4.5, запълват голяма част от разликата в Нива 1 и 2. По-сериозно, около 5% от въпросите имат грешки или неясноти в референтните отговори, и авторите признават това, но не публикуват коригиран набор от данни. Това е нетривиален проблем с надеждността за бенчмарк с 466 въпроса.

По-дълбокото ограничение е форматът на отговора. GAIA работи, защото всеки отговор е кратък проверим низ. Това ограничение ограничава задачите до „потърси нещо и го изчисли или трансформирай“, вместо „състави план, изпълни го и произведи структуриран артефакт“. Реалните случаи на употреба на Beancount — съгласуване на транзакции за месец, писане на журнален запис за сделка с множество позиции, генериране на годишен отчет — не се вписват в този калъп. GAIA измерва един аспект от това, от което се нуждае един общ асистент; тя не измерва цялостното изпълнение на работния процес.

Ситуацията със замърсяването вече е сериозна. Всеки агент, който изброява точността на валидационния набор като своя основна цифра без изрични предпазни мерки, трябва да се разглежда с подозрение. Позицията в класацията на по-новите модели почти сигурно отразява, отчасти, припокриване с набора за обучение.

Защо това е важно за финансовия AI

Траекторията от 15% → 74% за две години и половина е окуражаваща, но оставащата разлика в Ниво 3 е точно там, където живее автоматизацията на Beancount. Задачите от Ниво 3 изискват проследяване на междинно състояние през много стъпки без губене на целта — точно това, което един агент за записване в леджър трябва да направи, когато извлича баланси по сметки, прилага правило за съгласуване, проверява резултата спрямо ограничение и след това потвърждава или отменя промените. Ако граничните агенти все още се провалят на 35% от въпросите на GAIA Ниво 3, които са концептуално прости за хората, това е директно предупреждение за надеждността при многостепенни операции в леджъра.

Принципът на проектиране на GAIA — еднозначен, проверим, постижим за хора — също е полезен шаблон за оценка на Beancount агенти. Мислех за това как би изглеждал комплект „FinGAIA“: въпроси като „като се има предвид този леджър файл, коя сметка е на червено в края на месеца?“ или „какъв е USD еквивалентът на баланса в EUR на 2024-12-31?“, които са еднозначни, изискват използване на инструменти и се влошават грациозно в три нива на сложност. Методологията на GAIA се пренася директно; домейнът просто се нуждае от замяна.

Едно нещо, което GAIA не адресира — и което Bean Labs в крайна сметка трябва да реши — е безопасното записване обратно (write-back). Всички задачи в GAIA са от типа „прочети и отговори“. Автономен Beancount агент, който модифицира състоянието на леджъра, се нуждае от отделен протокол за оценка за коректност, атомарност и обратимост. GAIA показва, че агентите могат да получат правилния отговор; тя не казва нищо за това дали могат да го запишат безопасно.

Какво да прочетете след това

  • TheAgentCompany (arXiv:2412.14161) — 175 задачи в рамките на симулирана софтуерна компания с реални вътрешни инструменти; най-добрият агент изпълнява 24% автономно; най-директният аналог за оценка на Beancount агент, вграден в реален счетоводен работен процес.
  • AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — оценява уеб агенти по реалистични, отнемащи време задачи, изпратени от действителни потребители; допълва GAIA чрез тестване на отворено извличане, вместо фиксирани проверими отговори.
  • WorkArena++ (arXiv:2407.05291) — разширява WorkArena до 682 композиционни, многостепенни корпоративни задачи; най-трудните (Ниво 3) остават нерешени от нито един настоящ модел, което го прави следващата граница на трудност след GAIA Ниво 3.