Prejsť na hlavný obsah

GAIA Benchmark: Meranie toho, čo hraničné AI agenty skutočne dokážu

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Po prečítaní WebArena a OSWorld — dvoch benchmarkov, v ktorých agenty výrazne zápasia s interakciami na webe a ploche na úrovni pixelov — som chcel urobiť krok späť a pozrieť sa na doplnkový benchmark, ktorý tento rámec zámerne obchádza. GAIA (Mialon et al., ICLR 2024) hodnotí univerzálnych AI asistentov na otázkach, ktoré sú „koncepčne jednoduché pre ľudí, no náročné pre väčšinu pokročilých AI“, čo z neho robí priamejšie meradlo schopností autonómnych agentov, ktoré by asistent pre Beancount skutočne potreboval.

O dokumente

2026-06-16-gaia-benchmark-general-ai-assistants

GAIA kladie trefnú otázku: ak odstránime rámec odborných skúšok, ktorý definuje väčšinu LLM benchmarkov (advokátske skúšky, lekárske atestácie, postgraduálna matematika), ako dobre si hraničné modely v skutočnosti vedú pri každodennom prieskume a logických úlohách, ktoré by zvládol ľudský asistent? Mialon, Fourrier, Swift, Wolf, LeCun a Scialom zostavili 466 reálnych otázok, ktoré vyžadujú prehliadanie webu, spúšťanie kódu, multimodálne porozumenie a viacstupňové uvažovanie — pre ktoré je však správna odpoveď jednoznačná a dostatočne stručná na automatické overenie.

Benchmark je rozdelený do troch úrovní. Úroveň 1 (približne 146 otázok) očakáva riešenia v menej ako piatich krokoch s minimálnym použitím nástrojov. Úroveň 2 (približne 245 otázok) vyžaduje správnu orchestráciu viacerých nástrojov v piatich až desiatich krokoch. Úroveň 3 (približne 75 otázok) vyžaduje dlhodobé plánovanie a sofistikovanú integráciu nástrojov. Toto nie je ľubovoľná taxonómia: priamo sleduje režijné náklady na koordináciu, ktoré musia autonómne agenty udržať.

Kľúčové myšlienky

  • Ľudia dosahujú celkovú úspešnosť 92 %. GPT-4 s pluginmi dosiahol v čase vydania iba 15 % — čo predstavuje 77-bodový rozdiel v úlohách, ktoré kompetentná osoba vyrieši za pár minút.
  • Benchmark odoláva „podvádzaniu“ spôsobom, akým to skúškové benchmarky nedokážu: odpovede vyžadujú nájdenie neindexovaných faktov, spustenie výpočtov alebo syntézu naprieč modalitami, takže samotné vybavenie si informácií z predtrénovania funguje len zriedka.
  • Tri úrovne odhaľujú, kde sa reťazce agentov skutočne rozpadajú: Úroveň 1 odmeňuje dobré vyhľadávanie; Úroveň 2 trestá hromadenie chýb pri volaní nástrojov; Úroveň 3 vyžaduje nepretržité sledovanie cieľa počas mnohých krokov, čo v čase publikácie žiadny systém nedokázal spoľahlivo.
  • Otázky sú zámerne jednoznačné — každá má jednu správnu stručnú odpoveď — čo robí automatické hodnotenie spoľahlivým, ale zároveň obmedzuje typ úloh na „vyhľadaj a odvoď“ namiesto otvoreného uvažovania.
  • K polovici roku 2026 dosahuje najlepší verejne nahlásený agent v rebríčku HAL (Claude Sonnet 4.5) celkovo 74,55 %: 82 % na úrovni 1, 73 % na úrovni 2 a 65 % na úrovni 3. Ľudský výkon stále zostáva na úrovni približne 92 %, takže na úrovni 3 pretrváva výrazná medzera.
  • Validačná sada je teraz široko dostupná a takmer určite unikla do trénovacích dát, čo robí skóre novších modelov z validačnej sady v podstate neinterpretovateľnými. Testovacia sada (held-out) zostáva čistejšia, ale je neprístupná pre vlastné hodnotenie.

Čo pretrváva — a čo nie

Hlavný poznatok — že hraničné LLM ani zďaleka nedosahujú robustnosť na úrovni ľudí pri praktických asistenčných úlohách — bol koncom roka 2023 skutočne dôležitý a vyvolal produktívnu vlnu agentického výskumu. Štruktúra troch úrovní je dobre kalibrovaná: Úroveň 1 a Úroveň 3 predstavujú výrazne odlišné úrovne schopností a benchmark nekolabuje na žiadnom z extrémov.

Kde papier ukazuje svoj vek, je nastavenie hodnotenia. Základná úroveň „GPT-4 s pluginmi“ bola zastaraná už v čase konania ICLR 2024; moderné agenty využívajúce Claude 3.7 Sonnet alebo Claude Sonnet 4.5 výrazne zmenšujú medzeru na úrovniach 1 a 2. Čo je vážnejšie, približne 5 % otázok obsahuje chyby alebo nejednoznačnosti v správnych odpovediach; autori to priznávajú, ale nepublikovali opravený dataset. To predstavuje nezanedbateľný problém so spoľahlivosťou pre benchmark so 466 otázkami.

Hlbším obmedzením je formát odpovedí. GAIA funguje, pretože každá odpoveď je krátky overiteľný reťazec. Toto obmedzenie zužuje úlohy na „niečo vyhľadaj a vypočítaj alebo transformuj“ namiesto „navrhni plán, vykonaj ho a vytvor štruktúrovaný artefakt“. Reálne prípady použitia Beancount — párovanie transakcií za mesiac, zápis do denníka pre viaczložkový obchod, generovanie koncoročnej správy — do tejto formy nezapadajú. GAIA meria jeden aspekt toho, čo všeobecný asistent potrebuje; nemeria vykonávanie komplexného pracovného toku (end-to-end workflow).

Situácia s kontamináciou dát je už vážna. Akýkoľvek agent, ktorý uvádza presnosť na validačnej sade ako svoje primárne číslo bez výslovných opatrení, by mal byť vnímaný s podozrením. Pozícia novších modelov v rebríčku takmer určite sčasti odráža prekrytie s trénovacou sadou.

Prečo je to dôležité pre finančnú AI

Trajektória z 15 % na 74 % počas dvoch a pol roka je povzbudivá, ale zostávajúca medzera na úrovni 3 je presne to miesto, kde sa odohráva automatizácia Beancount. Úlohy úrovne 3 vyžadujú sledovanie prechodného stavu počas mnohých krokov bez straty cieľa — presne to, čo musí robiť agent na zápis do účtovnej knihy, keď načítava zostatky na účtoch, aplikuje pravidlo odsúhlasenia, kontroluje výsledok voči obmedzeniu a následne vykoná zápis alebo ho vráti späť. Ak hraničné agenty stále zlyhávajú pri 35 % otázok GAIA na úrovni 3, ktoré sú pre ľudí koncepčne jednoduché, je to priame varovanie o spoľahlivosti viacstupňových operácií v účtovnej knihe.

Dizajnový princíp GAIA — jednoznačný, overiteľný, pre ľudí zvládnuteľný — je tiež užitočnou šablónou pre hodnotenie Beancount agentov. Premýšľal som, ako by vyzeral súbor „FinGAIA“: otázky typu „vzhľadom na tento súbor účtovnej knihy, ktorý účet je na konci mesiaca prečerpaný?“ alebo „aký je ekvivalent zostatku v EUR v mene USD k 31. 12. 2024?“, ktoré sú jednoznačné, vyžadujú použitie nástrojov a ich náročnosť sa plynule zvyšuje v troch úrovniach. Metodológia GAIA je priamo prenosná; stačí nahradiť doménu.

Jedna vec, ktorú GAIA nerieši — a ktorú Bean Labs musí nakoniec vyriešiť — je bezpečný spätný zápis. Všetky úlohy GAIA sú typu „prečítaj a odpovedz“. Autonómny Beancount agent, ktorý mení stav účtovnej knihy, potrebuje samostatný protokol hodnotenia správnosti, atomicity a reverzibility. GAIA ukazuje, že agenty dokážu nájsť správnu odpoveď; nehovorí nič o tom, či ju dokážu bezpečne zapísať.

Čo si prečítať ďalej

  • TheAgentCompany (arXiv:2412.14161) — 175 úloh v simulovanej softvérovej spoločnosti s reálnymi internými nástrojmi; najlepší agent autonómne dokončí 24 %; najpriamejšia analógia k hodnoteniu Beancount agenta zabudovaného do reálneho účtovného procesu.
  • AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — testuje webových agentov na realistických, časovo náročných úlohách zadaných skutočnými používateľmi; dopĺňa GAIA testovaním otvoreného vyhľadávania namiesto fixných overiteľných odpovedí.
  • WorkArena++ (arXiv:2407.05291) — rozširuje WorkArena o 682 kompozičných, viacstupňových podnikových úloh; tie najťažšie (Úroveň 3) zostávajú pre súčasné modely nevyriešené, čo z nich robí ďalšiu hranicu náročnosti po GAIA úrovni 3.