Doorgaan naar hoofdinhoud

GAIA-benchmark: Meten wat grensverleggende AI-agenten echt kunnen

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Na het lezen van WebArena en OSWorld — twee benchmarks waarbij agenten grote moeite hebben met interacties op pixelniveau in web- en desktopomgevingen — wilde ik een stap terug doen en kijken naar een complementaire benchmark die die inkadering bewust omzeilt. GAIA (Mialon et al., ICLR 2024) evalueert algemene AI-assistenten op vragen die "conceptueel eenvoudig zijn voor mensen, maar uitdagend voor de meest geavanceerde AI's", waardoor het een directere meting is van de autonome agent-capaciteiten die een Beancount-assistent daadwerkelijk nodig zou hebben.

Het artikel

2026-06-16-gaia-benchmark-general-ai-assistants

GAIA stelt een scherpe vraag: als we de gespecialiseerde professionele examen-inkadering weglaten die de meeste LLM-benchmarks definieert (juridische examens, medische examens, wiskunde op universitair niveau), hoe goed presteren grensverleggende modellen dan op de alledaagse onderzoeks- en redeneertaken die een menselijke assistent zou afhandelen? Mialon, Fourrier, Swift, Wolf, LeCun en Scialom stelden 466 praktijkvragen samen die webbrowsing, code-uitvoering, multimodaal begrip en redeneren in meerdere stappen vereisen — maar waarvoor het juiste antwoord eenduidig en beknopt genoeg is om automatisch te verifiëren.

De benchmark is ingedeeld in drie niveaus. Niveau 1 (ongeveer 146 vragen) verwacht oplossingen in minder dan vijf stappen met minimaal gebruik van tools. Niveau 2 (ongeveer 245 vragen) vereist correcte orkestratie van meerdere tools in vijf tot tien stappen. Niveau 3 (ongeveer 75 vragen) vraagt om planning over een lange horizon en geavanceerde tool-integratie. Dit is geen willekeurige taxonomie: het sluit direct aan bij de coördinatielast die autonome agenten moeten kunnen dragen.

Belangrijke inzichten

  • Mensen scoren in totaal 92%. GPT-4 met plug-ins scoorde bij publicatie slechts 15% — een kloof van 77 punten op taken die een bekwaam persoon in enkele minuten oplost.
  • De benchmark is bestand tegen "gaming" op een manier die examenbenchmarks niet zijn: antwoorden vereisen het vinden van niet-geïndexeerde feiten, het uitvoeren van berekeningen of synthese over verschillende modaliteiten, waardoor alleen terughalen uit pre-training zelden werkt.
  • Drie niveaus leggen bloot waar agent-pipelines daadwerkelijk bezwijken: Niveau 1 beloont goede retrieval; Niveau 2 straft opeenvolgende fouten in tool-aanroepen af; Niveau 3 vereist het vasthouden van doelen over vele stappen, iets wat geen enkel systeem ten tijde van publicatie betrouwbaar kon.
  • De vragen zijn bewust eenduidig — elk heeft één correct kort antwoord — wat automatische evaluatie betrouwbaar maakt, maar ook het type taak beperkt tot opzoeken-en-afleiden in plaats van open redeneren.
  • Vanaf medio 2026 bereikt de best gerapporteerde agent op het HAL-leaderboard (Claude Sonnet 4.5) in totaal 74,55%: 82% op Niveau 1, 73% op Niveau 2 en 65% op Niveau 3. Menselijke prestaties liggen nog steeds rond de 92%, dus op Niveau 3 blijft er een aanzienlijke kloof bestaan.
  • De validatieset is nu algemeen beschikbaar en is vrijwel zeker in de trainingsdata terechtgekomen, waardoor scores van de validatieset van nieuwere modellen in feite oninterpreteerbaar zijn. De afgeschermde testset blijft schoner, maar is niet toegankelijk voor zelfevaluatie.

Wat overeind blijft — en wat niet

Het kerninzicht — dat grensverleggende LLM's nog lang niet op menselijk niveau van robuustheid zitten bij praktische assistenttaken — was eind 2023 echt belangrijk en ontketende een productieve golf van onderzoek naar agenten. De structuur met drie niveaus is goed gekalibreerd: Niveau 1 en Niveau 3 bevinden zich op duidelijk verschillende capaciteitsniveaus en de benchmark stort niet in bij één extreem.

Waar het artikel verouderd is, is in de evaluatie-opzet. De "GPT-4 met plug-ins" baseline was al achterhaald op het moment dat ICLR 2024 plaatsvond; moderne agenten die Claude 3.7 Sonnet of Claude Sonnet 4.5 gebruiken, dichten een groot deel van de kloof op de niveaus 1 en 2. Ernstiger is dat ~5% van de vragen fouten of onduidelijkheden bevatten in de grondwaarheid, en hoewel de auteurs dit erkennen, publiceren ze geen gecorrigeerde dataset. Dat is een niet-triviaal betrouwbaarheidsprobleem voor een benchmark met 466 vragen.

De diepere beperking is het antwoordformaat. GAIA werkt omdat elk antwoord een korte, verifieerbare string is. Die beperking beperkt de taken tot "iets opzoeken en berekenen of transformeren" in plaats van "een plan opstellen, het uitvoeren en een gestructureerd resultaat produceren". Echte Beancount-gebruiksscenario's — een maand aan transacties afstemmen, een journaalpost schrijven voor een complexe handelstransactie, een jaarverslag genereren — passen niet in dat stramien. GAIA meet één facet van wat een algemene assistent nodig heeft; het meet niet de end-to-end uitvoering van workflows.

De situatie rond data-vervuiling is inmiddels ernstig. Elke agent die de nauwkeurigheid op de validatieset als belangrijkste cijfer vermeldt zonder expliciete voorzorgsmaatregelen, moet met argwaan worden bekeken. De positie op het leaderboard van nieuwere modellen weerspiegelt vrijwel zeker deels overlap met de trainingsset.

Waarom dit belangrijk is voor financiële AI

Het traject van 15% → 74% in tweeënhalf jaar is bemoedigend, maar de resterende kloof op Niveau 3 is precies waar Beancount-automatisering zich bevindt. Niveau 3-taken vereisen het volgen van een tussenstatus over vele stappen zonder het doel uit het oog te verliezen — precies wat een agent die terugschrijft naar een grootboek moet doen wanneer deze rekeningsaldi ophaalt, een afstemmingsregel toepast, het resultaat controleert aan de hand van een beperking en vervolgens de wijziging doorvoert of ongedaan maakt. Als grensverleggende agenten nog steeds falen bij 35% van de GAIA-vragen op Niveau 3, die conceptueel eenvoudig zijn voor mensen, is dat een directe waarschuwing over de betrouwbaarheid van ledger-operaties in meerdere stappen.

Het GAIA-ontwerpprincipe — eenduidig, verifieerbaar, door mensen uitvoerbaar — is ook een nuttige sjabloon voor het evalueren van Beancount-agenten. Ik heb nagedacht over hoe een "FinGAIA"-set eruit zou zien: vragen als "gegeven dit ledger-bestand, welke rekening staat aan het einde van de maand rood?" of "wat is de USD-tegenwaarde van het EUR-saldo op 31-12-2024?" die eenduidig zijn, tool-gebruik vereisen en geleidelijk in moeilijkheid toenemen over drie niveaus. De methodologie van GAIA is direct vertaalbaar; alleen het domein moet worden vervangen.

Eén ding dat GAIA niet behandelt — en dat Bean Labs uiteindelijk moet oplossen — is veilig terugschrijven. Alle GAIA-taken zijn gebaseerd op "lezen-en-antwoorden". Een autonome Beancount-agent die de status van het grootboek wijzigt, heeft een apart evaluatieprotocol nodig voor correctheid, atomiciteit en omkeerbaarheid. GAIA laat zien dat agenten het juiste antwoord kunnen vinden; het zegt niets over de vraag of ze dit veilig kunnen vastleggen.

Wat je hierna kunt lezen

  • TheAgentCompany (arXiv:2412.14161) — 175 taken binnen een gesimuleerd softwarebedrijf met echte interne tools; de beste agent voltooit 24% autonoom; de meest directe analogie voor het evalueren van een Beancount-agent ingebed in een echte boekhoudworkflow.
  • AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — benchmarkt webagenten op realistische, tijdrovende taken ingediend door echte gebruikers; vult GAIA aan door open-ended retrieval te testen in plaats van vaststaande verifieerbare antwoorden.
  • WorkArena++ (arXiv:2407.05291) — breidt WorkArena uit naar 682 samengestelde zakelijke taken in meerdere stappen; de moeilijkste (Niveau 3) blijven onopgelost door elk huidig model, wat het de volgende grens van moeilijkheid maakt na GAIA Niveau 3.