GAIA Benchmark: Messen, was modernste KI-Agenten wirklich leisten können
Nach der Lektüre von WebArena und OSWorld – zwei Benchmarks, bei denen Agenten massiv an Interaktionen auf Pixel-Ebene im Web und auf dem Desktop scheitern – wollte ich einen Schritt zurücktreten und mir einen ergänzenden Benchmark ansehen, der diesen Rahmen bewusst vermeidet. GAIA (Mialon et al., ICLR 2024) bewertet universelle KI-Assistenten bei Fragen, die „für Menschen konzeptionell einfach, für die meisten fortgeschrittenen KIs jedoch eine Herausforderung“ sind. Dies macht ihn zu einem direkteren Maßstab für die Fähigkeiten autonomer Agenten, die ein Beancount-Assistent tatsächlich benötigen würde.
Das Paper
GAIA stellt eine gezielte Frage: Wenn wir den Rahmen spezialisierter Fachprüfungen weglassen, der die meisten LLM-Benchmarks definiert (Anwaltsprüfungen, medizinische Examina, Mathematik auf Hochschulniveau), wie gut schneiden Frontier-Modelle dann tatsächlich bei alltäglichen Recherche- und Argumentationsaufgaben ab, die ein menschlicher Assistent bewältigen würde? Mialon, Fourrier, Swift, Wolf, LeCun und Scialom haben 466 reale Fragen zusammengestellt, die Webbrowsing, Code-Ausführung, multimodales Verständnis und mehrstufiges logisches Schlussfolgern erfordern – für die die richtige Antwort jedoch eindeutig und prägnant genug ist, um sie automatisch zu verifizieren.
Der Benchmark ist in drei Stufen unterteilt. Level 1 (ca. 146 Fragen) erwartet Lösungen in weniger als fünf Schritten mit minimalem Werkzeugeinsatz. Level 2 (ca. 245 Fragen) erfordert die korrekte Orchestrierung mehrerer Werkzeuge über fünf bis zehn Schritte hinweg. Level 3 (ca. 75 Fragen) verlangt langfristige Planung und anspruchsvolle Werkzeug-Integration. Dies ist keine willkürliche Taxonomie: Sie bildet direkt den Koordinationsaufwand ab, den autonome Agenten bewältigen müssen.
Kernideen
- Menschen erreichen insgesamt 92 %. GPT-4 mit Plugins erreichte zum Zeitpunkt der Veröffentlichung nur 15 % – eine Lücke von 77 Punkten bei Aufgaben, die eine kompetente Person in wenigen Minuten löst.
- Der Benchmark widersteht „Gaming“ (Manipulation) auf eine Weise, wie es Prüfungs-Benchmarks nicht tun: Die Antworten erfordern das Finden nicht indexierter Fakten, das Ausführen von Berechnungen oder die Synthese über verschiedene Modalitäten hinweg, sodass reines Abrufen aus dem Vortraining selten funktioniert.
- Drei Ebenen zeigen auf, wo Agenten-Pipelines tatsächlich zusammenbrechen: Level 1 belohnt gutes Retrieval; Level 2 bestraft sich summierende Fehler über Werkzeugaufrufe hinweg; Level 3 erfordert eine kontinuierliche Zielverfolgung über viele Schritte, was zum Zeitpunkt der Veröffentlichung kein System zuverlässig leisten konnte.
- Die Fragen sind bewusst eindeutig gestaltet – jede hat eine einzige korrekte Kurzantwort. Dies macht die automatische Auswertung zuverlässig, schränkt aber auch den Aufgabentyp auf „Nachschlagen-und-Ableiten“ anstatt auf offenes logisches Schlussfolgern ein.
- Stand Mitte 2026 erreicht der beste öffentlich gemeldete Agent auf dem HAL-Leaderboard (Claude Sonnet 4.5) insgesamt 74,55 %: 82 % in Level 1, 73 % in Level 2 und 65 % in Level 3. Die menschliche Leistung liegt weiterhin bei etwa 92 %, sodass in Level 3 eine signifikante Lücke bestehen bleibt.
- Das Validierungsset ist mittlerweile weit verbreitet und ist mit fast vollständiger Sicherheit in die Trainingsdaten eingeflossen, was die Ergebnisse neuerer Modelle für das Validierungsset im Grunde uninterpretierbar macht. Das zurückgehaltene Testset bleibt sauberer, ist aber für Selbstevaluationen unzugänglich.
Was Bestand hat – und was nicht
Die zentrale Erkenntnis – dass Frontier-LLMs bei praktischen Assistentenaufgaben noch lange nicht die Robustheit auf menschlichem Niveau erreichen – war Ende 2023 wirklich wichtig und löste eine produktive Welle der Agentenforschung aus. Die dreistufige Struktur ist gut kalibriert: Level 1 und Level 3 besetzen deutlich unterschiedliche Fähigkeitsniveaus, und der Benchmark bricht nicht an einem Extrem zusammen.
Wo das Paper sein Alter zeigt, ist im Evaluierungs-Setup. Die Baseline „GPT-4 mit Plugins“ war bereits veraltet, als die ICLR 2024 stattfand; moderne Agenten, die Claude 3.7 Sonnet oder Claude Sonnet 4.5 nutzen, schließen einen Großteil der Lücke in Level 1 und 2. Schwerwiegender ist, dass ca. 5 % der Fragen Fehler oder Mehrdeutigkeiten in der Ground Truth aufweisen; die Autoren räumen dies zwar ein, veröffentlichen jedoch keinen korrigierten Datensatz. Das ist ein nicht triviales Zuverl ässigkeitsproblem für einen Benchmark mit 466 Fragen.
Die tieferliegende Einschränkung ist das Antwortformat. GAIA funktioniert, weil jede Antwort eine kurze, verifizierbare Zeichenfolge ist. Diese Einschränkung begrenzt die Aufgaben auf „etwas nachschlagen und berechnen oder transformieren“, anstatt „einen Plan entwerfen, ausführen und ein strukturiertes Artefakt produzieren“. Reale Beancount-Anwendungsfälle – das Abstimmen eines Transaktionsmonats, das Schreiben eines Journaleintrags für einen mehrseitigen Handel oder das Erstellen eines Jahresabschlussberichts – passen nicht in dieses Schema. GAIA misst eine Facette dessen, was ein allgemeiner Assistent benötigt; es misst nicht die End-to-End-Workflow-Ausführung.
Die Kontaminationsproblematik ist mittlerweile ernst. Jeder Agent, der die Genauigkeit des Validierungssets ohne explizite Vorsichtsmaßnahmen als Primärzahl angibt, sollte mit Skepsis betrachtet werden. Die Leaderboard-Positionen neuerer Modelle spiegeln mit Sicherheit zum Teil Überschneidungen im Trainingsset wider.
Warum dies für Finanz-KI wichtig ist
Die Entwicklung von 15 % auf 74 % innerhalb von zweieinhalb Jahren ist ermutigend, aber die verbleibende Lücke in Level 3 ist genau der Bereich, in dem die Beancount-Automatisierung angesiedelt ist. Aufgaben auf Level 3 erfordern die Verfolgung eines Zwischenzustands über viele Schritte hinweg, ohne das Ziel aus den Augen zu verlieren – genau das, was ein Agent zum Zurückschreiben in das Ledger tun muss, wenn er Kontostände abruft, eine Abstimmungsregel anwendet, das Ergebnis gegen eine Beschränkung prüft und dann die Transaktion bestätigt oder rückgängig macht. Wenn Frontier-Agenten immer noch bei 35 % der GAIA-Fragen auf Level 3 scheitern, die für Menschen konzeptionell einfach sind, ist dies eine direkte Warnung bezüglich der Zuverlässigkeit bei mehrstufigen Ledger-Operationen.
Das GAIA-Designprinzip – eindeutig, verifizierbar, für Menschen bewältigbar – ist auch eine nützliche Vorlage für die Bewertung von Beancount-Agenten. Ich habe darüber nachgedacht, wie ein „FinGAIA“-Set aussehen könnte: Fragen wie „Welches Konto ist bei dieser Ledger-Datei am Monatsende überzogen?“ oder „Was ist der USD-Gegenwert des EUR-Saldos am 31.12.2024?“, die eindeutig sind, Werkzeugnutzung erfordern und über drei Komplexitätsstufen hinweg abgestuft sind. Die Methodik von GAIA lässt sich direkt übertragen; nur die Domäne muss ersetzt werden.
Eine Sache, die GAIA nicht anspricht – und die Bean Labs letztendlich lösen muss – ist das sichere Zurückschreiben (safe write-back). Alle GAIA-Aufgaben basieren auf dem Prinzip „Lesen und Antworten“. Ein autonomer Beancount-Agent, der den Ledger-Zustand ändert, benötigt ein separates Evaluierungsprotokoll für Korrektheit, Atomizität und Reversibilität. GAIA zeigt, dass Agenten die richtige Antwort finden können; es sagt nichts darüber aus, ob sie diese auch sicher übernehmen können.
Was Sie als Nächstes lesen sollten
- TheAgentCompany (arXiv:2412.14161) – 175 Aufgaben innerhalb eines simulierten Softwareunternehmens mit echten internen Werkzeugen; der beste Agent erledigt 24 % autonom; das direkteste Analogon zur Evaluierung eines Beancount-Agenten, der in einen realen Buchhaltungs-Workflow eingebettet ist.
- AssistantBench (arXiv:2407.15711, Yoran et al., 2024) – bewertet Web-Agenten bei realistischen, zeitaufwendigen Aufgaben, die von echten Nutzern eingereicht wurden; ergänzt GAIA durch das Testen von offenem Retrieval anstelle von festen, verifizierbaren Antworten.
- WorkArena++ (arXiv:2407.05291) – erweitert WorkArena auf 682 zusammengesetzte, mehrstufige Unternehmensaufgaben; die schwierigsten (Level 3) bleiben von aktuellen Modellen ungelöst und stellen somit die nächste Schwierigkeitsstufe nach GAIA Level 3 dar.
