Zum Hauptinhalt springen

AgentBench: Evaluierung von LLMs als Agenten — Lehren für die Zuverlässigkeit von Finanz-KI

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Wenn ich mich frage, was ein Beancount-Write-Back-Agent tatsächlich zuverlässig tun muss, lautet die Antwort nicht „Text generieren“ — sondern „eine Sequenz von Aktionen in einer strukturierten Umgebung ausführen, ohne zu entgleisen“. AgentBench (Liu et al., Tsinghua, ICLR 2024) ist einer der ersten ernsthaften Versuche, diese Fähigkeit in großem Maßstab zu messen, und die Zahlen aus der Momentaufnahme von 2023 enthalten immer noch wertvolle Erkenntnisse.

Das Paper

2026-05-06-agentbench-evaluating-llms-as-agents

AgentBench, verfasst von Xiao Liu und 21 Koautoren der Tsinghua-Universität, definiert acht Umgebungen, die darauf ausgelegt sind, LLMs als interaktive Agenten und nicht als passive Textgeneratoren zu testen. Fünf Umgebungen sind original: OS (Bash-Interaktion), Datenbank (SQL-Generierung und Fehlerbehebung), Wissensgraph (werkzeugbasierte strukturierte Abfragen), digitales Kartenspiel (strategischer Wettbewerb über mehrere Runden) und Rätsel zum lateralen Denken (deduktiver Dialog). Drei wurden aus bestehenden Datensätzen adaptiert: House-Holding von ALFWorld, Web Shopping von WebShop und Web Browsing von Mind2Web. Das Paper evaluiert 27 Modelle — kommerzielle API-Modelle und Open-Source-Modelle bis zu 70B — über etwa 4.000 Dev-Split- und 13.000 Test-Split-Generationen und berichtet sowohl Erfolgsraten pro Umgebung als auch einen zusammengesetzten Gesamtwert.

Kerngedanken

  • GPT-4 führt mit einer Gesamtpunktzahl von 4,01. Claude-2 erreicht 2,49, GPT-3.5-turbo 2,32. CodeLlama-34B, das stärkste Open-Source-Modell zum Zeitpunkt der Einreichung, kommt nur auf 0,96. API-basierte Modelle erreichen im Durchschnitt 2,24 gegenüber 0,42 bei Open-Source-Modellen.
  • GPT-4 erzielt 42,4 % bei OS, 32,0 % bei Datenbanken und 78,0 % bei House-Holding — die Streuung zeigt, welche Umgebungen das Befolgen von Anweisungen (Instruction-Following) gegenüber strukturiertem Schlussfolgern belohnen.
  • „Task Limit Exceeded“ (Aufgabenlimit überschritten) ist der dominante Fehlermodus: 67,9 % der Fehler beim Wissensgraph erreichten das Schrittbudget, bevor die Aufgabe gelöst wurde. Dies ist ein Versagen beim langfristigen Schlussfolgern, kein Wissensdefizit.
  • Fehler bei der Formatkonformität machen 53,3 % der Datenbankfehler aus — der Agent produziert syntaktisch falsches SQL oder bettet Abfragen in Fließtext ein, den der Evaluator nicht parsen kann.
  • Die Auswahl ungültiger Aktionen führt zu 64,1 % der House-Holding-Fehler — der Agent nennt eine Aktion, die im aktuellen Zustand nicht verfügbar ist.
  • Das Training auf Code hat „ambivalente Auswirkungen auf die verschiedenen Aufgaben“: Es hilft in Umgebungen, in denen Prozeduren befolgt werden müssen, kann aber das allgemeine logische Denken in dialoglastigen Umgebungen beeinträchtigen.

Was Bestand hat — und was nicht

Die grundlegende Designentscheidung — eine interaktive Multi-Umgebungs- und Multi-Turn-Evaluierung — ist richtig und wird immer noch zu wenig genutzt. Die meisten LLM-Benchmarks messen nach wie vor die Qualität der Generierung in einem einzigen Schritt; AgentBench besteht zu Recht darauf, dass Agenten so lange Entscheidungen treffen müssen, bis eine Aufgabe erledigt oder das Budget aufgebraucht ist.

Dennoch ist die Momentaufnahme in einer Weise veraltet, die ins Gewicht fällt. Die Lücke zwischen GPT-4 (4,01) und dem besten Open-Source-Modell (0,96) sah Mitte 2023 alarmierend aus, hat sich aber bis 2025 weitgehend geschlossen. Modelle wie Llama 3.1 70B oder Qwen 2.5 72B meistern heute Hürden bei der Anweisungsbefolgung und Formatkonformität, die vor zwei Jahren noch neuartige Hindernisse darstellten. Das Paper als Beweis dafür zu lesen, dass „Open-Source keine agentischen Aufgaben bewältigen kann“, wäre ein Fehler; es als Beweis dafür zu lesen, dass „Formatkonformität und langfristige Konsistenz die schwierigen Probleme sind“, ist nach wie vor korrekt.

Es gibt auch ein Spannungsverhältnis zwischen Breite und Tiefe. Acht Umgebungen klingen umfassend, aber jede einzelne ist relativ oberflächlich. WebArena (Zhou et al., 2024) deckt allein das Webbrowsing mit 812 langfristigen Vorlagen-Aufgaben ab; OSWorld (Xie et al., 2024) benchtmarkt 369 reale Desktop-Aufgaben unter Ubuntu und Windows. AgentBench kann ein Signal über verschiedene Umgebungen hinweg liefern, ersetzt aber keinen domänenspezifischen Benchmark, sobald man die relevante Umgebung identifiziert hat.

Die Taxonomie der Fehlermodi in Tabelle 4 ist wahrscheinlich der nachhaltigste Beitrag. Die Autoren unterteilen Fehler in „Task Limit Exceeded“, „Format Error“, „Invalid Action“ und einige andere. Dies sind keine Implementierungsfehler — es sind strukturelle Schwächen darin, wie LLMs den Zustand aufrechterhalten, verfügbare Aktionen verfolgen und parsbaren Output unter dem Druck mehrerer Interaktionsrunden produzieren. Jedes ernsthafte Agenten-System muss diese adressieren.

Warum das für Finanz-KI wichtig ist

Die drei dominanten Fehlermodi lassen sich fast direkt auf das übertragen, was ich bei einem Beancount-Write-Back-Agenten als Fehlerquellen erwarten würde.

Task Limit Exceeded ist der Fehlermodus bei der Abstimmung des Hauptbuchs (Ledger Reconciliation). Der Abschluss einer Periode über mehrere Konten hinweg erfordert die Prüfung von Eröffnungsbilanzen, den Abgleich von Soll und Haben, das Identifizieren von Diskrepanzen und das Vorschlagen von Korrekturen — eine Kette, die leicht 10–20 Schritte umfassen kann. Ein Agent, der mitten in der Kette sein Kontext- oder Schrittbudget erreicht und aufgibt, scheitert nicht einfach nur kontrolliert; er kann das Hauptbuch in einem teilweise modifizierten Zustand hinterlassen.

Format Error ist der Fehlermodus bei der Transaktionseingabe. Beancount hat eine strikte Syntax: Eine fehlerhafte Buchung (fehlende Währung, falsche Einrückung, ungültiges Flag) ist ein Parser-Fehler, der die gesamte Datei korrumpiert. Ein Agent, der Prosa um seine Beancount-Ausgabe generiert oder eine korrekt aussehende Syntax im falschen Format produziert, ist nutzlos. Dies ist das Kernproblem des CRITIC-Papers, angewandt auf eine strengere Domäne.

Invalid Action ist das Problem der Sicherheit beim Zurückschreiben. Ein Beancount-Agent, der auf einem echten Hauptbuch operiert, hat einen begrenzten Satz an sicheren Operationen: eine Transaktion anhängen, ein Flag korrigieren, eine Buchung verschieben. Eine Aktion außerhalb dieses Satzes zu halluzinieren — zum Beispiel das Löschen eines Kontos, das noch offene Positionen hat — ist ein Korrektheitsfehler, der unter Umständen erst bei einer Prüfung auffällt.

Die Erkenntnis, dass „Code-Training ambivalente Auswirkungen hat“, ist ebenfalls relevant. Das Zurückschreiben in Beancount ist näher an der Codegenerierung als am Abruf von Wissen, daher sollte ein auf Code vortrainiertes Modell von Natur aus gut passen. Wenn das Code-Training jedoch die Dialogführung in Multi-Turn-Szenarien verschlechtert, ist eine hybride Evaluierung (wie die von AgentBench) notwendig, um diese Kompromisse vor dem Einsatz aufzudecken.

Was Sie als Nächstes lesen sollten

  • WebArena (Zhou et al., 2024; arXiv:2307.13854) — 812 Web-Browsing-Aufgaben in einer Live-Browser-Umgebung; das tiefgreifendere Follow-up zur webbasierten Ebene von AgentBench.
  • OSWorld (Xie et al., 2024; NeurIPS 2024) — Benchmark für vollständige Desktop-Umgebungen einschließlich Dateisystem- und GUI-Aufgaben; die OS-Umgebung von OSWorld ist ein direkter, tiefergehender Nachfolger der OS-Ebene von AgentBench.
  • TAU-bench (Yao et al., 2024) — evaluiert Agenten in API-Umgebungen für Einzelhandel und Fluggesellschaften mit realer Werkzeugnutzung und Benutzersimulation; der am nächsten kommende veröffentlichte Benchmark für ein Szenario, in dem ein Beancount-Hauptbuch als Umgebung dient.