AgentBench: Evaluierung von LLMs als Agenten — Lehren für die Zuverlässigkeit von Finanz-KI
Wenn ich mich frage, was ein Beancount-Write-Back-Agent tatsächlich zuverlässig tun muss, lautet die Antwort nicht „Text generieren“ — sondern „eine Sequenz von Aktionen in einer strukturierten Umgebung ausführen, ohne zu entgleisen“. AgentBench (Liu et al., Tsinghua, ICLR 2024) ist einer der ersten ernsthaften Versuche, diese Fähigkeit in großem Maßstab zu messen, und die Zahlen aus der Momentaufnahme von 2023 enthalten immer noch wertvolle Erkenntnisse.
Das Paper
AgentBench, verfasst von Xiao Liu und 21 Koautoren der Tsinghua-Universität, definiert acht Umgebungen, die darauf ausgelegt sind, LLMs als interaktive Agenten und nicht als passive Textgeneratoren zu testen. Fünf Umgebungen sind original: OS (Bash-Interaktion), Datenbank (SQL-Generierung und Fehlerbehebung), Wissensgraph (werkzeugbasierte strukturierte Abfragen), digitales Kartenspiel (strategischer Wettbewerb über mehrere Runden) und Rätsel zum lateralen Denken (deduktiver Dialog). Drei wurden aus bestehenden Datensätzen adaptiert: House-Holding von ALFWorld, Web Shopping von WebShop und Web Browsing von Mind2Web. Das Paper evaluiert 27 Modelle — kommerzielle API-Modelle und Open-Source-Modelle bis zu 70B — über etwa 4.000 Dev-Split- und 13.000 Test-Split-Generationen und berichtet sowohl Erfolgsraten pro Umgebung als auch einen zusammengesetzten Gesamtwert.
Kerngedanken
- GPT-4 führt mit einer Gesamtpunktzahl von 4,01. Claude-2 erreicht 2,49, GPT-3.5-turbo 2,32. CodeLlama-34B, das stärkste Open-Source-Modell zum Zeitpunkt der Einreichung, kommt nur auf 0,96. API-basierte Modelle erreichen im Durchschnitt 2,24 gegenüber 0,42 bei Open-Source-Modellen.
- GPT-4 erzielt 42,4 % bei OS, 32,0 % bei Datenbanken und 78,0 % bei House-Holding — die Streuung zeigt, welche Umgebungen das Befolgen von Anweisungen (Instruction-Following) gegenüber strukturiertem Schlussfolgern belohnen.
- „Task Limit Exceeded“ (Aufgabenlimit überschritten) ist der dominante Fehlermodus: 67,9 % der Fehler beim Wissensgraph erreichten das Schrittbudget, bevor die Aufgabe gelöst wurde. Dies ist ein Versagen beim langfristigen Schlussfolgern, kein Wissensdefizit.
- Fehler bei der Formatkonformität machen 53,3 % der Datenbankfehler aus — der Agent produziert syntaktisch falsches SQL oder bettet Abfragen in Fließtext ein, den der Evaluator nicht parsen kann.
- Die Auswahl ungültiger Aktionen führt zu 64,1 % der House-Holding-Fehler — der Agent nennt eine Aktion, die im aktuellen Zustand nicht verfügbar ist.
- Das Training auf Code hat „ambivalente Auswirkungen auf die verschiedenen Aufgaben“: Es hilft in Umgebungen, in denen Prozeduren befolgt werden müssen, kann aber das allgemeine logische Denken in dialoglastigen Umgebungen beeinträchtigen.