TheAgentCompany: Benchmarking von LLM-Agenten bei realen Unternehmensaufgaben
TheAgentCompany ist der realistischste Benchmark für Unternehmensagenten, den ich bisher in dieser Serie gelesen habe. Er stammt von Graham Neubigs Gruppe an der CMU und wurde für die NeurIPS 2024 eingereicht, motiviert durch eine klare Lücke: Bestehende Benchmarks testen isolierte Web-Navigation oder das Lösen von GitHub-Issues, aber reale Arbeitsaufgaben erfordern, dass Agenten interne Plattformen durchsuchen, Kollegen Nachrichten schreiben, Code schreiben und Programme innerhalb einer einzigen Aufgabe ausführen. Ich lese ihn jetzt, weil es das am engsten kontrollierte Experiment ist, das wir dazu haben, ob LLM-Agenten tatsächlich als digitale Kollegen in einem relevanten Umfeld fungieren können.
Das Paper
Xu et al. konstruieren ein in sich geschlossenes, simuliertes Unternehmen: einen lokalen Arbeitsbereich plus ein Intranet mit realen Instanzen von GitLab, OwnCloud, Plane (Projektmanagement) und RocketChat (Team-Messaging). Die Umgebung umfasst auch simulierte Kollegen – NPCs, die auf LLMs basieren –, sodass Agenten Nachrichten senden und während der Aufgabe Anleitung erhalten können. Die Aufgaben erstrecken sich über sieben Rollenkategorien: Softwareentwicklung (SDE), Projektmanagement, Personalwesen (HR), Data Science, Finanzen, Administration und eine Sammelkategorie „Sonstiges“. Insgesamt sind es 175 Aufgaben, die von 20 Informatikstudenten und Softwareentwicklern über einen Zeitraum von zwei Monaten in etwa 3.000 Personenstunden erstellt wurden.
Die Evaluierung nutzt ein Checkpoint-System: Jede Aufgabe hat Zwischenmeilensteine, die einen Bruchteil der Gesamtpunktzahl wert sind, plus einen Bonus für den vollständigen Abschluss. Die Bewerter sind entweder deterministisch (Prüfung von Dateiinhalten, Code-Ausgaben, Umgebungszustand) oder LLM-basiert (Bewertung von Freitext). Alle Modelle laufen unter dem OpenHands-Agenten-Framework, das Codeausführung, Web-Browsing und Terminalzugriff über eine einzige konfigurierbare Schnittstelle bietet.
Kerngedanken
- Gemini-2.5-Pro führt mit 30,3 % vollständigem Abschluss und 39,3 % Teilpunktzahl; Claude-3.7-Sonnet folgt mit 26,3 % / 36,4 %; GPT-4o erreicht nur 8,6 % / 16,7 %; Llama-3.1-405B schafft 7,4 %.
- Das beste Modell benötigt im Durchschnitt etwa 27 Agentenschritte und kostet über 4 $ pro Aufgabe – selbst für Aufgaben, die die Autoren als einfacher als die reale Komplexität am Arbeitsplatz beschreiben.
- Finanzaufgaben gehören zu den schwierigsten Kategorien, neben Administration und Data Science; SDE-Aufgaben sind zuverlässig am einfachsten, obwohl sie spezialisierteres technisches Wissen erfordern.
- Drei Fehlermodi dominieren: das Navigieren in komplexen Web-UIs (insbesondere der Office-Suite von OwnCloud), das Unvermögen, Nachrichten von Kollegen produktiv zu nutzen („Mangel an sozialen Fähigkeiten“) und das Abbrechen von Admin-Aufgaben mit mehreren Dokumenten, die mühsame Querverweise erfordern.
- Die Autoren führen den SDE-Vorteil direkt auf eine Verzerrung in den Trainingsdaten zurück: Das LLM-Pretraining ist aufgrund prominenter Benchmarks und reichlich vorhandener öffentlicher Trainingssignale stark auf Code- und GitHub-Daten ausgerichtet, sodass Modelle weit besser auf Softwareaufgaben generalisieren als auf HR- oder Finanz-Workflows.
Was Bestand hat – und was nicht
Das Design der Umgebung ist wirklich beeindruckend. Dass echtes GitLab, OwnCloud und RocketChat anstelle von simulierten Stubs verwendet werden, bedeutet, dass Agenten mit authentischer UI-Komplexität konfrontiert werden – echten Pop-ups, Authentifizierungs-Flows und Grenzfällen. Die checkpoint-basierte Teilbewertung ist ebenfalls die richtige Entscheidung: Ein binärer Erfolg/Fehlschlag würde die meisten Aufgaben einheitlich hoffnungslos erscheinen lassen und verschleiern, wo Agenten tatsächlich Fortschritte machen.
Dennoch gibt es einige Schwachstellen. Am kritischsten ist, dass es keine menschliche Baseline gibt. Die Autoren räumen dies ein – Ressourcenbeschränkungen verhinderten das Sammeln menschlicher Zeitmessungen oder Erfolgsraten –, was bedeutet, dass uns ein Nenner fehlt. 30 % Agenten-Abschluss klingt schlecht, aber ohne zu wissen, ob ein Mensch 20 Minuten oder 3 Stunden für dieselbe Aufgabe aufwenden würde oder ob einige Aufgaben tatsächlich mehrdeutig sind, ist die Zahl schwer einzuordnen.
Die Finanzkategorie umfasst nur 12 Aufgaben. Das ist zu wenig, um robuste Schlussfolgerungen über finanzspezifische Fehler zu ziehen. Sind Agenten in Finanzen schlechter wegen einer Eigenschaft des finanziellen Denkens oder weil die Finanzaufgaben zufällig mehr Navigation in OwnCloud-Dokumenten beinhalten? Das Paper kann dies bei dieser Größenordnung nicht klären, und die Autoren versuchen es auch nicht.
Die Autoren räumen zudem ein, dass die Aufgaben „generell eher auf der unkomplizierten Seite liegen, da sie automatisch mit Programmen und Testfällen evaluiert werden müssen“. Die schwierigsten realen Buchhaltungs- oder Finanzaufgaben – die Erstellung einer Jahresabstimmung aus inkonsistenten Quelldaten, das Aufzeigen von regulatorischen Compliance-Problemen, das Erstellen eines Management-Berichts über mehrere Buchungsperioden hinweg – sind im Wesentlichen unmöglich automatisch zu evaluieren. Der Benchmark bildet wahrscheinlich genau die Aufgaben unterrepräsentiert ab, die für autonome Finanzagenten am wichtigsten wären.
Warum dies für Finanz-KI wichtig ist
Die Ergebnisse hier sind auf eine nützliche Weise ernüchternd. Eine Abschlussquote von 30 % bei Aufgaben, die die Autoren als vereinfacht bezeichnen, bedeutet, dass autonome Agenten noch lange nicht einsatzbereit für reale Buchhaltungs-Workflows sind. Die Finanzkategorie ist besonders schwach, und die dominierenden Fehlermodi – komplexe UIs, Abruf aus mehreren Dokumenten, Kommunikationsprobleme mit menschlichen Gegenübern – sind genau die Fähigkeiten, die ein Beancount-Automatisierungsagent benötigen würde: Daten aus dem Dokumentenspeicher ziehen, Transaktionen über Berichte hinweg abgleichen und klärende Fragen stellen, bevor Buchungen vorgenommen werden.
Die Kosten von 4 $ pro Aufgabe für das beste Modell sind ein entscheidender Faktor. Bei dieser Rate würde der Einsatz eines Agenten für einen routinemäßigen Monatsabschluss mit Dutzenden von Teilaufgaben hunderte Dollar kosten, ohne Garantie auf Zuverlässigkeit. Das Muster von Gemini-2.0-Flash, Verluste frühzeitig zu begrenzen – Erreichen einer Teilpunktzahl von 19,0 % bei weniger als 1 $ pro Aufgabe –, deutet darauf hin, dass es einen echten technischen Wert hat, zu wissen, wann man aufhören und eskalieren sollte, anstatt Token für eine scheiternde Strategie zu verschwenden.
Die simulierten Kollegen-NPCs sind ein interessantes Design-Primitiv, das direkt auf die reale Einschränkung von Beancount übertragbar ist: Agenten, die Benutzerfeedback ignorieren und mit falschen Annahmen fortfahren, sind gefährlicher als Agenten, die anhalten und nachfragen. Die Erkenntnis des Benchmarks, dass aktuelle Modelle keine nützlichen Informationen aus den Nachrichten von Kollegen extrahieren können, sollte ein direkter Design-Input für jeden Agenten mit Schreibzugriff sein, der während einer Sitzung mit einem menschlichen Buchhalter interagiert.
Was als Nächstes zu lesen ist
- OpenHands: An Open Platform for AI Software Developers as Generalist Agents — das Agenten-Framework, das TheAgentCompany zugrunde liegt; arXiv:2407.16741, ICLR 2025. Das Verständnis der CodeAct- und Browsing-Architektur von OpenHands klärt, welche Agenten-Fähigkeiten Standard sind und was TheAgentCompany tatsächlich testet.
- DocFinQA: A Long-Context Financial Reasoning Dataset — erweitert 7.437 FinQA-Fragen auf vollständige SEC-Einreichungen mit durchschnittlich 123.000 Wörtern; arXiv:2401.06915, ACL 2024. Testet direkt das Finanzdenken in langen Dokumenten, das die 12 Finanzaufgaben von TheAgentCompany nicht angemessen erfassen können.
- Evaluation and Benchmarking of LLM Agents: A Survey — arXiv:2507.21504. Ein Survey der Agenten-Evaluierungslandschaft aus dem Jahr 2025, der TheAgentCompany in den Kontext von WebArena, OSWorld und SWE-bench stellt und nachzeichnet, wie Designentscheidungen bei Benchmarks unsere Schlussfolgerungen über die Fähigkeiten von Agenten prägen.
