Zum Hauptinhalt springen

WorkArena++: Die 93%-Lücke zwischen menschlicher Leistung und der von KI-Agenten bei kompositorischen Unternehmensaufgaben

· 5 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

WorkArena++ (arXiv:2407.05291, NeurIPS 2024) erweitert den ursprünglichen WorkArena-Benchmark auf 682 kompositorische Unternehmensaufgaben, die das Verketten mehrerer Workflows erfordern – genau die mehrstufige Wissensarbeit, die ein Beancount-Automatisierungsagent bewältigen müsste. Ich lese es jetzt, weil das ursprüngliche WorkArena-Log (LOG-061) die Frage offen ließ, was passiert, wenn man atomare Aufgaben zu echten Workflows zusammensetzt. Die Antwort, wie dieses Paper verdeutlicht, ist, dass jedes aktuelle LLM massiv einbricht.

Das Paper

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

Boisvert et al. von ServiceNow Research nehmen die atomaren Aufgabenkomponenten aus der ursprünglichen WorkArena – Formularausfüllung, Listenfilterung, Wissensdatenbank-Suche, Dashboard-Lesen – und setzen sie zu realistischen mehrstufigen Unternehmens-Workflows zusammen. Der Benchmark läuft vollständig innerhalb einer Live-ServiceNow-Instanz über die BrowserGym-Umgebung, die den Agenten HTML-Beobachtungen und optionale Screenshot-Eingaben liefert.

Die entscheidende strukturelle Entscheidung ist eine Schwierigkeitshierarchie auf drei Ebenen. L1 ist die ursprüngliche WorkArena: atomare Aufgaben mit einer einzigen Aktion wie „Filtere diese Liste nach Status = Geschlossen“. L2 führt kompositorische Aufgaben mit expliziten Schritt-für-Schritt-Anweisungen ein – der Agent erhält eine vollständige Prozedur im Chat, muss aber eine Kette von Teilaufgaben über verschiedene ServiceNow-Module hinweg ausführen, ohne den Überblick zu verlieren. L3 ist die schwierige Version: Der Agent erhält nur ein implizites Ziel („Onboarding eines neuen Mitarbeiters“) und muss zunächst die relevante Prozedur aus der Wissensdatenbank des Unternehmens abrufen, bevor er die Schritte plant und ausführt. Genau so arbeiten echte Wissensarbeiter.

Die Autoren integrieren zudem einen Mechanismus, um automatisch Ground-Truth-Beobachtungs-Aktions-Traces aus Oracle-Lösungen zu generieren, was ein überwachtes Fine-Tuning ohne manuelle Annotation ermöglicht.

Kernaussagen

  • Menschen lösen 93,9 % der zusammengesetzten Aufgaben; GPT-4o löst 2,1 %. Dies ist kein Versagen des Sprachverständnisses, sondern ein Versagen bei der Planung und Ausführung in großem Maßstab.
  • Kein Modell schließt eine L3-Aufgabe ab. Die Anforderung, eine Prozedur abzurufen, Schritte zu planen und ohne explizite Anleitung auszuführen, ist für alle getesteten Modelle, einschließlich GPT-4o-v (die vision-fähige Variante), völlig ungelöst.
  • Nur GPT-4o und GPT-4o-v sind bei einer Teilmenge der L2-Aufgaben erfolgreich, primär bei Aufgaben, die auf bloßem Merken basieren. Llama3-basierte Agenten scheitern weitgehend sowohl bei L2 als auch bei L3.
  • Der Realismus von L3-Aufgaben ist die zentrale Designentscheidung: Ein implizites Ziel wie „Onboarding eines neuen Mitarbeiters“ ohne Prozedur zu erhalten – und diese dann nachschlagen zu müssen – entspricht der Art und Weise, wie Mitarbeiter in Unternehmensumgebungen tatsächlich Aufgaben erhalten.
  • Fünf Fähigkeitsdimensionen werden getestet: Planung unter Einschränkungen, Informationsbeschaffung, datengesteuertes Denken, sequenzielles Gedächtnis und das Erkennen von nicht machbaren Aufgaben.
  • Dokumentierte Fehlermodi: Halluzinationen über UI-Elemente, Unfähigkeit, mehrstufige Pläne über einen langen Kontext hinweg aufrechtzuerhalten, und Scheitern beim Abgleich von Informationen aus separaten Dokumenten.

Was Bestand hat – und was nicht

Die Schlagzeile von 93,9 % gegenüber 2,1 % ist beeindruckend, aber mechanistisch erklärbar. L2 und L3 erfordern, dass ein Modell sich daran erinnert, was es vor drei Schritten getan hat, Informationen aus einem Dokument mit einem Formular korreliert, das es gleich ausfüllen wird, und erkennt, wenn ein Teilschritt vom Abschluss eines vorherigen abhängt. Dies sind keine exotischen Fähigkeiten – Menschen erledigen sie mühelos –, aber aktuelle LLM-Agenten scheitern an der Koordination.

Was ich hier am wertvollsten finde, ist das L2-gegenüber-L3-Design. L2 gibt dem Agenten eine Prozedur vor; L3 nicht. Der Leistungseinbruch dazwischen isoliert genau eine Fähigkeit: den Ersatz expliziter Anweisungsbefolgung durch Abruf plus Planung. Das ist der schwierige Teil autonomer Wissensarbeit, und der Benchmark legt dies sauber offen.

Was das Paper nicht tut, ist zu zeigen, dass der Mechanismus der Trainings-Traces tatsächlich hilft. Die Autoren stellen die Infrastruktur zur Generierung von Fine-Tuning-Daten bereit und geben an, dass Modelle damit trainiert werden können – aber sie berichten keine Ergebnisse dazu. Ohne dieses Experiment bleibt WorkArena++ ein Benchmark, an dem alle aktuellen Agenten scheitern, ohne einen nachgewiesenen Pfad zur Verbesserung. Das schränkt seinen kurzfristigen Nutzen als Trainingsziel ein.

Die Abhängigkeit von ServiceNow schränkt zudem die Generalisierbarkeit ein. ServiceNow verfügt über eine ungewöhnlich strukturierte, gut dokumentierte Benutzeroberfläche. Wenn Agenten hier scheitern, werden sie bei den chaotischeren Unternehmenssystemen, die die meisten Organisationen tatsächlich nutzen, noch kläglicher versagen.

Warum das für Finanz-KI wichtig ist

Die Verbindung zur Beancount-Automatisierung ist direkt. Ein autonomer Buchhaltungsagent verrichtet standardmäßig Arbeit im L3-Stil: Ein Benutzer sagt „gleiche die Ausgaben des letzten Monats ab“, und der Agent muss die relevante Kontenstruktur aus dem Hauptbuch abrufen, planen, welche Einträge zu prüfen sind, diese mit importierten Bankdaten abgleichen und Rückschreibvorgänge ausführen – alles ohne Schritt-für-Schritt-Anleitung. WorkArena++ beziffert, wie schlecht aktuelle Agenten mit diesem Muster umgehen.

Der Mechanismus der Trainings-Traces ist ebenfalls sofort anwendbar. Beancount-Aufgaben haben deterministische Oracle-Lösungen – die korrekten Journalbuchungen sind verifizierbar –, was bedeutet, dass Ground-Truth-Traces in großem Maßstab für das Fine-Tuning eines spezialisierten Ledger-Agenten generiert werden könnten. Das ist genau das, was WorkArena++ ermöglicht, ohne es im Paper selbst auszuschöpfen. Es ist eher ein Design-Entwurf als ein gelöstes Problem.

Die Erfolgsquote von null bei L3 ist der nützlichste Kalibrierungspunkt für Bean Labs: Selbst in einer kontrollierten Unternehmensumgebung mit sauberen Daten und einer gut strukturierten Oberfläche können modernste Agenten noch nicht mit kompositorischen Aufgaben mit impliziten Zielen umgehen. Diese Lücke ist der Ort, an dem die interessante Forschung stattfindet.

Was man als Nächstes lesen sollte

  • TheAgentCompany (arXiv:2412.14161) – 175 Aufgaben innerhalb eines simulierten Softwareunternehmens mit echten internen Tools (GitLab, RocketChat); der beste Agent schafft ca. 30 %; ein naturalistischeres Unternehmensumfeld als ServiceNow.
  • τ²-bench (arXiv:2506.07982) – erweitert τ-bench auf Umgebungen mit dualer Steuerung, in denen sowohl der Agent als auch der Benutzer gleichzeitig den gemeinsamen Status ändern können; direkt relevant für Beancount-Sitzungen, in denen Benutzer und Agenten gemeinsam ein Hauptbuch bearbeiten.
  • CRMArena-Pro (arXiv:2505.18878) – Ganzheitliche Bewertung von LLM-Agenten über CRM-Geschäftsszenarien hinweg mit neueren Modellen; testet, ob sich die Fähigkeitslücke von WorkArena++ verringert hat.