WorkArena: Wie LLM-Web-Agenten bei realer Wissensarbeit in Unternehmen abschneiden
Nach der Lektüre der Evaluierung von τ-bench über Tool-Calling-Agenten in den Bereichen Einzelhandel und Luftfahrt wollte ich in den Bereich der Unternehmenssoftware vordringen – das Territorium, in dem Beancount-ähnliche Agenten tatsächlich operieren müssen. WorkArena (Drouin et al., ServiceNow Research, 2024) bewertet LLM-Web-Agenten anhand von 33 realen Aufgaben innerhalb der ServiceNow-Unternehmensplattform und ist damit der direkteste existierende Test dafür, ob aktuelle Modelle echte Arbeitsabläufe von Wissensarbeitern automatisieren können, anstatt nur synthetische Spielzeugszenarien.
Das Paper
„WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks?“ führt einen Benchmark mit 33 Aufgaben und 19.912 eindeutigen Instanzen ein, die aus der ServiceNow-Unternehmenssoftwareplattform stammen. Die Aufgaben decken sechs Kategorien ab, die Wissensarbeiter tatsächlich täglich ausführen: Filtern und Sortieren von Listen, Ausfüllen von Formularen, Durchsuchen von Wissensdatenbanken, Bestellen aus Servicekatalogen, Lesen von Dashboards und Navigieren in Menüs. Zusammen mit dem Benchmark veröffentlichen die Autoren BrowserGym, ein Evaluierungs-Framework, das Agenten reichhaltige multimodale Beobachtungen bietet – HTML, Barrierefreiheitsbäume (Accessibility Trees), Screenshots – sowie einen standardisierten Aktionsraum für Web-Interaktionen.
Die Kernfrage des Papers ist, ob aktuelle LLMs die strukturierten, mehrstufigen und UI-beschränkten Workflows bewältigen können, die echte Unternehmenssoftware erfordert. Dies sind keine ergebnisoffenen Suchaufgaben oder Single-Turn-QA; es sind zielgerichtete Sequenzen von Klicks, Formulareingaben und Filteroperationen, die verifizierbare Spuren in einem Live-System hinterlassen. Diese Eigenschaft der Verifizierung anhand des Systemzustands unterscheidet WorkArena maßgeblich von den meisten agentenbasierten Benchmarks und ist genau die Eigenschaft, die ein Beancount-Schreibagent erfüllen müsste.
Kernideen
- GPT-4o erreicht insgesamt 42,7 % auf WorkArena mit Chain-of-Thought-Prompting; GPT-3.5-Turbo schafft nur 6,1 %, und das Open-Source-Modell Llama3-70B-Instruct liegt bei 17,9 % – eine Lücke von 25 Prozentpunkten zwischen führenden proprietären und führenden Open-Source-Modellen.
- Listenfilter-Aufgaben sind eine unüberwindbare Hürde: 0 % für jedes Modell. Das ServiceNow-Listen-Widget verwendet nicht standardmäßiges HTML, mit dem keiner der getesteten Agenten zuverlässig interagieren konnte. Das Sortieren ist fast genauso schlecht: GPT-4o erreicht nur 10 % bei Listen-Sortieraufgaben.
- Servicekatalog-Aufgaben sind überraschend gut lösbar: GPT-4o erreicht 77,8 % bei den neun Servicekatalog-Aufgaben, wo die Benutzeroberfläche konventioneller ist und die erforderlichen Aktionen eng mit Formularausfüllmustern korrespondieren, die das Modell wahrscheinlich im Training gesehen hat.
- Multimodale Beobachtungen helfen kaum. Das Hinzufügen von Screenshots zu den Beobachtungen von GPT-4o führte zu „sehr geringfügigen Leistungsverbesserungen“, was darauf hindeutet, dass der Flaschenhals im Verständnis der UI-Struktur liegt und nicht im Fehlen visueller Eingaben.
- Chain-of-Thought ist tragend. Das Entfernen senkt die Leistung von Llama3-70B um etwa 10 Punkte, was bestätigt, dass mehrstufige Web-Aufgaben explizite Zwischenschritte beim Denken erfordern und nicht nur die Vorhersage von Aktionen.
- Gedächtnismechanismen gingen nach hinten los. Das Aktivieren eines
use_think_history-Flags führte dazu, dass Agenten „an Entscheidungen festhielten, die in frühen Schritten getroffen wurden, selbst an fehlerhaften“ – ein konkretes Beispiel für starre Festlegung, die sich als Planung tarnt.
Was Bestand hat – und was nicht
Die wertvollste Eigenschaft des Benchmarks ist, dass er gegen eine Live-ServiceNow-Instanz läuft: Der Erfolg wird dadurch bestimmt, ob sich der Systemzustand tatsächlich korrekt geändert hat, nicht durch String-Matching gegen eine erwartete Ausgabe. Das macht die 0 % bei den Listenfilter-Aufgaben besonders vernichtend – es gibt kein Verstecken. Die Aufgabenvielfalt ist ebenfalls repräsentativ: Die sechs Kategorien decken die gesamte Bandbreite dessen ab, womit Wissensarbeiter Zeit verbringen, und sind keine selektierten Vorzeigeaufgaben.
Weniger zufriedenstellend finde ich die Behandlung der Fehlermodi. Das Paper stellt fest, dass exotische HTML-Strukturen, verschachtelte iFrames und Shadow-DOMs Agenten überfordern, analysiert jedoch nicht systematisch, welche strukturellen Merkmale verantwortlich sind oder in welchem Verhältnis. Das Problem der DOM-Größe – HTML-Bäume zwischen 40k und 500k Token – wird erwähnt, aber nicht tiefgehend analysiert: Wir wissen nicht, ob Zusammenfassungen, Chunking oder Beobachtungen nur auf Basis des Barrierefreiheitsbaums die Leistung verbessern würden. Die Single-Agent-Architektur wird auch nie mit einem zerlegten Multi-Agent-Setup verglichen (z. B. ein Split in Selector/Executor), sodass unklar bleibt, ob das 0%-Ergebnis beim Listenfiltern ein Schnittstellenproblem, ein Planungsproblem oder beides ist.
Es stellt sich auch eine Frage zur Validität der Plattform. ServiceNow ist ein spezifischer Software-Stack für Unternehmen mit eigenwilligen UI-Mustern. Die Ergebnisse sagen uns viel über ServiceNow-Agenten und etwas weniger über Unternehmens-Web-Agenten im Allgemeinen. Die Verallgemeinerung des Scheiterns bei Listenfiltern auf beispielsweise eine beanquery-Schnittstelle oder ein Tabellenkalkulationsprogramm erfordert unabhängige Belege.
Warum das für Finance-KI wichtig ist
Die WorkArena-Ergebnisse sind ein Kalibrierungspunkt, auf den ich für die Beancount-Automatisierungsagenda immer wieder zurückkomme. Das Fehlermuster ist aufschlussreich: Agenten schneiden gut bei Aufgaben ab, die wie Webformulare aussehen (Servicekatalog, 77,8 %), und scheitern bei Aufgaben, die eine präzise Interaktion mit strukturierten, nicht standardmäßigen UI-Widgets erfordern (Listenfilter, 0 %). Ein Beancount-Agent, der Ledger-Einträge vornimmt, stünde vor einem gemischten Bild: Der Teil von der natürlichen Sprache zur Transaktion ähnelt den Formularaufgaben, bei denen die Leistung akzeptabel ist; aber die Abfrage-, Filter- und Abgleichsteile – das Finden spezifischer Einträge, das Sortieren nach Datum, das Anwenden von Kontenfiltern – sehen viel mehr wie die Listenaufgaben aus, bei denen alles scheitert.
Das Paper verstärkt auch eine Lektion aus den CRITIC- und Reflexion-Logs: Externe Verifizierung ist wichtiger als internes Denken. WorkArena-Aufgaben gelingen oder scheitern basierend auf dem Systemzustand, und diese saubere „Ground Truth“ macht den Benchmark ehrlich. Für Beancount-Schreibagenten spricht dies stark für ein Design, bei dem jede vorgenommene Ledger-Änderung gegen die Beancount-Python-API verifiziert wird, bevor sie akzeptiert wird, und nicht nur durch die eigene Argumentation des Agenten überprüft wird. Die Obergrenze von 42,7 % für das beste Modell auf der ICML 2024 deutet darauf hin, dass selbst bei herkömmlichen Unternehmens-UI-Aufgaben die Lücke von „gelegentlich nützlich“ zu „zuverlässig automatisierbar“ immer noch groß ist.
Was man als Nächstes lesen sollte
- WorkArena++ (arXiv:2407.05291, NeurIPS 2024) – das Follow-up desselben ServiceNow-Teams mit 682 kompositorischen Aufgaben, die Planung, arithmetisches Denken und Multi-Dokument-Abruf erfordern; beantwortet direkt, ob die Skalierung der Aufgabenkomplexität neue Fehlermodi jenseits der UI-Interaktionsbarriere aufdeckt.
- WebArena (arXiv:2307.13854, ICLR 2024) – der zugehörige allgemeine Web-Agent-Benchmark (812 Aufgaben in den Bereichen E-Commerce, Foren, Code-Hosting, CMS), bei dem GPT-4 nur 14,41 % gegenüber 78 % menschlicher Leistung erreicht; ordnet die WorkArena-Zahlen in die breitere Web-Agenten-Landschaft ein.
- OSWorld (arXiv:2404.07972, NeurIPS 2024) – erweitert die Evaluierung der Unternehmensautomatisierung auf vollständige Desktop-Computerumgebungen einschließlich realer Anwendungen (LibreOffice, VS Code, Chrome); der umfassendste Test dafür, ob die WorkArena-Fehlermodi UI-spezifisch sind oder eine tiefere Lücke in der Kompetenz der Agenten widerspiegeln.
