Zum Hauptinhalt springen
Enterprise Software

Alles Über Enterprise Software

3 Artikel
Enterprise software automation, web agents, and knowledge work task research

WorkArena++: Die 93%-Lücke zwischen menschlicher Leistung und der von KI-Agenten bei kompositorischen Unternehmensaufgaben

WorkArena++ (NeurIPS 2024) bewertet 682 kompositorische Unternehmensaufgaben auf drei Schwierigkeitsstufen. Während Menschen 93,9 % davon lösen, schafft GPT-4o nur 2,1 %. Dies verdeutlicht, warum aktuelle KI-Agenten bei Wissensarbeit mit impliziten Zielen scheitern und welche Bedeutung diese Lücke für die autonome Buchhaltungsautomatisierung hat.

WorkArena: Wie LLM-Web-Agenten bei realer Wissensarbeit in Unternehmen abschneiden

WorkArena evaluiert LLM-Web-Agenten anhand von 33 realen ServiceNow-Aufgaben — GPT-4o erreicht insgesamt 42,7 %, aber 0 % bei Listenfilter-Aufgaben. Dies offenbart eine harte Grenze zwischen dem Ausfüllen von Formularen und strukturierter UI-Interaktion, was sich direkt auf die Herausforderungen bei der Automatisierung von Beancount-Ledgern übertragen lässt.