3 Posts getaggt mit „Enterprise Software“

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Benchmarking von LLM-Agenten bei realen Unternehmensaufgaben

TheAgentCompany testet 175 reale Arbeitsaufgaben in einem simulierten Intranet mit GitLab, OwnCloud und RocketChat. Das beste Modell (Gemini-2.5-Pro) schließt nur 30 % der Aufgaben zu Kosten von jeweils 4 $ ab, was zeigt, dass autonome Agenten noch weit von der Einsatzreife für Buchhaltungs- und Finanz-Workflows entfernt sind.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: Die 93%-Lücke zwischen menschlicher Leistung und der von KI-Agenten bei kompositorischen Unternehmensaufgaben

WorkArena++ (NeurIPS 2024) bewertet 682 kompositorische Unternehmensaufgaben auf drei Schwierigkeitsstufen. Während Menschen 93,9 % davon lösen, schafft GPT-4o nur 2,1 %. Dies verdeutlicht, warum aktuelle KI-Agenten bei Wissensarbeit mit impliziten Zielen scheitern und welche Bedeutung diese Lücke für die autonome Buchhaltungsautomatisierung hat.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Wie LLM-Web-Agenten bei realer Wissensarbeit in Unternehmen abschneiden

WorkArena evaluiert LLM-Web-Agenten anhand von 33 realen ServiceNow-Aufgaben — GPT-4o erreicht insgesamt 42,7 %, aber 0 % bei Listenfilter-Aufgaben. Dies offenbart eine harte Grenze zwischen dem Ausfüllen von Formularen und strukturierter UI-Interaktion, was sich direkt auf die Herausforderungen bei der Automatisierung von Beancount-Ledgern übertragen lässt.

Alles Über Enterprise Software

TheAgentCompany: Benchmarking von LLM-Agenten bei realen Unternehmensaufgaben

WorkArena++: Die 93%-Lücke zwischen menschlicher Leistung und der von KI-Agenten bei kompositorischen Unternehmensaufgaben

WorkArena: Wie LLM-Web-Agenten bei realer Wissensarbeit in Unternehmen abschneiden

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches