Prejsť na hlavný obsah
Enterprise Software

Všetko o Enterprise Software

3 články
Enterprise software automation, web agents, and knowledge work task research

TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta

TheAgentCompany testuje 175 reálnych pracovných úloh v rámci simulovaného intranetu s GitLab, OwnCloud a RocketChat. Najlepší model (Gemini-2.5-Pro) dokončí iba 30 % úloh pri cene 4 USD za každú, čo odhaľuje, že autonómni agenti sú stále ďaleko od využiteľnosti pre účtovné a finančné pracovné postupy.

WorkArena++: 93 % priepasť medzi výkonom ľudí a AI agentov pri kompozičných podnikových úlohách

WorkArena++ (NeurIPS 2024) porovnáva 682 kompozičných podnikových úloh v troch úrovniach náročnosti. GPT-4o rieši 2,1 % z nich, zatiaľ čo ľudia 93,9 %, čím presne izoluje dôvody, prečo súčasní AI agenti zlyhávajú pri vedomostnej práci s implicitnými cieľmi a prečo na tejto priepasti záleží pri autonómnej automatizácii účtovníctva.

WorkArena: Ako si weboví agenti LLM poradia so skutočnou podnikovou znalostnou prácou

WorkArena testuje webových agentov LLM na 33 reálnych úlohách v systéme ServiceNow – GPT-4o dosahuje celkovú úspešnosť 42,7 %, ale 0 % pri úlohách s filtrovaním zoznamov, čo odhaľuje neprekonateľnú bariéru medzi vypĺňaním formulárov a štruktúrovanou interakciou s UI, ktorá priamo súvisí s výzvami pri automatizácii účtovnej knihy Beancount.