Преминете към основното съдържание
Enterprise Software

Всичко за Enterprise Software

3 статии
Enterprise software automation, web agents, and knowledge work task research

TheAgentCompany: Тестване на LLM агенти върху реални корпоративни задачи

TheAgentCompany тества 175 реални работни задачи в симулирана интранет среда с GitLab, OwnCloud и RocketChat. Най-добрият модел (Gemini-2.5-Pro) изпълнява само 30% от задачите на цена от $4 всяка, разкривайки, че автономните агенти все още са далеч от приложимост за работни процеси в счетоводството и финансите.

WorkArena++: Разликата от 93% между представянето на хората и ИИ агентите при сложни корпоративни задачи

WorkArena++ (NeurIPS 2024) оценява 682 сложни корпоративни задачи в три нива на трудност. GPT-4o решава 2,1% от тях, докато хората решават 93,9%, изолирайки точната причина, поради която настоящите ИИ агенти се провалят при задачи с косвени цели и защо тази разлика е важна за автономната счетоводна автоматизация.

WorkArena: Как се справят LLM уеб агентите с реална корпоративна интелектуална работа

WorkArena тества LLM уеб агенти върху 33 реални задачи в ServiceNow — GPT-4o постига 42,7% общо, но 0% при задачи за филтриране на списъци, разкривайки сериозна бариера между попълването на формуляри и взаимодействието със структуриран потребителски интерфейс, което пряко се отнася към предизвикателствата при автоматизацията на Beancount леджъри.