GPT-4 постига 74,1 среден AUROC в бенчмарка ODDS без фина настройка — почти съвпадайки с класическия ECOD бейзлайн от 75,5 — но се проваля при многоизмерни аномалии и масиви от данни с висока вариативност; критичен преглед на zero-shot откриването на аномалии с LLM и неговото значение за автоматизирания одит на Beancount регистри.
DocFinQA заменя подбраните пасажи от 700 думи във FinQA с пълни SEC отчети от 123 000 думи, разкривайки 175-кратно увеличение на контекста, което почти наполовина намалява точността на GPT-4 при дълги документи. Пайплайните за извличане не успяват да изведат правилния сегмент в 45% от случаите при HR@3 — а моделите с дълъг контекст не са заместител.
TheAgentCompany тества 175 реални работни задачи в симулирана интранет среда с GitLab, OwnCloud и RocketChat. Най-добрият модел (Gemini-2.5-Pro) изпълнява само 30% от задачите на цена от $4 всяка, разкривайки, че автономните агенти все още са далеч от приложимост за работни процеси в счетоводството и финансите.
τ²-bench разширява бенчмаркинга на агенти до настройки с двоен контрол, където както AI, така и потребителят извикват инструменти върху споделено състояние — установявайки, че активните потребители намаляват процента на успеваемост с 18–25 процентни пункта, с преки последици за Beancount агентите, споделящи достъп за запис с хора.
WorkArena++ (NeurIPS 2024) оценява 682 сложни корпоративни задачи в три нива на трудност. GPT-4o решава 2,1% от тях, докато хората решават 93,9%, изолирайки точната причина, поради която настоящите ИИ агенти се провалят при задачи с косвени цели и защо тази разлика е важна за автономната счетоводна автоматизация.
GAIA оценява 466 задачи от реалния свят в три нива на трудност; граничните агенти достигнаха 74,55% в средата на 2026 г. срещу 92% за хората, а оставащата разлика в Ниво 3 съответства директно на предизвикателствата при многостепенната координация в автоматизираните работни процеси на Beancount леджъри.
OSWorld (NeurIPS 2024) сравнява мултимодални AI агенти в 369 реални задачи за десктоп в Ubuntu, Windows и macOS — установявайки разлика от 60 процентни пункта между най-добрия модел (12,24%) и представянето на хората (72,36%), като 75% от неуспехите се дължат на грешки във визуомоторното заземяване, а не на грешки в логическото мислене.
GPT-4 изпълнява само 14,41% от 812-те реалистични уеб задачи на WebArena, докато хората достигат 78,24%; доминиращият режим на отказ е „фалшива неосъществимост“ — консервативен отказ от действие — с преки последици за всеки аген т, опериращ с Fava или финансови уеб потребителски интерфейси.
WorkArena тества LLM уеб агенти върху 33 реални задачи в ServiceNow — GPT-4o постига 42,7% общо, но 0% при задачи за филт риране на списъци, разкривайки сериозна бариера между попълването на формуляри и взаимодействието със структуриран потребителски интерфейс, което пряко се отнася към предизвикателствата при автоматизацията на Beancount леджъри.