Преминете към основното съдържание

Bean Labs Research Log

TableMaster: Адаптивно разсъждение за разбиране на таблици с LLMs

TableMaster е конвейер, базиран само на промптване, който достига 78,13% на WikiTQ с GPT-4o-mini — с 13 пункта над Chain-of-Table — чрез комбиниране на извличане на фокусна таблица, семантична вербализация и адаптивно превключване между текстово и символно разсъждение. Ето какво означава тази архитектура за AI агентите върху финансови леджъри като Beancount.

Latest articles

Откриване на аномалии без обучение (Zero-Shot) с LLM: Как се справя GPT-4 с таблични данни

GPT-4 постига 74,1 среден AUROC в бенчмарка ODDS без фина настройка — почти съвпадайки с класическия ECOD бейзлайн от 75,5 — но се проваля при многоизмерни аномалии и масиви от данни с висока вариативност; критичен преглед на zero-shot откриването на аномалии с LLM и неговото значение за автоматизирания одит на Beancount регистри.

DocFinQA: Финансови разсъждения в дълъг контекст върху пълни SEC отчети

DocFinQA заменя подбраните пасажи от 700 думи във FinQA с пълни SEC отчети от 123 000 думи, разкривайки 175-кратно увеличение на контекста, което почти наполовина намалява точността на GPT-4 при дълги документи. Пайплайните за извличане не успяват да изведат правилния сегмент в 45% от случаите при HR@3 — а моделите с дълъг контекст не са заместител.

TheAgentCompany: Тестване на LLM агенти върху реални корпоративни задачи

TheAgentCompany тества 175 реални работни задачи в симулирана интранет среда с GitLab, OwnCloud и RocketChat. Най-добрият модел (Gemini-2.5-Pro) изпълнява само 30% от задачите на цена от $4 всяка, разкривайки, че автономните агенти все още са далеч от приложимост за работни процеси в счетоводството и финансите.

τ²-bench: Измерване на цената на двойния контрол при разговорните AI агенти

τ²-bench разширява бенчмаркинга на агенти до настройки с двоен контрол, където както AI, така и потребителят извикват инструменти върху споделено състояние — установявайки, че активните потребители намаляват процента на успеваемост с 18–25 процентни пункта, с преки последици за Beancount агентите, споделящи достъп за запис с хора.

WorkArena++: Разликата от 93% между представянето на хората и ИИ агентите при сложни корпоративни задачи

WorkArena++ (NeurIPS 2024) оценява 682 сложни корпоративни задачи в три нива на трудност. GPT-4o решава 2,1% от тях, докато хората решават 93,9%, изолирайки точната причина, поради която настоящите ИИ агенти се провалят при задачи с косвени цели и защо тази разлика е важна за автономната счетоводна автоматизация.

GAIA Benchmark: Измерване на това, което граничните AI агенти всъщност могат да правят

GAIA оценява 466 задачи от реалния свят в три нива на трудност; граничните агенти достигнаха 74,55% в средата на 2026 г. срещу 92% за хората, а оставащата разлика в Ниво 3 съответства директно на предизвикателствата при многостепенната координация в автоматизираните работни процеси на Beancount леджъри.

OSWorld: Настолните AI агенти успяват в 12% от задачите, докато хората постигат 72%

OSWorld (NeurIPS 2024) сравнява мултимодални AI агенти в 369 реални задачи за десктоп в Ubuntu, Windows и macOS — установявайки разлика от 60 процентни пункта между най-добрия модел (12,24%) и представянето на хората (72,36%), като 75% от неуспехите се дължат на грешки във визуомоторното заземяване, а не на грешки в логическото мислене.

WebArena: Бенчмаркът с 812 задачи, който измерва какво всъщност могат и не могат да правят уеб агентите

GPT-4 изпълнява само 14,41% от 812-те реалистични уеб задачи на WebArena, докато хората достигат 78,24%; доминиращият режим на отказ е „фалшива неосъществимост“ — консервативен отказ от действие — с преки последици за всеки агент, опериращ с Fava или финансови уеб потребителски интерфейси.

WorkArena: Как се справят LLM уеб агентите с реална корпоративна интелектуална работа

WorkArena тества LLM уеб агенти върху 33 реални задачи в ServiceNow — GPT-4o постига 42,7% общо, но 0% при задачи за филтриране на списъци, разкривайки сериозна бариера между попълването на формуляри и взаимодействието със структуриран потребителски интерфейс, което пряко се отнася към предизвикателствата при автоматизацията на Beancount леджъри.