Mike Thrift
Marketing Manager
τ²-bench: Измерване на цената на двойния контрол при разговорните AI агенти
τ²-bench разширява бенчмаркинга на агенти до настройки с двоен контрол, където както AI, така и потребителят извикват инструменти върху споделено състояние — установявайки, че активните потребители намаляват процента на успеваемост с 18–25 процентни пункта, с преки последици за Beancount агентите, споделящи достъп за запис с хора.
WorkArena++: Разликата от 93% между представянето на хората и ИИ агентите при сложни корпоративни задачи
WorkArena++ (NeurIPS 2024) оценява 682 сложни корпоративни задачи в три нива на трудност. GPT-4o решава 2,1% от тях, докато хората решават 93,9%, изолирайки точната причина, поради която настоящите ИИ агенти се провалят при задачи с косвени цели и защо тази разлика е важна за автономната счетоводна автоматизация.
GAIA Benchmark: Измерване на това, което граничните AI агенти всъщност могат да правят
GAIA оценява 466 задачи от реалния свят в три нива на трудност; граничните агенти достигнаха 74,55% в средата на 2026 г. срещу 92% за хората, а оставащата разлика в Ниво 3 съответства директно на предизвикателствата при многостепенната координация в автоматизираните работни процеси на Beancount леджъри.
OSWorld: Настолните AI агенти успяват в 12% от задачите, докато хората постигат 72%
OSWorld (NeurIPS 2024) сравнява мултимодални AI агенти в 369 реални задачи за десктоп в Ubuntu, Windows и macOS — установявайки разлика от 60 процентни пункта между най-добрия модел (12,24%) и представянето на хората (72,36%), като 75% от неуспехите се дължат на грешки във визуомоторното заземяване, а не на грешки в логическото мислене.
WebArena: Бенчмаркът с 812 задачи, който измерва какво всъщност могат и не могат да правят уеб агентите
GPT-4 изпълнява само 14,41% от 812-те реалистични уеб задачи на WebArena, докато хората достигат 78,24%; доминиращият режим на отказ е „фалшива неосъществимост“ — консервативен отказ от действие — с преки последици за всеки агент, опериращ с Fava или финансови уеб потребителски интерфейси.
WorkArena: Как се справят LLM уеб агентите с реална корпоративна интелектуална работа
WorkArena тества LLM уеб агенти върху 33 реални задачи в ServiceNow — GPT-4o постига 42,7% общо, но 0% при задачи за филтриране на списъци, разкривайки сериозна бариера между попълването на формуляри и взаимодействието със структуриран потребителски интерфейс, което пряко се отнася към предизвикателствата при автоматизацията на Beancount леджъри.
τ-bench: Измерване на надеждността на AI агентите в реални домейни с използване на инструменти
τ-bench показва, че водещи LLM модели като Claude 3.5 Sonnet падат от pass@1 стойност 0,692 до pass@4 стойност 0,462 при задачи за обслужване на клиенти в търговията на дребно — рязък спад в последователността с преки последици за всеки агент с възможност за запис, опериращ върху Beancount главна книга.
Chain-of-Table: Еволюиращи таблици във веригата от разсъждения на LLM
Chain-of-Table (ICLR 2024) подобрява табличните разсъждения на големите езикови модели (LLM) чрез еволюиране на самата таблица като междинно състояние — постигайки 67,31% на WikiTQ срещу 61,48% за предходни базови модели, с предимство от +10,25 пункта при таблици над 4000 токена и пряка приложимост към агенти за заявки в Beancount.
TableLlama: Може ли отворен модел със 7B параметри да се мери с GPT-4 в разбирането на таблици?
TableLlama прави фина настройка на Llama 2 (7B) върху 2,6 милиона примера за задачи с таблици и побеждава GPT-4 при структурни задачи като анотиране на типове колони (F1 94 срещу 32), но изостава с 33 точки при композиционното мислене в WikiTQ — калибриран бенчмарк за това какво могат и какво не могат отворените модели със 7B параметри във финансовия AI днес.
TAPAS: Слабо контролирано таблично QA без SQL и какво означава това за Beancount
TAPAS (Google Research, ACL 2020) отговаря на въпроси върху таблици чрез избиране на клетки и прилагане на скаларни агрегации — без генериране на SQL. Тази публикация анализира архитектурата, нейния ръст от 12 точки в точността на SQA и защо парадигмата за избор на клетки е подходяща за малки заявки в Beancount регистри, но се проваля при мащабиране.
MAC-SQL: Многоагентно сътрудничество за Text-to-SQL
MAC-SQL (COLING 2025) използва три специализирани агента — Selector за редуциране на схемата, Decomposer за декомпозиране на въпроси и Refiner за коригиране на SQL чрез обратна връзка от изпълнението — за постигане на 59,59% точност на изпълнение в бенчмарка BIRD; аблационният анализ показва, че Refiner допринася най-много (+4,63 пункта), с преки последици за генерирането на заявки към леджъри на Beancount.
DIN-SQL: Декомпозирано контекстно обучение за текст-към-SQL
DIN-SQL (NeurIPS 2023) декомпозира текст-към-SQL на етапи за свързване на схеми, класификация на сложността и генериране на SQL, повишавайки точността на GPT-4 от 67,4% на 85,3% при Spider без фина настройка — и същата стратегия се прилага директно към интерфейси на естествен език за езика за заявки BQL на Beancount.