Перейти к контенту

Bean Labs Research Log

TableMaster: адаптивное рассуждение для понимания таблиц с помощью LLM

TableMaster — это конвейер, основанный исключительно на промптах, который достигает 78,13% на WikiTQ с GPT-4o-mini — на 13 пунктов выше, чем Chain-of-Table — благодаря сочетанию извлечения таблицы фокуса, семантической вербализации и адаптивного переключения между текстовым и символьным рассуждением. Вот что эта архитектура значит для ИИ-агентов, работающих с финансовыми гроссбухами, такими как Beancount.

Latest articles

Zero-Shot обнаружение аномалий с помощью LLM: Как GPT-4 справляется с табличными данными

GPT-4 достигает среднего значения AUROC 74,1 на бенчмарке ODDS без дообучения — почти на уровне классического базового алгоритма ECOD (75,5) — но терпит неудачу на многомерных аномалиях и датасетах с высокой дисперсией; критический обзор zero-shot обнаружения аномалий с помощью LLM и его значение для автоматизированного аудита гроссбухов Beancount.

DocFinQA: Рассуждения в длинном финансовом контексте на полных отчетах SEC

DocFinQA заменяет отобранные отрывки FinQA объемом 700 слов полными отчетами SEC объемом 123 000 слов, что увеличивает контекст в 175 раз и почти вдвое снижает точность GPT-4 на длинных документах. Пайплайны поиска не могут найти нужный фрагмент в 45% случаев при HR@3, и модели с длинным контекстом не являются полноценной заменой.

TheAgentCompany: Бенчмаркинг LLM-агентов на реальных корпоративных задачах

TheAgentCompany тестирует 175 реальных рабочих задач в симулированной интрасети с GitLab, OwnCloud и RocketChat. Лучшая модель (Gemini-2.5-Pro) выполняет лишь 30% задач по цене 4 доллара за каждую, что доказывает: автономные агенты все еще далеки от пригодности для рабочих процессов в бухгалтерии и финансах.

τ²-bench: Оценка стоимости двойного управления в разговорных ИИ-агентах

τ²-bench расширяет бенчмаркинг агентов на условия двойного управления, где и ИИ, и пользователь вызывают инструменты для работы с общим состоянием. Исследование показало, что активные пользователи снижают вероятность успеха на 18–25 процентных пунктов, что имеет прямое значение для агентов Beancount, разделяющих доступ на запись с пользователями.

WorkArena++: 93-процентный разрыв между эффективностью человека и ИИ-агентов в композиционных корпоративных задачах

WorkArena++ (NeurIPS 2024) тестирует 682 композиционные корпоративные задачи на трех уровнях сложности. GPT-4o решает 2,1% из них, в то время как люди — 93,9%, что точно определяет причины неудач современных ИИ-агентов в интеллектуальной работе с неявными целями и показывает значение этого разрыва для автономной автоматизации учета.

Бенчмарк GAIA: оценка реальных возможностей передовых ИИ-агентов

Бенчмарк GAIA оценивает 466 реальных задач на трех уровнях сложности; к середине 2026 года передовые агенты достигли 74,55% против 92% у людей, а оставшийся разрыв на 3-м уровне напрямую соотносится с проблемами многошаговой координации в автоматизированных рабочих процессах Beancount.

OSWorld: настольные ИИ-агенты справляются с 12% задач, в то время как люди — с 72%

OSWorld (NeurIPS 2024) тестирует мультимодальных ИИ-агентов на 369 реальных настольных задачах в Ubuntu, Windows и macOS. Выявлен разрыв в 60 процентных пунктов между лучшей моделью (12,24%) и эффективностью человека (72,36%), при этом 75% неудач связаны с ошибками визуально-моторного заземления, а не сбоями в рассуждениях.

WebArena: бенчмарк из 812 задач, измеряющий реальные возможности и ограничения веб-агентов

GPT-4 выполняет лишь 14,41% из 812 реалистичных веб-задач WebArena, тогда как люди достигают 78,24%; основной причиной неудач является ложная невыполнимость — консервативный отказ от действий, что имеет прямые последствия для любого агента, работающего с Fava или финансовыми веб-интерфейсами.

WorkArena: Как LLM веб-агенты справляются с реальными задачами по обработке корпоративных знаний

WorkArena тестирует LLM веб-агентов на 33 реальных задачах ServiceNow — GPT-4o достигает 42,7% в целом, но 0% в задачах с фильтрацией списков, выявляя непреодолимую стену между заполнением форм и структурированным взаимодействием с UI, что напрямую коррелирует с проблемами автоматизации журналов Beancount.