Mike Thrift
Marketing Manager
τ²-bench: Оценка стоимости двойного управления в разговорных ИИ-агентах
τ²-bench расширяет бенчмаркинг агентов на условия двойного управления, где и ИИ, и пользователь вызывают инструменты для работы с общим состоянием. Исследование показало, что активные пользователи снижают вероятность успеха на 18–25 процентных пунктов, что имеет прямое значение для агентов Beancount, разделяющих доступ на запись с пользователями.
WorkArena++: 93-процентный разрыв между эффективностью человека и ИИ-агентов в композиционных корпоративных задачах
WorkArena++ (NeurIPS 2024) тестирует 682 композиционные корпоративные задачи на трех уровнях сложности. GPT-4o решает 2,1% из них, в то время как люди — 93,9%, что точно определяет причины неудач современных ИИ-агентов в интеллектуальной работе с неявными целями и показывает значение этого разрыва для автономной автоматизации учета.
Бенчмарк GAIA: оценка реальных возможностей передовых ИИ-агентов
Бенчмарк GAIA оценивает 466 реальных задач на трех уровнях сложности; к середине 2026 года передовые агенты достигли 74,55% против 92% у людей, а оставшийся разрыв на 3-м уровне напрямую соотносится с проблемами многошаговой координации в автоматизированных рабочих процессах Beancount.
OSWorld: настольные ИИ-агенты справляются с 12% задач, в то время как люди — с 72%
OSWorld (NeurIPS 2024) тестирует мультимодальных ИИ-агентов на 369 реальных настольных задачах в Ubuntu, Windows и macOS. Выявлен разрыв в 60 процентных пунктов между лучшей моделью (12,24%) и эффективностью человека (72,36%), при этом 75% неудач связаны с ошибками визуально-моторного заземления, а не сбоями в рассуждениях.
WebArena: бенчмарк из 812 задач, измеряющий реальные возможности и ограничения веб-агентов
GPT-4 выполняет лишь 14,41% из 812 реалистичных веб-задач WebArena, тогда как люди достигают 78,24%; основной причиной неудач является ложная невыполнимость — консервативный отказ от действий, что имеет прямые последствия для любого агента, работающего с Fava или финансовыми веб-интерфейсами.
WorkArena: Как LLM веб-агенты справляются с реальными задачами по обработке корпоративных знаний
WorkArena тестирует LLM веб-агентов на 33 реальных задачах ServiceNow — GPT-4o достигает 42,7% в целом, но 0% в задачах с фильтрацией списков, выявляя непреодолимую стену между заполнением форм и структурированным взаимодействием с UI, что напрямую коррелирует с проблемами автоматизации журналов Beancount.
τ-bench: Измерение надежности ИИ-агентов в реальных сценариях использования инструментов
τ-bench показывает, что топовые LLM, такие как Claude 3.5 Sonnet, демонстрируют падение показателя pass@1 с 0,692 до 0,462 для pass@4 в задачах обслуживания розничных клиентов — «обрыв согласованности», имеющий прямое значение для любого агента с правом записи в журнале Beancount.
Chain-of-Table: Эволюция таблиц в цепочке рассуждений LLM
Chain-of-Table (ICLR 2024) улучшает табличные рассуждения LLM, превращая саму таблицу в промежуточное состояние — достигая точности 67,31% на WikiTQ против 61,48% у предыдущих базовых моделей, с преимуществом в +10,25 пункта на таблицах объемом более 4 000 токенов и прямой применимостью к агентам запросов в книгах Beancount.
TableLlama: Может ли открытая модель 7B сравниться с GPT-4 в понимании таблиц?
TableLlama дообучает Llama 2 (7B) на 2,6 млн примеров задач с таблицами и превосходит GPT-4 в структурных задачах, таких как аннотирование типов столбцов (F1 94 против 32), но отстает на 33 пункта в композиционном рассуждении WikiTQ — выверенный бенчмарк возможностей и ограничений открытых моделей 7B в финансовом ИИ сегодня.
TAPAS: слабо контролируемое табличное QA без SQL и что это значит для Beancount
TAPAS (Google Research, ACL 2020) отвечает на вопросы по таблицам, выбирая ячейки и применяя скалярные агрегации без генерации SQL. В этом посте анализируется архитектура, прирост точности SQA на 12 пунктов и причины, по которым парадигма выбора ячеек подходит для небольших запросов к реестру Beancount, но не масштабируется.
MAC-SQL: Мультиагентное совместное преобразование текста в SQL
MAC-SQL (COLING 2025) использует трех специализированных агентов — Selector для сокращения схемы, Decomposer для декомпозиции вопросов и Refiner для исправления SQL на основе выполнения — для достижения точности выполнения 59,59% в бенчмарке BIRD; абляционное исследование показывает, что Refiner вносит наибольший вклад (+4,63 балла), что имеет прямое значение для генерации запросов к книгам Beancount.
DIN-SQL: декомпозированное обучение в контексте для преобразования текста в SQL
DIN-SQL (NeurIPS 2023) разделяет процесс преобразования текста в SQL на этапы связывания схемы, классификации сложности и генерации SQL, повышая точность выполнения GPT-4 на Spider с 67,4% до 85,3% без дообучения — и та же стратегия декомпозиции напрямую применима к интерфейсам на естественном языке для языка запросов Beancount (BQL).