Mike Thrift

Marketing Manager

June 18, 2026·mike

τ²-bench: Оценка стоимости двойного управления в разговорных ИИ-агентах

τ²-bench расширяет бенчмаркинг агентов на условия двойного управления, где и ИИ, и пользователь вызывают инструменты для работы с общим состоянием. Исследование показало, что активные пользователи снижают вероятность успеха на 18–25 процентных пунктов, что имеет прямое значение для агентов Beancount, разделяющих доступ на запись с пользователями.

llm

automation

June 17, 2026·mike

WorkArena++: 93-процентный разрыв между эффективностью человека и ИИ-агентов в композиционных корпоративных задачах

WorkArena++ (NeurIPS 2024) тестирует 682 композиционные корпоративные задачи на трех уровнях сложности. GPT-4o решает 2,1% из них, в то время как люди — 93,9%, что точно определяет причины неудач современных ИИ-агентов в интеллектуальной работе с неявными целями и показывает значение этого разрыва для автономной автоматизации учета.

llm

automation

June 16, 2026·mike

Бенчмарк GAIA: оценка реальных возможностей передовых ИИ-агентов

Бенчмарк GAIA оценивает 466 реальных задач на трех уровнях сложности; к середине 2026 года передовые агенты достигли 74,55% против 92% у людей, а оставшийся разрыв на 3-м уровне напрямую соотносится с проблемами многошаговой координации в автоматизированных рабочих процессах Beancount.

llm

machine-learning

June 15, 2026·mike

OSWorld: настольные ИИ-агенты справляются с 12% задач, в то время как люди — с 72%

OSWorld (NeurIPS 2024) тестирует мультимодальных ИИ-агентов на 369 реальных настольных задачах в Ubuntu, Windows и macOS. Выявлен разрыв в 60 процентных пунктов между лучшей моделью (12,24%) и эффективностью человека (72,36%), при этом 75% неудач связаны с ошибками визуально-моторного заземления, а не сбоями в рассуждениях.

machine-learning

automation

June 14, 2026·mike

WebArena: бенчмарк из 812 задач, измеряющий реальные возможности и ограничения веб-агентов

GPT-4 выполняет лишь 14,41% из 812 реалистичных веб-задач WebArena, тогда как люди достигают 78,24%; основной причиной неудач является ложная невыполнимость — консервативный отказ от действий, что имеет прямые последствия для любого агента, работающего с Fava или финансовыми веб-интерфейсами.

llm

automation

June 13, 2026·mike

WorkArena: Как LLM веб-агенты справляются с реальными задачами по обработке корпоративных знаний

WorkArena тестирует LLM веб-агентов на 33 реальных задачах ServiceNow — GPT-4o достигает 42,7% в целом, но 0% в задачах с фильтрацией списков, выявляя непреодолимую стену между заполнением форм и структурированным взаимодействием с UI, что напрямую коррелирует с проблемами автоматизации журналов Beancount.

llm

automation

June 12, 2026·mike

τ-bench: Измерение надежности ИИ-агентов в реальных сценариях использования инструментов

τ-bench показывает, что топовые LLM, такие как Claude 3.5 Sonnet, демонстрируют падение показателя pass@1 с 0,692 до 0,462 для pass@4 в задачах обслуживания розничных клиентов — «обрыв согласованности», имеющий прямое значение для любого агента с правом записи в журнале Beancount.

llm

machine-learning

June 11, 2026·mike

Chain-of-Table: Эволюция таблиц в цепочке рассуждений LLM

Chain-of-Table (ICLR 2024) улучшает табличные рассуждения LLM, превращая саму таблицу в промежуточное состояние — достигая точности 67,31% на WikiTQ против 61,48% у предыдущих базовых моделей, с преимуществом в +10,25 пункта на таблицах объемом более 4 000 токенов и прямой применимостью к агентам запросов в книгах Beancount.

llm

machine-learning

June 10, 2026·mike

TableLlama: Может ли открытая модель 7B сравниться с GPT-4 в понимании таблиц?

TableLlama дообучает Llama 2 (7B) на 2,6 млн примеров задач с таблицами и превосходит GPT-4 в структурных задачах, таких как аннотирование типов столбцов (F1 94 против 32), но отстает на 33 пункта в композиционном рассуждении WikiTQ — выверенный бенчмарк возможностей и ограничений открытых моделей 7B в финансовом ИИ сегодня.

llm

machine-learning

June 9, 2026·mike

TAPAS: слабо контролируемое табличное QA без SQL и что это значит для Beancount

TAPAS (Google Research, ACL 2020) отвечает на вопросы по таблицам, выбирая ячейки и применяя скалярные агрегации без генерации SQL. В этом посте анализируется архитектура, прирост точности SQA на 12 пунктов и причины, по которым парадигма выбора ячеек подходит для небольших запросов к реестру Beancount, но не масштабируется.

machine-learning

llm

June 8, 2026·mike

MAC-SQL: Мультиагентное совместное преобразование текста в SQL

MAC-SQL (COLING 2025) использует трех специализированных агентов — Selector для сокращения схемы, Decomposer для декомпозиции вопросов и Refiner для исправления SQL на основе выполнения — для достижения точности выполнения 59,59% в бенчмарке BIRD; абляционное исследование показывает, что Refiner вносит наибольший вклад (+4,63 балла), что имеет прямое значение для генерации запросов к книгам Beancount.

machine-learning

database

June 7, 2026·mike

DIN-SQL: декомпозированное обучение в контексте для преобразования текста в SQL

DIN-SQL (NeurIPS 2023) разделяет процесс преобразования текста в SQL на этапы связывания схемы, классификации сложности и генерации SQL, повышая точность выполнения GPT-4 на Spider с 67,4% до 85,3% без дообучения — и та же стратегия декомпозиции напрямую применима к интерфейсам на естественном языке для языка запросов Beancount (BQL).

llm

database

Показано 25–36 из 87 записей

Пред.3 / 8След.