Перейти до основного вмісту

Bean Labs Research Log

TableMaster: адаптивне міркування для розуміння таблиць за допомогою LLM

TableMaster — це конвеєр, що базується виключно на промптингу, який досягає 78,13% на WikiTQ з GPT-4o-mini — на 13 пунктів вище, ніж Chain-of-Table — завдяки поєднанню вилучення фокусної таблиці (table-of-focus), семантичної вербалізації та адаптивного перемикання між текстовим і символічним міркуванням. Ось що ця архітектура означає для ШІ-агентів, які працюють із фінансовими книгами, такими як Beancount.

Latest articles

Виявлення аномалій за методом Zero-Shot за допомогою LLM: Як GPT-4 працює з табличними даними

GPT-4 досягає середнього показника AUROC 74,1 у бенчмарку ODDS без донавчання — майже наздоганяючи класичний базовий метод ECOD з результатом 75,5 — проте зазнає невдачі на багатовимірних аномаліях та наборах даних з високою дисперсією; критичний огляд виявлення аномалій за допомогою LLM без навчання та його наслідки для автоматизованого аудиту книги Beancount.

DocFinQA: Фінансове міркування в довгому контексті на повних звітах SEC

DocFinQA замінює відібрані уривки FinQA довжиною 700 слів на повні звіти SEC обсягом 123 000 слів, показуючи 175-кратне збільшення контексту, що майже вдвічі знижує точність GPT-4 на довгих документах. Конвеєри пошуку не можуть знайти потрібний фрагмент у 45% випадків при HR@3 — і моделі з довгим контекстом не є заміною.

TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях

TheAgentCompany тестує 175 реальних робочих завдань у симульованій інтрамережі з GitLab, OwnCloud та RocketChat. Найкраща модель (Gemini-2.5-Pro) виконує лише 30% завдань вартістю 4 долари за кожне, що свідчить про те, що автономні агенти все ще далекі від життєздатності для робочих процесів у бухгалтерії та фінансах.

τ²-bench: Вимірювання вартості подвійного керування в розмовних ШІ-агентах

τ²-bench розширює бенчмаркінг агентів на сценарії з подвійним керуванням, де і ШІ, і користувач використовують інструменти над спільним станом. Дослідження виявило, що активні користувачі знижують рівень успіху на 18–25 відсоткових пунктів, що має прямі наслідки для агентів Beancount, які ділять доступ на запис із людьми.

WorkArena++: 93% розрив між ефективністю людей та ШІ-агентів у композиційних корпоративних завданнях

WorkArena++ (NeurIPS 2024) тестує 682 складні композиційні корпоративні завдання на трьох рівнях складності. GPT-4o вирішує лише 2,1% з них, тоді як люди — 93,9%. Це демонструє, чому сучасні ШІ-агенти не справляються з інтелектуальною працею, що передбачає неявні цілі, і чому цей розрив критичний для автономної автоматизації бухгалтерського обліку.

Бенчмарк GAIA: Вимірювання того, що провідні ШІ-агенти насправді можуть робити

GAIA оцінює 466 реальних завдань на трьох рівнях складності; провідні агенти досягли 74,55% у середині 2026 року порівняно з 92% у людей, а залишковий розрив на Рівні 3 безпосередньо відповідає викликам багатокрокової координації в автоматизованих робочих процесах Beancount.

OSWorld: ШІ-агенти для робочого столу успішно виконують 12% завдань, тоді як люди — 72%

OSWorld (NeurIPS 2024) оцінює мультимодальних ШІ-агентів на 369 реальних десктопних завданнях в Ubuntu, Windows та macOS — виявляючи розрив у 60 відсоткових пунктів між найкращою моделлю (12,24%) та результатом людини (72,36%), причому 75% невдач пов'язані з помилками візуально-моторного заземлення, а не з вадами мислення.

WebArena: бенчмарк із 812 завдань, що вимірює реальні можливості та обмеження веб-агентів

GPT-4 виконує лише 14,41% із 812 реалістичних веб-завдань WebArena, тоді як люди досягають 78,24%; основним типом помилок є хибна нездійсненність — консервативна відмова від дій, що має прямі наслідки для будь-якого агента, який працює з Fava або фінансовими веб-інтерфейсами.

WorkArena: Як вебагенти на базі LLM справляються з реальною інтелектуальною працею на підприємствах

WorkArena тестує вебагентів на базі LLM у 33 реальних завданнях ServiceNow — GPT-4o досягає 42,7% загалом, але 0% у завданнях із фільтрацією списків, виявляючи жорсткий бар'єр між заповненням форм і структурованою взаємодією з UI, що безпосередньо стосується проблем автоматизації реєстру Beancount.