Beancount.io LogoBeancount.io
τ²-bench: Вимірювання вартості подвійного керування в розмовних ШІ-агентах
·mike

τ²-bench: Вимірювання вартості подвійного керування в розмовних ШІ-агентах

τ²-bench розширює бенчмаркінг агентів на сценарії з подвійним керуванням, де і ШІ, і користувач використовують інструменти над спільним станом. Дослідження виявило, що активні користувачі знижують рівень успіху на 18–25 відсоткових пунктів, що має прямі наслідки для агентів Beancount, які ділять доступ на запис із людьми.

ai
llm
automation
beancount
+2
WorkArena++: 93% розрив між ефективністю людей та ШІ-агентів у композиційних корпоративних завданнях
·mike

WorkArena++: 93% розрив між ефективністю людей та ШІ-агентів у композиційних корпоративних завданнях

WorkArena++ (NeurIPS 2024) тестує 682 складні композиційні корпоративні завдання на трьох рівнях складності. GPT-4o вирішує лише 2,1% з них, тоді як люди — 93,9%. Це демонструє, чому сучасні ШІ-агенти не справляються з інтелектуальною працею, що передбачає неявні цілі, і чому цей розрив критичний для автономної автоматизації бухгалтерського обліку.

ai
llm
automation
enterprise-software
+2
Бенчмарк GAIA: Вимірювання того, що провідні ШІ-агенти насправді можуть робити
·mike

Бенчмарк GAIA: Вимірювання того, що провідні ШІ-агенти насправді можуть робити

GAIA оцінює 466 реальних завдань на трьох рівнях складності; провідні агенти досягли 74,55% у середині 2026 року порівняно з 92% у людей, а залишковий розрив на Рівні 3 безпосередньо відповідає викликам багатокрокової координації в автоматизованих робочих процесах Beancount.

ai
llm
machine-learning
automation
+3
OSWorld: ШІ-агенти для робочого столу успішно виконують 12% завдань, тоді як люди — 72%
·mike

OSWorld: ШІ-агенти для робочого столу успішно виконують 12% завдань, тоді як люди — 72%

OSWorld (NeurIPS 2024) оцінює мультимодальних ШІ-агентів на 369 реальних десктопних завданнях в Ubuntu, Windows та macOS — виявляючи розрив у 60 відсоткових пунктів між найкращою моделлю (12,24%) та результатом людини (72,36%), причому 75% невдач пов'язані з помилками візуально-моторного заземлення, а не з вадами мислення.

ai
machine-learning
automation
llm
+3
WebArena: бенчмарк із 812 завдань, що вимірює реальні можливості та обмеження веб-агентів
·mike

WebArena: бенчмарк із 812 завдань, що вимірює реальні можливості та обмеження веб-агентів

GPT-4 виконує лише 14,41% із 812 реалістичних веб-завдань WebArena, тоді як люди досягають 78,24%; основним типом помилок є хибна нездійсненність — консервативна відмова від дій, що має прямі наслідки для будь-якого агента, який працює з Fava або фінансовими веб-інтерфейсами.

ai
llm
automation
machine-learning
+4
WorkArena: Як вебагенти на базі LLM справляються з реальною інтелектуальною працею на підприємствах
·mike

WorkArena: Як вебагенти на базі LLM справляються з реальною інтелектуальною працею на підприємствах

WorkArena тестує вебагентів на базі LLM у 33 реальних завданнях ServiceNow — GPT-4o досягає 42,7% загалом, але 0% у завданнях із фільтрацією списків, виявляючи жорсткий бар'єр між заповненням форм і структурованою взаємодією з UI, що безпосередньо стосується проблем автоматизації реєстру Beancount.

ai
llm
automation
enterprise-software
+3
τ-bench: Вимірювання надійності ШІ-агентів у реальних сценаріях використання інструментів
·mike

τ-bench: Вимірювання надійності ШІ-агентів у реальних сценаріях використання інструментів

τ-bench показує, що топові LLM, такі як Claude 3.5 Sonnet, демонструють падіння з pass@1 (0,692) до pass@4 (0,462) у завданнях обслуговування клієнтів у ритейлі — «прірва послідовності», що має прямі наслідки для будь-якого агента із записом даних у гросбух Beancount.

ai
llm
machine-learning
automation
+3
Chain-of-Table: Evolving Tables in the LLM Reasoning Chain
·mike

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.

ai
llm
machine-learning
beancount
+3
TableLlama: Чи може відкрита модель 7B зрівнятися з GPT-4 у розумінні таблиць?
·mike

TableLlama: Чи може відкрита модель 7B зрівнятися з GPT-4 у розумінні таблиць?

TableLlama донавчає Llama 2 (7B) на 2,6 млн прикладах табличних завдань і перевершує GPT-4 у структурних завданнях, як-от анотування типів стовпців (F1 94 проти 32), але відстає на 33 пункти у композиційному мисленні WikiTQ — каліброваному бенчмарку того, що відкриті моделі 7B можуть і чого не можуть у фінансовому ШІ сьогодні.

llm
ai
machine-learning
beancount
+3
TAPAS: Слабко контрольоване табличне QA без SQL та його значення для Beancount
·mike

TAPAS: Слабко контрольоване табличне QA без SQL та його значення для Beancount

TAPAS (Google Research, ACL 2020) відповідає на запитання за таблицями, вибираючи комірки та застосовуючи скалярні агрегації — без генерації SQL. Цей пост аналізує архітектуру, її приріст точності SQA на 12 пунктів і те, чому парадигма вибору комірок підходить для невеликих запитів до реєстру Beancount, але стає неефективною при масштабуванні.

ai
machine-learning
llm
data-science
+4
MAC-SQL: Багатоагентна спільна робота для перетворення тексту в SQL
·mike

MAC-SQL: Багатоагентна спільна робота для перетворення тексту в SQL

MAC-SQL (COLING 2025) використовує трьох спеціалізованих агентів — Selector для скорочення схеми, Decomposer для декомпозиції питань та Refiner для виправлення SQL на основі результатів виконання — щоб досягти точності виконання 59,59% у бенчмарку BIRD; абляційне дослідження показує, що Refiner робить найбільший внесок (+4,63 пункту), що має пряме значення для генерації запитів до журналів Beancount.

ai
machine-learning
database
queries
+3
DIN-SQL: Декомпозоване навчання в контексті для Text-to-SQL
·mike

DIN-SQL: Декомпозоване навчання в контексті для Text-to-SQL

DIN-SQL (NeurIPS 2023) декомпозує text-to-SQL на етапи прив'язки до схеми, класифікації складності та генерації SQL, що підвищує точність виконання GPT-4 на Spider з 67,4% до 85,3% без донавчання — і ця ж стратегія декомпозиції безпосередньо переноситься на інтерфейси природною мовою для мови запитів BQL від Beancount.

ai
llm
database
queries
+3
Показано 25–36 з 87 записів