FinRAGBench-V (EMNLP 2025) — це перший масштабний бенчмарк для мультимодального RAG із візуальним цитуванням у фінансах, що охоплює понад 112 тис. сторінок документів і 1394 анотованих людиною пар запитання-відповідь. Найкращі моделі досягають лише 20–61% повноти цитування на рівні блоків, а мультимодальний пошук перевершує текстовий майже на 50 відсоткових пунктів.
EnterpriseArena проводить 11 LLM через 132-місячну симуляцію фінансового директора, відстежуючи виживання, кінцеву оцінку та швидкість закриття звітного періоду. Лише Qwen3.5-9B виживає у 80% запусків; GPT-5.4 та DeepSeek-V3.1 показали 0%. Експерти-люди досягають 100% виживання з у 5 разів вищою кінцевою вартістю. Критичне вузьке місце: LLM пропускають звірку реєстрів у 80% випадків, діючи на основі застарілого фінансового стану.
FinMCP-Bench оцінює шість моделей LLM на 613 реальних завданнях з використання фінансових інструментів на базі 65 серверів MCP — найкраща модель отримує 3,08% точних збігів у багатоходових завданнях, демонструючи 20-кратне падіння продуктивності при переході від одноінструментальних до багатоходових сценаріїв.
Калібрування під час виведення без донавчання віднімає позиційне зміщення від ваг уваги LLM, відновлюючи до 15 відсоткових пунктів точності RAG, ко ли знайдені документи приховані в середині контексту — і що це означає для фінансових конвеєрів агентів.
Fin-RATE тестує 17 LLM на 7 500 парах питань та відповідей, відібраних експертами з 2 472 звітів SEC, виявляючи падіння точності на 18,60% при лонгітюдному відстеженні та зниження на 54 пункти для спеціалізованої на фінансах моделі Fin-R1 у міжсуб'єктних завданнях — при цьому конвеєр пошуку (retrieval), а не базова модель, є критичним вузьким місцем.
Voyager, агент для Minecraft на базі GPT-4 від NVIDIA та Caltech, демонструє, що постійна бібліотека програмних навичок забезпечує справжнє безперервне навчання без донавчання — знаходячи в 3,3 раза більше предметів, ніж попередні передові розробки. Цей підхід безпосередньо переноситься на довготривалу автоматизацію Beancount, хоча фінансова коректність вимагає рівнів підготовки, яких ігрові пісочниці ніколи не потребують.
AutoGen (Wu et al., 2023) представляє фреймворк мультиагентної взаємодії, де агенти на основі LLM обмінюються повідомленнями для виконання завдань; система з двох агентів підвищує точність бенчмарку MATH з 55% до 69%, а спеціалізований агент SafeGuard покращує виявлення небезпечного коду на цілих 35 пунктів F1 — результати, що безпосередньо застосовні до створення безпечних модульних конвеєрів автоматизації Beancount.
CodeAct (ICML 2024) замінює JSON-виклики інструментів виконуваним кодом Python, що підвищує рівень успіху агентів GPT-4 приблизно на 20 відсоткових пунктів у завданнях із використанням кількох інструментів і скорочує кількість ітерацій на 30% — це має пряме значення для створення надійних агентів узгодження Beancount.
CRITIC (ICLR 2024) досягає приросту F1 на 7,7 у завданнях QA з відкритим доменом та зниження токсичності на 79,2% шляхом заземлення перегляду LLM у сигналах зовнішніх інструментів — циклу «перевірка-корекція», який безпосередньо відповідає за безпеку зворотного запису для фінансових агентів Beancount.
ReAct (Yao та ін., ICLR 2023) поєднує міркування «ланцюжка думок» із діями інструментів в єдиній траєкторії, перевершуючи чистий CoT у перевірці фактів та імітаційному навчанні в ембодімент-завданнях на 34 відсоткові пункти. Цей аналіз розглядає режими відмов статті — відволікання через пошук та накопичення помилок — і те, що вони означають для автономних агентів, які вносять записи до реєстрів Beancount.