FinanceBench оцінює 16 конфігурацій ШІ на основі 10 231 запитання з реальних звітів SEC; RAG із спільним векторним сховищем дає правильні відповіді лише у 19% випадків, і навіть GPT-4-Turbo з використанням фрагмента-оракула досягає лише 85% точності. Це свідчить про те, що саме чисельні міркування, а не пошук даних, є основним обмеженням для корпоративного фінансового ШІ.
DSPy замінює ручне написання промптів декларативними сигнатурами та компілятором на основі метрик, підвищуючи точність Llama2-13b з 9,4% до 46,9% у математичних завданнях GSM8K та пропонуючи надійніший шлях для створення промислових конвеєрів ШІ у сфері фінансів.
LATS (Language Agent Tree Search, ICML 2024) об'єднує ReAct, Tree of Thoughts та Reflexion в єдину структуру MCTS, досягаючи 92,7% pass@1 на HumanEval з GPT-4. Для Beancount-леджерів на базі git вимога повернення стану, яка обмежує LATS у виробничих середовищах, задовольняється тривіально.
Self-RAG (ICLR 2024 Oral) навчає мовну модель вирішувати, коли здійснювати пошук, а потім оцінювати власні результати за допомогою чотирьох токенів рефлексії — досягаючи 55,8% на PopQA та 80,2 FactScore на біографіях, перевершуючи ChatGPT у п'яти тестах. Аналіз охоплює механізм, результати абляції, обмеження відтворюваності та наслідки для фінансових ШІ-агентів у книгах Beancount.
Voyager, агент для Minecraft на базі GPT-4 від NVIDIA та Caltech, демонструє, що постійна бібліотека програмних навичок забезпечує справжнє безперервне навчання без донавчання — знаходячи в 3,3 раза більше предметів, ніж попередні передові розробки. Цей підхід безпосередньо переноситься на довготривалу автоматизацію Beancount, хоча фінансова коректність вимагає рівнів підготовки, яких ігрові пісочниці ніколи не потребують.
HippoRAG (NeurIPS 2024) будує граф знань на основі трійок OpenIE та застосовує персоналізований PageRank під час запиту, досягаючи 89,1% Recall@5 на 2WikiMultiHopQA порівняно з 68,2% для ColBERTv2 — це має безпосереднє значення для запитів до складних фінансових книг за багаторічну історію транзакцій.
AgentBench (Liu та ін., ICLR 2024) тестує 27 моделей LLM у 8 інтерактивних середовищах — GPT-4 отримав загальний бал 4,01 проти 0,96 у найкращої моделі з відкритим кодом. Три основні типи помилок (перевищення ліміту завдань у 67,9% помилок графа знань, помилки формату у 53,3% помилок бази даних та недійсні дії) безпосередньо відображають ризики розгортання агента запису Beancount у реальному гросбуху.
Bloomberg навчила LLM з 50 млрд параметрів на 569 млрд токенів фінансових даних і перевершила загальні моделі в бенчмарках аналізу настроїв та міркувань на основі таблиць — проте GPT-4 наздогнала її без жодного спеціалізованого фінансового донавчання. Що цей експеримент вартістю 10 млн доларів відкриває про компроміси претренінгу в конкретних доменах, токенізацію чисел та чому використання інструментів надійніше за внутрішню логіку моделі для бухгалтерських агентів.
AutoGen (Wu et al., 2023) представляє фреймворк мультиагентної взаємодії, де агенти на основі LLM обмінюються повідомленнями для виконання завдань; система з двох агентів підвищує точність бенчмарку MATH з 55% до 69%, а спеціалізований агент SafeGuard покращує виявлення небезпечного коду на цілих 35 пунктів F1 — результати, що безпосередньо застосовні до створення безпечних модульних конвеєрів автоматизації Beancount.