Перейти до основного вмісту

Bean Labs Research Log

FinQA: Бенчмарк для вимірювання чисельних міркувань ШІ у фінансових звітах

FinQA (EMNLP 2021) зібрав 8 281 пару питань та відповідей зі звітів про прибутки компаній S&P 500, що потребують багатоетапних арифметичних програм. Нейронні моделі набрали 61% на момент випуску проти 91% у експертів-людей; точність падає до 22% у програмах з трьома або більше етапами. Режими збоїв — доменні константи, крос-модальне обґрунтування, довжина ланцюжка — безпосередньо відображають виклики, з якими сьогодні стикаються агенти Beancount.

Latest articles

FinanceBench: Чому RAG на основі векторних сховищ зазнає невдачі на реальних фінансових документах

FinanceBench оцінює 16 конфігурацій ШІ на основі 10 231 запитання з реальних звітів SEC; RAG із спільним векторним сховищем дає правильні відповіді лише у 19% випадків, і навіть GPT-4-Turbo з використанням фрагмента-оракула досягає лише 85% точності. Це свідчить про те, що саме чисельні міркування, а не пошук даних, є основним обмеженням для корпоративного фінансового ШІ.

DSPy: Заміна крихкого промпт-інжинірингу компільованими конвеєрами LLM

DSPy замінює ручне написання промптів декларативними сигнатурами та компілятором на основі метрик, підвищуючи точність Llama2-13b з 9,4% до 46,9% у математичних завданнях GSM8K та пропонуючи надійніший шлях для створення промислових конвеєрів ШІ у сфері фінансів.

LATS: Language Agent Tree Search — Міркування, Дія та Планування в Єдиній Системі

LATS (Language Agent Tree Search, ICML 2024) об'єднує ReAct, Tree of Thoughts та Reflexion в єдину структуру MCTS, досягаючи 92,7% pass@1 на HumanEval з GPT-4. Для Beancount-леджерів на базі git вимога повернення стану, яка обмежує LATS у виробничих середовищах, задовольняється тривіально.

Self-RAG: Адаптивний пошук та самокритика для LLM

Self-RAG (ICLR 2024 Oral) навчає мовну модель вирішувати, коли здійснювати пошук, а потім оцінювати власні результати за допомогою чотирьох токенів рефлексії — досягаючи 55,8% на PopQA та 80,2 FactScore на біографіях, перевершуючи ChatGPT у п'яти тестах. Аналіз охоплює механізм, результати абляції, обмеження відтворюваності та наслідки для фінансових ШІ-агентів у книгах Beancount.

Voyager: Бібліотеки навичок як основа для безперервного навчання ШІ-агентів

Voyager, агент для Minecraft на базі GPT-4 від NVIDIA та Caltech, демонструє, що постійна бібліотека програмних навичок забезпечує справжнє безперервне навчання без донавчання — знаходячи в 3,3 раза більше предметів, ніж попередні передові розробки. Цей підхід безпосередньо переноситься на довготривалу автоматизацію Beancount, хоча фінансова коректність вимагає рівнів підготовки, яких ігрові пісочниці ніколи не потребують.

HippoRAG: нейробіологічно натхненна довгострокова пам'ять для LLM

HippoRAG (NeurIPS 2024) будує граф знань на основі трійок OpenIE та застосовує персоналізований PageRank під час запиту, досягаючи 89,1% Recall@5 на 2WikiMultiHopQA порівняно з 68,2% для ColBERTv2 — це має безпосереднє значення для запитів до складних фінансових книг за багаторічну історію транзакцій.

AgentBench: Оцінювання LLM як агентів — уроки для надійності ШІ у фінансах

AgentBench (Liu та ін., ICLR 2024) тестує 27 моделей LLM у 8 інтерактивних середовищах — GPT-4 отримав загальний бал 4,01 проти 0,96 у найкращої моделі з відкритим кодом. Три основні типи помилок (перевищення ліміту завдань у 67,9% помилок графа знань, помилки формату у 53,3% помилок бази даних та недійсні дії) безпосередньо відображають ризики розгортання агента запису Beancount у реальному гросбуху.

BloombergGPT та межі вузькоспеціалізованих LLM у фінансах

Bloomberg навчила LLM з 50 млрд параметрів на 569 млрд токенів фінансових даних і перевершила загальні моделі в бенчмарках аналізу настроїв та міркувань на основі таблиць — проте GPT-4 наздогнала її без жодного спеціалізованого фінансового донавчання. Що цей експеримент вартістю 10 млн доларів відкриває про компроміси претренінгу в конкретних доменах, токенізацію чисел та чому використання інструментів надійніше за внутрішню логіку моделі для бухгалтерських агентів.

AutoGen: Фреймворки мультиагентної взаємодії для ШІ у фінансах

AutoGen (Wu et al., 2023) представляє фреймворк мультиагентної взаємодії, де агенти на основі LLM обмінюються повідомленнями для виконання завдань; система з двох агентів підвищує точність бенчмарку MATH з 55% до 69%, а спеціалізований агент SafeGuard покращує виявлення небезпечного коду на цілих 35 пунктів F1 — результати, що безпосередньо застосовні до створення безпечних модульних конвеєрів автоматизації Beancount.