Bean Labs Research Log

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Чому RAG на основі векторних сховищ зазнає невдачі на реальних фінансових документах

FinanceBench оцінює 16 конфігурацій ШІ на основі 10 231 запитання з реальних звітів SEC; RAG із спільним векторним сховищем дає правильні відповіді лише у 19% випадків, і навіть GPT-4-Turbo з використанням фрагмента-оракула досягає лише 85% точності. Це свідчить про те, що саме чисельні міркування, а не пошук даних, є основним обмеженням для корпоративного фінансового ШІ.

AILLMMachine LearningAutomationFinanceBeancount

DSPy: Заміна крихкого промпт-інжинірингу компільованими конвеєрами LLM

DSPy замінює ручне написання промптів декларативними сигнатурами та компілятором на основі метрик, підвищуючи точність Llama2-13b з 9,4% до 46,9% у математичних завданнях GSM8K та пропонуючи надійніший шлях для створення промислових конвеєрів ШІ у сфері фінансів.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Language Agent Tree Search — Міркування, Дія та Планування в Єдиній Системі

LATS (Language Agent Tree Search, ICML 2024) об'єднує ReAct, Tree of Thoughts та Reflexion в єдину структуру MCTS, досягаючи 92,7% pass@1 на HumanEval з GPT-4. Для Beancount-леджерів на базі git вимога повернення стану, яка обмежує LATS у виробничих середовищах, задовольняється тривіально.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Адаптивний пошук та самокритика для LLM

Self-RAG (ICLR 2024 Oral) навчає мовну модель вирішувати, коли здійснювати пошук, а потім оцінювати власні результати за допомогою чотирьох токенів рефлексії — досягаючи 55,8% на PopQA та 80,2 FactScore на біографіях, перевершуючи ChatGPT у п'яти тестах. Аналіз охоплює механізм, результати абляції, обмеження відтворюваності та наслідки для фінансових ШІ-агентів у книгах Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Бібліотеки навичок як основа для безперервного навчання ШІ-агентів

Voyager, агент для Minecraft на базі GPT-4 від NVIDIA та Caltech, демонструє, що постійна бібліотека програмних навичок забезпечує справжнє безперервне навчання без донавчання — знаходячи в 3,3 раза більше предметів, ніж попередні передові розробки. Цей підхід безпосередньо переноситься на довготривалу автоматизацію Beancount, хоча фінансова коректність вимагає рівнів підготовки, яких ігрові пісочниці ніколи не потребують.

LLMAIMachine LearningBeancountPlain-Text AccountingFinanceAutomation

HippoRAG: нейробіологічно натхненна довгострокова пам'ять для LLM

HippoRAG (NeurIPS 2024) будує граф знань на основі трійок OpenIE та застосовує персоналізований PageRank під час запиту, досягаючи 89,1% Recall@5 на 2WikiMultiHopQA порівняно з 68,2% для ColBERTv2 — це має безпосереднє значення для запитів до складних фінансових книг за багаторічну історію транзакцій.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: Оцінювання LLM як агентів — уроки для надійності ШІ у фінансах

AgentBench (Liu та ін., ICLR 2024) тестує 27 моделей LLM у 8 інтерактивних середовищах — GPT-4 отримав загальний бал 4,01 проти 0,96 у найкращої моделі з відкритим кодом. Три основні типи помилок (перевищення ліміту завдань у 67,9% помилок графа знань, помилки формату у 53,3% помилок бази даних та недійсні дії) безпосередньо відображають ризики розгортання агента запису Beancount у реальному гросбуху.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT та межі вузькоспеціалізованих LLM у фінансах

Bloomberg навчила LLM з 50 млрд параметрів на 569 млрд токенів фінансових даних і перевершила загальні моделі в бенчмарках аналізу настроїв та міркувань на основі таблиць — проте GPT-4 наздогнала її без жодного спеціалізованого фінансового донавчання. Що цей експеримент вартістю 10 млн доларів відкриває про компроміси претренінгу в конкретних доменах, токенізацію чисел та чому використання інструментів надійніше за внутрішню логіку моделі для бухгалтерських агентів.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Фреймворки мультиагентної взаємодії для ШІ у фінансах

AutoGen (Wu et al., 2023) представляє фреймворк мультиагентної взаємодії, де агенти на основі LLM обмінюються повідомленнями для виконання завдань; система з двох агентів підвищує точність бенчмарку MATH з 55% до 69%, а спеціалізований агент SafeGuard покращує виявлення небезпечного коду на цілих 35 пунктів F1 — результати, що безпосередньо застосовні до створення безпечних модульних конвеєрів автоматизації Beancount.

FinQA: Бенчмарк для вимірювання чисельних міркувань ШІ у фінансових звітах

Latest articles

FinanceBench: Чому RAG на основі векторних сховищ зазнає невдачі на реальних фінансових документах

DSPy: Заміна крихкого промпт-інжинірингу компільованими конвеєрами LLM

LATS: Language Agent Tree Search — Міркування, Дія та Планування в Єдиній Системі

Self-RAG: Адаптивний пошук та самокритика для LLM

Voyager: Бібліотеки навичок як основа для безперервного навчання ШІ-агентів

HippoRAG: нейробіологічно натхненна довгострокова пам'ять для LLM

AgentBench: Оцінювання LLM як агентів — уроки для надійності ШІ у фінансах

BloombergGPT та межі вузькоспеціалізованих LLM у фінансах

AutoGen: Фреймворки мультиагентної взаємодії для ШІ у фінансах

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація