Bean Labs Research Log

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Защо RAG с векторно хранилище се проваля при реални финансови документи

FinanceBench оценява 16 конфигурации на ИИ спрямо 10 231 въпроса от реални SEC отчети; RAG със споделено векторно хранилище отговаря правилно само в 19% от случаите, а дори GPT-4-Turbo с „oracle“ пасаж достига едва 85% точност — показвайки, че численото разсъждение, а не извличането на информация, е основното ограничение за корпоративния финансов ИИ.

AILLMMachine LearningAutomationFinanceBeancount

DSPy: Замяна на нестабилното проектиране на инструкции с компилирани LLM конвейери

DSPy заменя ръчно изработените низове от инструкции с декларативни сигнатури и компилатор, управляван от метрики — повишавайки резултатите на Llama2-13b от 9,4% на 46,9% при математическото мислене GSM8K и предлагайки по-устойчив път за производствени финансови AI конвейери.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Language Agent Tree Search — Разсъждение, действие и планиране в една рамка

LATS (Language Agent Tree Search, ICML 2024) обединява ReAct, Tree of Thoughts и Reflexion в една MCTS рамка, постигайки 92,7% pass@1 на HumanEval с GPT-4. За базирани на git Beancount регистри, изискването за връщане на състоянието, което ограничава LATS в производствени среди, е тривиално изпълнено.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Адаптивно извличане и самокритика за големи езикови модели (LLMs)

Self-RAG (ICLR 2024 Oral) обучава езиков модел да решава кога да извлича информация и след това да оценява собствените си резултати чрез четири токена за рефлексия — постигайки 55,8% на PopQA и 80,2 FactScore при биографии, като превъзхожда ChatGPT в пет бенчмарка. Анализът обхваща механизма, резултатите от аблацията, лимитите на възпроизводимост и последиците за финансови AI агенти върху Beancount регистри.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Библиотеки от умения като основа за учене през целия живот на AI агенти

Voyager, базиран на GPT-4 агент за Minecraft от NVIDIA и Caltech, демонстрира, че постоянната библиотека от кодови умения позволява истинско учене през целия живот без фина настройка — откривайки 3,3 пъти повече предмети от предишните водещи технологии. Този модел се пренася директно върху дългосрочната автоматизация на Beancount леджъри, въпреки че финансовата коректност изисква слоеве за подготовка (staging layers), които пясъчниците в игрите не изискват.

LLMAIMachine LearningBeancountPlain-Text AccountingFinanceAutomation

HippoRAG: Невробиологично вдъхновена дългосрочна памет за LLMs

HippoRAG (NeurIPS 2024) изгражда граф на знанието от OpenIE тройки и прилага Personalized PageRank по време на заявка, достигайки 89,1% Recall@5 при 2WikiMultiHopQA срещу 68,2% за ColBERTv2 – с преки последици при заявки към сложни финансови регистри с многогодишна история на транзакциите.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: Оценяване на LLM като агенти — уроци за надеждността на ИИ във финансите

AgentBench (Liu et al., ICLR 2024) оценява 27 LLM в 8 интерактивни среди — GPT-4 постигна общ резултат от 4.01 срещу 0.96 за най-добрия модел с отворен код. Трите доминиращи режима на отказ (превишаване на лимита на задачите при 67.9% от отказите в графика на знанието, грешки във формата при 53.3% от отказите в бази данни и невалидни действия) се съпоставят директно с рисковете при внедряване на Beancount агент за запис върху реална главна книга.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT и границите на специализираните LLM в областта на финансите

Bloomberg обучи LLM с 50 милиарда параметри върху корпус от 569 милиарда токена финансови данни и победи общите модели в бенчмарковете за сентимент анализ и логически изводи върху таблици — след което GPT-4 го настигна без никакво специализирано финансово обучение. Какво разкрива този експеримент за 10 милиона долара относно компромисите при тясно специализираното предварително обучение, токенизацията на числата и защо използването на външни инструменти е по-надеждно от вътрешната логика на модела за счетоводни агенти.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Многоагентни рамки за разговори за финансов ИИ

AutoGen (Wu et al., 2023) представя многоагентна рамка за разговори, при която агенти, базирани на LLM, си обменят съобщения за изпълнение на задачи; конфигурация с два агента повишава точността при MATH бенчмарка от 55% на 69%, а специализиран SafeGuard агент подобрява откриването на небезопасен код с до 35 F1 точки — констатации, пряко приложими за изграждането на безопасни, модулни тръбопроводи за автоматизация на Beancount.

FinQA: Бенчмаркът за измерване на численото мислене на ИИ върху финансови отчети

Latest articles

FinanceBench: Защо RAG с векторно хранилище се проваля при реални финансови документи

DSPy: Замяна на нестабилното проектиране на инструкции с компилирани LLM конвейери

LATS: Language Agent Tree Search — Разсъждение, действие и планиране в една рамка

Self-RAG: Адаптивно извличане и самокритика за големи езикови модели (LLMs)

Voyager: Библиотеки от умения като основа за учене през целия живот на AI агенти

HippoRAG: Невробиологично вдъхновена дългосрочна памет за LLMs

AgentBench: Оценяване на LLM като агенти — уроци за надеждността на ИИ във финансите

BloombergGPT и границите на специализираните LLM в областта на финансите

AutoGen: Многоагентни рамки за разговори за финансов ИИ

Започнете с Beancount.io

Първи стъпки

Функции

Общност

Правни въпроси