Преминете към основното съдържание

Bean Labs Research Log

FinQA: Бенчмаркът за измерване на численото мислене на ИИ върху финансови отчети

FinQA (EMNLP 2021) изгради 8 281 двойки въпроси и отговори от отчети за приходите на S&P 500, изискващи многостъпкови аритметични програми. Невронните модели постигнаха 61% при пускането им срещу 91% за човешки експерти; точността спада до 22% при програми с три или повече стъпки. Режимите на неуспех — константи на домейна, заземяване между различни модалности, дължина на веригата — съответстват директно на предизвикателствата, пред които са изправени Beancount агентите днес.

Latest articles

FinanceBench: Защо RAG с векторно хранилище се проваля при реални финансови документи

FinanceBench оценява 16 конфигурации на ИИ спрямо 10 231 въпроса от реални SEC отчети; RAG със споделено векторно хранилище отговаря правилно само в 19% от случаите, а дори GPT-4-Turbo с „oracle“ пасаж достига едва 85% точност — показвайки, че численото разсъждение, а не извличането на информация, е основното ограничение за корпоративния финансов ИИ.

DSPy: Замяна на нестабилното проектиране на инструкции с компилирани LLM конвейери

DSPy заменя ръчно изработените низове от инструкции с декларативни сигнатури и компилатор, управляван от метрики — повишавайки резултатите на Llama2-13b от 9,4% на 46,9% при математическото мислене GSM8K и предлагайки по-устойчив път за производствени финансови AI конвейери.

LATS: Language Agent Tree Search — Разсъждение, действие и планиране в една рамка

LATS (Language Agent Tree Search, ICML 2024) обединява ReAct, Tree of Thoughts и Reflexion в една MCTS рамка, постигайки 92,7% pass@1 на HumanEval с GPT-4. За базирани на git Beancount регистри, изискването за връщане на състоянието, което ограничава LATS в производствени среди, е тривиално изпълнено.

Self-RAG: Адаптивно извличане и самокритика за големи езикови модели (LLMs)

Self-RAG (ICLR 2024 Oral) обучава езиков модел да решава кога да извлича информация и след това да оценява собствените си резултати чрез четири токена за рефлексия — постигайки 55,8% на PopQA и 80,2 FactScore при биографии, като превъзхожда ChatGPT в пет бенчмарка. Анализът обхваща механизма, резултатите от аблацията, лимитите на възпроизводимост и последиците за финансови AI агенти върху Beancount регистри.

Voyager: Библиотеки от умения като основа за учене през целия живот на AI агенти

Voyager, базиран на GPT-4 агент за Minecraft от NVIDIA и Caltech, демонстрира, че постоянната библиотека от кодови умения позволява истинско учене през целия живот без фина настройка — откривайки 3,3 пъти повече предмети от предишните водещи технологии. Този модел се пренася директно върху дългосрочната автоматизация на Beancount леджъри, въпреки че финансовата коректност изисква слоеве за подготовка (staging layers), които пясъчниците в игрите не изискват.

HippoRAG: Невробиологично вдъхновена дългосрочна памет за LLMs

HippoRAG (NeurIPS 2024) изгражда граф на знанието от OpenIE тройки и прилага Personalized PageRank по време на заявка, достигайки 89,1% Recall@5 при 2WikiMultiHopQA срещу 68,2% за ColBERTv2 – с преки последици при заявки към сложни финансови регистри с многогодишна история на транзакциите.

AgentBench: Оценяване на LLM като агенти — уроци за надеждността на ИИ във финансите

AgentBench (Liu et al., ICLR 2024) оценява 27 LLM в 8 интерактивни среди — GPT-4 постигна общ резултат от 4.01 срещу 0.96 за най-добрия модел с отворен код. Трите доминиращи режима на отказ (превишаване на лимита на задачите при 67.9% от отказите в графика на знанието, грешки във формата при 53.3% от отказите в бази данни и невалидни действия) се съпоставят директно с рисковете при внедряване на Beancount агент за запис върху реална главна книга.

BloombergGPT и границите на специализираните LLM в областта на финансите

Bloomberg обучи LLM с 50 милиарда параметри върху корпус от 569 милиарда токена финансови данни и победи общите модели в бенчмарковете за сентимент анализ и логически изводи върху таблици — след което GPT-4 го настигна без никакво специализирано финансово обучение. Какво разкрива този експеримент за 10 милиона долара относно компромисите при тясно специализираното предварително обучение, токенизацията на числата и защо използването на външни инструменти е по-надеждно от вътрешната логика на модела за счетоводни агенти.

AutoGen: Многоагентни рамки за разговори за финансов ИИ

AutoGen (Wu et al., 2023) представя многоагентна рамка за разговори, при която агенти, базирани на LLM, си обменят съобщения за изпълнение на задачи; конфигурация с два агента повишава точността при MATH бенчмарка от 55% на 69%, а специализиран SafeGuard агент подобрява откриването на небезопасен код с до 35 F1 точки — констатации, пряко приложими за изграждането на безопасни, модулни тръбопроводи за автоматизация на Beancount.