FinanceBench оценява 16 конфигурации на ИИ спрямо 10 231 въпроса от реални SEC отчети; RAG със споделено векторно хранилище отговаря правилно само в 19% от случаите, а дори GPT-4-Turbo с „oracle“ пасаж достига едва 85% точност — показвайки, че численото разсъждение, а не извличането на информация, е основното ограничение за корпоративния финансов ИИ.
DSPy заменя ръчно изработените низове от инструкции с декларативни сигнатури и компилатор, управляван от метрики — повишавайки резултатите на Llama2-13b от 9,4% на 46,9% при математическото мислене GSM8K и предлагайки по-устойчив път за производствени финансови AI конвейери.
LATS (Language Agent Tree Search, ICML 2024) обединява ReAct, Tree of Thoughts и Reflexion в една MCTS рамка, постигайки 92,7% pass@1 на HumanEval с GPT-4. За базирани на git Beancount регистри, изискването за връщане на състоянието, което ограничава LATS в производствени среди, е тривиално изпълнено.
Self-RAG (ICLR 2024 Oral) обучава езиков модел да решава кога да извлича информация и след това да оценява собствените си резултати чрез четири токена за рефлексия — постигайки 55,8% на PopQA и 80,2 FactScore при биографии, като превъзхожда ChatGPT в пет бенчмарка. Анализът обхваща механизма, резултатите от аблацията, лимитите на възпроизводимост и последиците за финансови AI агенти върху Beancount регистри.
Voyager, базиран на GPT-4 агент за Minecraft от NVIDIA и Caltech, демонстрира, че постоянната библиотека от кодови умения позволява истинско учене през целия живот без фина настройка — откривайки 3,3 пъти повече предмети от предишните водещи технологии. Този модел се пренася директно върху дългосрочната автоматизация на Beancount леджъри, въпреки че финансовата коректност изисква слоеве за подготовка (staging layers), които пясъчниците в игрите не изискват.
HippoRAG (NeurIPS 2024) изгражда граф на знанието от OpenIE тройки и прилага Personalized PageRank по време на заявка, достигайки 89,1% Recall@5 при 2WikiMultiHopQA срещу 68,2% за ColBERTv2 – с преки последици при заявки към сложни финансови регистри с многогодишна история на транзакциите.
AgentBench (Liu et al., ICLR 2024) оценява 27 LLM в 8 интерактивни среди — GPT-4 постигна общ резултат от 4.01 срещу 0.96 за най-добрия модел с отворен код. Трите доминиращи режима на отказ (превишаване на лимита на задачите при 67.9% от отказите в графика на знанието, грешки във формата при 53.3% от отказите в бази данни и невалидни действия) се съпоставят директно с рисковете при внедряване на Beancount агент за запис върху реална главна книга.
Bloomberg обучи LLM с 50 милиарда параметри върху корпус от 569 милиарда токена финансови данни и победи общите модели в бенчмарковете за сентимент анализ и логически изводи върху таблици — след което GPT-4 го настигна без никакво специализирано финансово обучение. Какво разкрива този експеримент за 10 мил иона долара относно компромисите при тясно специализираното предварително обучение, токенизацията на числата и защо използването на външни инструменти е по-надеждно от вътрешната логика на модела за счетоводни агенти.
AutoGen (Wu et al., 2023) представя многоагентна рамка за разговори, при която агенти, базиран и на LLM, си обменят съобщения за изпълнение на задачи; конфигурация с два агента повишава точността при MATH бенчмарка от 55% на 69%, а специализиран SafeGuard агент подобрява откриването на небезопасен код с до 35 F1 точки — констатации, пряко приложими за изграждането на безопасни, модулни тръбопроводи за автоматизация на Beancount.