Mike Thrift
Marketing Manager
FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област
FinRAGBench-V (EMNLP 2025) е първият мащабен бенчмарк за мултимодален RAG с визуални цитати във финансовата област, обхващащ над 112 000 страници от документи и 1394 ръчно анотирани двойки въпрос-отговор. Най-добрите модели постигат едва 20–61% припомняне на цитати на ниво блок, а мултимодалното извличане превъзхожда текстовото с близо 50 процентни пункта.
Могат ли LLM агентите да бъдат финансови директори? 132-месечната симулация на EnterpriseArena разкрива голяма пропаст
EnterpriseArena тества 11 големи езикови модела (LLM) чрез 132-месечна симулация на финансов директор, проследявайки процента на оцеляване, крайната оценка и степента на приключване на книгите. Само Qwen3.5-9B оцелява в 80% от опитите; GPT-5.4 и DeepSeek-V3.1 достигат 0%. Експертите хора постигат 100% оцеляване при 5 пъти по-висока крайна стойност. Критичното тясно място - LLM пропускат равнението на главната книга в 80% от случаите, действайки въз основа на остаряло финансово състояние.
WildToolBench: Защо нито един LLM не надвишава 15% точност на сесиите при използване на инструменти в реалния свят
WildToolBench (ICLR 2026) оценява 57 големи езикови модела (LLM) върху 1024 задачи, извлечени от реално потребителско поведение — нито един модел не надвишава 15% точност на сесиите, като композиционната оркестрация, скритите намерения и преходите в инструкциите са трите най-отчетливи типа грешки.
Доверие и калибриране на LLM: Обзор на това, което изследванията всъщност показват
Систематичен обзор на методите за оценка на доверието и калибриране на LLM — подходи с "бяла кутия" чрез логити, SelfCheckGPT, базиран на последователност, и семантична ентропия — разкрива, че вербализираните резултати за доверие от GPT-4 достигат едва ~62,7% AUROC, което е малко над случайността, с преки последици за внедряването на агенти, отчитащи несигурността, във финансите и счетоводството.
JSONSchemaBench: Сложността на реалните схеми нарушава гаранциите за структуриран изход при LLM
JSONSchemaBench тества 9 558 реални JSON схеми срещу шест рамки за ограничено декодиране и установява, че сложността на схемите води до срив на покритието от 86% при прости схеми до 3% при сложни такива, като XGrammar мълчаливо генерира 38 несъответстващи изхода, а нито една рамка не покрива всички 45 категории функции на JSON Schema.
FinMCP-Bench: Сравнителен анализ на LLM агенти за реално използване на финансови инструменти под MCP
FinMCP-Bench оценява шест LLM модела върху 613 задачи за използване на финансови инструменти в реалния свят, поддържани от 65 MCP сървъра — най-добрият модел постига 3,08% точно съвпадение при многократни задачи, разкривайки 20-кратен срив в производителността от сценарии с един инструмент към многократни такива.
FinTrace: Оценка на ниво траектория при извикване на инструменти от LLM за финансови задачи
FinTrace тества 13 големи езикови модела (LLM) върху 800 експертно анотирани траектории на финансови задачи по 9 метрики, установявайки, че водещите модели постигат силен подбор на инструменти (F1 ~0.9), но получават само 3.23/5 за използване на информация — етапът, в който агентите разсъждават върху върнатите от инструментите резултати.
FinToolBench: Оценяване на LLM агенти при използване на финансови инструменти в реалния свят
FinToolBench съчетава 760 реални финансови API инструмента с 295 изпълними заявки за тестване на LLM агенти върху финансови задачи от реалния свят – установявайки, че консервативният процент на извикване от 22,7% на GPT-4o води до по-високо качество на отговорите (CSS 0,670) спрямо агресивния TIR от 87,1% на Qwen3-8B, докато несъответствието в намеренията надвишава 50% при всички тествани модели.
OmniEval: Всепосочен бенчмарк за оценка на RAG във финансовата сфера
OmniEval (EMNLP 2025) сравнява RAG системи чрез 5 вида задачи × 16 финансови теми, използвайки 11,4 хиляди автоматично генерирани тестови случая. Най-добрите системи достигат едва 36% числова точност — конкретно доказателство, че RAG конвейерите се нуждаят от слоеве за валидация, преди да пишат в структурирани финансови книги.
Обзор на откриването на аномалии с LLM (NAACL 2025): Силна таксономия, липса на обхват при табличните данни
Критичен прочит на обзора на Сю и Динг за NAACL 2025 относно откриването на аномалии и OOD чрез LLM: таксономията „откриване срещу генериране“ е устойчива, но почти пълната липса на табличен обхват означава, че финансовите AI специалисти трябва сами да синтезират прозрения от визуални модели.
Открити в средата: Калибрирането на позиционното отклонение на вниманието подобрява RAG с дълъг контекст
Калибриране по време на извеждане без необходимост от обучение изважда позиционното отклонение от теглата на вниманието на LLM, възстановявайки до 15 процентни пункта точност на RAG, когато извлечените документи са скрити в средата на контекста — и какво означава това за финансово-специфичните агентни конвейери.
Отлагане с отчитане на неопределеността за LLM агенти: Кога да се ескалира от малки към големи модели
ReDAct изпълнява малък модел по подразбиране и ескалира към скъп модел само когато перплексията на ниво токен сигнализира за неопределеност, постигайки 64% спестяване на разходи спрямо използването само на GPT-5.2, като същевременно съответства на неговата точност или я надвишава — модел, директно приложим за агенти за категоризиране на трансакции в Beancount.