FinRAGBench-V (EMNLP 2025) е първият мащабен бенчмарк за мултимодален RAG с визуални цитати във финансовата област, обхващащ над 112 000 страници от документи и 1394 ръчно анотирани двойки въпрос-отговор. Най-добрите модели постигат едва 20–61% припомняне на цитати на ниво блок, а мултимодалното извличане превъзхожда текстовото с близо 50 процентни пункта.
WildToolBench (ICLR 2026) оценява 57 големи езикови модела (LLM) върху 1024 задачи, извлечени от реално потребителско поведение — нито един модел не надвишава 15% точност на сесиите, като композиционната оркестрация, скритите намерения и преходите в инструкциите са трите най-отчетливи типа грешки.
Систематичен обзор на методите за оценка на доверието и калибриране на LLM — подходи с "бяла кутия" чрез логити, SelfCheckGPT, базиран на последователност, и семантична ентропия — разкрива, че вербализираните резултати за доверие от GPT-4 достигат едва ~62,7% AUROC, което е малко над случайността, с преки последици за внедряването на агенти, отчитащи несигурността, във финансите и счетоводството.
FinToolBench съчетава 760 реални финансови API инструмента с 295 изпълними заявки за тестване на LLM агенти върху финансови задачи от реалния свят – установявайки, че консервативният процент на извикване от 22,7% на GPT-4o води до по-високо качество на отговорите (CSS 0,670) спрямо агресивния TIR от 87,1% на Qwen3-8B, докато несъответствието в намеренията надвишава 50% при всички тествани модели.
OmniEval (EMNLP 2025) сравнява RAG системи чрез 5 вида задачи × 16 финансови теми, използвайки 11,4 хиляди автоматично генерирани тестови случая. Най-добрите системи достигат едва 36% числова точност — конкретно доказателс тво, че RAG конвейерите се нуждаят от слоеве за валидация, преди да пишат в структурирани финансови книги.
Критичен прочит на обзора на Сю и Динг за NAACL 2025 относно откриването на аномалии и OOD чрез LLM: таксономията „откриване срещу генериране“ е устойчива, но почти пълната липса на табличен обхват означава, че финансовите AI специалисти трябва сами да синтезират прозрения от визуални модели.
Калибриране по време на извеждане без необходимост от обучение изважда позиционното отклонение от теглата на вниманието на LLM, възстановявайки до 15 процентни пункта точност на RAG, когато извлечените документи са скрити в средата на контекста — и какво означава това за финансово-специфичните агентни конвейери.
Fin-RATE оценява 17 големи езикови модела върху 7 500 експертно подбрани двойки въпроси и отговори от 2 472 отчета към SEC, разкривайки 18,60% срив в точността при лонгитудиално проследяване и 54 пункта спад за тясно специализирания във финансите Fin-R1 при задачи между различни предприятия — като основното тясно място се оказва конвейерът за извличане на информация (retrieval pipeline), а не базовият модел.
FinDER оценява RAG върху 5 703 реални запитвания от анализатори на хедж фондове спрямо 10-K отчети на S&P 500; E5-Mistral постига само 25,95% пълнота на контекста, а наситените със съкращения запитвания струват 8,2 пункта прецизност — доказателство, че нормализирането на запитванията, а не по-добрите вграждания, е първото решение за финансовите AI конвейери.
Статията в TACL 2024 от Liu и съавтори показва, че LLM се справят с до 20 пункта по-лошо с информация, заровена в средата на дълги контексти — U-образна деградация, засягаща всеки тестван модел, включително Claude-1.3-100K — с конкретни последици за начина, по който RAG конвейерите трябва да подреждат извлечените пасажи във финансови и счетоводни приложения.