FinRAGBench-V (EMNLP 2025) — это первый масштабный бенчмарк для мультимодального RAG с визуальными цитатами в финансах, охватывающий более 112 тыс. страниц документов и 1394 размеченных вручную пар вопросов и ответов. Лучшие модели достигают лишь 20–61% полноты цитирования на уровне блоков, а мультимодальный поиск превосходит текстовый почти на 50 процентных пунктов.
WildToolBench (ICLR 2026) оценивает 57 LLM на 1024 задачах, основанных на реальном поведении пользователей — ни одна модель не превышает 15% точности сессии, при этом композиционная оркестрация, скрытые намерения и переходы между инструкциями являются тремя наиболее критичными режимами отказа.
Систематический обзор методов оценки и калибровки уверенности LLM — подходов «белого ящика» на основе логитов, SelfCheckGPT на основе согласованности и семантической энтропии — показывает, что показатели вербализованной уверенности GPT-4 достигают лишь ~62,7% AUROC, что едва превышает случайность. Это имеет прямые последствия для развертывания агентов, учитывающих неопределенность, в сфере финансов и бухгалтерского учета.
JSONSchemaBench тестирует 9 558 реальных схем JSON на шести фреймворках ограниченного декодирования и обнаруживает, что сложность схем приводит к падению покрытия с 86% на простых схемах до 3% на сложных, при этом XGrammar незаметно выдает 38 некорректных ответов, и ни один фреймворк не охватывает все 45 категорий функций JSON Schema.
FinMCP-Bench оценивает шесть моделей LLM в 613 реальных задачах по использованию финансовых инструментов на базе 65 серверов MCP. Лучшая модель показала точность 3,08% в многоходовых задачах, выявляя 20-кратное падение производительности при переходе от одного инструмента к сложным сценариям.
FinTrace тестирует 13 LLM на 800 аннотированных экспертами траекториях финансовых задач по 9 метрикам, обнаружив, что передовые модели демонстрируют хороший выбор инструментов (F1 ~0.9), но набирают лишь 3.23/5 по использованию информации — этапу, на котором агенты анализируют результаты работы инструментов.
FinToolBench объединяет 760 работающих финансовых API-инструментов с 295 исполняемыми запросами для тестирования LLM-агентов на реальных финансовых задачах. Исследование показало, что консервативная частота вызовов GPT-4o (22,7%) обеспечивает более высокое качество ответов (CSS 0,670), чем агрессивная TIR Qwen3-8B (87,1%), в то время как несоответствие намерений (intent mismatch) превышает 50% у всех протестированных моделей.
OmniEval (EMNLP 2025) оценивает системы RAG по 5 типам задач и 16 финансовым темам, используя 11,4 тыс. автоматически сгенерированных тестовых случаев. Лучшие системы достигают лишь 36% точности в вычислениях — это конкретное доказательство того, что RAG-конвейеры нуждаются в слоях валидации перед записью в структурированные финансовые гроссбухи.
Критический разбор обзора Сюй и Дина для NAACL 2025 об обнаружении аномалий и OOD на базе LLM. Таксономия «обнаружение против генерации» актуальна, но почти полное отсутствие табличных данных вынуждает специалистов по финансовому ИИ самостоятельно адаптировать наработки из моделей компьютерного зрения.
Калибровка на этапе вывода, не требующая дообучения, вычитает позиционное смещение из весов внимания LLM, восстанавливая до 15 процентных пунктов точности RAG, когда извлеченные документы находятся в середине контекста — и что это значит для специализированных финансовых агентских конвейеров.