Перейти к контенту
Data Science

Все о Data Science

40 статей
Data science methods applied to financial datasets and accounting workflows

FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

FinRAGBench-V (EMNLP 2025) — это первый масштабный бенчмарк для мультимодального RAG с визуальными цитатами в финансах, охватывающий более 112 тыс. страниц документов и 1394 размеченных вручную пар вопросов и ответов. Лучшие модели достигают лишь 20–61% полноты цитирования на уровне блоков, а мультимодальный поиск превосходит текстовый почти на 50 процентных пунктов.

WildToolBench: Почему ни одна LLM не превышает 15% точности сессии в реальных сценариях использования инструментов

WildToolBench (ICLR 2026) оценивает 57 LLM на 1024 задачах, основанных на реальном поведении пользователей — ни одна модель не превышает 15% точности сессии, при этом композиционная оркестрация, скрытые намерения и переходы между инструкциями являются тремя наиболее критичными режимами отказа.

Уверенность и калибровка LLM: обзор того, что на самом деле показывают исследования

Систематический обзор методов оценки и калибровки уверенности LLM — подходов «белого ящика» на основе логитов, SelfCheckGPT на основе согласованности и семантической энтропии — показывает, что показатели вербализованной уверенности GPT-4 достигают лишь ~62,7% AUROC, что едва превышает случайность. Это имеет прямые последствия для развертывания агентов, учитывающих неопределенность, в сфере финансов и бухгалтерского учета.

FinToolBench: Оценка LLM-агентов при использовании финансовых инструментов в реальных условиях

FinToolBench объединяет 760 работающих финансовых API-инструментов с 295 исполняемыми запросами для тестирования LLM-агентов на реальных финансовых задачах. Исследование показало, что консервативная частота вызовов GPT-4o (22,7%) обеспечивает более высокое качество ответов (CSS 0,670), чем агрессивная TIR Qwen3-8B (87,1%), в то время как несоответствие намерений (intent mismatch) превышает 50% у всех протестированных моделей.

OmniEval: Всенаправленный бенчмарк для оценки RAG в финансовой сфере

OmniEval (EMNLP 2025) оценивает системы RAG по 5 типам задач и 16 финансовым темам, используя 11,4 тыс. автоматически сгенерированных тестовых случаев. Лучшие системы достигают лишь 36% точности в вычислениях — это конкретное доказательство того, что RAG-конвейеры нуждаются в слоях валидации перед записью в структурированные финансовые гроссбухи.

Обзор методов обнаружения аномалий с помощью LLM (NAACL 2025): сильная таксономия, отсутствие охвата табличных данных

Критический разбор обзора Сюй и Дина для NAACL 2025 об обнаружении аномалий и OOD на базе LLM. Таксономия «обнаружение против генерации» актуальна, но почти полное отсутствие табличных данных вынуждает специалистов по финансовому ИИ самостоятельно адаптировать наработки из моделей компьютерного зрения.

Найдено посередине: калибровка позиционного смещения внимания улучшает RAG с длинным контекстом

Калибровка на этапе вывода, не требующая дообучения, вычитает позиционное смещение из весов внимания LLM, восстанавливая до 15 процентных пунктов точности RAG, когда извлеченные документы находятся в середине контекста — и что это значит для специализированных финансовых агентских конвейеров.

Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе

Fin-RATE тестирует 17 LLM на 7 500 парах вопросов и ответов, отобранных экспертами из 2 472 отчетов SEC. Исследование выявило падение точности на 18,60% при лонгитюдном отслеживании и снижение на 54 пункта для специализированной финансовой модели Fin-R1 в кросс-субъектных задачах. Основным узким местом оказался конвейер поиска данных (retrieval), а не базовая модель.

FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем

FinDER оценивает RAG на 5 703 реальных запросах аналитиков хедж-фондов к отчетам 10-K компаний S&P 500; E5-Mistral достигает лишь 25,95% полноты контекста, а запросы с обилием аббревиатур снижают точность на 8,2 пункта — доказательство того, что нормализация запросов, а не улучшение эмбеддингов, является первоочередной задачей для финансовых AI-конвейеров.

Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ

В статье TACL 2024 года Лю и др. показывают, что LLM работают на 20 пунктов хуже с информацией, скрытой в середине длинного контекста — U-образная деградация затрагивает все протестированные модели, включая Claude-1.3-100K — с конкретными выводами о том, как пайплайны RAG должны упорядочивать извлеченные фрагменты в финансовых и бухгалтерских приложениях.