Перейти к контенту
Financial Reporting

Все о Financial Reporting

12 статей
Generating and auditing financial reports with language models

FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

FinRAGBench-V (EMNLP 2025) — это первый масштабный бенчмарк для мультимодального RAG с визуальными цитатами в финансах, охватывающий более 112 тыс. страниц документов и 1394 размеченных вручную пар вопросов и ответов. Лучшие модели достигают лишь 20–61% полноты цитирования на уровне блоков, а мультимодальный поиск превосходит текстовый почти на 50 процентных пунктов.

Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе

Fin-RATE тестирует 17 LLM на 7 500 парах вопросов и ответов, отобранных экспертами из 2 472 отчетов SEC. Исследование выявило падение точности на 18,60% при лонгитюдном отслеживании и снижение на 54 пункта для специализированной финансовой модели Fin-R1 в кросс-субъектных задачах. Основным узким местом оказался конвейер поиска данных (retrieval), а не базовая модель.

FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем

FinDER оценивает RAG на 5 703 реальных запросах аналитиков хедж-фондов к отчетам 10-K компаний S&P 500; E5-Mistral достигает лишь 25,95% полноты контекста, а запросы с обилием аббревиатур снижают точность на 8,2 пункта — доказательство того, что нормализация запросов, а не улучшение эмбеддингов, является первоочередной задачей для финансовых AI-конвейеров.

DocFinQA: Рассуждения в длинном финансовом контексте на полных отчетах SEC

DocFinQA заменяет отобранные отрывки FinQA объемом 700 слов полными отчетами SEC объемом 123 000 слов, что увеличивает контекст в 175 раз и почти вдвое снижает точность GPT-4 на длинных документах. Пайплайны поиска не могут найти нужный фрагмент в 45% случаев при HR@3, и модели с длинным контекстом не являются полноценной заменой.

TAT-LLM: Тонко настроенная модель LLaMA 2 для дискретных рассуждений над финансовыми таблицами и текстом

TAT-LLM выполняет тонкую настройку LLaMA 2 7B с помощью LoRA на бенчмарках QA для финансовых таблиц и текстов, достигая 64,60% EM на FinQA и превосходя GPT-4 (63,91%). Это достигается путем декомпозиции рассуждений на детерминированные этапы «Извлечение-Рассуждение-Выполнение», что устраняет арифметические ошибки.

MultiHiertt: бенчмаркинг численных рассуждений в иерархических финансовых таблицах

MultiHiertt (ACL 2022) представляет 10 440 пар вопросов и ответов из реальных финансовых отчетов, содержащих в среднем 3,89 иерархических таблиц; современные модели показывают результат 38% F1 против 87% у людей, со штрафом в 15 пунктов для вопросов по нескольким таблицам — это количественно оценивает разрыв в поиске данных, который должен преодолеть ИИ в финансах.

ConvFinQA: многоходовые финансовые вопросы и ответы и 21-балльный разрыв между моделями и экспертами-людьми

ConvFinQA (EMNLP 2022) расширяет FinQA до многоходовых диалогов по отчетам о доходах S&P 500, обнаружив, что лучшая дообученная модель достигает точности выполнения 68,9% против 89,4% у экспертов-людей — и падает до 52,4% в гибридных многоаспектных диалогах, где модели должны переносить числовой контекст между различными финансовыми темами.

TAT-QA: Гибридный бенчмарк для ответов на вопросы и логических выводов на основе таблиц и текста в финансовых отчетах

TAT-QA — это бенчмарк из 16 552 вопросов по гибридным контекстам финансовых отчетов (таблица + текст), который показал, что обоснование доказательств (grounding), а не арифметика, является основным узким местом в финансовом ИИ; к 2024 году дообученные LLM на 7 млрд параметров достигли 83% F1, сократив большую часть разрыва по сравнению с человеческим порогом в 91%.

FinQA: бенчмарк для измерения численного мышления ИИ в финансовых отчетах

В рамках проекта FinQA (EMNLP 2021) была создана база из 8 281 пары вопросов и ответов на основе отчетов о доходах компаний из индекса S&P 500, требующих выполнения многошаговых арифметических программ. На момент выпуска нейросетевые модели набирали 61% баллов против 91% у экспертов-людей; точность падает до 22% в программах из трех и более шагов. Типичные ошибки — использование доменных констант, кросс-модальная привязка, длина цепочки рассуждений — напрямую отражают проблемы, с которыми сегодня сталкиваются агенты Beancount.