Перейти к контенту

FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

В области ИИ для финансов долгое время доминировал исключительно текстовый RAG, однако реальные финансовые документы изобилуют графиками, таблицами и схемами, которые OCR не может зафиксировать полностью. FinRAGBench-V (EMNLP 2025) — это первый масштабный бенчмарк для оценки мультимодального RAG с визуальными цитатами в финансовой сфере, и его результаты служат отрезвляющим напоминанием о том, какой путь еще предстоит пройти промышленным системам.

О статье

2026-07-12-finragbench-v-multimodal-rag-visual-citation-financial-domain

Джао, Цзинь, Ли и Гао из Пекинского университета представляют FinRAGBench-V — двуязычный бенчмарк, составленный из реальных финансовых документов: аналитических отчетов, финансовой отчетности, проспектов эмиссии, академических статей, журналов и новостей. Корпус для поиска внушителен — 60 780 страниц на китайском и 51 219 страниц на английском языке (примерно по 1100 документов на язык) — и дополнен 1394 парами вопросов и ответов, размеченными вручную. Вопросы охватывают семь категорий: текстовый логический вывод, извлечение данных из графиков и таблиц, численные расчеты, запросы, чувствительные ко времени, и многостраничные рассуждения. Помимо самого набора данных, основным вкладом статьи является RGenCite — базовая система, которая генерирует ответы вместе с визуальными цитатами на уровне пикселей в виде координат ограничивающих рамок (bounding boxes), отмечающих конкретные области документа, подтверждающие каждое утверждение.

Ключевые идеи

  • Мультимодальный поиск превосходит текстовый с огромным отрывом: ColQwen2, визуально-языковая поисковая модель на основе эмбеддингов изображений страниц, достигает Recall@10 в 90,13% (китайский) и 85,86% (английский). Лучшие текстовые поисковики, BM25 и BGE-M3, показывают максимум около 42,71%. Этот разрыв — не статистическая погрешность.
  • Точность генерации низка даже для передовых моделей: GPT-4o на английском языке достигает точности 43,41% (ROUGE 24,66); o4-mini на китайском — 58,13% (ROUGE 38,55). Это топовые проприетарные модели с качественно настроенным поиском.
  • Цитирование на уровне страниц работает, на уровне блоков — нет: полнота на уровне страниц составляет 75–93% у лучших моделей. Полнота на уровне блоков — определение конкретной ячейки таблицы или области графика, обосновывающей утверждение — падает до 20–61%. Это критический пробел для обеспечения проверяемости (auditability).
  • Численные рассуждения и многостраничный вывод первыми ломают модели: вопросы, требующие вычислений по нескольким страницам или временным интервалам, — это те области, где точность падает наиболее резко во всех протестированных системах.
  • Проприетарные модели существенно превосходят открытые аналоги: разрыв между закрытыми API и открытым ПО здесь больше, чем в большинстве бенчмарков NLP. Это говорит о том, что визуальные финансовые рассуждения пока остаются нерешенной задачей для открытых моделей.
  • Автоматическая оценка цитат несовершенна: оценщик цитирования на основе обрезки изображений достигает коэффициента корреляции Пирсона r = 0,68 в сравнении с человеческими суждениями — это приемлемо, но недостаточно надежно, чтобы доверять результатам без выборочной проверки.

Что подтверждается, а что — нет

Вывод о преимуществе поиска — самый убедительный результат статьи. Разрыв почти в 50 процентных пунктов между мультимодальными и текстовыми поисковиками на корпусе из 60 тыс.+ страниц слишком велик, чтобы его игнорировать. Когда вы применяете OCR к финансовому документу перед индексацией, вы разрушаете сигналы структурной разметки — в какой колонке находится число, относится ли подпись к интерпретации таблицы. Как выяснилось, это имеет колоссальное значение для качества поиска.

Показатели генерации честны, но их трудно интерпретировать изолированно. Авторы не проводят абляционный анализ того, какая часть разрыва в точности обусловлена ошибками поиска, а какая — сбоями генерации. Учитывая, что Recall@10 для английского языка уже составляет 85,86%, значительная часть неудач должна приходиться на этап генерации. Понимание этой разбивки прояснило бы, является ли узким местом мультимодальное рассуждение или нечто более фундаментальное в том, как MLLM работают с финансовым языком.

Оценочный набор из 1394 пар вопрос-ответ невелик для масштабов бенчмарка. При разделении на семь категорий и два языка на некоторые сегменты приходится менее 200 примеров. Статистическая значимость выводов на уровне категорий остается неявной. Это типично для статей по бенчмаркам, но означает, что при желании можно легко сконструировать предвзятые сравнения.

Протокол оценки цитирования — интересный вклад, но коэффициент Пирсона r = 0,68 не позволяет рассматривать автооценку как истину в последней инстанции для обоснования на уровне блоков. Авторы признают это; необходимость разработки более совершенных метрик цитирования прямо обозначена в планах на будущее.

Почему это важно для финансового ИИ

Beancount работает с текстовыми файлами журналов, что делает текстовый RAG оправданным для запросов по прошлым транзакциям. Но более широкая задача учета включает документы, которые определенно не являются простым текстом: PDF-выписки из банков, отсканированные инвойсы, изображения чеков, годовые отчеты со встроенными таблицами и графиками. В тот момент, когда агенту Beancount нужно сверить запись в журнале с первоисточником — убедиться, что конкретное начисление соответствует счету в архиве, — он выполняет именно ту задачу, которую тестирует FinRAGBench-V.

Для этого сценария использования важнее всего вывод о цитировании на уровне блоков. Если агент должен обосновать запись в журнале, указав на конкретную позицию в PDF-файле, а лучшая доступная система достигает лишь 20–61% полноты на уровне блоков, это не подходит для полноценного аудита. Любой конвейер Beancount, работающий со сканами документов, требует участия человека до тех пор, пока этот показатель существенно не улучшится.

Разрыв в модальности поиска также является сильным аргументом против чисто текстовых конвейеров обработки документов. Изображение чека несет информацию о разметке — поля сумм, названия поставщиков, позиции товаров, — которую OCR уничтожает. Именно эта структурная информация позволяет отличить итоговую сумму от суммы налога, и FinRAGBench-V показывает, что мультимодальные поисковики используют её так, как текстовые не могут.

Что почитать дальше

  • ColPali: Efficient Document Retrieval with Vision Language Models — предшественник ColQwen2, заложивший подход к эмбеддингам визуальных страниц, на котором построен лучший поисковик FinRAGBench-V [arXiv:2407.01449, ECCV 2024]
  • M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — решает задачи визуального QA по нескольким документам с помощью гибкой структуры, поддерживающей простые и сложные визуальные рассуждения на разных страницах [arXiv:2411.04952]
  • Benchmarking Temporal-Aware Multi-Modal RAG in Finance — сопутствующий бенчмарк 2025 года, оценивающий чувствительность к времени в финансовом мультимодальном RAG, который напрямую дополняет категорию вопросов о времени в FinRAGBench-V [arXiv:2503.05185]