Перейти до основного вмісту

FinRAGBench-V: Мультимодальний RAG із візуальним цитуванням у фінансовій сфері

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

У фінансовому ШІ домінував текстовий RAG, але реальні фінансові документи сповнені діаграм, таблиць та малюнків, які OCR не може повністю вловити. FinRAGBench-V (EMNLP 2025) — це перший масштабний бенчмарк для оцінки мультимодального RAG із візуальним цитуванням у фінансовій сфері, і його результати є протверезним нагадуванням про те, наскільки далеко ще реальним системам до досконалості.

Про статтю

2026-07-12-finragbench-v-multimodal-rag-visual-citation-financial-domain

Чжао, Цзінь, Лі та Гао з Пекінського університету представляють FinRAGBench-V, двомовний бенчмарк, побудований на основі реальних фінансових документів: аналітичних звітів, фінансової звітності, проспектів емісії, наукових праць, журналів та новин. Корпус для пошуку є значним — 60 780 китайських сторінок та 51 219 англійських сторінок у приблизно 1100 документах на кожну мову — у поєднанні з 1394 анотованими людиною парами запитання-відповідь, що охоплюють сім категорій питань: текстовий висновок, вилучення даних з діаграм і таблиць, чисельні розрахунки, запити, чутливі до часу, та багатосторінкові міркування. Крім набору даних, головним внеском статті є RGenCite — базова система, яка генерує відповіді разом із візуальним цитуванням на рівні пікселів у формі координат обмежувальних рамок (bounding box), що позначають конкретні області документа, які підтверджують кожне твердження.

Ключові ідеї

  • Мультимодальний пошук домінує над текстовим з величезним відривом: ColQwen2, візуально-мовний ретривер, побудований на ембеддингах зображень сторінок, досягає Recall@10 у 90,13% (для китайської) та 85,86% (для англійської). Найкращі текстові ретривери, BM25 та BGE-M3, зупиняються на позначці близько 42,71%. Цей розрив не є помилкою округлення.
  • Точність генерації низька навіть для передових моделей: GPT-4o для англійської мови досягає лише 43,41% точності (ROUGE 24,66); o4-mini для китайської — 58,13% (ROUGE 38,55). Це топові пропрієтарні моделі з потужними системами пошуку.
  • Цитування на рівні сторінок працює, на рівні блоків — ні: Повнота (recall) на рівні сторінок становить 75–93% для найкращих моделей. Повнота на рівні блоків — знання того, яка саме клітинка таблиці або область діаграми обґрунтовує твердження — падає до 20–61%. Це ключовий розрив для можливості аудиту.
  • Числові міркування та багатосторінкові висновки ламають моделі першими: Питання, що потребують розрахунків на основі кількох сторінок або часових інтервалів, — це те, де точність падає найстрімкіше у всіх протестованих системах.
  • Пропрієтарні моделі суттєво перевершують аналоги з відкритим кодом: Розрив між закритими API та відкритим кодом тут більший, ніж у більшості бенчмарків NLP, що свідчить про те, що візуальні фінансові міркування залишаються невирішеною проблемою для відкритих моделей.
  • Автоматичне оцінювання цитування недосконале: Оцінювач цитат на основі обрізання зображень досягає коефіцієнта Пірсона r = 0,68 з людськими оцінками — це прийнятно, але недостатньо надійно, щоб довіряти йому повністю без вибіркової перевірки.

Що витримує критику, а що — ні

Результат щодо пошуку є найбільш достовірним у статті. Розрив майже у 50 відсоткових пунктів між мультимодальними та суто текстовими ретриверами на обсязі понад 60 тис. сторінок занадто великий, щоб його ігнорувати. Коли ви проводите OCR фінансового документа перед індексацією, ви руйнуєте сигнали структурного макета — у якій колонці з'являється число, чи уточнює підпис до малюнка інтерпретацію таблиці — а це, як виявляється, має величезне значення для пошуку.

Показники генерації чесні, але їх важко інтерпретувати окремо. Автори не аналізують, яка частина розриву в точності зумовлена помилками пошуку, а яка — збоями генерації. Враховуючи, що Recall@10 вже становить 85,86% для англійської мови, значна частка невдач має бути на стороні генерації, а не пошуку. Розуміння цього розподілу прояснило б, чи є вузьким місцем мультимодальне мислення, чи щось більш фундаментальне в тому, як MLLM обробляють фінансову мову.

Оцінювальний набір із 1394 пар запитання-відповідь невеликий для такого масштабу бенчмарка. При розподілі на сім категорій та дві мови деякі сегменти містять менше ніж 200 прикладів. Статистична значущість висновків на рівні категорій залишається неявною. Це не є незвичним для бенчмарків, але це означає, що легко було б сконструювати упереджені порівняння.

Протокол оцінювання цитування є цікавим внеском, але r = 0,68 з оцінками людей недостатньо сильний показник, щоб вважати автоматичне оцінювання істиною в останній інстанції для заземлення (grounding) на рівні блоків. Автори визнають це; подальша робота над кращими метриками цитування прямо позначена як необхідна.

Чому це важливо для фінансового ШІ

Beancount працює з текстовими файлами реєстрів (ledger files), що робить текстовий RAG цілком обґрунтованим для запитів до минулих транзакцій. Але ширші бухгалтерські завдання включають документи, які зовсім не є текстовими: банківські виписки у PDF, відскановані інвойси, зображення чеків, річні звіти з вбудованими таблицями та діаграмами. Щойно агент Beancount потребує звірки запису в реєстрі з первинним документом — наприклад, підтвердження того, що певна сума відповідає інвойсу у файлі — він виконує саме те завдання, яке тестує FinRAGBench-V.

Результат щодо цитування на рівні блоків має найбільше значення для цього випадку. Якщо агент має обґрунтувати запис у реєстрі, вказавши на конкретний рядок у PDF, а найкраща доступна система досягає лише 20–61% повноти на рівні блоків, це не є готовим до аудиту рішенням. Будь-який конвеєр Beancount, що працює зі сканованими первинними документами, потребує перевірки людиною, доки цей показник суттєво не покращиться.

Розрив у модальності пошуку також є вагомим аргументом проти суто текстових конвеєрів для обробки документів. Зображення чека містить інформацію про макет — поля сум, назви постачальників, позиції товарів — яку OCR руйнує. Саме ця інформація про макет дозволяє відрізнити загальну суму від суми податку, і FinRAGBench-V показує, що мультимодальні ретривери використовують це так, як не можуть текстові.

Що почитати далі

  • ColPali: Efficient Document Retrieval with Vision Language Models — попередник ColQwen2, який встановив підхід до візуальних ембеддингів сторінок, на якому побудовано найкращий ретривер у FinRAGBench-V [arXiv:2407.01449, ECCV 2024]
  • M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — розглядає мультимодальні QA за кількома документами за допомогою гнучкої структури, що обробляє одно- та багатокрокові візуальні міркування на різних сторінках [arXiv:2411.04952]
  • Benchmarking Temporal-Aware Multi-Modal RAG in Finance — супутній бенчмарк 2025 року, що оцінює часову чутливість у фінансовому мультимодальному RAG, безпосередньо доповнюючи категорію запитань FinRAGBench-V, чутливих до часу [arXiv:2503.05185]