FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област
Финансовият изкуствен интелект е доминиран от текстови RAG системи, но реалните финансови документи са пълни с диаграми, таблици и фигури, които OCR не може да улови напълно. FinRAGBench-V (EMNLP 2025) е първият мащабен бенчмарк за оценка на мултимодален RAG с визуални цитати във финансовата област, а резултатите от него са изрезвяващо напомняне за това колко дълъг път имат да извървят производствените системи.
Документът
Джао, Дзин, Ли и Гао от Пекинския университет представят FinRAGBench-V, двуезичен бенчмарк, съставен от реални финансови документи: изследователски доклади, финансови отчети, проспекти, академични трудове, списания и новинарски статии. Корпусът за извличане е значителен — 60 780 китайски страници и 51 219 английски страници в приблизително 1100 документа на език — съчетан с 1394 ръчно анотирани двойки въпрос-отговор, обхващащи седем категории въпроси: извеждане на заключения от текст, извличане на диаграми и таблици, числени изчисления, чувствителни към времето заявки и разсъждения върху няколко страници. Извън набора от данни, основният принос на документа е RGenCite — базова система, която генерира отговори заедно с визуални цитати на ниво пиксел под формата на координати на ограничителни кутии (bounding-box), маркиращи специфичните области на документа, които подкрепят всяко твърдение.
Ключови идеи
- Мултимодалното извличане превъзхожда текстовото с огромна разлика: ColQwen2, модел за извличане чрез визуално-езикови методи, изграден върху вграждания (embeddings) на изображения на страници, постига Recall@10 от 90,13% (китайски) и 85,86% (английски). Най-добрите текстови модели за извличане, BM25 и BGE-M3, достигат максимум около 42,71%. Тази разлика не е грешка при закръгляне.
- Точността на генериране е ниска дори за водещите модели: GPT-4o на английски достига 43,41% точност (ROUGE 24,66); o4-mini на китайски достига 58,13% (ROUGE 38,55). Това са водещи платени модели със стабилно извличане.
- Цитирането на ниво страница работи; на ниво блок – не: Припомнянето на ниво страница е 75–93% за най-добрите модели. Припомнянето на ниво блок — познаването на това коя конкретна клетка от таблица или област от диаграма стои зад твърдението — пада до 20–61%. Това е ключовата празнина за възможността за одит.
- Числените разсъждения и извличането на заключения от няколко страници сриват моделите първи: Въпросите, изискващи изчисления в няколко страници или времеви периоди, са местата, където точността пада най-рязко при всички тествани системи.
- Частните модели значително превъзхождат алтернативите с отворен код: Разликата между затворените API и отворения код тук е по-голяма, отколкото при повечето NLP бенчмаркове, което предполага, че визуалните финансови разсъждения остават нерешен проблем за отворените модели.
- Автоматичната оценка на цитатите е несъвършена: Евалуаторът за цитати чрез изрязване на изображения постига Pearson r = 0,68 спрямо човешките оценки — приемливо, но недостатъчно надеждно, за да му се вярва напълно без извадкова проверка.
Кое се потвърждава — и кое не
Констатацията за извличането е най-достоверният резултат в документа. Разлика от близо 50 процентни пункта между мултимодалното и текстовото извличане при над 60 хил. страници е твърде голяма, за да бъде пренебрегната. Когато използвате OCR върху финансов документ преди индексиране, вие унищожавате сигналите за структурно оформление — в коя колона се появява дадено число, дали надписът на фигурата променя интерпретацията на таблицата — което се оказва от огромно значение за извличането.
Данните за генерирането са честни, но трудни за интерпретиране изолирано. Авторите не анализират колко от спада в точността се дължи на грешки при извличането спрямо неуспехи при генерирането. Като се има предвид, че Recall@10 вече е 85,86% за английски, значителна част от неуспехите трябва да са от страна на генерирането, а не на извличането. Познаването на това разпределение би изяснило дали тясното място са мултимодалните разсъждения или нещо по-фундаментално в начина, по който MLLM боравят с финансовия език.
Наборът за оценка от 1394 двойки въпрос-отговор е малък за обхвата на бенчмарка. Разделени на седем категории и два езика, някои части имат под 200 примера. Статистическата значимост на констатациите на ниво категория е оставена подразбираща се. Това не е необичайно за документ за бенчмарк, но означава, че лесно могат да бъдат конструирани подбрани сравнения.
Протоколът за оценка на цитатите е интересен принос, но Pearson r = 0,68 с човешките оценки не е достатъчно силен, за да се третира автоматичната оценка като абсолютна истина за локализиране на ниво блок. Авторите признават това; бъдещата работа върху по-добри метрики за цитиране е изрично посочена.
Защо това е важно за ИИ във финансите
Beancount работи с текстови файлове на главната книга, което прави текстовия RAG обоснован при заявки за минали трансакции. Но по-широките счетоводни задачи включват документи, които определено не са само текст: банкови извлечения в PDF, сканирани фактури, изображения на разписки, годишни отчети с вградени таблици и диаграми. В момента, в който Beancount агент трябва да изравни запис в книгата с изходен документ — например да потвърди, че конкретна сума съвпада с наличната фактура — той изпълнява точно задачата, която FinRAGBench-V тества.
Констатацията за цитиране на ниво блок е най-важна за този случай на употреба. Ако един агент трябва да обоснове запис в главната книга, като посочи конкретен ред в PDF, а най-добрата налична система постига едва 20–61% припомняне на ниво блок, това не е готово за одит. Всеки Beancount процес, който докосва сканирани изходни документи, се нуждае от преглед от човек, докато този показател не се подобри значително.
Разликата в начина на извличане също е силен аргумент срещу чисто текстовите процеси за приемане на документи. Изображението на разписка носи информация за оформлението — полета за суми, имена на доставчици, позиции на редовете — която OCR унищожава. Именно тази информация за оформлението отличава общата сума на реда от сумата на данъка, а FinRAGBench-V показва, че мултимодалните системи за извличане я използват по начини, по които текстовите системи не могат.
Какво да прочетете след това
- ColPali: Efficient Document Retrieval with Vision Language Models — предшественикът на ColQwen2, който установи подхода за визуално вграждане на страници, върху който е изграден най-добрият модел за извличане в FinRAGBench-V [arXiv:2407.01449, ECCV 2024]
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — справя се с мултимодални въпроси и отговори за множество документи с гъвкава рамка, която поддържа едностъпкови и многостъпкови визуални разсъждения в различни страници [arXiv:2411.04952]
- Benchmarking Temporal-Aware Multi-Modal RAG in Finance — придружаващ бенчмарк от 2025 г., оценяващ чувствителността към времето във финансовия мултимодален RAG, директно допълващ категорията въпроси за времева чувствителност на FinRAGBench-V [arXiv:2503.05185]
