Преминете към основното съдържание

OmniEval: Всепосочен бенчмарк за оценка на RAG във финансовата сфера

· 6 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Повечето RAG бенчмаркове във финансите питат дали една система може да извлича и отговаря — и толкоз. OmniEval (EMNLP 2025, arXiv:2412.13018) от Шутинг Уанг и колеги от RUC задава по-труден въпрос: запазва ли се производителността в пълната матрица от типове задачи и финансови теми? Чета го сега, защото това е най-структурираният опит за картографиране на провалите на RAG във финансите, преди да се опитаме да изградим надеждни Beancount агенти за счетоводни книги върху RAG конвейери.

Документът

2026-07-04-omnieval-omnidirectional-automatic-rag-evaluation-financial-domain

OmniEval конструира двуизмерна решетка за оценка: пет класа задачи (екстрактивни QA, многостъпково разсъждение, контрастно QA, QA с дълга форма и разговорно QA), пресечени с 16 финансови теми (фондови пазари, инвестиционно банкиране, фондове, имуществено застраховане и други). Резултатът е структуриран бенчмарк с 11,4 хил. автоматично генерирани тестови примера, 1,7 хил. примера с човешка анотация и корпус за извличане от 362 хил. документа, събран от шест китайски източника на финансови данни (BSCF-DB със 193 хил. документа, FinGLM с 55 хил., BAAI-Fin с 48 хил., официални уеб страници, PDF файлове и финансово съдържание от Wikipedia). Бенчмаркът включва също и фино настроен LLM оценител — Qwen2.5-7B-Instruct, обучен върху 910 случая с човешки етикети — който оценява качеството на генериране чрез показатели за точност, халюцинации, пълнота, използване и числова точност. Документът е публикуван в EMNLP 2025.

Ключови идеи

  • Автоматично генерираните тестови случаи преминаха проверка за приемане от хора с резултат 87,47%, което означава, че приблизително 1 на всеки 8 генерирани случая е бил отхвърлен — това не е тривиален процент шум за бенчмарк.
  • Най-добрият модул за извличане (retriever) (GTE-Qwen2-1.5B) постигна MAP от 0,4370 и MRR от 0,4491 върху автоматично генерирания набор, което означава, че най-високо класираният пасаж е правилен в по-малко от половината случаи, дори с най-силния тестван модел за извличане.
  • Точността на генериране (ACC) при всички комбинации от извличащ модул и LLM варира от 0,3238 до 0,4476 — най-добрата конфигурация дава правилен отговор на по-малко от половината въпроси.
  • Числовата точност (NAC) е най-фрапиращото откритие: от 0,0659 до 0,3595. Най-добрата система познава финансовите числа в около 36% от случаите; най-лошата е близо до нулата.
  • Фино настроеният оценител достигна 74,4% съответствие с човешката анотация (κ = 0,6486), което значително превъзхожда базовите модели само с промпт (55–71%) — но все пак оставя една от четири оценки в разрез с човешката преценка.
  • Многостъпковото разсъждение и разговорното QA бяха постоянно най-трудните класове задачи.

Какво издържа проверката — и какво не

Дизайнът на матричната оценка е наистина полезен. Предишните финансови бенчмаркове (FinanceBench, FinQA, DocFinQA) разглеждат оценката по една ос — обикновено точност на отговора — и пропускат структурните вариации в това как RAG се проваля. Да знаеш, че една система се справя добре с екстрактивно QA, но зле с многостъпково разсъждение, е приложимо в практиката; да знаеш само усреднения общ резултат — не е. Решетката на OmniEval прави тази вариация видима, а откритието, че производителността е непоследователна в различните теми, е точно вида резултат, който практиците трябва да видят преди внедряване.

Въпреки това, има реални ограничения, за които искам да бъда директен. Корпусът е преобладаващо китайски: пет от шестте източника на данни са китайски финансови данни (BSCF, FinGLM, BAAI-Fin), а шестият е китайската Wikipedia. Документът не отчита резултати, разбити по езици — той докладва само обобщени числа. Това прави всеки резултат в документа подозрителен като твърдение за финансовия RAG по принцип, за разлика от финансовия RAG върху китайски текст с китайски специализирани извличащи модули и LLM (GTE-Qwen2-1.5B, Qwen2.5-72B, Yi15-34B). Англоезичните финансови потребители не могат директно да използват тези числа.

LLM оценителят е обучен върху 910 анотирани случая. Това е малко. Съответствието от 74,4% с хората при κ = 0,6486 е защитимо като отправна точка, но означава, че самата рамка за оценка внася значителен шум. Ако бенчмаркът се използва за сравнение на системи, които се различават с няколко процентни пункта, отклонението на оценителя ще заглуши реалния сигнал.

Конвейерът за автоматично генериране — GPT-4 създава тестовите въпроси, хората ги филтрират при 87,47% приемане — също повдига въпроса за „замърсяване“, който документът не разглежда: въпросите, генерирани от GPT-4, могат да облагодетелстват моделите от класа на GPT-4 по начин, който систематично ощетява по-старите или по-малките модели.

Защо това е важно за финансовия ИИ

Показателите за числова точност са цифрите, към които се връщам постоянно: 0,0659–0,3595. Ако най-добрата тествана RAG система познава финансовите числа само в 36% от случаите в бенчмарк оценка, всеки Beancount агент за обратен запис, изграден върху наивен RAG конвейер, ще повреди данните в счетоводната книга. Форматът на Beancount е безпощаден — неправилна сума, дата или име на сметка води или до грешка при разбора (parse error), или до скрита счетоводна грешка, която може да се разпространи през фискалните години. Този бенчмарк ни дава конкретни доказателства, че извличането чрез RAG и генерирането чрез LLM все още не са достатъчно надеждни за директен обратен запис в книгата без слой за валидация.

Структурата на класовете задачи също се съпоставя точно с случаите на употреба на Beancount. Екстрактивното QA съответства на прости проверки на баланса. Многостъпковото разсъждение съответства на въпроси като „какъв е нетният ми доход след данъци за периода от Q1 до Q3?“. Разговорното QA съответства на потребител, който итеративно прецизира заявка за равняване по време на сесия. Констатацията на OmniEval, че многостъпковите и разговорните задачи са най-трудни, е точно лошата новина за дизайна на Beancount агентите: лесните случаи са почти наред; реалистичните случаи са тези, при които системата се разпада.

Какво да прочетете след това

  • ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation (arXiv:2311.09476, NAACL 2025) — най-близкият аналог в общата област на подхода на OmniEval за фино настройване на оценител; сравняването на методологията на ARES с тази на OmniEval би изяснило дали дизайнерските избори за LLM оценителя са принципни или ad hoc.
  • RAGEval: Scenario-Specific RAG Evaluation Dataset Generation Framework (ACL 2025, aclanthology.org/2025.acl-long.418) — автоматизирано генериране на сценарии за оценка на RAG; разширява методологията за автоматично генериране, която OmniEval използва, и може да адресира загрижеността относно замърсяването на данните.
  • FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain (arXiv:2505.17471) — разширява оценката на RAG към мултимодални финансови документи (таблици, диаграми); уместно, тъй като потребителите на Beancount все по-често разполагат с изображения на касови бележки и PDF извлечения заедно с текстовите си счетоводни книги.