Перейти до основного вмісту

OmniEval: всебічний бенчмарк для оцінки RAG-систем у фінансовій сфері

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Більшість бенчмарків RAG у фінансах ставлять питання, чи може система знайти інформацію та дати відповідь — і крапка. OmniEval (EMNLP 2025, arXiv:2412.13018) від Шутінг Ван та ін. з RUC ставить складніше питання: чи зберігається продуктивність у всій матриці типів завдань та фінансових тем? Я читаю це зараз, тому що це найбільш структурована спроба окреслити характер помилок RAG у фінансах, перш ніж ми спробуємо створити надійних агентів Beancount для ведення бухгалтерських книг на основі RAG-конвеєрів.

Дослідження

2026-07-04-omnieval-omnidirectional-automatic-rag-evaluation-financial-domain

OmniEval будує двовимірну сітку оцінювання: п'ять класів завдань (екстрактивні QA, багатоходові міркування, контрастні QA, розлогі QA та діалогові QA) у поєднанні з 16 фінансовими темами (фондові ринки, інвестиційна банківська діяльність, фонди, страхування майна та інші). Результатом є структурований бенчмарк з 11,4 тис. автоматично згенерованих тестових прикладів, 1,7 тис. анотованих людьми прикладів та корпусом для пошуку з 362 тис. документів, зібраних із шести китайських джерел фінансових даних (BSCF-DB — 193 тис. документів, FinGLM — 55 тис., BAAI-Fin — 48 тис., офіційні вебсайти, PDF-файли та фінансовий контент Вікіпедії). Бенчмарк також включає донавчений LLM-оцінювач — Qwen2.5-7B-Instruct, навчений на 910 прикладах, розмічених людьми — який оцінює якість генерації за критеріями точності, галюцинацій, повноти, використання та числової точності. Робота була опублікована на EMNLP 2025.

Ключові ідеї

  • Автоматично згенеровані тестові випадки пройшли людську перевірку на 87,47%, що означає, що приблизно 1 з 8 згенерованих випадків було відхилено — це не малий рівень шуму для бенчмарку.
  • Найкращий ретривер (GTE-Qwen2-1.5B) досяг MAP 0,4370 та MRR 0,4491 на автоматично згенерованому наборі, що означає, що найбільш релевантний уривок є правильним менш ніж у половині випадків навіть з найпотужнішим протестованим ретривером.
  • Точність генерації (ACC) у всіх комбінаціях ретривер-LLM коливалася від 0,3238 до 0,4476 — найкраща конфігурація дає правильні відповіді менш ніж на половину запитань.
  • Числова точність (NAC) є найважливішим висновком: від 0,0659 до 0,3595. Найкраща система правильно визначає фінансові показники приблизно в 36% випадків; найгірша — майже в нулі.
  • Донавчений оцінювач досяг 74,4% узгодженості з людською анотацією (κ = 0,6486), що значно перевершує базові моделі, засновані лише на промптах (55–71%) — але все одно залишає кожну четверту оцінку невідповідною людському судженню.
  • Багатоходові міркування та діалогові QA стабільно виявлялися найскладнішими класами завдань.

Що підтверджується, а що ні

Дизайн матричного оцінювання справді корисний. Попередні фінансові бенчмарки (FinanceBench, FinQA, DocFinQA) розглядають оцінювання за однією віссю — зазвичай точністю відповідей — і не враховують структурні варіації помилок RAG. Знання того, що система добре справляється з екстрактивними QA, але погано з багатоходовими міркуваннями, дає можливість для вдосконалення; знання середнього загального бала — ні. Сітка OmniEval робить ці варіації видимими, а висновок про те, що продуктивність є непослідовною в різних темах, — це саме той результат, який розробники мають бачити перед впровадженням систем.

Проте є й суттєві обмеження. Корпус переважно китайський: п'ять із шести джерел даних — це китайські фінансові дані (BSCF, FinGLM, BAAI-Fin), а шосте — китайська Вікіпедія. У роботі не наводяться результати в розрізі мов — лише агреговані показники. Це робить будь-який бал у статті сумнівним щодо RAG у фінансах загалом, на відміну від RAG для китайських текстів із використанням спеціалізованих для китайської мови ретриверів та LLM (GTE-Qwen2-1.5B, Qwen2.5-72B, Yi15-34B). Англомовні користувачі не можуть безпосередньо використовувати ці цифри.

LLM-оцінювач навчений на 910 розмічених прикладах. Це небагато. 74,4% узгодженості з людиною при κ = 0,6486 прийнятні як початкова точка, але це означає, що сама система оцінювання вносить суттєвий шум. Якщо бенчмарк використовуватиметься для порівняння систем, які відрізняються на кілька відсоткових пунктів, дисперсія оцінювача перекриє корисний сигнал.

Конвеєр автоматичної генерації — де GPT-4 створює тестові питання, а люди фільтрують їх із показником 87,47% — також ставить питання про забруднення даних, яке в статті не розглядається: питання, згенеровані GPT-4, можуть підігрувати сильнім сторонам моделей класу GPT-4, систематично ставлячи в невигідне становище старіші або менші моделі.

Чому це важливо для ШІ у фінансах

Показники числової точності — це те, до чого я постійно повертаюся: 0,0659–0,3595. Якщо найкраща протестована RAG-система правильно видає фінансові числа лише у 36% випадків у контрольованому оцінюванні, будь-який агент для запису в Beancount, побудований на базі примітивного RAG-конвеєра, пошкодить дані бухгалтерської книги. Формат Beancount безжальний — неправильна сума, дата або назва рахунку призводить або до помилки парсингу, або до прихованої бухгалтерської помилки, яка може поширюватися на наступні фінансові роки. Цей бенчмарк дає нам конкретні докази того, що пошук RAG та генерація LLM ще не є достатньо надійними для прямого запису в книги без рівня валідації.

Структура класів завдань також чітко відповідає сценаріям використання Beancount. Екстрактивні QA відповідають простому пошуку залишків. Багатоходові міркування відповідають на запитання на кшталт "який мій чистий дохід після оподаткування за період з 1-го по 3-й квартал?". Діалогові QA відповідають ситуації, коли користувач ітеративно уточнює запит на звірку протягом сесії. Висновок OmniEval про те, що багатоходові та діалогові завдання є найскладнішими, — це саме ті погані новини для архітектури агентів Beancount: прості випадки працюють непогано, але реалістичні сценарії — це те, де система зазнає краху.

Що читати далі

  • ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation (arXiv:2311.09476, NAACL 2025) — найближчий аналог підходу OmniEval до донавчання оцінювача в загальній області; порівняння методології ARES та OmniEval допомогло б зрозуміти, чи є вибір дизайну LLM-оцінювача обґрунтованим чи ситуативним.
  • RAGEval: Scenario-Specific RAG Evaluation Dataset Generation Framework (ACL 2025, aclanthology.org/2025.acl-long.418) — фреймворк для автоматичної генерації сценаріїв оцінки RAG; розширює методологію автогенерації, яку використовує OmniEval, і може розв'язати проблему забруднення даних.
  • FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain (arXiv:2505.17471) — розширює оцінку RAG на мультимодальні фінансові документи (таблиці, діаграми); це актуально, оскільки користувачі Beancount дедалі частіше мають зображення квитанцій та виписки у форматі PDF поряд із текстовими реєстрами.