OmniEval: Всенаправленный бенчмарк для оценки RAG в финансовой сфере
Большинство бенчмарков RAG в финансах задаются вопросом, может ли система найти информацию и ответить — и на этом всё. OmniEval (EMNLP 2025, arXiv:2412.13018) от Шутинг Ванг и соавторов из RUC ставит более сложный вопрос: сохраняется ли производительность во всей матрице типов задач и финансовых тем? Я читаю его сейчас, потому что это самая структурированная попытка нанести на карту контуры неудач RAG в финансах, прежде чем мы попытаемся построить надежных агентов для ведения гроссбухов Beancount на базе RAG-конвейеров.
Статья
OmniEval выстраивает двумерную сетку оценки: пять классов задач (экстрактивные ответы на вопросы, многошаговые рассуждения, сравнительные ответы, развернутые ответы и диалоговые ответы), пересекающиеся с 16 финансовыми темами (фондовые рынки, инвестиционный банкинг, фонды, страхование имущества и другие). Результатом является структурированный бенчмарк с 11,4 тыс. автоматически сгенерированных тестовых примеров, 1,7 тыс. примеров, размеченных людьми, и поисковым корпусом из 362 тыс. документов, собранным из шести китайских источников финансовых данных (BSCF-DB — 193 тыс. документов, FinGLM — 55 тыс., BAAI-Fin — 48 тыс., официальные веб-страницы, PDF-файлы и финансовый контент Википедии). Бенчмарк также включает тонко настроенный LLM-оценщик — Qwen2.5-7B-Instruct, обученный на 910 размеченных вручную экземплярах, который оценивает качество генерации по параметрам точности, галлюцинаций, полноты, полезности и числовой точности. Статья была опубликована на EMNLP 2025.
Ключевые идеи
- Автоматически сгенерированные тестовые случаи прошли проверку на принятие человеком на 87,47%, что означает, что примерно 1 из 8 сгенерированных экземпляров был отброшен — нетривиальный уровень шума для бенчмарка.
- Лучший ретривер (GTE-Qwen2-1.5B) достиг MAP 0,4370 и MRR 0,4491 на автоматически сгенерированном наборе, что означает, что наиболее высоко ранжированный фрагмент оказывается верным менее чем в половине случаев даже при использовании самого сильного из протестированных ретриверов.
- Точность генерации (ACC) для всех комбинаций ретривер-LLM варьировалась от 0,3238 до 0,4476 — лучшая конфигурация дает правильные ответы менее чем на половину вопросов.
- Числовая точность (NAC) — самый яркий вывод: от 0,0659 до 0,3595. Лучшая система правильно называет финансовые показатели примерно в 36% случаев; худшая — почти никогда.
- Тонко настроенный оценщик достиг 74,4% совпадения с человеческой разметкой (κ = 0,6486), существенно превзойдя базовые модели, работающие только на промптах (55–71%), но всё же оставив каждую четвертую оценку не соответствующей суждению человека.
- Многошаговые рассуждения и диалоговые ответы стабильно оказывались самыми сложными классами задач.
Что подтверждается, а что — нет
Матричный дизайн оценки действительно полезен. Предыдущие финансовые бенчмарки (FinanceBench, FinQA, DocFinQA) рассматривают оценку по одной оси — обычно точности ответов — и упускают структурные различия в том, как именно RAG терпит неудачу. Знание того, что система хорошо справляется с экстрактивными ответами, но плохо с многошаговыми рассуждениями, дает возможность для действий; знание того, что она набирает какой-то средний общий балл, — нет. Сетка OmniEval делает эти различия видимыми, а вывод о том, что производительность непостоянна в разных темах, — это именно тот результат, который практики должны видеть перед внедрением.
Тем не менее, есть реальные ограничения, о которых я хочу сказать прямо. Корпус данных преимущественно китайский: пять из шести источников — это китайские финансовые данные (BSCF, FinGLM, BAAI-Fin), а шестой — китайская Википедия. В статье нет результатов с разбивкой по языкам — только агрегированные цифры. Это делает каждый балл в статье сомнительным в качестве утверждения о финансовых RAG в целом, в отличие от финансовых RAG на китайских текстах со специализированными для Китая ретриверами и LLM (GTE-Qwen2-1.5B, Qwen2.5-72B, Yi15-34B). Англоязычные или русскоязычные пользователи финансовых инструментов не могут напрямую использовать эти цифры.
LLM-оценщик обучен на 910 размеченных экземплярах. Этого мало. 74,4% совпадения с человеком при κ = 0,6486 допустимы как отправная точка, но это означает, что сама структура оценки вносит существенный шум. Если бенчмарк используется для сравнения систем, которые различаются на несколько процентных пунктов, дисперсия оценщика поглотит полезный сигнал.
Конвейер автоматической генерации — GPT-4 создает вопросы, люди ф ильтруют их с уровнем принятия 87,47% — также поднимает вопрос о загрязнении данных (contamination), который в статье не рассматривается: вопросы, сгенерированные GPT-4, могут подыгрывать сильным сторонам моделей класса GPT-4 так, что это систематически ставит в невыгодное положение старые или меньшие модели.
Почему это важно для финансового ИИ
Показатели числовой точности — это те цифры, к которым я постоянно возвращаюсь: 0,0659–0,3595. Если лучшая протестированная RAG-система правильно называет финансовые числа только в 36% случаев в рамках бенчмарка, любой агент обратной записи Beancount, построенный на базе наивного RAG-конвейера, будет портить данные гроссбуха. Формат Beancount строг: неправильная сумма, дата или название счета приводят либо к ошибке парсинга, либо к скрытой бухгалтерской ошибке, которая может распространиться на несколько финансовых лет. Этот бенчмарк дает нам конкретные доказательства того, что выборка RAG и генерация LLM еще недостаточно надежны для прямой обратной записи в гроссбух без слоя валидации.
Структура классов задач также четко проецируется на варианты использования Beancount. Экстрактивные ответы соответствуют простым проверкам баланса. Многошаговые рассуждения соответствуют вопросам вроде «какова моя чистая прибыль после уплаты налогов за 1–3 кварталы?». Диалоговые ответы соответствуют пользователю, который итеративно уточняет запрос на сверку в течение сессии. Вывод OmniEval о том, что многошаговые и диалоговые задачи являются самыми сложными, — это как раз плохие новости для проектирования агентов Beancount: простые случаи почти в порядке, но именно на реалистичных сценариях система разваливается.
Что почитать дальше
- ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation (arXiv:2311.09476, NAACL 2025) — ближайший аналог OmniEval в общей области по подходу к тонкой настройке оценщика; сравнение методологии ARES с OmniEval прояснило бы, являются ли решения по дизайну LLM-оценщика обоснованными или ситуативными.
- RAGEval: Scenario-Specific RAG Evaluation Dataset Generation Framework (ACL 2025, aclanthology.org/2025.acl-long.418) — автоматизированная генерация сценариев для оценки RAG; расширяет методологию автогенерации, которую использует OmniEval, и может решить проблему загрязнения данных.
- FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain (arXiv:2505.17471) — расширяет оценку RAG на мультимодальные финансовые документы (таблицы, графики); актуально, так как пользователи Beancount всё чаще хранят изображения чеков и PDF-выписки вместе с текстовыми гроссбухами.
