Перейти к контенту

FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем

· 7 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

FinDER (arXiv:2504.15800) — это бенчмарк для систем поиска, построенный на простом, но недооцененном наблюдении: запросы, которые вводят реальные финансовые специалисты, совсем не похожи на приглаженные вопросы из академических тестов. Я изучаю его, потому что он находится на пересечении двух тем, за которыми я слежу: разрыва в качестве поиска в финансовом ИИ и проблемы практического реализма, которую начали подсвечивать DocFinQA и FinanceBench.

О статье

2026-06-28-finder-financial-dataset-rag-evaluation

Чанёль Чхве, Джихун Квон и их коллеги из фирмы по финансовому ИИ представляют набор данных из 5 703 аннотированных экспертами триплетов «запрос–доказательство–ответ», полученных из реального сервиса вопросов и ответов для аналитиков хедж-фондов. Документы представляют собой отчеты по форме 10-K 490 компаний из индекса S&P 500, собранные из базы SEC EDGAR. Что отличает FinDER от предыдущих бенчмарков, так это характер запросов: 89,86% из них содержат три или более специфических для отрасли аббревиатуры или акронима. Вместо «Какова общая выручка компании X за 2023 финансовый год?» реальный аналитик может написать «GOOGL 10-K FY23 выручка разбив по сегм.». Набор данных был опубликован на семинаре ICLR 2025 «Достижения в финансовом ИИ» и позже появился на ICAIF 2025.

Ключевые идеи

  • Полнота поиска шокирующе низка по всем направлениям: E5-Mistral (лучшая модель плотного поиска) достигает лишь 25,95% общей полноты контекста; BM25 показывает 11,68%. Категория «Финансы» — наиболее релевантная для бухгалтерского учета — является самой сложной: 15,84% и 6,42% соответственно.
  • Одна только неопределенность запроса обходится в 8,2 пункта точности: Тестируя E5-Mistral на 500 запросах, авторы сравнивают корректно сформулированные перефразы (точность 33,9) с реальными запросами с аббревиатурами (точность 25,7). Разрыв полностью объясняется обработкой аббревиатур/акронимов, а не сложностью документов.
  • Качество поиска — доминирующее «узкое место» для генерации: LLM без контекста показывают результат, близкий к нулю (9–10% правильных ответов); с 10 лучшими найденными фрагментами они достигают 29–34%; с идеальным «оракульным» контекстом результат прыгает до 60–68%. Этот 35-пунктовый разрыв между реалистичными условиями и «оракулом» больше, чем разрыв между открытыми и передовыми моделями.
  • Составная арифметика не справляется даже при хорошем поиске: Задачи на многошаговые вычисления (составные запросы) достигают лишь ~20% точности на всех четырех моделях — Claude-3.7-Sonnet, GPT-o1, DeepSeek-R1-Distill и Qwen-QWQ — даже при наличии 10 лучших найденных фрагментов. GPT-o1 лидирует в задачах на умножение с результатом 42,90%, но падает до 27,78% при делении.
  • Переранжирование с помощью LLM дает скромное, но стабильное улучшение: Позволяя моделям переранжировать 10 лучших результатов E5-Mistral перед ответом, Claude-3.7-Sonnet достигает F1 63,05, а GPT-o1 — 62,90. Deepseek-R1-Distill отстает с результатом 60,01, несмотря на сильные показатели в структурированных рассуждениях в других тестах.
  • Сложность категорий неравномерна: Запросы по рискам легче всего поддаются поиску (полнота E5-Mistral: 33,07); «Финансы» остаются самыми трудными (15,84). Это коррелирует со структурой запроса: раскрытие рисков использует естественный язык, финансовые таблицы — плотную числовую нотацию.

Что выдерживает критику, а что нет

Основной вклад солиден: это распределение реальных запросов от работающих аналитиков, и проблема аббревиатур действительно актуальна. Любой бенчмарк, построенный на Википедии или краудсорсинге в стиле FinQA, упускает это из виду. Трехуровневая структура оценки — без контекста, реалистичный поиск, оракульный контекст — правильный дизайн; она четко отделяет качество поиска от качества рассуждений и показывает остаточный разрыв в генерации (все еще ~32–34% неудач даже с идеальным контекстом в качественных вопросах).

Самое слабое место статьи — воспроизводимость. На момент публикации набор данных не был общедоступным — авторы заявляют, что «планируют выпустить его публично позже». Это серьезная проблема для статьи с семинара, претендующей на статус стандарта оценки. Бенчмарки, которые не опубликованы, — это не бенчмарки, а тематические исследования (case studies). С тех пор работа появилась на ICAIF 2025, так что релиз мог состояться, но версия на arXiv этого не подтверждает.

Оценка поиска также использует только четыре одноэтапные модели (BM25, GTE, mE5, E5-Mistral). Нет гибридного поиска, нет расширения запросов, нет HyDE, нет этапа перезаписи, направленного именно на проблему аббревиатур. Учитывая, что авторы точно охарактеризовали разрыв из-за сокращений, удивительно, что они не протестировали очевидное решение: развертывание запроса («GOOGL» → «Alphabet Inc.») перед поиском. Этот эксперимент отсутствует.

Результаты генерации заслуживают более внимательного прочтения. Показатель в ~9–10% без контекста не является полезной нижней границей — это практически ноль — но потолок «оракула» в 60–68% более информативен, чем кажется. Даже имея на руках правильный фрагмент, лучшие модели терпят неудачу примерно в одной трети качественных вопросов и в четырех пятых задач на составную арифметику. Этот потолок важен: он означает, что поиск сам по себе не решит проблему.

Почему это важно для AI в финансах

Распределение запросов в FinDER хорошо проецируется на то, как пользователи Beancount на самом деле взаимодействуют с агентом главной книги. Пользователь, который годами ведет свои счета, будет вводить сокращенные, контекстные запросы — «AMZN карта Q3 возм?» вместо «Каковы возмещения по кредитной карте Amazon в третьем квартале?». Стандартные модели эмбеддингов не смогут найти нужные записи, потому что они обучались на чистом тексте на естественном языке. Падение точности на 8,2 пункта при переходе от чистых запросов к реальным, вероятно, является консервативной оценкой для домена личных финансов, где специфические сокращения («упр недв сб» для «сбора за управление недвижимостью») еще дальше от обучающих данных, чем стандартные аббревиатуры SEC.

Потолок полноты контекста в 25,95% у E5-Mistral — это стимул к действию: любой RAG-конвейер для Beancount должен учитывать большую долю упущенных доказательств. Один из выводов заключается в том, что повторный поиск с высокой полнотой (несколько проходов, диверсифицированные формулировки запросов) важнее, чем повышение F1 за один проход. Другой вывод — нормализация запросов (сопоставление пользовательских сокращений с каноническими названиями счетов перед поиском) должна быть явным этапом предобработки, а не отдаваться на откуп модели эмбеддингов.

Точность составной арифметики в 20% даже с оракульным контекстом — это отдельный сигнал: для вычислительных задач в Beancount «узким местом» генерации являются рассуждения, а не поиск. Вынос вычислений в стиле PAL (генерация кода на Python вместо текстового расчета) остается правильным ответом для числовых задач, независимо от того, насколько хорошим станет поиск.

Что почитать дальше

  • Fin-RATE (arXiv:2602.07294) — сопутствующий бенчмарк для многопериодного отслеживания по отчетам SEC; точность падает на 18,60% в задачах, связанных со временем, что напрямую отражает проблему многолетних журналов Beancount.
  • IRCoT (arXiv:2212.10509, ACL 2023) — чередование поиска с рассуждениями в стиле цепочки мыслей; структура многопроходного поиска напрямую решает проблему низкой полноты за один проход, выявленную в FinDER.
  • Расширение запросов с помощью LLM для специализированного поиска — пока нет единого бенчмарка, который бы хорошо это освещал, но разрыв в аббревиатурах FinDER делает это первоочередным приоритетом исследований; поиск по запросам «HyDE financial domain» и «query expansion SEC filings 2025» будет правильной отправной точкой.