Перейти к контенту

DocFinQA: Рассуждения в длинном финансовом контексте на полных отчетах SEC

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

DocFinQA — это статья ACL 2024 года, которая берет существующий набор данных FinQA и заново представляет каждый вопрос вместе с полным отчетом SEC, из которого он был взят. Это расширяет средний объем контекста с менее чем 700 слов до 123 000 слов. Я читаю её, потому что она напрямую тестирует сценарий, с которым сталкивается каждый агент Beancount в реальной работе: не аккуратно извлеченный фрагмент, а весь хаотичный документ целиком. Результаты заставляют протрезветь любого, кто планирует развертывать модели с длинным контекстом для анализа многолетних гроссбухов.

О статье

DocFinQA: A Long-Context Financial Reasoning Dataset — Варшини Редди, Рик Концел-Кедзиорски, Вьет Дак Лай, Майкл Крумдик, Чарльз Ловеринг и Крис Таннер (ACL 2024, Short Papers) — берет 8 281 пару вопрос-ответ из FinQA и дополняет 7 621 из них полным годовым отчетом SEC, на основе которого изначально был сформулирован вопрос. В результате получилось 1 236 уникальных отчетов, распределенных по 5 798 обучающим, 791 проверочным и 1 032 тестовым примерам, при этом средний объем контекста вырос в 175 раз — примерно с 700 слов до 123 453 слов.

2026-06-20-docfinqa-long-context-financial-reasoning-dataset

Набор вопросов остался неизменным — это те же многошаговые задачи на числовые рассуждения, требующие написания программ на Python для получения ответа. Разница в том, что теперь модель получает полный отчет, а не мастерски подобранный отрывок в 700 слов. В исследовании сравниваются два типа подходов: классические пайплайны поиска (разбиение на фрагменты, ранжирование, ответ) и появляющиеся LLM с длинным контекстом, которые пытаются обработать весь документ целиком.

Ключевые идеи

  • Лучшая точность пайплайна поиска на тестовом наборе: GPT-3.5 — 42,64%. Модели с открытым исходным кодом значительно отстают: Mistral/7B — 24,97%, CodeLlama/13B — 21,01%, MPT/30B — 18,07%.
  • Лучший кодировщик поиска — дообученный ColBERT — достигает HR@1 = 0,35 и HR@3 = 0,55. Это означает, что нужный фрагмент отсутствует в контексте модели почти в половине случаев, даже если извлекаются три отрывка.
  • GPT-4 с длинным контекстом (оценена на подвыборке из 400 вопросов): 46,5% на коротких документах (≤100 тыс. токенов) против 23,0% при стратегии «Сначала резюмируй, потом отвечай» (Summarize-then-Answer) на самых длинных документах (>100 тыс. токенов). GPT-4 допускает почти в два раза больше ошибок в длинных документах по сравнению с короткими.
  • Специализированный финансовый парсинг PDF (Kensho Extract) существенно превзошел универсальный парсинг HTML (BeautifulSoup), особенно в сохранении таблиц — это важный практический вывод для любых пайплайнов, работающих с отчетностью SEC.
  • Значительная часть релевантных фрагментов находится за пределами 250-й позиции в документе. Это означает, что стратегии, основанные на усечении текста, незаметно отбрасывают нужные доказательства до того, как их увидит модель.

Что подтвердилось, а что нет

Основной эмпирический вклад солиден: датасет является качественным расширением FinQA с четко определенной методологией (оценка сходства на основе четырехграмм для идентификации эталонных фрагментов, фрагменты по 2750 символов с 20% перекрытием). Вывод о том, что производительность резко падает с увеличением длины документа, подтверждается как для поисковых подходов, так и для моделей с длинным контекстом. Почти двукратный рост ошибок GPT-4 на длинных документах по сравнению с короткими поразителен, и его трудно игнорировать.

Чего в статье не хватает, так это анализа передовых моделей с длинным контекстом образца конца 2024 года. Оценка длинного контекста охватывает всего 400 образцов из-за высокой стоимости и не включает Gemini 1.5 Pro (окно 1 млн токенов) или Claude 3 (200 тыс. токенов). Гиперпараметры разбиения на фрагменты выглядят разумными, но не были систематически протестированы, а стратегия «Сначала резюмируй, потом отвечай», вероятно, не является лучшей — подходы вроде чередующегося поиска (IRCoT) или структурированного синтеза (StructRAG) предполагают более эффективные методы агрегации доказательств в длинных документах.

Тот факт, что дообученный ColBERT достигает лишь HR@3 = 0,55, вскрывает более глубокую проблему: поиск в длинных финансовых документах сам по себе остается нерешенной задачей. Даже с идеальной генеративной моделью почти половина запросов получила бы ответ, построенный на неверных фрагментах. Авторы указывают на это как на основное ограничение, но не дают количественной оценки того, насколько восстановится точность при использовании идеального (oracle) поиска.

Почему это важно для финансового ИИ

Многолетние гроссбухи Beancount в среднем не достигают 123 тыс. слов, но десятилетие транзакций с подробными комментариями легко может к этому приблизиться. А финансовый агент, работающий с полными годовыми отчетами, сталкивается именно с такими условиями. Переход от «мы специально подобрали нужные 700 слов» (FinQA) к «вот полный отчет 10-Q» (DocFinQA) — это разрыв между игрушечным бенчмарком и производственной реальностью. DocFinQA делает этот разрыв измеримым.

Падение точности GPT-4 почти на 50% при переходе от коротких документов к длинным говорит против простого решения «просто используйте большее окно контекста». Поиск остается необходимым, но он надежен лишь на 55% при HR@3. Для агента Beancount, которому нужно найти график амортизации, запрятанный в примечании к отчетности годичной давности, ни одна из архитектур не обеспечивает надежности, достаточной для автоматического внесения записи в журнал. Честный вывод из этой статьи: области на самом деле нужны лучший поиск, лучшая агрегация доказательств и явная оценка незаметных отказов, а не просто увеличение контекстного окна.

Что почитать дальше

  • "Lost in the Middle: How Language Models Use Long Contexts" — Liu et al., 2023, arXiv:2307.03172. Дает механистическое объяснение падения точности в зависимости от позиции, которое измеряет DocFinQA, с уже канонической U-образной кривой производительности.
  • "FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation" — arXiv:2504.15800, ICLR 2025 Workshop. Преемник бенчмарка 2025 года с 5 703 триплетами «запрос-доказательство-ответ», построенный вокруг реалистичных профессиональных финансовых поисковых запросов, включая аббревиатуры и акронимы, которые пропускают стандартные поисковики.
  • "Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings" — arXiv:2602.07294. Более новый бенчмарк по отчетам SEC, который добавляет задачи временного отслеживания помимо ответов по одному документу — это ближе к тому, что действительно понадобилось бы аудиторскому агенту Beancount.