DocFinQA: Рассуждения в длинном финансовом контексте на полных отчетах SEC
DocFinQA — это статья ACL 2024 года, которая берет существующий набор данных FinQA и заново представляет каждый вопрос вместе с полным отчетом SEC, из которого он был взят. Это расширяет средний объем контекста с менее чем 700 слов до 123 000 слов. Я читаю её, потому что она напрямую тестирует сценарий, с которым сталкивается каждый агент Beancount в реальной работе: не аккуратно извлеченный фрагмент, а весь хаотичный документ целиком. Результаты заставляют протрезветь любого, кто планирует развертывать модели с длинным контекстом для анализа многолетних гроссбухов.
О статье
DocFinQA: A Long-Context Financial Reasoning Dataset — Варшини Редди, Рик Концел-Кедзиорски, Вьет Дак Лай, Майкл Крумдик, Чарльз Ловеринг и Крис Таннер (ACL 2024, Short Papers) — берет 8 281 пару вопрос-ответ из FinQA и дополняет 7 621 из них полным годовым отчетом SEC, на основе которого изначально был сформулирован вопрос. В результате получилось 1 236 уникальных отчетов, распределенных по 5 798 обучающим, 791 проверочным и 1 032 тестовым примерам, при этом средний объем контекста вырос в 175 раз — примерно с 700 слов до 123 453 слов.
Набор вопросов остался неизменным — это те же многошаговые задачи на числовые рассуждения, требующие написания программ на Python для получения ответа. Разница в том, что теперь модель получает полный отчет, а не мастерски подобранный отрывок в 700 слов. В исследовании сравниваются два типа подходов: классические пайплайны поиска (разбиение на фрагменты, ранжирование, ответ) и появляющиеся LLM с длинным контекстом, которые пытаются обработать весь документ ц еликом.
Ключевые идеи
- Лучшая точность пайплайна поиска на тестовом наборе: GPT-3.5 — 42,64%. Модели с открытым исходным кодом значительно отстают: Mistral/7B — 24,97%, CodeLlama/13B — 21,01%, MPT/30B — 18,07%.
- Лучший кодировщик поиска — дообученный ColBERT — достигает HR@1 = 0,35 и HR@3 = 0,55. Это означает, что нужный фрагмент отсутствует в контексте модели почти в половине случаев, даже если извлекаются три отрывка.
- GPT-4 с длинным контекстом (оценена на подвыборке из 400 вопросов): 46,5% на коротких документах (≤100 тыс. токенов) против 23,0% при стратегии «Сначала резюмируй, потом отвечай» (Summarize-then-Answer) на самых длинных документах (>100 тыс. токенов). GPT-4 допускает почти в два раза больше ошибок в длинных документах по сравнению с короткими.
- Специализированный финансовый парсинг PDF (Kensho Extract) существенно превзошел универсальный парсинг HTML (BeautifulSoup), особенно в сохранении таблиц — это важный практический вывод для любых пайплайнов, рабо тающих с отчетностью SEC.
- Значительная часть релевантных фрагментов находится за пределами 250-й позиции в документе. Это означает, что стратегии, основанные на усечении текста, незаметно отбрасывают нужные доказательства до того, как их увидит модель.
Что подтвердилось, а что нет
Основной эмпирический вклад солиден: датасет является качественным расширением FinQA с четко определенной методологией (оценка сходства на основе четырехграмм для идентификации эталонных фрагментов, фрагменты по 2750 символов с 20% перекрытием). Вывод о том, что производительность резко падает с увеличением длины документа, подтверждается как для поисковых подходов, так и для моделей с длинным контекстом. Почти двукратный рост ошибок GPT-4 на длинных документах по сравнению с короткими поразителен, и его трудно игнорировать.
Чего в статье не хватает, так это анализа передовых моделей с длинным контекстом образца конца 2024 года. Оценка длинного контекста охватывает всего 400 образцов из-за высокой стоимости и не включает Gemini 1.5 Pro (окно 1 млн токенов) или Claude 3 (200 тыс. токенов). Гиперпараметры разбиения на фрагменты выглядят разумными, но не были систематически протестированы, а стратегия «Сначала резюмируй, потом отвечай», вероятно, не является лучшей — подходы вроде чередующегося поиска (IRCoT) или структурированного синтеза (StructRAG) предполагают более эффективные методы агрегации доказательств в длинных документах.
Тот факт, что дообученный ColBERT достигает лишь HR@3 = 0,55, вскрывает более глубокую проблему: поиск в длинных финансовых документах сам по себе остается нерешенной задачей. Даже с идеальной генеративной моделью почти половина запросов получила бы ответ, построенный на неверных фрагментах. Авторы указывают на это как на основное ограничение, но не дают количественной оценки того, насколько восстановится точность при использовании идеального (oracle) поиска.