DocFinQA: Финансови разсъждения в дълъг контекст върху пълни SEC отчети
DocFinQA е научен труд от ACL 2024, който взема съществуващия набор от данни FinQA и представя всеки въпрос заедно с пълния SEC отчет, от който произлиза — разширявайки средния контекст от под 700 думи до 123 000 думи. Чета го, защото директно тества сценария, пред който е изправен всеки производствен агент на Beancount: не подреден извлечен пасаж, а целия разхвърлян документ. Резултатите са отрезвяващи за всеки, който планира да внедри модели с дълъг контекст върху многогодишни главни книги.
Докладът
DocFinQA: A Long-Context Financial Reasoning Dataset — Varshini Reddy, Rik Koncel-Kedziorski, Viet Dac Lai, Michael Krumdick, Charles Lovering и Chris Tanner (ACL 2024, Кратки доклади) — взема 8 281 двойки въпрос-отговор от FinQA и допълва 7 621 от тях с пълния годишен отчет на SEC, от който първоначално про излиза всеки въпрос. Резултатът е 1 236 уникални отчета, разделени в 5 798 примера за обучение, 791 за разработка и 1 032 за тестване, като средният контекст нараства 175 пъти от приблизително 700 думи до 123 453 думи.
Наборът от въпроси е непроменен — това са същите многоетапни въпроси за числено разсъждение, изискващи програми на Python за отговор. Това, което се променя, е че моделът сега получава целия отчет, а не експертно подбран пасаж от 700 думи. Изследването сравнява два типа подходи: класически пайплайни за извличане (сегментиране, класиране, отговор) и нововъзникващи LLM с дълъг контекст, които се опитват да обработят целия документ от начало до край.
Ключови идеи
- Най-добра точност на пайплайна за извличане в тестовия набор: GPT-3.5 при 42.64%. Моделите с отворен код изостават значително: Mistral/7B при 24.97%, CodeLlama/13B при 21.01%, MPT/30B при 18.07%.
- Най-добрият енкодер за извличане — фино настроен ColBERT — постига HR@1 = 0.35 и HR@3 = 0.55, което означава, че правилният сегмент липсва в контекста на модела почти в половината от случаите, дори при извличане на три пасажа.
- GPT-4 с дълъг контекст (оценен върху подизвадка от 400 въпроса): 46.5% при по-кратки документи (≤100K токена) срещу 23.0% със стратегия "Обобщение-след това-Отговор" при най-дългите документи (>100K токена). GPT-4 прави почти два пъти повече грешки при дълги документи, отколкото при кратки.
- Специфичният за финансите PDF парсинг (Kensho Extract) значително превъзхожда общия HTML парсинг (BeautifulSoup), особено по отношение на запазването на таблици — практическа находка за всеки пайплайн, изграден върху SEC отчети.
- Значителна част от релевантните сегменти се намират след позиция 250 в документа, което означава, че стратегиите, базирани на отрязване (truncation), тихомълком отхвърлят правилните доказателства, преди моделът изобщо да ги види.
Какво се потвърждава — и какво не
Основният емпиричен принос е солиден: наборът от данни е достоверно разширение на FinQA с добре дефинирана методология (оценяване на сходството по четириграми за идентифициране на еталонни сегменти, сегменти от 2 750 знака с 20% припокриване), а констатацията, че производителността се влошава сериозно с дължината на документа, е последователна както при подходите с извличане, така и при тези с дълъг контекст. Почти двойното увеличение на грешките на GPT-4 при дълги документи спрямо кратки е поразително и трудно може да бъде пренебрегнато.
Това, което докладът не засяга напълно, е границата на моделите с дълъг контекст от реколта 2024 г. Оценката на дългия контекст обхваща само 400 проби, ограничена от разходите, и не тества Gemini 1.5 Pro (прозорец от 1 милион токена) или Claude 3 (200K). Хиперпараметрите за сегментиране са разумни, но не са систематично изследвани чрез аблация, а мулти-коул стратегията "Обобщение-след това-Отговор" вероятно не е най-добрата налична — преплетеното извличане на IRCoT и структурираният синтез на StructRAG предполагат, че съществуват по-добри подходи за агрегиране на доказателства от няколко стъпки в дълги документи.
Фино настроеният ColBERT, достигащ HR@3 = 0.55, разкрива по-дълбокия проблем: извличането от дълги финансови документи само по себе си е нерешен проблем. Дори с перфектен генеративен модел, почти половината от заявките биха получили отговор, изграден от грешни пасажи. Докладът извежда това като ограничаващ фактор, но спира дотук, без да количествено определи колко точността би се възстановила, ако извличането беше идеално (oracle).
Защо това е важно за финансовия ИИ
Многогодишните Beancount главни книги обикновено не достигат средно 123 хил. думи, но десетилетие от транзакции с подробни бележки лесно ги достига, а финансов агент, работещ върху пълни годишни отчети, е изправен точно пред този режим. Компресията от "подбрахме правилните 700 думи" (FinQA) до "ето пълния 10-Q отчет" (DocFinQA) представлява пропастта между игрален бенчмарк и реалността в производството. DocFinQA прави тази пропаст измерима.
Спадът от близо 50% в точността на GPT-4 от кратки към дълги документи е аргумент срещу простия отговор "просто използвайте по-голям контекстен прозорец". Извличането остава необходимо, но е надеждно само в 55% от случаите при HR@3. За Beancount агент за записване, който трябва да локализира амортизационен план, заровен в едногодишно приложение към отчетите, нито една архитектура не дава надеждността, която бихте искали, преди да потвърдите запис в журнала. Честното тълкуване на този доклад е: по-добро извличане, по-добро агрегиране на доказателства и експлицитна оценка на тихите откази — а не по-голям контекстен прозорец — са това, от което областта всъщност се нуждае.
Какво да прочетете след това
- "Lost in the Middle: How Language Models Use Long Contexts" — Liu et al., 2023, arXiv:2307.03172. Предоставя механистично обяснение за срива на точността в зависимост от позицията, който DocFinQA измерва, с вече каноничната U-образна крива на производителността.
- FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation — arXiv:2504.15800, ICLR 2025 Workshop. Наследник бенчмарк от 2025 г. с 5 703 триплета заявка-доказателство-отговор, проектиран около реалистични професионални финансови заявки за търсене, включително съкращения и акроними, които стандартните системи за извличане пропускат.
- Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings — arXiv:2602.07294. По-нов бенчмарк за SEC отчети, който добавя задачи за времево проследяване извън QA за единичен документ, което е по-близо до това, от което един Beancount одиторски агент всъщност би имал нужда.
