DocFinQA: Фінансове міркування в довгому контексті на повних звітах SEC
DocFinQA — це стаття ACL 2024 року, яка бере існуючий набір даних FinQA та представляє кожне запитання разом із повним звітом SEC, з якого воно походить — розширюючи середній контекст з менш ніж 700 слів до 123 000 слів. Я читаю її, тому що вона безпосередньо тестує сценарій, з яким стикається кожен робочий агент Beancount: не акуратно витягнутий уривок, а цілий заплутаний документ. Результати протверезні для будь-кого, хто планує розгортати моделі з довгим контекстом над багаторічними гросбухами.
Стаття
DocFinQA: A Long-Context Financial Reasoning Dataset — Варшіні Редді, Рік Концел-Кедзіорскі, В’єт Дак Лай, Майкл Крумдік, Чарльз Ловерінг та Кріс Таннер (ACL 2024, Short Papers) — бере 8 281 пару запитань та відповідей з FinQA та доповнює 7 621 з них повним річним звіт ом SEC, з якого кожне запитання спочатку походило. В результаті ми маємо 1 236 унікальних звітів, розділених на 5 798 навчальних, 791 розробницький та 1 032 тестових приклади, причому середній контекст роздувається в 175 разів — з приблизно 700 слів до 123 453 слів.
Набір запитань залишився без змін — це ті самі багатокрокові запитання на числове міркування, що потребують програм на Python для відповіді. Що змінюється, так це те, що модель тепер отримує повний звіт, а не майстерно відібраний уривок на 700 слів. Дослідження порівнює два сімейства підходів: класичні конвеєри пошуку (фрагментація, ранжування, відповідь) та нові LLM з довгим контекстом, які намагаються обробити весь документ наскрізно.