TAT-QA: Гибридный бенчмарк для ответов на вопросы и логических выводов на основе таблиц и текста в финансовых отчетах
Читаю TAT-QA сегодня, потому что эта тема находится на стыке того, что важно непосредственно для того, что мы создаем: вопросов, на которые можно ответить только путем одновременного логического вывода по таблице и окружающему тексту. В Beancount каждая запись в журнале существует в контексте — строка таблицы, которая не имеет смысла без примечания (memo), описания контрагента или учетной политики, объясняющей, почему эта позиция вообще там находится. TAT-QA, опубликованный на ACL 2021 Жу и др. из лаборатории NExT++ в NUS, — это бенчмарк, который заставил NLP-сообщество вплотную заняться этой проблемой.
Статья
Фэнбинь Жу, Вэньцян Лэй, Ючэн Хуан, Чао Ван, Шо Чжан, Цзяньчэн Лу, Фули Фэн и Тат-Сенг Чуа представляют TAT-QA (Tabular And Textual QA) — набор данных из 16 552 вопросов по 2 757 гибридным контекстам, взятым из реальных годовых финансовых отчетов. Каждый контекст объединяет полуструктурированную таблицу как минимум с двумя сопровождающими абзацами — именно такая структура встречается в отчетах по форме 10-K, где таблица выручки соседствует с обсуждением руководством факторов, повлиявших на эти показатели. Почти все вопросы требуют арифметических действий: сложения, вычитания, умножения, деления, подсчета, сравнения, сортировки и многооперационных композиций.
Основной вклад двойной: сам бенчмарк и TAGOP — новая модель, которая рассматривает задачу как тегирование доказательств с последующим символьным выводом. TAGOP использует теггер последовательностей над объединенными ячейками таблицы и фрагментами текста для идентификации того, какие доказательства нужно собрать, а затем применяет фиксированный набор операторов агрегации (сумма, разность, произведение, отношение, количество и т. д.) для вычисления окончательного ответа. Никакой нейронной арифметики — само вычисление всегда делегируется символьному исполнителю.
Ключевые идеи
- Идентификация доказательств — самая сложная часть, а не арифметика. Анализ ошибок TAGOP приписывает примерно 55% неудач неправильному тегированию и 29% — отсутствию доказательств. Как только у вас есть правильные ячейки и фрагменты, символьный исполнитель редко совершает ошибки в вычислениях. Это прямой сигнал: для финансовых агентов доминируют этапы извлечения и привязки (grounding).
- Модели, работающие только с текстом, терпят неудачу сразу. BERT-RC достигает лишь 18,7% F1 на тестовом наборе. NumNet+ V2, лучший численный ридер до появления TAT-QA, достигает 46,9% F1. Базовая модель TaPas, работающая только с таблицами, набирает 22,8% F1. Модель, которая читает таблицы без текста или текст без таблиц, непригодна для этой области.
- TAGOP набирает 58,0% F1 (50,1% точных совпадений), эксперты-люди — 90,8% F1 (84,1% EM). Разрыв в 32,8 пункта F1 на момент публикации был тревожным. Это означало, что даже лучшая система 2021 года отвечает менее чем на две трети вопросов, с которыми справляется подготовленный аналитик.
- К концу 2024 года таблица лидеров рассказывает другую историю. Топовая система, TAT-LLM (70B), достигает 88,4% F1 — всего на 2,4 пункта ниже человеческого уровня. TAT-LLM (7B) достигает 82,88% F1, а GPT-4 в режиме zero-shot — 79,71% F1. Разрыв резко сократился, в основном за счет дообучения LLM.
- Специализированная донастройка все еще превосходит чистую GPT-4. TAT-LLM 7B (74,56% EM) превосходит GPT-4 zero-shot (71,92% EM) на TAT-QA, даже при значительно меньшем количестве параметров. Конвейер Extractor→Reasoner→Executor, который использует TAT-LLM, отражает интуи цию TAGOP, но заменяет символьный теггер на LLM с промптами.
Что подтверждается, а что — нет
Бенчмарк — это реальные данные, реальные вопросы, реальные финансовые отчеты. Эта достоверность — его главный актив. Разрыв в 32 пункта между человеком и моделью на момент публикации был реальным, и набор данных достаточно сложен, чтобы даже пять лет спустя топовые системы не закрыли его полностью.
Что меня беспокоит, так это допущение об одной таблице. Каждый контекст TAT-QA содержит ровно одну таблицу. Реальные годовые отчеты содержат десятки таблиц, часто с иерархическими связями между сегментами, дочерними компаниями и временными периодами. Модель, которая идеально отвечает на вопросы TAT-QA, все еще не готова к консолидации данных из нескольких таблиц, которая доминирует в реальной бухгалтерской работе. В статье MMQA (ICLR 2025) высказывается именно эта мысль — бенчм арки с одной таблицей, такие как TAT-QA, недооценивают многотабличную сложность, с которой сталкиваются практики.
Распределение типов ответов также не такое сложное, как кажется на практике. Около 42% ответов TAT-QA — это отдельные фрагменты (spans), то есть прямое извлечение, не требующее вычислений. Сложные многооперационные композиции составляют меньшинство. Модель, которая правильно выполнит все извлечения и ошибется во всей арифметике, все равно наберет где-то 30–40%. Бенчмарк не учитывает сложность при взвешивании, что сглаживает сигнал от действительно трудных случаев логического вывода.
Наконец, человеческий базовый уровень (90,8% F1) был рассчитан с использованием аннотаторов, которые имели доступ к документу, но могли не быть экспертами уровня CPA. Для логического вывода в масштабах Beancount, где агент должен понимать учетную политику, а не только арифметику, 90,8% может быть завышенной оценкой «правильного» потолка.
Почему это важно для финансового ИИ
TAT-QA — это ближайший открытый бенчмарк к тому, с чем ежедневно сталкивается агент Beancount: структурированные данные записей (таблица) рядом с неструктурированным повествованием (примечание, описание, примечание к политике). Результат TAGOP подтверждает то, чего я ожидал от создания инструментов для учета: привязка (grounding) сложнее вычислений. Проблема в том, чтобы правильно пометить нужные ячейки; их суммирование тривиально.
Траектория таблицы лидеров обнадеживает для продукта: модель с 7 млрд параметров, дообученная на этой области, превосходит GPT-4 zero-shot. Это говорит о том, что специализированная дообученная модель для Beancount могла бы справляться с нагрузкой по извлечению и арифметике без необходимости вызова API передовых моделей для каждого запроса к журналу. Задержка, стоимость и конфиденциальность данных — все улучшается, если мы можем запустить компактную специализированную модель локально.
Ограничение одной таблицей — это тот пробел, который предстоит закрыть Bean Labs. Журналы Beancount — это, по сути, многотабличные документы (проводки по счетам, строки бюджета, примечания к сверке), и бенчмарка, который фиксировал бы эту многоходовую структуру в связанных таблицах, еще полностью не существует. MultiHiertt (ACL 2022) — наиболее близкий вариант; это следующая статья в моем списке.
Что читать дальше
- MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — напрямую устраняет ограничение TAT-QA одной таблицей; вопросы требуют логического вывода по нескольким иерархическим таблицам в одном финансовом документе, что ближе к тому, как выглядят консолидированные отчеты.
- ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — расширяет FinQA до многоходового диалога; модели должны отслеживать текущий числовой контекст в ходе диалога, что соответствует тому, как агент Beancount обрабатывает уточняющие запросы в рамках сессии работы с журналом.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — прямое продолжение от той же группы NExT++; показывает, как LLaMA-2, дообученная с использованием конвейера Extractor→Reasoner→Executor, превосходит GPT-4 zero-shot на TAT-QA и FinQA.
