MultiHiertt: бенчмаркинг численных рассуждений в иерархических финансовых таблицах
Каждый бенчмарк для финансового QA, который я читал в этом месяце — FinQA, TAT-QA, ConvFinQA — основывается на одном и том же негласном предположении: одна плоская таблица на документ. Реальные финансовые отчеты выглядят совсем не так. Консолидированные балансовые отчеты включают дочерние компании внутри сегментов внутри материнских организаций; отчеты о прибылях и убытках содержат иерархические статьи с промежуточными итогами, которые сами по себе питают более высокие агрегаты. MultiHiertt (Zhao et al., ACL 2022) — это первый бенчмарк, созданный для того, чтобы обнажить именно этот пробел, и результаты, которые он показывает, отрезвляют.
Статья
Йилун Чжао, Юньсян Ли, Чэньин Ли и Жуй Чжан из Университета штата Пенсильвания представляют MultiHiertt, QA-бенчмарк из 10 440 пар вопросов и ответов, взятых из 2 513 реальных финансовых отчетов. Каждый документ содержит в среднем 3,89 иерархических таблиц наряду с 68 предложениями (~1 645 слов) повествовательного текста. Разделение на обучающую/валидационную/тестовую выборки составляет 7 830 / 1 044 / 1 566. Основной аргумент прост, но точен: предыдущие наборы данных (FinQA, TAT-QA) оценивают модели на документах с одной плоской таблицей, что систематически занижает сложность рассуждений над реальными финансовыми документами, где вопрос может потребовать синтеза чисел из трех отдельных подтаблиц перед применением арифметической программы.
Вместе с набором данных авторы предлагают MT2Net, двухэтапную модель: модуль извлечения фактов, который оценивает потенциальные ячейки и текстовые фрагменты изо всех таблиц и абзацев, за которым следует модуль символьных рассуждений (исполнитель арифметических программ, заимствованный из дизайна NeRd в FinQA), работающий с извлеченными фактами. MT2Net использует RoBERTa-large в качестве кодировщика на обоих этапах.
Ключевые идеи
- Среднее количество таблиц 3,89 в MultiHiertt напрямую отражает структуру реальных годовых отчетов, где один вопрос может потребовать данных из отчета о прибылях и убытках, таблицы разбивки по сегментам и примечаний — и ни одна из них не является плоской.
- MT2Net (RoBERTa-large) достигает 38,43% F1 на тестовом наборе; эксперты-люди показывают результат 87,03% F1 — разрыв почти в 49 пунктов.
- Вопросы, требующие рассуждений по нескольким таблицам (необходимы данные из ≥ 2 таблиц), получают 21,04% F1 у лучшей модели против 36,77% для вопросов по одной таблице — падение более чем на 15 пунктов от и без того низкой базы.
- Модуль символьных рассуждений помогает, но не может компенсировать ошибки извлечения: анализ аннотаций показывает, что 31,5% ошибок в иерархических примерах происходят из-за выбора неправильных ячеек с данными еще до попытки каких-либо расчетов.
- К 2024 году GPT-4 с промптингом Program-of-Thoughts достигает 67,23% F1 на MultiHiertt, а специализированный метод EEDP (evidence-enhanced document prompting) доводит результат GPT-4 до 70,32% — все еще на 17 пунктов ниже человеческого предела.
- Качество аннотаций высокое: коэффициент Каппа между аннотаторами составляет 0,72–0,90, при этом 76,8%–94,0% образцов получили оценку корректности ≥ 4/5 от крауд-работников.
Что работает, а что — нет
Создание набора данных выполнено тщательно, а метрики качества аннотаций обнадеживают. Основное утверждение — о том, что бенчмарки с одной таблицей занижают реальную сложность — очевидно верно, а 15-пунктовый разрыв F1 между выборками с одной и несколькими таблицами делает это утверждение конкретным. Сравнительная таблица (Таблица 1 в статье) наглядно показывает, что FinQA и TAT-QA имеют по одной таблице на документ; MultiHiertt действительно заполняет реальный пробел.
Тем не менее, MT2Net не является сильным предлагаемым решением — это скорее сильный базовый уровень (baseline). Модуль извлечения — это скорер на уровне фрагментов (span-level scorer), обученный с учителем на опорных фактах, что означает его сильную зависимость от наличия правильного сигнала обучения. В статье не оценивается, что происходит, когда иерархическая структура неявна (нет явного вложения HTML-тегов parent-child), что часто встречается в отсканированных документах и старых PDF-файлах. Тестовый набор закрыт за лидербордом CodaLab, что затрудняет независимое воспроизведение результатов или исследование сценариев отказов.
Я также хочу отметить кое-что, на чем авторы не акцентируют внимание: результаты GPT-4 за 2024 год показывают, что чистая мощность рассуждений может закрыть большую часть разрыва без какой-либо архитектуры, специально разработанной для иерархий. GPT-4 достигает 70%, даже не зная, что в документе есть иерархические таблицы — она просто читает отрендеренный HTML. Это на самом деле интересный вывод: знание об иерархии может иметь меньшее значение, чем просто объем контекста и надежность арифметики. Ограничивающим фактором все еще может быть точность извлечения в длинных документах, а не архитектура рассуждений.
Почему это важно для ИИ в финансах
Агенты Beancount сталкиваются именно с этой проблемой. Вопрос типа «какова была наша эффективная налоговая ставка в 2023 году?» требует поиска строки прибыли до налогообложения в отчете о прибылях и убытках, расходов по налогу на прибыль в отдельном примечании и, возможно, разбивки по сегментам для сверки консолидированной цифры. Ничто из этого не живет в одной плоской таблице. Штраф в 15 пунктов F1 за рассуждения по нескольким таблицам в MultiHiertt количественно определяет то, что я ожидал бы увидеть в контексте Beancount: агенты, которые хорошо справляются с запросами по одному счету, будут значительно деградировать, когда вопрос потребует объединения данных из разных разделов бухгалтерской книги (ledger).
Анализ ошибок дает прямое руководство к действию. Если 31,5% ошибок — это извлечение неверных доказательств до начала каких-либо вычислений, то приоритетом для агента записи (write-back agent) в Beancount является не лучший арифметический движок, а лучший механизм выбора доказательств. Агент, который извлекает неверные строки проводок перед выполнением расчетов, создаст правдоподобно выглядящие, но неверные записи — именно этот сценарий отказа сложнее всего поймать при аудите.
Траектория GPT-4 также обнадеживает в краткосрочной перспективе: рост с 38% до 70% за два года говорит о том, что финансовые рассуждения по нескольким таблицам вполне достижимы по мере улучшения контекстных окон и возможностей рассуждения, даже без специфического для предметной области обучения. Но оставшийся разрыв в 17 пунктов до уровня человека — это не шум; скорее всего, он отражает случаи, когда иерархическая структура несет семантическую нагрузку, которую теряет рендеринг в плоский текст.
Что читать дальше
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — фундамент, на котором строится почти каждая финансовая QA-система; понимание разделения на параметрическую и непараметрическую память важно для решения о том, как структурировать извлечение данных из бухгалтерской книги.
- FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — извлекает данные в процессе генерации, когда модель предсказывает потребность в новых фактах; это естественно подходит для рассуждений по нескольким таблицам, когда в процессе вы обнаруживаете, что вам нужна вспомогательная таблица.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — дообучает LLM специально на FinQA/TAT-QA/MultiHiertt и показывает, что на самом деле дает адаптация к домену по сравнению с промптингом GPT-4.
