MultiHiertt: Тестування чисельного міркування на основі багатоієрархічних фінансових таблиць

16 травня 2026 р. · 7 хв. читання

Mike Thrift

Marketing Manager

Кожен бенчмарк для фінансових QA, який я читав цього місяця — FinQA, TAT-QA, ConvFinQA — ґрунтується на одному й тому самому мовчазному припущенні: одна плоска таблиця на документ. Реальні фінансові звіти зовсім не такі. Консолідовані балансові звіти вкладають дочірні компанії в сегменти, а ті — в материнські структури; звіти про прибутки та збитки містять ієрархічні статті з проміжними підсумками, які самі по собі формують вищі агреговані показники. MultiHiertt (Zhao et al., ACL 2022) — це перший набір даних для тестування, створений спеціально для того, щоб виявити цю прогалину, і результати, які він показує, змушують замислитися.

Дослідження

2026-05-16-multihiertt-numerical-reasoning-multi-hierarchical-tabular-textual

Йілун Чжао, Юньсян Лі, Ченьїн Лі та Жуй Чжан з Університету штату Пенсільванія представляють MultiHiertt, бенчмарк QA, що складається з 10 440 пар запитань та відповідей, взятих з 2 513 реальних фінансових звітів. Кожен документ містить у середньому 3,89 ієрархічних таблиць поряд із 68 реченнями (~1 645 слів) розповідного тексту. Розподіл на навчальну, розробну та тестову вибірки становить 7 830 / 1 044 / 1 566. Основний аргумент простий, але влучний: попередні набори даних (FinQA, TAT-QA) оцінюють моделі на документах з однією плоскою таблицею, що систематично применшує складність міркувань над реальними фінансовими документами, де запитання може вимагати синтезу чисел з трьох окремих підтаблиць перед застосуванням арифметичної програми.

Разом із набором даних автори пропонують MT2Net, двоступеневу модель: модуль пошуку фактів, який оцінює потенційні підтверджувальні клітинки та текстові фрагменти з усіх таблиць і параграфів, а потім модуль символьного міркування (виконавець арифметичних програм, запозичений з архітектури NeRd моделі FinQA), який оперує отриманими фактами. MT2Net використовує RoBERTa-large як основний кодувальник.

Основні ідеї

Середня кількість таблиць у MultiHiertt (3,89 на документ) безпосередньо відображає структуру реальних річних звітів, де одне запитання може вимагати значень зі звіту про прибутки та збитки, таблиці розподілу за сегментами та приміток — жодна з яких не є плоскою.
MT2Net (RoBERTa-large) досягає 38,43% F1 на тестовій вибірці; експерти-люди отримують 87,03% F1 — розрив становить майже 49 балів.
Запитання, що вимагають міркування над кількома таблицями (вимагають даних з ≥ 2 таблиць), отримують 21,04% F1 у найкращої моделі, порівняно з 36,77% для запитань до однієї таблиці — падіння на понад 15 балів від і так низького базового рівня.
Модуль символьного міркування допомагає, але не може компенсувати помилки пошуку: аналіз анотацій показує, що 31,5% помилок у ієрархічних прикладах виникають через вибір неправильних клітинок-доказів ще до того, як робиться спроба будь-якої арифметичної операції.
До 2024 року GPT-4 з використанням промптингу «Program-of-Thoughts» досягає 67,23% F1 на MultiHiertt, а спеціалізований метод EEDP (evidence-enhanced document prompting) піднімає показник GPT-4 до 70,32% — все ще на 17 балів нижче за людську межу.
Якість анотацій висока: показник Каппа між анотаторами становить 0,72–0,90, при цьому 76,8%–94,0% зразків отримали оцінку коректності ≥ 4/5 від краудворкерів.

Що підтверджується, а що ні

Побудова набору даних є ретельною, а метрики якості анотацій вселяють довіру. Основне твердження — що бенчмарки з однією таблицею недооцінюють реальну складність — є очевидно вірним, а розрив у 15 балів F1 між підмножинами з однією та кількома таблицями робить це твердження конкретним. Порівняльна таблиця (Таблиця 1 у статті) чітко показує, що FinQA та TAT-QA мають одну таблицю на документ; MultiHiertt дійсно заповнює реальну прогалину.

Тим не менш, MT2Net не є сильним пропонованим рішенням — це радше сильний базовий рівень (baseline). Модуль пошуку — це скорер на рівні фрагментів, навчений під наглядом на підтверджувальних фактах, що означає його сильну залежність від наявності правильного сигналу нагляду під час навчання. У статті не оцінюється, що відбувається, коли ієрархічна структура є неявною (немає явного HTML-вкладення «батько-дитина»), що часто зустрічається у відсканованих звітах та старих PDF-файлах. Тестовий набір прихований за таблицею лідерів CodaLab, що ускладнює незалежне відтворення результатів або дослідження причин збоїв.

Я також хочу зауважити дещо, на чому автори не акцентують увагу: результати GPT-4 за 2024 рік показують, що чиста потужність міркування може подолати значну частину розриву без будь-якої архітектури, спеціально розробленої для ієрархій. GPT-4 досягає 70% без жодних вказівок на те, що документ містить ієрархічні таблиці — він просто читає відрендерений HTML. Це насправді цікавий висновок: усвідомлення ієрархії може важити менше, ніж просто обсяг контексту та надійність арифметики. Обмежувальним фактором все ще може бути точність пошуку у довгих документах, а не архітектура міркування.

Чому це важливо для фінансового ШІ

Агенти Beancount стикаються саме з цією проблемою. Питання на кшталт «якою була наша ефективна податкова ставка у 2023 році?» вимагає знаходження рядка прибутку до оподаткування у звіті про прибутки та збитки, витрат з податку на прибуток з окремої примітки та, можливо, розподілу по сегментах для звірки консолідованого показника. Жоден із цих показників не знаходиться в одній плоскій таблиці. Штраф у 15 балів F1 за міркування між таблицями в MultiHiertt кількісно визначає те, що я очікував би побачити в контексті Beancount: агенти, які добре справляються із запитами до одного рахунку, значно деградують, коли питання потребує об'єднання даних з різних розділів леджера.

Аналіз помилок дає прямі вказівки до дії. Якщо 31,5% помилок — це пошук неправильних доказів ще до початку розрахунків, то пріоритетом для агента зворотного запису Beancount є не кращий арифметичний рушій, а кращий селектор доказів. Агент, який вибирає неправильні рядки леджера перед виконанням математичних операцій, створюватиме записи, що виглядають правдоподібно, але є помилковими — саме такий тип збоїв найважче виявити під час аудиту.

Траєкторія GPT-4 також є обнадійливою на найближчу перспективу: перехід від 38% до 70% за два роки свідчить про те, що міркування над кількома фінансовими таблицями стає можливим у міру покращення вікон контексту та логіки, навіть без спеціального навчання в доменній області. Але залишковий розрив у 17 балів до людського рівня — це не шум; він, ймовірно, відображає випадки, де ієрархічна структура несе семантичне навантаження, яке втрачається при перетворенні на плоский текст.

Що почитати далі

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — основа, на якій базується майже кожна фінансова QA-система; розуміння поділу на параметричну та непараметричну пам'ять важливе для структурування пошуку в леджері.
FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — виконує пошук під час генерації, коли модель передбачає потребу в нових фактах; це природно підходить для міркувань над кількома таблицями, де в процесі виявляється потреба в допоміжній таблиці.
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — донавчає LLM спеціально на FinQA/TAT-QA/MultiHiertt і показує, що насправді дає адаптація до домену порівняно з промптингом GPT-4.

Share on Twitter Follow @beancount_io

MultiHiertt: Тестування чисельного міркування на основі багатоієрархічних фінансових таблиць

Дослідження

Основні ідеї

Що підтверджується, а що ні

Чому це важливо для фінансового ШІ

Що почитати далі

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація

Дослідження​

Основні ідеї​

Що підтверджується, а що ні​

Чому це важливо для фінансового ШІ​

Що почитати далі​

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація

Дослідження

Основні ідеї

Що підтверджується, а що ні

Чому це важливо для фінансового ШІ

Що почитати далі