MultiHiertt: Тестування чисельного міркування на основі багатоієрархічних фінансових таблиць
Кожен бенчмарк для фінансових QA, який я читав цього місяця — FinQA, TAT-QA, ConvFinQA — ґрунтується на одному й тому самому мовчазному припущенні: одна плоска таблиця на документ. Реальні фінансові звіти зовсім не такі. Консолідовані балансові звіти вкладають дочірні компанії в сегменти, а ті — в материнські структури; звіти про прибутки та збитки містять ієрархічні статті з проміжними підсумками, які самі по собі формують вищі агреговані показники. MultiHiertt (Zhao et al., ACL 2022) — це перший набір даних для тестування, створений спеціально для того, щоб виявити цю прогалину, і результати, які він показує, змушують замислитися.
Дослідження
Йілун Чжао, Юньсян Лі, Ченьїн Лі та Жуй Чжан з Університету штату Пенсільванія представляють MultiHiertt, бенчмарк QA, що складається з 10 440 пар запитань та відповідей, взятих з 2 513 реальних фінансових звітів. Кожен документ містить у середньому 3,89 ієрархічних таблиць поряд із 68 реченнями (~1 645 слів) розповідного тексту. Розподіл на навчальну, розробну та тестову вибірки становить 7 830 / 1 044 / 1 566. Основний аргумент простий, але влучний: попередні набори даних (FinQA, TAT-QA) оцінюють моделі на документах з однією плоскою таблицею, що систематично применшує складність міркувань над реальними фінансовими документами, де запитання може вимагати синтезу чисел з трьох окремих підтаблиць перед застосуванням арифметичної програми.
Разом із набором даних автори пропонують MT2Net, двоступеневу модель: модуль пошуку фактів, який оцінює потенційні підтверджувальні клітинки та текстові фрагменти з усіх таблиць і параграфів, а потім модуль символьного міркування (виконавець арифметичних програм, запозичений з архітектури NeRd моделі FinQA), який оперує отриманими фактами. MT2Net використовує RoBERTa-large як основний кодувальник.
Основні ідеї
- Середня кількість таблиць у MultiHiertt (3,89 на документ) безпосередньо відображає структуру реальних річних звітів, де одне запитання може вимагати значень зі звіту про прибутки та збитки, таблиці розподілу за сегментами та приміток — жодна з яких не є плоскою.
- MT2Net (RoBERTa-large) досягає 38,43% F1 на тестовій вибірці; експерти-люди отримують 87,03% F1 — розрив становить майже 49 балів.
- Запитання, що вимагають міркування над кількома таблицями (вимагають даних з ≥ 2 таблиць), отримують 21,04% F1 у найкращої моделі, порівняно з 36,77% для запита нь до однієї таблиці — падіння на понад 15 балів від і так низького базового рівня.
- Модуль символьного міркування допомагає, але не може компенсувати помилки пошуку: аналіз анотацій показує, що 31,5% помилок у ієрархічних прикладах виникають через вибір неправильних клітинок-доказів ще до того, як робиться спроба будь-якої арифметичної операції.
- До 2024 року GPT-4 з використанням промптингу «Program-of-Thoughts» досягає 67,23% F1 на MultiHiertt, а спеціалізований метод EEDP (evidence-enhanced document prompting) піднімає показник GPT-4 до 70,32% — все ще на 17 балів нижче за людську межу.
- Якість анотацій висока: показник Каппа між анотаторами становить 0,72–0,90, при цьому 76,8%–94,0% зразків отримали оцінку коректності ≥ 4/5 від краудворкерів.
Що підтверджується, а що ні
Побудова набору даних є ретельною, а метрики якості анотацій вселяють довіру. Основне твердження — що бенчмарки з однією таблицею недооцінюю ть реальну складність — є очевидно вірним, а розрив у 15 балів F1 між підмножинами з однією та кількома таблицями робить це твердження конкретним. Порівняльна таблиця (Таблиця 1 у статті) чітко показує, що FinQA та TAT-QA мають одну таблицю на документ; MultiHiertt дійсно заповнює реальну прогалину.
Тим не менш, MT2Net не є сильним пропонованим рішенням — це радше сильний базовий рівень (baseline). Модуль пошуку — це скорер на рівні фрагментів, навчений під наглядом на підтверджувальних фактах, що означає його сильну залежність від наявності правильного сигналу нагляду під час навчання. У статті не оцінюється, що відбувається, коли ієрархічна структура є неявною (немає явного HTML-вкладення «батько-дитина»), що часто зустрічається у відсканованих звітах та старих PDF-файлах. Тестовий набір прихований за таблицею лідерів CodaLab, що ускладнює незалежне відтворення результатів або дослідження причин збоїв.
Я також хочу зауважити дещо, на чому автори не акцентують увагу: результати GPT-4 за 2024 рік показують, що чиста потужність міркування може подолати значну частину розриву без будь-якої архітектури, спеціально розробленої д ля ієрархій. GPT-4 досягає 70% без жодних вказівок на те, що документ містить ієрархічні таблиці — він просто читає відрендерений HTML. Це насправді цікавий висновок: усвідомлення ієрархії може важити менше, ніж просто обсяг контексту та надійність арифметики. Обмежувальним фактором все ще може бути точність пошуку у довгих документах, а не архітектура міркування.
Чому це важливо для фінансового ШІ
Агенти Beancount стикаються саме з цією проблемою. Питання на кшталт «якою була наша ефективна податкова ставка у 2023 році?» вимагає знаходження рядка прибутку до оподаткування у звіті про прибутки та збитки, витрат з податку на прибуток з окремої примітки та, можливо, розподілу по сегментах для звірки консолідованого показника. Жоден із цих показників не знаходиться в одній плоскій таблиці. Штраф у 15 балів F1 за міркування між таблицями в MultiHiertt кількісно визначає те, щ о я очікував би побачити в контексті Beancount: агенти, які добре справляються із запитами до одного рахунку, значно деградують, коли питання потребує об'єднання даних з різних розділів леджера.
Аналіз помилок дає прямі вказівки до дії. Якщо 31,5% помилок — це пошук неправильних доказів ще до початку розрахунків, то пріоритетом для агента зворотного запису Beancount є не кращий арифметичний рушій, а кращий селектор доказів. Агент, який вибирає неправильні рядки леджера перед виконанням математичних операцій, створюватиме записи, що виглядають правдоподібно, але є помилковими — саме такий тип збоїв найважче виявити під час аудиту.
Траєкторія GPT-4 також є обнадійливою на найближчу перспективу: перехід від 38% до 70% за два роки свідчить про те, що міркування над кількома фінансовими таблицями стає можливим у міру покращення вікон контексту та логіки, навіть без спеціального навчання в доменній області. Але залишковий розрив у 17 балів до людського рівня — це не шум; він, ймовірно, відображає випадки, де ієрархічна структура несе семантичне навантаження, яке втрачається при перетворенні на плоский текст.
Що почитати далі
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — основа, на якій базується майже кожна фінансова QA-система; розуміння поділу на параметричну та непараметричну пам'ять важливе для структурування пошуку в леджері.
- FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — виконує пошук під час генерації, коли модель передбачає потребу в нових фактах; це природно підходить для міркувань над кількома таблицями, де в процесі виявляється потреба в допоміжній таблиці.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — донавчає LLM спеціально на FinQA/TAT-QA/MultiHiertt і показує, що насправді дає адаптація до домену порівняно з промптингом GPT-4.
