Преминете към основното съдържание

MultiHiertt: Тестване на числено разсъждение върху многостепенни йерархични финансови таблици

· 7 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Всеки бенчмарк за финансови въпроси и отговори, който съм чел този месец — FinQA, TAT-QA, ConvFinQA — почива на едно и също тихо предположение: една плоска таблица на документ. Реалните финансови отчети не изглеждат по този начин. Консолидираните баланси влагат дъщерни дружества в сегменти в майчински субекти; отчетите за приходите и разходите съдържат йерархични редови позиции с междинни суми, които сами по себе си захранват по-високи агрегати. MultiHiertt (Zhao et al., ACL 2022) е първият бенчмарк набор от данни, създаден да разкрие точно тази пропаст, и числата, които произлизат от него, са изтрезняващи.

Документът

2026-05-16-multihiertt-numerical-reasoning-multi-hierarchical-tabular-textual

Yilun Zhao, Yunxiang Li, Chenying Li и Rui Zhang от Penn State представят MultiHiertt, бенчмарк за въпроси и отговори от 10 440 двойки, извлечени от 2 513 реални финансови отчета. Всеки документ съдържа средно 3,89 йерархични таблици заедно с 68 изречения (~1 645 думи) разказен текст. Разделението за обучение/разработка/тестване е 7 830 / 1 044 / 1 566. Основният аргумент е прост, но ясен: предишните набори от данни (FinQA, TAT-QA) оценяват моделите върху документи с една плоска таблица, което систематично омаловажава сложността на разсъжденията върху действителните финансови документи, където един въпрос може да изисква синтезиране на числа от три отделни подтаблици преди прилагането на аритметична програма.

Заедно с набора от данни, авторите предлагат MT2Net, двустепенен модел: модул за извличане на факти, който оценява кандидат подкрепящи клетки и текстови откъси от всички таблици и параграфи, последван от модул за символно разсъждение (изпълнител на аритметични програми, заимстван от дизайна NeRd на FinQA), който оперира върху извлечените факти. MT2Net използва RoBERTa-large като свой енкодер навсякъде.

Ключови идеи

  • Средната стойност от 3,89 таблици на документ в MultiHiertt директно отразява структурата на реалните годишни отчети, където един въпрос може да изисква стойности от отчета за приходите и разходите, таблица за разпределение на сегменти и бележка към отчета — нито една от които не е плоска.
  • MT2Net (RoBERTa-large) постига 38,43% F1 на тестовия набор; експертите хора постигат 87,03% F1 — разлика от близо 49 точки.
  • Въпросите за разсъждение върху множество таблици (изискващи доказателства от ≥ 2 таблици) постигат 21,04% F1 при най-добрия модел, срещу 36,77% за въпроси върху една таблица — спад от над 15 точки от вече ниската базова линия.
  • Модулът за символно разсъждение помага, но не може да компенсира неуспехите при извличането: изследването на анотациите показва, че 31,5% от грешките при йерархичните примери идват от избора на грешни доказателствени клетки, преди да бъде направен опит за каквато и да е аритметика.
  • До 2024 г. GPT-4 с подкана „Program-of-Thoughts“ достига 67,23% F1 на MultiHiertt, а специализиран метод EEDP (evidence-enhanced document prompting) изтласква GPT-4 до 70,32% — все още със 17 точки под тавана на човешките възможности.
  • Качеството на анотацията е стабилно: Kappa между анотаторите от 0,72–0,90, като 76,8%–94,0% от пробите са оценени с ≥ 4/5 за коректност от работници в платформата за съвместна работа.

Какво се потвърждава — и какво не

Конструкцията на набора от данни е внимателна и метриките за качество на анотацията са успокояващи. Основното твърдение — че бенчмарковете с една таблица подценяват реалната сложност — е очевидно вярно и разликата от 15 точки във F1 между подмножествата с една и с няколко таблици го прави конкретно. Сравнителната таблица (Таблица 1 в документа) ясно показва, че FinQA и TAT-QA имат по една таблица на документ; MultiHiertt наистина запълва реална празнина.

Въпреки това, MT2Net не е силно предложено решение — той е по-близо до силна базова линия. Модулът за извличане е оценител на ниво откъс (span-level scorer), обучен под надзор върху подкрепящи факти, което означава, че той силно зависи от наличието на правилен сигнал за надзор по време на обучението. Документът не оценява какво се случва, когато йерархичната структура е неявна (без изрично HTML влагане родител-дете), което е често срещано в сканирани документи и по-стари PDF файлове. Тестовият набор е скрит зад класация на CodaLab, което прави трудно независимото възпроизвеждане на резултатите или изследването на режимите на отказ.

Също така искам да отбележа нещо, на което авторите не наблягат достатъчно: резултатите на GPT-4 от 2024 г. показват, че чистата мощ на разсъждение може да затвори голяма част от пропастта без архитектура, специално проектирана за йерархия. GPT-4 достига 70%, без някога да му е било казвано, че документът има йерархични таблици — той просто чете рендерирания HTML. Това всъщност е интересно откритие: осъзнаването на йерархията може да има по-малко значение от чистия капацитет на контекста и аритметичната надеждност. Ограничаващият фактор все още може да бъде прецизността на извличането в дълги документи, а не архитектурата на разсъждение.

Защо това е важно за финансовия AI

Агентите на Beancount се сблъскват точно с този проблем. Въпрос като „каква беше нашата ефективна данъчна ставка през 2023 г.?“ изисква намиране на реда за печалба преди данъци от отчета за приходите и разходите, разхода за данък върху дохода от отделна бележка и евентуално разпределение на ниво сегмент, за да се съгласува консолидираната цифра. Нито едно от тези не живее в една плоска таблица. Наказанието от 15 точки F1 за разсъждение върху множество таблици в MultiHiertt количествено определя това, което бих очаквал да видя в контекста на Beancount: агенти, които изглеждат добре при заявки за една сметка, ще се влошат значително, когато въпросът изисква свързване на данни между различни секции на главната книга.

Анализът на грешките е пряко приложим. Ако 31,5% от грешките са извличания на грешни доказателства преди всяко изчисление, то приоритетът за агент на Beancount за обратно записване не е по-добра аритметична машина — а по-добър селектор на доказателства. Агент, който извлича грешните редове от главната книга, преди да направи сметките, ще произведе изглеждащи правдоподобно, но грешни записи — точно режима на отказ, който е най-труден за улавяне при одит.

Траекторията на GPT-4 също е обнадеждаваща в краткосрочен план: преминаването от 38% към 70% за две години предполага, че финансовото разсъждение върху множество таблици е постижимо с подобряването на контекстните прозорци и разсъжденията, дори без специфично за домейна обучение. Но оставащата празнина от 17 точки спрямо човешкото представяне не е шум — тя вероятно отразява случаи, в които йерархичната структура носи семантична стойност, която рендерирането на плосък текст губи.

Какво да прочетете след това

  • Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — основата, върху която е изградена почти всяка финансова система за въпроси и отговори; разбирането на нейното разделение на параметрична и непараметрична памет е важно за решаването на това как да се структурира извличането от главната книга.
  • FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — извлича информация по средата на генерирането, когато моделът предвиди, че се нуждае от нови факти, което е естествено подходящо за разсъждение върху множество таблици, където по средата на процеса откривате, че се нуждаете от дъщерна таблица.
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — фино настройва LLM специално върху FinQA/TAT-QA/MultiHiertt и показва какво реално носи адаптацията към домейна спрямо подканите към GPT-4.