Salta al contingut principal

MultiHiertt: Avaluació comparativa del raonament numèric en taules financeres multi-jeràrquiques

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Cada benchmark de preguntes i respostes (QA) financeres que he llegit aquest mes —FinQA, TAT-QA, ConvFinQA— es basa en la mateixa hipòtesi implícita: una taula plana per document. Els informes financers reals no s'assemblen en res a això. Els balanços consolidats nien filials dins de segments dins d'entitats matrius; els comptes de resultats contenen partides jeràrquiques amb subtotals que, al seu torn, alimenten agregats superiors. MultiHiertt (Zhao et al., ACL 2022) és el primer conjunt de dades de referència creat per exposar exactament aquesta bretxa, i les xifres que en resulten són alliçonadores.

L'article

2026-05-16-multihiertt-numerical-reasoning-multi-hierarchical-tabular-textual

Yilun Zhao, Yunxiang Li, Chenying Li i Rui Zhang de la Penn State presenten MultiHiertt, un benchmark de QA de 10.440 parells de preguntes i respostes extrets de 2.513 informes financers reals. Cada document té una mitjana de 3,89 taules jeràrquiques juntament amb 68 frases (~1.645 paraules) de text narratiu. La divisió d'entrenament/desenvolupament/test és de 7.830 / 1.044 / 1.566. L'argument central és senzill però encertat: els conjunts de dades anteriors (FinQA, TAT-QA) avaluen els models en documents amb una única taula plana, la qual cosa infravalora sistemàticament la complexitat del raonament sobre les presentacions financeres reals, on una pregunta pot requerir la síntesi de xifres de tres subtaules separades abans d'aplicar un programa aritmètic.

Juntament amb el conjunt de dades, els autors proposen MT2Net, un model de dues etapes: un mòdul de recuperació de fets que puntua les cel·les de suport candidates i els fragments de text de totes les taules i paràgrafs, seguit d'un mòdul de raonament simbòlic (un executor de programes aritmètics manllevat del disseny NeRd de FinQA) que opera sobre els fets recuperats. MT2Net utilitza RoBERTa-large com a codificador en tot moment.

Idees clau

  • La mitjana de 3,89 taules per document de MultiHiertt reflecteix directament l'estructura real dels informes anuals, on una sola pregunta pot requerir valors del compte de resultats, una taula de desglossament per segments i un annex de notes al peu; cap d'ells és pla.
  • MT2Net (RoBERTa-large) aconsegueix un 38,43% de F1 en el conjunt de test; els experts humans obtenen un 87,03% de F1, una bretxa de gairebé 49 punts.
  • Les preguntes de raonament entre taules (que requereixen evidències de ≥ 2 taules) obtenen un 21,04% de F1 amb el millor model, enfront del 36,77% de les preguntes d'una sola taula; una caiguda de més de 15 punts respecte a una base que ja era baixa.
  • El mòdul de raonament simbòlic ajuda però no pot compensar els errors de recuperació: l'estudi d'anotació mostra que el 31,5% dels errors en els exemples jeràrquics provenen de la selecció de cel·les d'evidència incorrectes abans d'intentar qualsevol operació aritmètica.
  • El 2024, GPT-4 amb indicacions (prompting) de Program-of-Thoughts arriba al 67,23% de F1 a MultiHiertt, i un mètode dedicat d'EEDP (evidence-enhanced document prompting) impulsa GPT-4 fins al 70,32%, encara 17 punts per sota del sostre humà.
  • La qualitat de l'anotació és sòlida: Kappa inter-anotador de 0,72–0,90, amb el 76,8%–94,0% de les mostres qualificades amb ≥ 4/5 per correcció pels treballadors de crowdsourcing.

Què es manté — i què no

La construcció del conjunt de dades és acurada i les mètriques de qualitat de l'anotació són encoratjadores. L'afirmació central —que els benchmarks d'una sola taula subestimen la complexitat real— és òbviament certa, i la bretxa de 15 punts de F1 entre els subconjunts d'una sola taula i els de diverses taules la fa concreta. La taula comparativa (Taula 1 de l'article) mostra clarament que FinQA i TAT-QA tenen una taula per document; MultiHiertt està realment omplint un buit real.

Dit això, MT2Net no és una proposta de solució robusta; s'acosta més a una línia base forta. El mòdul de recuperació és un puntuador a nivell de fragment entrenat amb supervisió sobre fets de suport, la qual cosa significa que depèn en gran mesura de tenir un senyal de supervisió correcte en el moment de l'entrenament. L'article no avalua què passa quan l'estructura jeràrquica és implícita (sense anidament HTML pare-fill explícit), cosa habitual en presentacions escanejades i PDF antics. El conjunt de test es manté reservat darrere d'una classificació de CodaLab, cosa que dificulta la rèplica independent dels resultats o la investigació dels modes d'error.

També vull destacar una cosa que els autors no emfatitzen prou: els resultats de GPT-4 del 2024 mostren que la potència de raonament pura pot tancar gran part de la bretxa sense cap arquitectura dissenyada específicament per a la jerarquia. GPT-4 arriba al 70% sense que se li digui mai que el document té taules jeràrquiques; simplement llegeix l'HTML renderitzat. De fet, és una troballa interessant: la consciència de la jerarquia pot ser menys important que la capacitat de context pura i la fiabilitat aritmètica. La limitació principal pot seguir sent la precisió de la recuperació en documents llargs, no l'arquitectura de raonament.

Per què això és important per a l'IA financera

Els agents de Beancount s'enfronten exactament a aquest problema. Una pregunta com "quina va ser la nostra taxa impositiva efectiva el 2023?" requereix trobar la línia d'ingressos abans d'impostos del compte de resultats, la despesa per impost sobre el rendiment d'una nota separada i, possiblement, un desglossament per segments per conciliar la xifra consolidada. Cap d'aquests es troba en una sola taula plana. La penalització de 15 punts de F1 per al raonament entre taules a MultiHiertt quantifica el que esperaria veure en un context de Beancount: els agents que semblen bons en consultes d'un sol compte es degradaran significativament quan una pregunta requereixi unir diferents seccions del llibre major.

L'anàlisi d'errors és directament aplicable. Si el 31,5% dels errors són recuperacions d'evidències errònies abans que es produeixi qualsevol càlcul, llavors la prioritat per a un agent d'escriptura (write-back) de Beancount no és un millor motor aritmètic, sinó un millor selector d'evidències. Un agent que recuperi les línies del llibre major incorrectes abans de fer els càlculs produirà entrades que semblen plausibles però que són errònies, exactament el mode d'error més difícil de detectar en una auditoria.

La trajectòria de GPT-4 també és encoratjadora a curt termini: passar del 38% al 70% en dos anys suggereix que el raonament financer multi-taula és abordable a mesura que milloren les finestres de context i el raonament, fins i tot sense un entrenament específic del domini. Però la bretxa restant de 17 punts respecte al rendiment humà no és soroll; probablement reflecteix casos on l'estructura jeràrquica aporta una càrrega semàntica que la representació en text pla perd.

Què llegir a continuació

  • Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — la base sobre la qual es construeix gairebé tots els sistemes de QA financers; entendre la seva divisió de memòria paramètrica vs. no paramètrica és clau per decidir com estructurar la recuperació del llibre major.
  • FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — recupera informació a mitja generació quan el model prediu que necessita nous fets, cosa que s'adapta de forma natural al raonament multi-taula on descobreixes a mig raonament que necessites una taula subsidiària.
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — ajusta un LLM específicament en FinQA/TAT-QA/MultiHiertt i mostra què aporta realment l'adaptació al domini respecte a l'ús de prompts amb GPT-4.