FinQA: El referent per mesurar el raonament numèric de la IA en informes financers
FinanceBench va demostrar la setmana passada que la recuperació no és la part difícil de les preguntes i respostes (QA) financeres, sinó el raonament numèric. FinQA, publicat a l'EMNLP 2021, és l'article que va establir el perquè. El llegeixo ara perquè és el referent fundacional per a l'aritmètica financera; cada treball posterior en aquest espai o bé l'amplia o bé s'hi compara, i entendre on fallen els seus models explica on fallaran també els agents actuals de Beancount.
L'article
Zhiyu Chen, Wenhu Chen i col·legues de la UC Santa Barbara, J.P. Morgan i Amazon van presentar FinQA: A Dataset of Numerical Reasoning over Financial Data (arXiv:2109.00122, EMNLP 2021). La tasca principal: donat un informe de resultats que conté tant una narrativa en prosa com una o més taules financeres, respondre una pregunta que requereixi aritmètica de diversos passos sobre fets extrets de totes dues modalitats. La resposta s'ha de derivar mitjançant un programa numèric explícit: una seqüència de fins a cinc operacions (suma, resta, multiplicació, divisió, comparació, agregació de taules i algunes altres) aplicades als valors extrets.
Onze professionals financers amb seu als EUA (CPAs, MBAs) van crear el conjunt de dades a mà a partir de 2.789 pàgines d'informes de resultats de l'S&P 500 entre 1999 i 2019. El conjunt de dades final conté 8.281 parells de QA anotats, cadascun amb fets de suport de referència i el programa de raonament complet, cosa que el fa totalment executable i auditable.
Idees clau
- La bretxa és brutal en el moment del llançament. FinQANet (RoBERTa-large), el millor model neuronal que els autors van poder desplegar, va assolir un 61,24% de precisió d'execució i un 58,86% de precisió de programa en el conjunt de prova. Els experts financers humans van obtenir un 91,16% i un 87,49%. Els treballadors de masses no experts només van arribar al 50,68%, poc més que la línia base neuronal, cosa que indica que el domini requereix experiència real, no només comprensió lectora.
- Els diversos passos són on tot es trenca. Per a programes que requereixen tres o més passos de raonament, la precisió de FinQANet s'enfonsa fins al 22,78%. El model pot gestionar l'aritmètica de dos passos de manera raonable; qualsevol cosa més llarga i l'error s'acumula.
- Les preguntes de modalitat creuada són el cas difícil. Les preguntes on l'evidència s'estén tant per la taula com per la prosa tenen una precisió del 43,80%, aproximadament 17 punts per sota de la mitjana general. Vincular un número d'un paràgraf de taula a un qualificador del text no és una cosa que els models pre-entrenats estàndard facin bé.
- Les constants de domini són un assassí silenciós. Quan un pas del programa requereix una constant que és una convenció financera (per exemple, que hi ha 1.000 milers en un milió, o que un punt bàsic és el 0,01%) en lloc d'alguna cosa especificada al document, la precisió cau al 43,88%. El model no pot distingir de manera fiable entre "aquest número és al document" i "aquest número és coneixement del món".
- ~50% dels errors es deuen a llacunes de coneixement del domini, no a fallades de recuperació o errors d'execució aritmètica. El model va trobar els fets correctes però va aplicar una lògica financera incorrecta.
- Els LLM posteriors redueixen substancialment la bretxa però no l'eliminen. S'informa que el GPT-4 té aproximadament un 76% de precisió d'execució a FinQA, i els sistemes SOTA específics de la tasca van arribar al voltant del 89% el 2024, encara per sota del rendiment dels experts humans.
Què es manté i què no
El disseny del referent és sòlid. Utilitzar programes executables en lloc de respostes de text lliure és l'elecció correcta: pots puntuar un model de manera inequívoca i obtens una visió de com ha raonat, no només de si ha encertat. La decisió de requerir evidència tant de taula com de text reflecteix l'anàlisi financera del món real, on la taula et dóna el número i la nota al peu t'explica què significa el número.
Dit això, la tasca és més limitada del que sembla. El DSL d'operacions predefinit cobreix l'aritmètica financera estàndard, però no pot representar una decisió de categorització ("és aquesta despesa recurrent o puntual?"), una verificació de polítiques ("aquest flux de caixa compleix amb la nostra política pressupostària?") o qualsevol cosa que requereixi la recuperació externa de dades de mercat o estàndards comptables. Els programes són correctes i explicables, però viuen en un món on l'única incertesa és l'aritmètica, no el judici.
La configuració de recuperació també proporciona al model fets de suport de referència durant l'entrenament, la qual cosa afavoreix les xifres. En un desplegament real, hauries de recuperar les cel·les de la taula correctes d'un document llarg abans de poder executar el programa, i aquest pas de recuperació no és trivial, com va mostrar FinanceBench la setmana passada.
Finalment, els resultats de 2021 subestimen la capacitat actual del model. La línia base del ~61% era anterior a ChatGPT. El ~76% de GPT-4 i el ~89% dels sistemes SOTA provenen de fluxos especialitzats que combinen cadena de pensament, execució de codi i ajust fi (fine-tuning). La bretxa amb l'expert humà (91%+) s'ha reduït però persisteix.
Per què això és important per a la IA en finances
Els llibres majors de Beancount són essencialment informes de resultats simplificats: files estructurades de dèbits i crèdits amb metadades en prosa a les notes de transacció, camps de beneficiaris i jerarquies de comptes. Cada habilitat que prova el referent FinQA es tradueix directament en una cosa que un agent de Beancount ha de fer.
El mode de fallada de modalitat creuada és especialment important. En un context de Beancount, un agent podria veure un import de transacció al llibre major, un tipus de canvi de moneda estrangera en una directiva de preus i un comentari al camp de nota, i necessitar tots tres per calcular el valor correcte en la moneda de presentació d'informes. Els models que FinQA va provar el 2021 no podien referenciar aquestes fonts de manera fiable. Els LLM actuals ho fan millor, però la precisió del 22,78% en programes de més de 3 passos és un advertiment: la longitud de la cadena és un eix de fallada real, i les tasques de conciliació de llibres majors de diversos passos hi toparan.
El problema de les constants de domini també es generalitza. La comptabilitat té les seves pròpies convencions —invariants de partida doble, semàntica de tipus de compte, límits de l'any fiscal— que un model ha de conèixer sense que se li diguin. L'anàlisi d'errors de FinQA, que mostra un ~50% de fallades per coneixement del domini, suggereix que un agent de Beancount necessita o bé un ajust fi en convencions comptables o bé una capa de recuperació explícita per a les regles comptables, no només per a les entrades del llibre major.
La representació del programa del referent, tot i que restringida, també assenyala com els agents de Beancount haurien d'expressar el seu raonament: no en llenguatge natural que podria ser vague, sinó en operacions executables que es puguin comprovar, desfer o auditar.
Què llegir a continuació
- TAT-QA (arXiv:2105.07624, ACL 2021) — amplia la configuració híbrida de taula+text a 16.552 preguntes amb una varietat més rica de tipus de raonament; el model TAGOP que presenta val la pena estudiar-lo per com gestiona l'extracció de fragments d'ambdues modalitats de manera conjunta.
- ConvFinQA (arXiv:2210.03849, EMNLP 2022) — l'extensió conversacional de FinQA, on cada diàleg té dependències numèriques entre torns; l'estructura de diversos torns es mapatge directament a un assistent interactiu de Beancount que ha de fer un seguiment dels càlculs al llarg de les intervencions de l'usuari.
- MultiHiertt (arXiv:2206.01347, ACL 2022) — porta la configuració a informes financers amb múltiples taules jeràrquiques per document; un pas necessari cap als estats de consolidació i les vistes de llibres majors de diversos anys que afrontaran els agents de Beancount.
