ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans
Després de dedicar diversos registres al QA financer d'un sol torn — FinQA, FinanceBench, TAT-QA —, volia analitzar què passa quan els usuaris fan preguntes de seguiment. ConvFinQA (Chen et al., EMNLP 2022) és l'article que agafa l'entorn de FinQA i l'estén a la conversa multi-torn, i els resultats exposen un mode de fallada que els bancs de proves d'un sol torn simplement no poden detectar: els models que dominen el raonament numèric aïllat sovint col·lapsen en el moment en què una pregunta fa referència a quelcom dit fa dos torns.
L'article
ConvFinQA, de Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah i William Yang Wang (UC Santa Barbara i J.P. Morgan), construeix un conjunt de dades de 3.892 converses multi-torn que sumen 14.115 preguntes sobre 2.066 pàgines d'informes financers. Cada conversa es basa en informes de resultats —les mateixes presentacions de l'S&P 500 utilitzades a FinQA— i les preguntes s'encadenen de manera que els torns posteriors poden fer referència a respostes anteriors. El format de la tasca s'hereta de FinQA: els models generen un programa en un petit llenguatge específic de domini (sumar, restar, multiplicar, dividir, major que, exp) que després s'executa per produir la resposta. L'avaluació utilitza la precisió d'execució (si el resultat executat coincideix amb la resposta de referència) i la precisió del programa (si el programa generat coincideix amb el programa de referència).
El conjunt de dades té dos tipus de conversa. Les converses de Tipus I "simples" descomponen una única pregunta complexa de FinQA en una seqüència de subpreguntes. Les converses de Tipus II "híbrides" concatenen descomposicions de dues preguntes diferents de FinQA sobre el mateix informe, forçant un raonament entre diferents aspectes. Més del 60% de les preguntes tenen dependències de torns anteriors, i les preguntes de la segona part en les converses híbrides són substancialment més difícils perquè el model ha de mantenir l'estat del raonament a través de diferents temes financers.
Idees clau
- El millor model ajustat (FinQANet amb RoBERTa-large): 68,90% de precisió d'execució en el conjunt de prova. Els experts financers humans arriben al 89,44%. Els treballadors de plataformes de microtasques (MTurk): 46,90% — una bretxa sorprenent que confirma que la tasca requereix coneixements genuïns del domini.
- GPT-3 (text-davinci-002, 175B) amb 20 exemples de pocs trets (few-shot) i fets de suport de referència: 50,30% de precisió d'execució — molt per sota de l'especialista ajustat i amb prou feines per sobre de la multitud no experta.
- El "chain-of-thought prompting" (encadenament de pensament) perjudica el GPT-3: el CoT dóna un 40,63% enfront del 45,15% del prompting de programa estàndard. El model imita el format de raonament dels exemples donats en lloc d'aplicar-lo a la pregunta real.
- Les converses híbrides són substancialment més difícils: la segona part d'una conversa híbrida puntua un 52,38% per a FinQANet enfront del 72,37% de les converses simples. Les referències creuades entre diversos aspectes és on els models actuals fallen.
- El GPT-3 té dificultats específiques amb les preguntes de selecció de números —respondre a un seguiment com "què passa amb l'any anterior?"— aconseguint només el 35,32% on FinQANet arriba al 82,54%. La resolució de l'anàfora conversacional és el coll d'ampolla.
Què es manté vigent — i què no
La construcció del conjunt de dades és acurada i l'avaluació és neta. L'ús de la precisió del programa juntament amb la precisió d'execució és valuós: dos programes poden produir la mateixa resposta numèrica mitjançant camins de raonament diferents (possiblement erronis), i la precisió del programa ho detecta. La decisió de basar les converses en presentacions reals de l'S&P 500 manté la tasca ancorada a la realitat en lloc de ser sintètica.
Dit això, la varietat de la conversa està limitada pel disseny. Cada conversa es construeix descomponent preguntes existents de FinQA; no hi ha diàlegs realment oberts, ni torns d'aclariment, ni correccions de l'usuari. Les converses comptables reals inclouen tot això. El conjunt de dades és una aproximació controlada del raonament conversacional, no una mostra naturalista.
L'anàlisi del GPT-3 ha envellit malament. En el moment de la publicació (finals de 2022), que el GPT-3 es quedés per sota del 50% semblava un resultat negatiu significatiu. Però l'article és anterior al GPT-4, i treballs posteriors mostren que els models més capaços redueixen gran part de la bretxa. La troballa del CoT —que el prompting va ser contraproduent— és interessant, però pot ser específica del model: el CoT tendeix a funcionar millor en models amb una millor capacitat de seguiment d'instruccions.
L'avaluació també se centra completament en la correcció de la resposta final i ignora la qualitat de la cadena de raonament intermèdia. Això és important perquè un model pot generar una resposta numèricament correcta mitjançant un programa erroni (que la precisió del programa detecta parcialment) o un programa correcte mitjançant un raonament fràgil que fallaria davant una lleugera paràfrasi. FinChain (2025) ho critica explícitament, proposant una alternativa centrada en la transparència. Per als sistemes de producció, saber per què el model ha obtingut la resposta correcta és tan important com saber que l'ha obtingut.
Per què això és important per a la IA en finances
Un agent de Beancount que respon a les consultes dels usuaris rarament rep una única pregunta autònoma. Els usuaris pregunten "quant vaig gastar en queviures el mes passat?", després "com es compara amb el mes anterior?" i després "és més del que havia pressupostat?". Cada pregunta es construeix sobre l'anterior. ConvFinQA és el banc de proves publicat més proper a aquest patró d'interacció, i les seves xifres són alliçonadores: fins i tot amb una recuperació de dades perfecta, el millor model disponible el 2022 deixava una bretxa d'uns 21 punts percentuals respecte al rendiment dels experts humans, i la bretxa s'eixampla en les preguntes de diversos aspectes.
Val la pena destacar la fallada específica en les converses híbrides. Quan un usuari passa de preguntar sobre els ingressos a preguntar sobre les despeses en la mateixa sessió, el model ha de traslladar el context numèric mentre reinicia l'enfocament temàtic. Això és exactament el que ha de fer un agent de Beancount en una sessió de revisió del llibre major multi-torn. La puntuació del 52,38% en aquests torns és un límit inferior directe de com els enfocaments actuals gestionen aquest escenari.
La troballa del CoT també és pràcticament útil: suggereix que en demanar a un model que raoni sobre dades financeres en un entorn multi-torn, la generació estructurada de programes pot ser més fiable que la cadena de pensament de forma lliure, almenys per a models amb el nivell de capacitat del GPT-3. Els models més capaços podrien no mostrar aquesta inversió, però és una hipòtesi per provar, no una suposició a fer.
Què llegir a continuació
- Seguiment ConvFinQA APOLLO (arXiv:2212.07249) — aconsegueix l'estat de l'art a ConvFinQA utilitzant mostreig negatiu conscient dels números i aprenentatge per reforç basat en la consistència; val la pena llegir-lo per veure què va tancar la bretxa després de l'article original.
- Program of Thoughts Prompting (arXiv:2211.12737, 2022) — delega l'aritmètica a un intèrpret de Python en lloc d'un DSL; va informar d'una millora del ~12% respecte al CoT en tasques de QA financer i resultats propers al SoTA a ConvFinQA; connecta les idees de CodeAct directament amb el raonament financer.
- FLARE: Active Retrieval Augmented Generation (arXiv:2305.06983, EMNLP 2023) — recupera informació sota demanda durant la generació en lloc de fer-ho una sola vegada al principi; directament rellevant per a l'entorn multi-torn on el que el model necessita consultar canvia torn rere torn.
