Salta al contingut principal

FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

FinTrace (arXiv:2604.10015) arriba una setmana després de FinToolBench, que vaig registrar l'última vegada, i els dos articles estan en conversa directa l'un amb l'altre. Allà on FinToolBench mesura si un agent crida les eines adequades, FinTrace planteja la pregunta més difícil: fins i tot quan un agent crida les eines correctes, realment raona sobre els resultats? Aquesta distinció és el quid de l'article i, crec, el punt clau de tot el problema de l'agent d'escriptura (write-back) de Beancount.

L'article

2026-07-06-fintrace-avaluacio-a-nivell-de-trajectoria-crida-eines-llm-tasques-financeres

Cao et al. presenten FinTrace, un benchmark de 800 trajectòries anotades per experts que abasten 34 categories de tasques financeres del món real a través de nivells de dificultat fàcil, mitjà i difícil. Els autors construeixen la seva avaluació al voltant d'una rúbrica de nou mètriques organitzades en quatre eixos: correcció de l'acció (F1 de crida d'eines, rellevància de la tasca), eficiència d'execució (eficiència de passos, puntuació de redundància), qualitat del procés (progressió lògica, utilització de la informació, puntuació de progrés) i qualitat del resultat (taxa d'èxit de la tasca, qualitat de la resposta final). Avaluen 13 LLM i també publiquen FinTrace-Training, un conjunt de dades de 8.196 trajectòries de preferència seleccionades per a l'ajustament fi (fine-tuning).

L'afirmació central és que els models de frontera han dominat la selecció d'eines, però fallen sistemàticament en el pas més difícil: utilitzar el que les eines retornen. El benchmark ho posa a prova amb una escala de 5 punts per a la utilització de la informació, la progressió lògica i la puntuació de progrés, a més de mètriques algorítmiques per a l'F1 d'eines i l'eficiència de passos.

Idees clau

  • El model amb millor rendiment, Claude-Opus-4.6, aconsegueix un F1 de crida d'eines de 0,896 —una selecció forta—, però només obté un 3,23/5 en Utilització de la Informació, la més feble de les quatre mètriques orientades al resultat.
  • La taxa d'èxit de la tasca de Claude-Opus-4.6 és de 2,65/5, i la Qualitat de la Resposta Final és de 3,34/5; fins i tot el millor model no produeix respostes correctes i completes de manera consistent.
  • Qwen-3.5-9B mostra un patró degenerat: una eficiència de passos (1,000) i una redundància (1,000) gairebé perfectes perquè amb prou feines crida cap eina, reflectit en un F1 de crida d'eines de 0,109. Eficient però inútil.
  • L'entrenament amb FinTrace-Training millora les mètriques del procés intermedi (la Progressió Lògica puja de 2,29 a 2,56 amb DPO; la Puntuació de Progrés de 2,00 a 2,30), però la Qualitat de la Resposta Final es manté estancada —cap variant supera significativament l'1,21 de mitjana en l'escala d'1 a 5 per als models petits.
  • El DPO supera l'SFT a l'hora de suprimir modes de fallada catastròfics: la proporció de puntuacions d'1 en Progressió Lògica cau de l'11,9% (SFT) al 9,5% (DPO).
  • La subcategoria universalment pitjor en els 13 models és el QA de Raonament, on Claude-Opus-4.6 aconsegueix només un 0,62 global —un sostre difícil compartit fins i tot pel model de frontera més fort.

Què se sosté — i què no

La troballa principal —que la selecció d'eines i el raonament sobre les eines són dissociables— està ben motivada i la rúbrica de quatre eixos és una contribució genuïna. Els benchmarks anteriors com FinToolBench s'aturen en les traces d'execució; FinTrace afegeix mètriques de qualitat del procés jutjades per LLM que exposen el que passa entremig. El κ de Cohen inter-avaluador de 0,89 en la validació de 100 mostres és encoratjador per a un benchmark construït en part sobre jutges LLM.

Dit això, diverses eleccions metodològiques limiten el que puc extreure de les xifres literalment. Les 34 categories de tasques no s'enumeren al cos principal de l'article —es remeten a l'Apèndix B—, així que no puc dir com són de representatives de la pràctica financera del món real. Els nivells de dificultat es defineixen per rangs percentils dins del propi conjunt de consultes del benchmark, la qual cosa és una mesura circular: "difícil" només significa inusual en relació amb les altres 800 trajectòries, no difícil en cap sentit absolut.

L'anàlisi de l'ajustament fi és frustrant. Entrenar un model de 9B amb FinTrace-Training millora el raonament intermedi, però la qualitat de la resposta final continua sent deficient. L'article ho atribueix a una "desconnexió" entre el procés i el resultat, però no explica per què. L'explicació més plausible —que un model de 9B no té la memòria factual i la capacitat aritmètica necessàries per a les tasques financeres independentment de la qualitat de la trajectòria— no s'aborda. Mostrar els resultats del DPO només per a Qwen-3.5-9B també fa que sigui impossible saber si els models més grans se'n beneficien més.

També sóc escèptic respecte a l'agregació de la puntuació global. Combinar mètriques algorítmiques (F1 ∈ [0,1]) amb puntuacions jutjades per LLM en escales Likert d'1 a 5 mitjançant la normalització a [0,1] i la mitjana barreja tipus de fallades molt diferents. Un model que crida les eines equivocades per complet no és el mateix tipus d'error que un model que crida les eines correctes i després ignora el resultat.

Per què això és important per a la IA financera

La troballa central es trasllada directament al problema d'escriptura (write-back) de Beancount. Un agent que crida de manera fiable les eines adequades de la CLI de Beancount però que després malinterpreta el resultat —per exemple, analitzant una resposta de balanç de situació i publicant al compte equivocat— és pitjor que cap automatització: produeix entrades de llibre major errònies amb seguretat que semblen correctes per a un revisor casual.

La mètrica d'Utilització de la Informació és la que vigilaria amb més cura per a qualsevol agent de Beancount. El fet que el millor model disponible tregui un 3,23/5 en això en un benchmark financer controlat hauria de ser una restricció obligatòria en qualsevol desplegament en producció. Això a favor de la revisió humana obligatòria de qualsevol operació d'escriptura, almenys fins que vegem aquesta puntuació consistentment per sobre del 4,0.

FinTrace també confirma el que ReDAct suggeria la setmana passada: l'arquitectura adequada no és el raonament LLM d'extrem a extrem, sinó un pipeline que externalitza la verificació. Un agent que selecciona bé les eines (Tool F1 ~0,9) i després passa els resultats a un pas de validació independent abans d'actuar és més defensable que un que intenta raonar sobre el resultat brut de l'eina en una sola passada.

Què llegir a continuació

  • FinMCP-Bench (arXiv:2603.24943): l'article complementari que utilitza MCP com a estàndard d'interfície d'eines, el següent a la llista de lectura; directament comparable a FinTrace però construït sobre una capa de protocol diferent.
  • "Benchmarking LLM Tool-Use in the Wild" (arXiv:2604.06185): aparegut simultàniament, avalua la crida d'eines fora de les finances; aclariria si la bretxa d'utilització de la informació és específica del domini o general.
  • "Data-Driven Function Calling Improvements in Large Language Model for Online Financial QA" (arXiv:2604.05387): s'adreça als mateixos modes de fallada de crida d'eines des d'una perspectiva de dades d'entrenament i podria explicar què li falta al DPO de FinTrace-Training.