FinToolBench: Evaluación de agentes de LLM en el uso de herramientas financieras del mundo real
La mayoría de las evaluaciones comparativas de IA en finanzas comprueban si un modelo puede leer un documento. FinToolBench comprueba si un modelo puede hacer algo: llamar a una API en vivo, obtener datos de mercado actuales y devolver una respuesta correcta. Esa es la brecha que importa para cualquier sistema que intente automatizar el trabajo financiero real, y es la brecha que he estado esperando que alguien cierre con rigor.
El artículo
Jiaxuan Lu y sus colegas presentan FinToolBench (arXiv:2603.08262, marzo de 2026) como lo que afirman es la primera evaluación comparativa ejecutable del mundo real para evaluar agentes de aprendizaje de herramientas financieras. El planteamiento es directo: las evaluaciones de IA financiera existentes se centran en el control de calidad estático sobre documentos, mientras que las evaluaciones comparativas de uso de herramientas generales como ToolLLM tratan las finanzas como una categoría de API más sin restricciones de cumplimiento específicas del dominio. FinToolBench intenta llenar el espacio entre esos dos modos de falla.
La evaluación comparativa combina 760 herramientas financieras ejecutables (261 endpoints en vivo de RapidAPI y 499 interfaces de AkShare) con 295 consultas de evaluación rigurosamente seleccionadas, divididas en 166 casos de una sola herramienta y 129 de múltiples herramientas. Las herramientas abarcan los dominios de acciones, bonos, fondos, divisas (forex), derivados, macroeconomía y criptomonedas. Crucialmente, se trata de API reales y llamables, no de simulacros (stubs). Los autores también introducen FATR (Finance-Aware Tool Routing), un agente de referencia que utiliza la recuperación BGE-M3 (los 20 mejores candidatos), tarjetas de herramientas anotadas con atributos financieros y un planificador ReAct consciente de las restricciones limitado a cinco pasos.
Ideas clave
- La ejecución no es el cuello de botella; el razonamiento sobre los resultados lo es. GPT-4o tiene la puntuación suave condicional (CSS = 0,670) más alta, lo que significa que da respuestas correctas cuando llama con éxito a una herramienta, pero solo invoca herramientas el 22,7% de las veces (TIR = 0,227). Qwen3-8B llama a las herramientas el 87,1% de las veces, pero obtiene la respuesta correcta solo el 40,4% de las veces cuando tiene éxito.
- El desajuste de intención es el fallo de cumplimiento dominante. La IMR (Tasa de Desajuste de Intención) supera el 50% en la mayoría de los modelos, lo que significa que los agentes realizan llamadas con intención transaccional de forma rutinaria cuando la consulta solo requiere una búsqueda informativa. Ese es un problema grave en contextos financieros regulados.
- La inyección de atributos financieros ayuda al cumplimiento sin perjudicar la capacidad. Las tarjetas de herramientas de la línea de base FATR —que anotan cada herramienta con su actualidad, tipo de intención y dominio regulatorio— reducen las llamadas de datos obsoletos (TMR) y las violaciones de dominio (DMR) sin perjudicar significativamente la tasa de invocación.
- Las consultas de múltiples herramientas exponen la brecha de fiabilidad. Las 129 consultas de múltiples herramientas requieren encadenar llamadas y pasar resultados entre pasos; el rendimiento cae sustancialmente en comparación con los casos de una sola herramienta, de acuerdo con los hallazgos de FinTrace y TheAgentCompany.
- Los modelos pequeños pueden superar en invocación pero no en razonamiento a los grandes. La TIR de Qwen3-8B de 0,871 frente a la de 0,227 de GPT-4o muestra que los modelos más pequeños son más "precipitados", pero la CER (Tasa de Ejecución Condicional, es decir, TESR/TIR) de 0,339 para Qwen3-8B frente a 0,618 para GPT-4o revela que GPT-4o es mucho más preciso cuando decide llamar a una herramienta.
Lo que se sostiene y lo que no
La elección de la evaluación comparativa de utilizar API genuinamente en vivo y ejecutables es su contribución principal, y es real. Las API simuladas han sido el secreto sucio de las evaluaciones de uso de herramientas: las 16.000 API de ToolLLM suenan impresionantes hasta que te das cuenta de que la evaluación utiliza un LLM como juez para determinar si una llamada "habría" funcionado. FinToolBench evita eso.
Las métricas de cumplimiento (TMR, IMR, DMR) son conceptualmente correctas —los agentes financieros necesitan saber la diferencia entre obtener el precio de cierre de ayer e iniciar una operación—, pero la descripción del artículo sobre cómo se aplican estas clasificaciones es escasa. No está claro si las etiquetas de verdad fundamental para el tipo de intención (informativa frente a transaccional) fueron verificadas por expertos legales o de cumplimiento, o simplemente asignadas por los autores del conjunto de datos. Eso importa mucho en la práctica.
El elenco de modelos también es extrañamente reducido: Doubao-Seed-1.6, Qwen3-8B, GLM-4.7-Flash y GPT-4o. No hay Claude Sonnet ni Gemini 2.5, que habrían sido comparaciones naturales. La tabla de resultados muestra que GPT-4o es un valor atípico de precisión pero baja cobertura; me gustaría saber si el comportamiento de uso de herramientas de Claude se acerca más al patrón conservador de GPT-4o o al agresivo de Qwen3-8B.
El conjunto de evaluación de 295 consultas es pequeño para los estándares modernos de evaluaciones comparativas. Con 760 herramientas, una tasa de cobertura de 295 consultas significa que la mayoría de las herramientas nunca se prueban. El artículo no informa estadísticas de cobertura por dominio, lo que significa que las cifras principales podrían estar impulsadas por un subconjunto de dominios con buena cobertura como las acciones y la macroeconomía.
Por qué esto es importante para la IA financiera
Los agentes de escritura de Beancount —cualquier agente que llame a bean-add, parchee un archivo de libro mayor o consulte beanquery— se enfrentan exactamente a los modos de falla que revela FinToolBench. El problema del desajuste de intención se traduce directamente: un agente de Beancount que emite una llamada de escritura cuando el usuario hizo una pregunta de lectura tiene la misma firma de falla que una violación de IMR. La dimensión de la actualidad se ajusta al problema de llamar a un estado del libro mayor almacenado en caché y obsoleto cuando el usuario espera el saldo actual.
La tensión entre precisión y cobertura (GPT-4o frente a Qwen3-8B) también es directamente relevante. Para la escritura en Beancount, preferiría con mucho el comportamiento de llamada conservador de GPT-4o (baja TIR pero alta CER y CSS) que un modelo de alta invocación que ejecuta frecuentemente la herramienta incorrecta. Las escrituras falsas son mucho más costosas que las operaciones nulas (no-ops).
El enfoque FATR de anotar herramientas con atributos de cumplimiento en lugar de confiar en que el modelo los infiera es un patrón de diseño que vale la pena adoptar. Envolver las herramientas de la CLI de Beancount con metadatos explícitos sobre si una llamada es de solo lectura o de modificación, y si toca el estado del libro mayor actual frente al archivado, es la misma idea aplicada a un ámbito más pequeño.
Qué leer a continuación
- FinTrace (arXiv:2604.10015) — evaluación a nivel de trayectoria en 34 categorías de tareas financieras con 9 métricas; extiende directamente la evaluación de llamada única de FinToolBench a secuencias de múltiples pasos y ajusta Qwen-3.5-9B con DPO para mejorar el razonamiento intermedio.
- FinMCP-Bench (arXiv:2603.24943) — 613 muestras sobre 65 herramientas financieras basadas en MCP que prueban la invocación de una sola herramienta, de múltiples herramientas y de múltiples turnos; el marco de MCP es directamente relevante para las interfaces de herramientas de Beancount.
- ToolLLM (arXiv:2307.16789, ICLR 2024) — el artículo de ToolBench contra el que FinToolBench se posiciona explícitamente; comprender qué puede y qué no puede medir la línea de base de la API simulada aclara cuánto aporta realmente la ejecutabilidad de FinToolBench.
