4 publicaciones etiquetadas con "Fintech"

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking de agentes de LLM para el uso de herramientas financieras del mundo real bajo MCP

FinMCP-Bench evalúa seis modelos de LLM en 613 tareas de uso de herramientas financieras del mundo real respaldadas por 65 servidores MCP; el mejor modelo obtiene una puntuación de coincidencia exacta del 3,08% en tareas de múltiples turnos, lo que revela un colapso del rendimiento de 20 veces desde escenarios de una sola herramienta a múltiples turnos.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Evaluación a Nivel de Trayectoria del Llamado a Herramientas de LLM para Tareas Financieras

FinTrace evalúa 13 LLM en 800 trayectorias de tareas financieras anotadas por expertos a través de 9 métricas, encontrando que los modelos de frontera logran una sólida selección de herramientas (F1 ~0,9) pero solo obtienen 3,23/5 en utilización de información, el paso donde los agentes razonan sobre lo que devuelven las herramientas.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Evaluación de agentes de LLM en el uso de herramientas financieras del mundo real

FinToolBench combina 760 herramientas de API financieras en vivo con 295 consultas ejecutables para evaluar agentes de LLM en tareas financieras del mundo real, encontrando que la tasa de invocación conservadora del 22,7% de GPT-4o produce una mayor calidad de respuesta (CSS 0,670) que la TIR agresiva del 87,1% de Qwen3-8B, mientras que el desajuste de intención supera el 50% en todos los modelos probados.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT y los límites de los LLM especializados en finanzas

Bloomberg entrenó un LLM de 50 mil millones de parámetros con 569 mil millones de tokens de datos financieros y superó a los modelos generales en evaluaciones de sentimiento y razonamiento sobre tablas; luego, GPT-4 lo igualó sin ningún preentrenamiento específico en finanzas. Lo que el experimento de 10 millones de dólares revela sobre los compromisos del preentrenamiento de dominio, la tokenización de números y por qué el uso de herramientas es más confiable que los componentes internos del modelo para los agentes contables.

Todo sobre Fintech

FinMCP-Bench: Benchmarking de agentes de LLM para el uso de herramientas financieras del mundo real bajo MCP

FinTrace: Evaluación a Nivel de Trayectoria del Llamado a Herramientas de LLM para Tareas Financieras

FinToolBench: Evaluación de agentes de LLM en el uso de herramientas financieras del mundo real

BloombergGPT y los límites de los LLM especializados en finanzas

Comience con Beancount.io

Primeros pasos

Funciones

Comunidad

Legal