Saltar al contenido principal
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Ver todos los autores

PHANTOM (NeurIPS 2025): Medición de la detección de alucinaciones de LLM en documentos financieros
·mike

PHANTOM (NeurIPS 2025): Medición de la detección de alucinaciones de LLM en documentos financieros

PHANTOM (NeurIPS 2025) es el primer benchmark para medir la detección de alucinaciones de LLM en presentaciones reales ante la SEC a través de longitudes de contexto de hasta 30.000 tokens. Qwen3-30B-A3B-Thinking lidera con F1=0,882; los modelos de 7B obtienen puntuaciones cercanas al azar, con implicaciones directas para los agentes de contabilidad autónomos.

llm
ai
machine-learning
finance
+4
Benchmark FinMaster: Por qué los LLM obtienen un 96% en educación financiera pero un 3% en generación de estados financieros
·mike

Benchmark FinMaster: Por qué los LLM obtienen un 96% en educación financiera pero un 3% en generación de estados financieros

FinMaster (arXiv:2505.13533) evalúa o3-mini, Claude 3.7 Sonnet y DeepSeek-V3 en 183 tareas financieras, revelando que los modelos obtienen un 96% en educación financiera pero colapsan al 3% en generación de estados financieros, con tareas de consultoría de múltiples pasos perdiendo 21 puntos de precisión por la propagación de errores.

llm
accounting
ai
financial-statements
+3
ReAct: Sinergia entre Razonamiento y Acción en Modelos de Lenguaje
·mike

ReAct: Sinergia entre Razonamiento y Acción en Modelos de Lenguaje

ReAct (Yao et al., ICLR 2023) entrelaza el razonamiento de cadena de pensamiento con acciones de herramientas en una sola trayectoria, superando al CoT puro en verificación de hechos y al aprendizaje por imitación en tareas encarnadas por 34 puntos porcentuales. Este análisis cubre los modos de falla del artículo —distracción inducida por la búsqueda y errores compuestos— y lo que significan para los agentes autónomos que escriben de vuelta en libros de contabilidad de Beancount.

ai
llm
machine-learning
automation
+3
Mostrando 85–87 de 87 artículos
Anterior8 / 8