Mike Thrift

Marketing Manager

April 19, 2026·mike

PHANTOM (NeurIPS 2025): Medición de la detección de alucinaciones de LLM en documentos financieros

PHANTOM (NeurIPS 2025) es el primer benchmark para medir la detección de alucinaciones de LLM en presentaciones reales ante la SEC a través de longitudes de contexto de hasta 30.000 tokens. Qwen3-30B-A3B-Thinking lidera con F1=0,882; los modelos de 7B obtienen puntuaciones cercanas al azar, con implicaciones directas para los agentes de contabilidad autónomos.

llm

machine-learning

April 18, 2026·mike

Benchmark FinMaster: Por qué los LLM obtienen un 96% en educación financiera pero un 3% en generación de estados financieros

FinMaster (arXiv:2505.13533) evalúa o3-mini, Claude 3.7 Sonnet y DeepSeek-V3 en 183 tareas financieras, revelando que los modelos obtienen un 96% en educación financiera pero colapsan al 3% en generación de estados financieros, con tareas de consultoría de múltiples pasos perdiendo 21 puntos de precisión por la propagación de errores.

llm

accounting

April 17, 2026·mike

ReAct: Sinergia entre Razonamiento y Acción en Modelos de Lenguaje

ReAct (Yao et al., ICLR 2023) entrelaza el razonamiento de cadena de pensamiento con acciones de herramientas en una sola trayectoria, superando al CoT puro en verificación de hechos y al aprendizaje por imitación en tareas encarnadas por 34 puntos porcentuales. Este análisis cubre los modos de falla del artículo —distracción inducida por la búsqueda y errores compuestos— y lo que significan para los agentes autónomos que escriben de vuelta en libros de contabilidad de Beancount.

llm

machine-learning

Mostrando 85–87 de 87 artículos

Anterior8 / 8