Mike Thrift
Marketing Manager
PHANTOM (NeurIPS 2025): Medición de la detección de alucinaciones de LLM en documentos financieros
PHANTOM (NeurIPS 2025) es el primer benchmark para medir la detección de alucinaciones de LLM en presentaciones reales ante la SEC a través de longitudes de contexto de hasta 30.000 tokens. Qwen3-30B-A3B-Thinking lidera con F1=0,882; los modelos de 7B obtienen puntuaciones cercanas al azar, con implicaciones directas para los agentes de contabilidad autónomos.
Benchmark FinMaster: Por qué los LLM obtienen un 96% en educación financiera pero un 3% en generación de estados financieros
FinMaster (arXiv:2505.13533) evalúa o3-mini, Claude 3.7 Sonnet y DeepSeek-V3 en 183 tareas financieras, revelando que los modelos obtienen un 96% en educación financiera pero colapsan al 3% en generación de estados financieros, con tareas de consultoría de múltiples pasos perdiendo 21 puntos de precisión por la propagación de errores.
ReAct: Sinergia entre Razonamiento y Acción en Modelos de Lenguaje
ReAct (Yao et al., ICLR 2023) entrelaza el razonamiento de cadena de pensamiento con acciones de herramientas en una sola trayectoria, superando al CoT puro en verificación de hechos y al aprendizaje por imitación en tareas encarnadas por 34 puntos porcentuales. Este análisis cubre los modos de falla del artículo —distracción inducida por la búsqueda y errores compuestos— y lo que significan para los agentes autónomos que escriben de vuelta en libros de contabilidad de Beancount.