Ir al contenido principal

Bean Labs Research Log

Latest articles

¿Pueden los LLM razonar sobre datos tabulares? Lo que cuatro evaluaciones nos dicen sobre la IA financiera

Cuatro evaluaciones de 2024–2025 muestran que GPT-4 obtiene un 42% en preguntas sobre tablas del mundo real frente al 86% de los humanos, con agregaciones complejas cayendo al 19,6%; además, la sintaxis nativa de Beancount se sitúa en el extremo de peor rendimiento de la jerarquía de serialización para la entrada de LLM.

IA Constitucional para agentes contables: RLAIF, reglas de política y riesgos de Goodhart

El artículo sobre IA Constitucional de Anthropic (Bai et al., 2022) entrena LLMs para seguir reglas utilizando retroalimentación generada por IA en lugar de etiquetas humanas de daño. Este registro de investigación examina cómo el flujo de trabajo de crítica-revisión-preferencia de RLAIF se aplica a la seguridad de escritura para agentes autónomos de libros contables Beancount — y qué aspecto tienen la ley de Goodhart, los fallos de calibración y los riesgos de doble uso cuando la "constitución" es un plan de cuentas en lugar de un conjunto de reglas éticas.

Prompting de Cadena de Pensamiento: Compensaciones entre Precisión y Sensibilidad para la IA en Finanzas

Una lectura detallada del artículo de 2022 de Wei et al. sobre la Cadena de Pensamiento y lo que significa para la IA en finanzas — por qué CoT aumenta la precisión pero puede reducir la sensibilidad en la detección de eventos raros, por qué el umbral de escala es importante para los agentes en producción y a qué debe prestar atención un equipo financiero que construye sobre LLMs.

PHANTOM (NeurIPS 2025): Medición de la detección de alucinaciones de LLM en documentos financieros

PHANTOM (NeurIPS 2025) es el primer benchmark para medir la detección de alucinaciones de LLM en presentaciones reales ante la SEC a través de longitudes de contexto de hasta 30.000 tokens. Qwen3-30B-A3B-Thinking lidera con F1=0,882; los modelos de 7B obtienen puntuaciones cercanas al azar, con implicaciones directas para los agentes de contabilidad autónomos.

Benchmark FinMaster: Por qué los LLM obtienen un 96% en educación financiera pero un 3% en generación de estados financieros

FinMaster (arXiv:2505.13533) evalúa o3-mini, Claude 3.7 Sonnet y DeepSeek-V3 en 183 tareas financieras, revelando que los modelos obtienen un 96% en educación financiera pero colapsan al 3% en generación de estados financieros, con tareas de consultoría de múltiples pasos perdiendo 21 puntos de precisión por la propagación de errores.

ReAct: Sinergia entre Razonamiento y Acción en Modelos de Lenguaje

ReAct (Yao et al., ICLR 2023) entrelaza el razonamiento de cadena de pensamiento con acciones de herramientas en una sola trayectoria, superando al CoT puro en verificación de hechos y al aprendizaje por imitación en tareas encarnadas por 34 puntos porcentuales. Este análisis cubre los modos de falla del artículo —distracción inducida por la búsqueda y errores compuestos— y lo que significan para los agentes autónomos que escriben de vuelta en libros de contabilidad de Beancount.

Toolformer: Uso de herramientas autosupervisado y sus límites para la IA financiera

Una lectura detallada de Toolformer (Meta AI, NeurIPS 2023): cómo el entrenamiento autosupervisado filtrado por perplejidad enseña a un modelo de 6.700 millones de parámetros a llamar a APIs externas, donde supera a GPT-3 de 175.000 millones en pruebas de aritmética, y por qué su arquitectura de un solo paso no puede admitir las llamadas a herramientas encadenadas necesarias para operaciones de libros contables estructurados.

FinBen: Evaluación comparativa de LLM en 36 tareas financieras — Implicaciones para la IA contable

FinBen evalúa 15 LLM en 36 conjuntos de datos financieros en NeurIPS 2024, encontrando que GPT-4 alcanza un 0,63 de Coincidencia Exacta en preguntas y respuestas numéricas y 0,54 en la predicción del movimiento de acciones, cerca del azar. He aquí lo que significan esas cifras para construir un agente contable fiable en un libro mayor de Beancount.