Mike Thrift
Marketing Manager
SWE-agent: Cómo el diseño de interfaces desbloquea la ingeniería de software automatizada
SWE-agent (NeurIPS 2024) introduce las Interfaces Agente-Computadora (ACI) —capas diseñadas específicamente entre los LLM y los entornos de software— mostrando una mejora de 10.7 puntos porcentuales sobre el acceso directo a la shell y una resolución del 12.47% en SWE-bench con GPT-4 Turbo. El diseño de la interfaz, no la capacidad del modelo, es el principal cuello de botella para los agentes de codificación autónomos.
SWE-bench: ¿Pueden los modelos de lenguaje resolver problemas reales de GitHub?
SWE-bench evalúa modelos de lenguaje en 2,294 problemas reales de GitHub en 12 repositorios de Python mediante pruebas basadas en ejecución; al momento de su publicación, Claude 2 resolvió solo el 1.96% de los problemas con una recuperación realista, estableciendo el benchmark de facto para agentes de codificación y revelando fallos en la recuperación y en la longitud de los parches directamente relevantes para los agentes de escritura de Beancount.
CodeAct: Por qué el código ejecutable de Python hace que los agentes LLM sean un 20% más precisos
CodeAct (ICML 2024) reemplaza las llamadas a herramientas mediante JSON con código Python ejecutable, mejorando las tasas de éxito de los agentes GPT-4 en aproximadamente 20 puntos porcentuales en tareas multiherramienta y reduciendo los turnos de interacción en un 30%, con implicaciones directas para la creación de agentes de conciliación de Beancount confiables.
Los LLM aún no pueden autocorregir su razonamiento — Hallazgos de ICLR 2024 e implicaciones para la IA en finanzas
Huang et al. (ICLR 2024) demuestran que los LLM a los que se les pide revisar su propio razonamiento sin retroalimentación externa degradan sistemáticamente su precisión (GPT-4 cae del 95,5 % al 91,5 % en GSM8K) y analizan qué significa esto para el diseño de agentes confiables de asientos contables en Beancount.
Árbol de Pensamientos: Resolución Deliberada de Problemas con Búsqueda de LLM
El Árbol de Pensamientos (ToT) logra un 74% en el Juego del 24 frente al 4% del CoT estándar de GPT-4 al organizar el razonamiento del LLM en un árbol de búsqueda ramificado con poda y retroceso, con implicaciones directas para la clasificación financiera de varios pasos y la optimización fiscal en los flujos de trabajo de Beancount.
CRITIC: Por qué la autocorrección de los LLM requiere retroalimentación de herramientas externas
CRITIC (ICLR 2024) logra mejoras de 7.7 en F1 en QA de dominio abierto y una reducción de toxicidad del 79.2% al basar la revisión de los LLM en señales de herramientas externas — un bucle de verificar-luego-corregir que se aplica directamente a la seguridad de escritura para agentes financieros de Beancount.
Reflexion: Agentes de lenguaje que aprenden de los errores sin reentrenamiento
Reflexion (NeurIPS 2023) permite que los agentes LLM mejoren almacenando análisis post-mortem verbales en un búfer episódico, sin necesidad de actualizar pesos. Alcanza un 91% en HumanEval con GPT-4 pero falla en WebShop, revelando una limitación estructural: el refuerzo verbal solo funciona cuando el evaluador produce una señal clara y accionable. Esto es lo que significa para construir un agente de libro mayor de Beancount autocorregible.
Autoconsistencia: El muestreo por voto mayoritario aumenta la precisión de la cadena de pensamiento
La autoconsistencia reemplaza la decodificación codiciosa de la cadena de pensamiento con un voto mayoritario sobre N rutas de razonamiento muestreadas — aumentando la precisión de GPT-3 en GSM8K en 17,9 puntos porcentuales sin ajuste fino — y se aplica directamente a cálculos financieros de varios pasos donde una sola decodificación de LLM no es confiable.
PAL: Modelos de Lenguaje Ayudados por Programas para Aritmética Financiera Confiable
PAL (Program-Aided Language Models) logra una ganancia de precisión de +38pp sobre la cadena de pensamiento en tareas con alta carga aritmética al delegar el cómputo a un intérprete de Python — una arquitectura directamente aplicable para consultas confiables de libros contables de Beancount e IA financiera.
¿Pueden los LLM razonar sobre datos tabulares? Lo que cuatro evaluaciones nos dicen sobre la IA financiera
Cuatro evaluaciones de 2024–2025 muestran que GPT-4 obtiene un 42% en preguntas sobre tablas del mundo real frente al 86% de los humanos, con agregaciones complejas cayendo al 19,6%; además, la sintaxis nativa de Beancount se sitúa en el extremo de peor rendimiento de la jerarquía de serialización para la entrada de LLM.
IA Constitucional para agentes contables: RLAIF, reglas de política y riesgos de Goodhart
El artículo sobre IA Constitucional de Anthropic (Bai et al., 2022) entrena LLMs para seguir reglas utilizando retroalimentación generada por IA en lugar de etiquetas humanas de daño. Este registro de investigación examina cómo el flujo de trabajo de crítica-revisión-preferencia de RLAIF se aplica a la seguridad de escritura para agentes autónomos de libros contables Beancount — y qué aspecto tienen la ley de Goodhart, los fallos de calibración y los riesgos de doble uso cuando la "constitución" es un plan de cuentas en lugar de un conjunto de reglas éticas.
Prompting de Cadena de Pensamiento: Compensaciones entre Precisión y Sensibilidad para la IA en Finanzas
Una lectura detallada del artículo de 2022 de Wei et al. sobre la Cadena de Pensamiento y lo que significa para la IA en finanzas — por qué CoT aumenta la precisión pero puede reducir la sensibilidad en la detección de eventos raros, por qué el umbral de escala es importante para los agentes en producción y a qué debe prestar atención un equipo financiero que construye sobre LLMs.