Ir al contenido principal

Bean Labs Research Log

Gorilla: Cómo el entrenamiento consciente de la recuperación reduce las alucinaciones de las API en los LLM del 78% al 11%

Gorilla (Patil et al., NeurIPS 2024) realiza un ajuste fino de un modelo LLaMA de 7B con Entrenamiento Consciente del Recuperador (RAT) sobre documentación de API recuperada, reduciendo las tasas de alucinación del 78% al 11% frente a GPT-4 zero-shot — con implicaciones directas para agentes de escritura de IA financiera donde los nombres de cuenta incorrectos o los signos invertidos son fallos de integridad, no simples molestias.

Latest articles

MemGPT: Gestión de contexto virtual para agentes de LLM

MemGPT aplica la paginación de memoria virtual al estilo de los sistemas operativos a los LLM, utilizando un almacenamiento de tres niveles (memoria de trabajo, recuperación y archivo) para dar a los agentes un recuerdo persistente entre sesiones; en pruebas de chat multisesión, MemGPT con GPT-4 alcanza una precisión del 92,5% frente a una base de referencia de contexto fijo del 32,1%.

SWE-agent: Cómo el diseño de interfaces desbloquea la ingeniería de software automatizada

SWE-agent (NeurIPS 2024) introduce las Interfaces Agente-Computadora (ACI) —capas diseñadas específicamente entre los LLM y los entornos de software— mostrando una mejora de 10.7 puntos porcentuales sobre el acceso directo a la shell y una resolución del 12.47% en SWE-bench con GPT-4 Turbo. El diseño de la interfaz, no la capacidad del modelo, es el principal cuello de botella para los agentes de codificación autónomos.

SWE-bench: ¿Pueden los modelos de lenguaje resolver problemas reales de GitHub?

SWE-bench evalúa modelos de lenguaje en 2,294 problemas reales de GitHub en 12 repositorios de Python mediante pruebas basadas en ejecución; al momento de su publicación, Claude 2 resolvió solo el 1.96% de los problemas con una recuperación realista, estableciendo el benchmark de facto para agentes de codificación y revelando fallos en la recuperación y en la longitud de los parches directamente relevantes para los agentes de escritura de Beancount.

CodeAct: Por qué el código ejecutable de Python hace que los agentes LLM sean un 20% más precisos

CodeAct (ICML 2024) reemplaza las llamadas a herramientas mediante JSON con código Python ejecutable, mejorando las tasas de éxito de los agentes GPT-4 en aproximadamente 20 puntos porcentuales en tareas multiherramienta y reduciendo los turnos de interacción en un 30%, con implicaciones directas para la creación de agentes de conciliación de Beancount confiables.

Los LLM aún no pueden autocorregir su razonamiento — Hallazgos de ICLR 2024 e implicaciones para la IA en finanzas

Huang et al. (ICLR 2024) demuestran que los LLM a los que se les pide revisar su propio razonamiento sin retroalimentación externa degradan sistemáticamente su precisión (GPT-4 cae del 95,5 % al 91,5 % en GSM8K) y analizan qué significa esto para el diseño de agentes confiables de asientos contables en Beancount.

Árbol de Pensamientos: Resolución Deliberada de Problemas con Búsqueda de LLM

El Árbol de Pensamientos (ToT) logra un 74% en el Juego del 24 frente al 4% del CoT estándar de GPT-4 al organizar el razonamiento del LLM en un árbol de búsqueda ramificado con poda y retroceso, con implicaciones directas para la clasificación financiera de varios pasos y la optimización fiscal en los flujos de trabajo de Beancount.

CRITIC: Por qué la autocorrección de los LLM requiere retroalimentación de herramientas externas

CRITIC (ICLR 2024) logra mejoras de 7.7 en F1 en QA de dominio abierto y una reducción de toxicidad del 79.2% al basar la revisión de los LLM en señales de herramientas externas — un bucle de verificar-luego-corregir que se aplica directamente a la seguridad de escritura para agentes financieros de Beancount.

Reflexion: Agentes de lenguaje que aprenden de los errores sin reentrenamiento

Reflexion (NeurIPS 2023) permite que los agentes LLM mejoren almacenando análisis post-mortem verbales en un búfer episódico, sin necesidad de actualizar pesos. Alcanza un 91% en HumanEval con GPT-4 pero falla en WebShop, revelando una limitación estructural: el refuerzo verbal solo funciona cuando el evaluador produce una señal clara y accionable. Esto es lo que significa para construir un agente de libro mayor de Beancount autocorregible.

Autoconsistencia: El muestreo por voto mayoritario aumenta la precisión de la cadena de pensamiento

La autoconsistencia reemplaza la decodificación codiciosa de la cadena de pensamiento con un voto mayoritario sobre N rutas de razonamiento muestreadas — aumentando la precisión de GPT-3 en GSM8K en 17,9 puntos porcentuales sin ajuste fino — y se aplica directamente a cálculos financieros de varios pasos donde una sola decodificación de LLM no es confiable.