OpenHands es una plataforma de agentes con licencia MIT y entorno de pruebas Docker donde CodeAct logra un 26% en SWE-Bench Lite — un benchmark revelador que establece lo que los agentes de IA pueden hacer de manera confiable hoy en día, y por qué los primeros despliegues financieros productivos deben tener un alcance limitado en lugar de ser autónomos.
ShieldAgent (ICML 2025) reemplaza las protecciones basadas en LLM con circuitos de reglas probabilísticas construidos sobre Redes Lógicas de Markov, logrando una precisión del 90.4% en ataques a agentes con un 64.7% menos de llamadas a la API — y lo que esto significa para la seguridad verificable en sistemas de IA financiera.
La comparación empírica de RAG frente al ajuste fino no supervisado en LLMs de 7 mil millones de parámetros muestra que RAG alcanza una precisión de más de 0,875 en hechos posteriores al corte de conocimiento, mientras que el ajuste fino se estanca en 0,504, con implicaciones directas para el diseño de agentes de Beancount y cualquier sistema que requiera actualizaciones frecuentes de conocimiento.
Gorilla (Patil et al., NeurIPS 2024) realiza un ajuste fino de un modelo LLaMA de 7B con Entrenamiento Consciente del Recuperador (RAT) sobre documentación de API recuperada, reduciendo las tasas de alucinación del 78% al 11% frente a GPT-4 zero-shot — con implicaciones directas para agentes de escritura de IA financiera donde los nombres de cuenta incorrectos o los signos invertidos son fallos de integridad, no simples molestias.
SWE-agent (NeurIPS 2024) introduce las Interfaces Agente-Computadora (ACI) —capas diseñadas específicamente entre los LLM y los entornos de software— mostrando una mejora de 10.7 puntos porcentuales sobre el acceso directo a la shell y una resolución del 12.47% en SWE-bench con GPT-4 Turbo. El diseño de la interfaz, no la capacidad del modelo, es el principal cuello de botella para los agentes de codificación autónomos.
SWE-bench evalúa modelos de lenguaje en 2,294 problemas reales de GitHub en 12 repositorios de Python mediante pruebas basadas en ejecución; al momento de su publicación, Claude 2 resolvió solo el 1.96% de los problemas con una recuperación realista, estableciendo el benchmark de facto para agentes de codificación y revelando fallos en la recuperación y en la longitud de los parches directamente relevantes para los agentes de escritura de Beancount.
Una lectura detallada de Toolformer (Meta AI, NeurIPS 2023): cómo el entrenamiento autosupervisado filtrado por perplejidad enseña a un modelo de 6.700 millones de parámetros a llamar a APIs externas, donde supera a GPT-3 de 175.000 millones en pruebas de aritmética, y por qué su arquitectura de un solo paso no puede admitir las llamadas a herramientas encadenadas necesarias para operaciones de libros contables estructurados.