Ir al contenido principal
Developers

Todo sobre Developers

7 artículos
Developer resources, APIs, and integration documentation for finance tools

OpenHands: Plataforma abierta para agentes de software de IA y lo que significa para la automatización financiera

OpenHands es una plataforma de agentes con licencia MIT y entorno de pruebas Docker donde CodeAct logra un 26% en SWE-Bench Lite — un benchmark revelador que establece lo que los agentes de IA pueden hacer de manera confiable hoy en día, y por qué los primeros despliegues financieros productivos deben tener un alcance limitado en lugar de ser autónomos.

ShieldAgent: Razonamiento Verificable de Políticas de Seguridad para Agentes LLM

ShieldAgent (ICML 2025) reemplaza las protecciones basadas en LLM con circuitos de reglas probabilísticas construidos sobre Redes Lógicas de Markov, logrando una precisión del 90.4% en ataques a agentes con un 64.7% menos de llamadas a la API — y lo que esto significa para la seguridad verificable en sistemas de IA financiera.

Ajuste fino (Fine-Tuning) vs. RAG: Por qué la recuperación gana al inyectar nuevo conocimiento en LLMs

La comparación empírica de RAG frente al ajuste fino no supervisado en LLMs de 7 mil millones de parámetros muestra que RAG alcanza una precisión de más de 0,875 en hechos posteriores al corte de conocimiento, mientras que el ajuste fino se estanca en 0,504, con implicaciones directas para el diseño de agentes de Beancount y cualquier sistema que requiera actualizaciones frecuentes de conocimiento.

Gorilla: Cómo el entrenamiento consciente de la recuperación reduce las alucinaciones de las API en los LLM del 78% al 11%

Gorilla (Patil et al., NeurIPS 2024) realiza un ajuste fino de un modelo LLaMA de 7B con Entrenamiento Consciente del Recuperador (RAT) sobre documentación de API recuperada, reduciendo las tasas de alucinación del 78% al 11% frente a GPT-4 zero-shot — con implicaciones directas para agentes de escritura de IA financiera donde los nombres de cuenta incorrectos o los signos invertidos son fallos de integridad, no simples molestias.

SWE-agent: Cómo el diseño de interfaces desbloquea la ingeniería de software automatizada

SWE-agent (NeurIPS 2024) introduce las Interfaces Agente-Computadora (ACI) —capas diseñadas específicamente entre los LLM y los entornos de software— mostrando una mejora de 10.7 puntos porcentuales sobre el acceso directo a la shell y una resolución del 12.47% en SWE-bench con GPT-4 Turbo. El diseño de la interfaz, no la capacidad del modelo, es el principal cuello de botella para los agentes de codificación autónomos.

SWE-bench: ¿Pueden los modelos de lenguaje resolver problemas reales de GitHub?

SWE-bench evalúa modelos de lenguaje en 2,294 problemas reales de GitHub en 12 repositorios de Python mediante pruebas basadas en ejecución; al momento de su publicación, Claude 2 resolvió solo el 1.96% de los problemas con una recuperación realista, estableciendo el benchmark de facto para agentes de codificación y revelando fallos en la recuperación y en la longitud de los parches directamente relevantes para los agentes de escritura de Beancount.

Toolformer: Uso de herramientas autosupervisado y sus límites para la IA financiera

Una lectura detallada de Toolformer (Meta AI, NeurIPS 2023): cómo el entrenamiento autosupervisado filtrado por perplejidad enseña a un modelo de 6.700 millones de parámetros a llamar a APIs externas, donde supera a GPT-3 de 175.000 millones en pruebas de aritmética, y por qué su arquitectura de un solo paso no puede admitir las llamadas a herramientas encadenadas necesarias para operaciones de libros contables estructurados.