Ir al contenido principal

OpenHands: Plataforma abierta para agentes de software de IA y lo que significa para la automatización financiera

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Me sigo encontrando con OpenHands como la capa de andamiaje debajo de TheAgentCompany, InvestorBench y una lista creciente de artículos de evaluación; sin embargo, aún no había leído el artículo principal. Esta es la infraestructura sobre la cual el resto del campo está construyendo silenciosamente, por lo que entender qué proporciona realmente y dónde falla importa más que cualquier resultado de benchmark individual construido sobre ella.

El artículo

2026-06-30-openhands-open-platform-ai-software-developers-generalist-agents

OpenHands (Wang et al., 2024; ICLR 2025) es una plataforma de código abierto para construir y evaluar agentes LLM que actúan como desarrolladores de software generalistas. Dirigido por Xingyao Wang y Graham Neubig con un equipo de 24 autores, la afirmación central del artículo es que la mayoría de los marcos de agentes existentes son o demasiado estrechos para la investigación (bucles de tareas codificados rígidamente) o demasiado estrechos para la producción (de código cerrado o de propósito único) para servir como una base compartida para la comunidad de investigación. OpenHands intenta solucionar esto proporcionando un entorno de ejecución estandarizado, una abstracción de agente limpia y 15 benchmarks de evaluación integrados bajo un único repositorio con licencia MIT.

El entorno de ejecución (runtime) es un entorno aislado en Docker que contiene un shell bash, un servidor Jupyter IPython y un navegador Chromium controlado por Playwright. Los agentes interactúan a través de tres tipos de acciones principales: IPythonRunCellAction para Python, CmdRunAction para comandos de shell y BrowserInteractiveAction para la navegación web. Una primitiva de coordinación multi-agente, AgentDelegateAction, permite que un agente principal genere sub-agentes especializados. La base por defecto es CodeAct —publicada originalmente como un artículo independiente que argumenta que el código es el espacio de acción unificado ideal para los agentes LLM— y la plataforma incluye varias implementaciones de agentes, incluyendo un CodeActAgent general y un BrowsingAgent especializado.

Ideas clave

  • El código como espacio de acción universal: CodeAct consolida todas las acciones del agente (ediciones de archivos, llamadas a API, transformaciones de datos) en Python o bash, permitiendo que el LLM razone en el mismo medio en el que fue entrenado más intensamente. Esto evita la fragilidad de los esquemas JSON que plaga a los agentes basados en llamadas a funciones.
  • Entorno de ejecución Docker en sandbox: cada agente se ejecuta en un contenedor aislado, por lo que los agentes pueden ejecutar libremente código arbitrario sin comprometer la máquina anfitriona; un requisito previo para cualquier agente financiero de producción al que se le puedan entregar credenciales reales.
  • 15 benchmarks en un solo arnés: SWE-Bench Lite (reparación de código), HumanEvalFix (corrección de errores), WebArena (navegación web), GPQA (razonamiento de nivel de posgrado), GAIA (resolución de tareas generales) y diez más. Tener estos ubicados en el mismo lugar evita evaluaciones sesgadas por selección manual.
  • CodeActAgent + claude-3.5-sonnet logra un 26% en SWE-Bench Lite y un 79.3% en HumanEvalFix; BrowsingAgent alcanza un 15.5% en WebArena — un rendimiento zero-shot competitivo sin ningún entrenamiento específico para la tarea.
  • Rendimiento en GAIA: 32.1% con GPTSwarm, muy por debajo de la referencia humana del 92%, lo cual es consistente con cualquier otro benchmark de agentes generales que muestra una brecha de 60-70 puntos entre humanos y agentes.
  • Escala comunitaria: 71.4K estrellas en GitHub y más de 188 colaboradores en el momento de la presentación en ICLR; TheAgentCompany adoptó OpenHands como su arnés de evaluación, otorgándole un estatus de infraestructura de benchmark de facto.

Qué se mantiene y qué no

El diseño del entorno de ejecución aislado es una ingeniería sólida. Aislar la ejecución del agente en Docker es el estándar correcto para cualquier sistema al que más tarde se le pueda dar acceso de escritura a libros mayores financieros reales, y es genuinamente útil que los benchmarks estén ubicados en el mismo lugar en lugar de estar dispersos en repositorios incompatibles.

La cobertura de los benchmarks, sin embargo, es más aspiracional que sistemática. Los 15 benchmarks abarcan tipos de tareas y niveles de dificultad sumamente diferentes sin un marco claro sobre cómo se deben agregar o comparar los resultados. Informar un 26% en SWE-Bench Lite junto con un 79.3% en HumanEvalFix en el mismo artículo corre el riesgo de crear la impresión de que el mismo agente es simultáneamente mediocre y excelente; las tareas simplemente no son comparables. Los autores no proporcionan una metodología de agregación multi-benchmark fundamentada.

La suposición de CodeAct —que el código es el formato de acción universal correcto— es cuestionada. Funciona bien para tareas de desarrollo, pero impone una capa de mediación de Python/bash en cada acción, lo que añade latencia y falla cuando la semántica de la acción no se mapea limpiamente al código (instrucciones de usuario ambiguas, APIs solo de lenguaje natural). El artículo no realiza benchmarks contra espacios de acción que no sean de código para demostrar que la ventaja es real y no una confusión causada por la base del LLM.

Quizás la brecha más importante es la división entre evaluación y despliegue. La cifra del 26% en SWE-Bench proviene de un benchmark relativamente limpio y bien especificado. Los informes de la comunidad y los hilos de problemas en GitHub describen consistentemente una confiabilidad mucho menor en tareas del mundo real ambiguas o de largo horizonte, el mismo modo de fallo que documentó TheAgentCompany. El artículo no aborda cómo medir o mejorar la robustez bajo el ruido de una especificación de tarea realista.

Por qué esto importa para la IA en finanzas

OpenHands es lo más parecido que tiene la comunidad a un sustrato de agentes compartido. Si Bean Labs construye una infraestructura de evaluación para agentes de Beancount, vale la pena adoptar la arquitectura de ejecución aquí —sandbox de Docker, acciones en Python/bash, backends de LLM intercambiables— en lugar de reconstruirla. La primitiva AgentDelegateAction se mapea naturalmente a una tubería de agentes financieros donde un orquestador de nivel superior delega en sub-agentes especializados: uno para lecturas del libro mayor, uno para el señalamiento de anomalías y uno para propuestas de actualización de registros que un humano revisa.

Las cifras de SWE-Bench y TheAgentCompany, leídas en conjunto, establecen una base reveladora: incluso los mejores agentes disponibles completan aproximadamente entre el 26% y el 30% de las tareas de software realistas y sin ambigüedades. La automatización de libros contables financieros es más difícil: las transacciones suelen ser ambiguas, el radio de impacto de los errores es real y la intención del usuario frecuentemente está subespecificada. La inferencia correcta no es que los agentes no estén listos, sino que los primeros despliegues productivos serán flujos de trabajo de "escribir una vez" con un alcance muy limitado (sugerencias de categorización, señalamiento de conciliaciones) en lugar de ediciones autónomas de múltiples pasos en el libro mayor.

Qué leer a continuación

  • ReDAct: Uncertainty-Aware Deferral for LLM Agents (arXiv:2604.07036) — empareja un modelo barato con uno costoso y delega al modelo costoso solo cuando la incertidumbre es alta; aborda directamente cómo un agente al estilo OpenHands debería decidir cuándo escalar una actualización de Beancount a una revisión humana.
  • FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks (arXiv:2604.10015) — 800 secuencias de tareas anotadas por expertos a través de 34 escenarios financieros; la metodología de evaluación de la que carece OpenHands para el uso de herramientas de largo horizonte específicas de finanzas.
  • FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol (arXiv:2603.24943) — 613 muestras a través de 65 herramientas financieras reales de MCP, directamente relevante para cómo se evaluaría un agente de Beancount construido sobre el entorno de ejecución de OpenHands en un despliegue real de MCP.