Prejsť na hlavný obsah

OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Stále častejšie sa stretávam s OpenHands ako podpornou vrstvou pod TheAgentCompany, InvestorBench a rastúcim zoznamom evaluačných prác — napriek tomu som si pôvodný dokument ešte neprečítal. Toto je infraštruktúra, na ktorej potichu stavia zvyšok odvetvia, takže pochopenie toho, čo skutočne poskytuje a kde zlyháva, je dôležitejšie než akýkoľvek jednotlivý výsledok benchmarku postavený na nej.

Odborný článok

2026-06-30-openhands-open-platform-ai-software-developers-generalist-agents

OpenHands (Wang et al., 2024; ICLR 2025) je open-source platforma na budovanie a vyhodnocovanie LLM agentov, ktorí fungujú ako generalistickí softvéroví vývojári. Hlavným tvrdením článku, ktorý viedli Xingyao Wang a Graham Neubig s 24-členným tímom, je, že väčšina existujúcich rámcov pre agentov je buď príliš výskumne zameraná (pevne zakódované cykly úloh), alebo príliš produkčne obmedzená (uzavretý kód alebo jednoúčelovosť), aby mohli slúžiť ako spoločný základ pre výskumnú komunitu. OpenHands sa to snaží napraviť poskytnutím štandardizovaného runtime prostredia, čistej abstrakcie agenta a 15 integrovaných benchmarkov v jednom repozitári s licenciou MIT.

Runtime je prostredie so sandboxom v Dockeri, ktoré obsahuje bash shell, Jupyter IPython server a prehliadač Chromium ovládaný cez Playwright. Agenti interagujú prostredníctvom troch primárnych typov akcií: IPythonRunCellAction pre Python, CmdRunAction pre príkazy shellu a BrowserInteractiveAction pre navigáciu na webe. Primitív pre koordináciu viacerých agentov, AgentDelegateAction, umožňuje hlavnému agentovi vytvárať špecializovaných podagentov. Predvoleným jadrom je CodeAct — pôvodne publikovaný ako samostatný článok tvrdiaci, že kód je ideálnym jednotným akčným priestorom pre LLM agentov — a platforma obsahuje niekoľko implementácií agentov vrátane všeobecného CodeActAgenta a špecializovaného BrowsingAgenta.

Kľúčové myšlienky

  • Kód ako univerzálny akčný priestor: CodeAct konsoliduje všetky akcie agenta (úpravy súborov, volania API, transformácie dát) do Pythonu alebo bashu, čo umožňuje LLM uvažovať v rovnakom médiu, na ktorom bolo najviac trénované. Tým sa obchádza krehkosť JSON schém, ktorá trápi agentov využívajúcich volanie funkcií (function-calling).
  • Sandboxed Docker runtime: Každý agent beží v izolovanom kontajneri, takže agenti môžu voľne vykonávať ľubovoľný kód bez ohrozenia hostiteľského stroja — čo je nevyhnutný predpoklad pre akéhokoľvek produkčného finančného agenta, ktorému môžu byť zverené reálne prihlasovacie údaje.
  • 15 benchmarkov v jednom systéme: SWE-Bench Lite (oprava kódu), HumanEvalFix (oprava chýb), WebArena (navigácia na webe), GPQA (uvažovanie na úrovni absolventov), GAIA (všeobecné riešenie úloh) a desať ďalších. Ich spoločné umiestnenie zabraňuje selektívnemu vyhodnocovaniu (cherry-picking).
  • CodeActAgent + claude-3.5-sonnet dosahuje 26 % na SWE-Bench Lite a 79,3 % na HumanEvalFix; BrowsingAgent dosahuje 15,5 % na WebArena — čo sú konkurencieschopné zero-shot výsledky bez akéhokoľvek tréningu špecifického pre danú úlohu.
  • Výkon v GAIA: 32,1 % s GPTSwarm, čo je hlboko pod 92 % ľudským základom — v súlade s každým iným benchmarkom všeobecných agentov, ktorý ukazuje 60–70 bodovú medzeru medzi človekom a agentom.
  • Rozsah komunity: 71,4 tisíc hviezdičiek na GitHub a viac ako 188 prispievateľov v čase podania na ICLR; TheAgentCompany prijala OpenHands ako svoj evaluačný systém, čím mu udelila de facto status benchmarkovej infraštruktúry.

Čo obstojí — a čo nie

Dizajn runtime prostredia v sandboxe je solidne inžinierske dielo. Izolácia vykonávania agenta v Dockeri je správnym predvoleným nastavením pre akýkoľvek systém, ktorému môže byť neskôr udelený prístup na zápis do reálnych finančných kníh, a je skutočne užitočné, že benchmarky sú umiestnené spolu, a nie roztrúsené v nekompatibilných repozitároch.

Pokrytie benchmarkmi je však skôr ambiciózne než systematické. Týchto 15 benchmarkov pokrýva divoko odlišné typy úloh a úrovne obtiažnosti bez jasného rámca pre to, ako by sa výsledky mali agregovať alebo porovnávať. Uvádzanie 26 % na SWE-Bench Lite popri 79,3 % na HumanEvalFix v tom istom článku riskuje vytvorenie dojmu, že ten istý agent je súčasne priemerný aj vynikajúci — tie úlohy sú jednoducho neporovnateľné. Autori neposkytujú koncepčnú metodológiu pre agregáciu viacerých benchmarkov.

Predpoklad CodeAct — že kód je správny univerzálny formát akcií — je sporný. Dobre funguje pri vývojových úlohách, ale na každú akciu uvaľuje sprostredkovateľskú vrstvu Pythonu/bashu, čo pridáva latenciu a zlyháva, keď sa sémantika akcie nedá čisto mapovať na kód (nejasné inštrukcie používateľa, API čisto v prirodzenom jazyku). Článok neporovnáva CodeAct s nekódovými akčnými priestormi, aby dokázal, že výhoda je skutočná a nie len dôsledkom kvality samotného LLM modelu.

Možno najdôležitejšou medzerou je rozdiel medzi evaluáciou a nasadením. Číslo 26 % v SWE-Bench pochádza z relatívne čistého, dobre špecifikovaného benchmarku. Komunitné správy a diskusie na GitHub konzistentne popisujú oveľa nižšiu spoľahlivosť pri nejednoznačných úlohách v reálnom svete alebo úlohách s dlhým časovým horizontom — rovnaký režim zlyhania, aký zdokumentovala TheAgentCompany. Článok nerieši, ako merať alebo zlepšovať robustnosť pri realistickom šume v špecifikácii úloh.

Prečo je to dôležité pre finančnú AI

OpenHands je to najbližšie k spoločnému substrátu pre agentov, čo komunita má. Ak Bean Labs buduje evaluačnú infraštruktúru pre agentov Beancount, architektúra runtime, ktorá je tu použitá — Docker sandbox, Python/bash akcie, vymeniteľné LLM backendy — stojí za prijatie namiesto opätovného budovania. Primitív AgentDelegateAction sa prirodzene mapuje na proces finančného agenta, kde orchestrátor najvyššej úrovne deleguje prácu špecializovaným podagentom: jeden na čítanie z účtovnej knihy, jeden na označovanie anomálií, jeden na navrhovaný spätný zápis, ktorý skontroluje človek.

Čísla zo SWE-Bench a TheAgentCompany spoločne stanovujú triezvy predpoklad: aj tí najlepší dostupní agenti dokončia približne 26–30 % realistických, jednoznačných softvérových úloh. Automatizácia finančných kníh je náročnejšia — transakcie sú často nejednoznačné, rozsah možných škôd pri chybách je reálny a zámery používateľa sú často nedostatočne špecifikované. Správnym záverom nie je to, že agenti nie sú pripravení, ale to, že prvé produktívne nasadenia budú úzko zamerané pracovné postupy typu "zapíš raz" (návrhy kategorizácie, označovanie pri odsúhlasovaní) namiesto autonómnych viacstupňových úprav účtovnej knihy.

Čo si prečítať ďalej

  • ReDAct: Uncertainty-Aware Deferral for LLM Agents (arXiv:2604.07036) — páruje lacný model s drahým a deleguje úlohu na drahý model len vtedy, keď je neistota vysoká; priamo rieši, ako by sa mal agent v štýle OpenHands rozhodovať, kedy postúpiť zápis do Beancount na ľudskú kontrolu.
  • FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks (arXiv:2604.10015) — 800 expertmi anotovaných sekvencií úloh v 34 finančných scenároch; metodológia evaluácie, ktorá OpenHands chýba pre finančne špecifické používanie nástrojov s dlhým horizontom.
  • FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol (arXiv:2603.24943) — 613 vzoriek naprieč 65 reálnymi MCP finančnými nástrojmi, priamo relevantné pre to, ako by sa vyhodnocoval Beancount agent postavený na runtime OpenHands v reálnom nasadení MCP.