Prejsť na hlavný obsah
Open Source

Všetko o Open Source

4 články
Open-source tools, frameworks, and research artifacts for financial AI

OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií

OpenHands je platforma pre agentov s licenciou MIT a sandboxom v Dockeri, kde CodeAct dosahuje 26 % na SWE-Bench Lite – triezvy benchmark, ktorý stanovuje, čo dnes AI agenti dokážu spoľahlivo urobiť a prečo by prvé produktívne nasadenia vo financiách mali byť úzko špecifikované namiesto autonómnych.

WebArena: Benchmark s 812 úlohami, ktorý meria, čo weboví agenti skutočne dokážu a čo nie

GPT-4 dokončí iba 14,41 % z 812 realistických webových úloh WebArena, zatiaľ čo ľudia dosahujú 78,24 %; dominantným režimom zlyhania je falošná nerealizovateľnosť — konzervatívne odmietnutie konať — s priamymi dôsledkami pre akéhokoľvek agenta ovládajúceho Fava alebo finančné webové rozhrania.

TableLlama: Dokáže otvorený model so 7B parametrami konkurovať GPT-4 v porozumení tabuliek?

TableLlama dolaďuje model Llama 2 (7B) na 2,6 milióna príkladoch tabuľkových úloh a prekonáva GPT-4 v štrukturálnych úlohách, ako je anotácia typov stĺpcov (F1 94 vs 32), ale stráca 33 bodov v kompozičnom uvažovaní WikiTQ — kalibrovaný benchmark toho, čo otvorené 7B modely dnes v oblasti finančnej AI dokážu a čo nie.

SWE-agent: Ako dizajn rozhrania odomyká automatizované softvérové inžinierstvo

SWE-agent (NeurIPS 2024) predstavuje rozhrania agent-počítač (ACI) — účelovo vytvorené vrstvy medzi LLM a softvérovými prostrediami — čím vykazuje 10,7-percentuálne zlepšenie oproti priamemu prístupu k shellu a 12,47 % úspešnosť riešenia v SWE-bench s GPT-4 Turbo. Dizajn rozhrania, nie schopnosti modelu, je primárnym úzkym hrdlom pre autonómne programovacie agenty.