Prejsť na hlavný obsah
Developers

Všetko o Developers

7 článkov
Developer resources, APIs, and integration documentation for finance tools

OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií

OpenHands je platforma pre agentov s licenciou MIT a sandboxom v Dockeri, kde CodeAct dosahuje 26 % na SWE-Bench Lite – triezvy benchmark, ktorý stanovuje, čo dnes AI agenti dokážu spoľahlivo urobiť a prečo by prvé produktívne nasadenia vo financiách mali byť úzko špecifikované namiesto autonómnych.

Fine-Tuning vs. RAG: Prečo vyhľadávanie vyhráva pri vkladaní nových znalostí do LLM

Empirické porovnanie RAG oproti neriadenému jemnému doladeniu na 7B LLM modeloch ukazuje, že RAG dosahuje presnosť 0,875+ pri faktoch po dátume ukončenia tréningu, zatiaľ čo jemné doladenie stagnuje na 0,504 – s priamymi dôsledkami pre návrh agentov Beancount a akýkoľvek systém vyžadujúci časté aktualizácie znalostí.

Gorilla: How Retrieval-Aware Training Reduces LLM API Hallucinations from 78% to 11%

Gorilla (Patil et al., NeurIPS 2024) fine-tunes a 7B LLaMA model with Retriever-Aware Training on retrieved API documentation, cutting hallucination rates from 78% to 11% versus GPT-4 zero-shot — with direct implications for finance AI write-back agents where wrong account names or inverted signs are correctness failures, not annoyances.

SWE-agent: Ako dizajn rozhrania odomyká automatizované softvérové inžinierstvo

SWE-agent (NeurIPS 2024) predstavuje rozhrania agent-počítač (ACI) — účelovo vytvorené vrstvy medzi LLM a softvérovými prostrediami — čím vykazuje 10,7-percentuálne zlepšenie oproti priamemu prístupu k shellu a 12,47 % úspešnosť riešenia v SWE-bench s GPT-4 Turbo. Dizajn rozhrania, nie schopnosti modelu, je primárnym úzkym hrdlom pre autonómne programovacie agenty.

SWE-bench: Dokážu jazykové modely riešiť skutočné problémy na GitHub-e?

SWE-bench vyhodnocuje jazykové modely na 2 294 skutočných problémoch GitHub-u v 12 repozitároch Pythonu pomocou testov založených na spustení; v čase publikácie Claude 2 vyriešil iba 1,96 % problémov s realistickým vyhľadávaním, čím vytvoril de facto benchmark pre kódovacích agentov a odhalil zlyhania pri vyhľadávaní a dĺžke opráv priamo relevantné pre write-back agentov Beancount.

Toolformer: Samostatočne dohliadané používanie nástrojov a jeho limity pre finančnú AI

Detailná analýza Toolformer (Meta AI, NeurIPS 2023): ako samostatočne dohliadaný tréning filtrovaný perplexitou učí 6,7B-parametrový model volať externé API, kde prekonáva GPT-3 175B v aritmetických benchmarkoch a prečo jeho jednokroková architektúra nedokáže podporovať reťazené volania nástrojov potrebné pre operácie v štruktúrovaných účtovných knihách.