7 príspevkov so štítkom „Developers“

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií

OpenHands je platforma pre agentov s licenciou MIT a sandboxom v Dockeri, kde CodeAct dosahuje 26 % na SWE-Bench Lite – triezvy benchmark, ktorý stanovuje, čo dnes AI agenti dokážu spoľahlivo urobiť a prečo by prvé produktívne nasadenia vo financiách mali byť úzko špecifikované namiesto autonómnych.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Overiteľné zdôvodňovanie bezpečnostných pravidiel pre LLM agentov

ShieldAgent (ICML 2025) nahrádza mantinely založené na LLM pravdepodobnostnými obvodmi pravidiel postavenými na Markovových logických sieťach, čím dosahuje presnosť 90,4 % pri útokoch na agentov so 64,7 % menej volaniami API — a čo to znamená pre overiteľnú bezpečnosť vo finančných AI systémoch.

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

Fine-Tuning vs. RAG: Prečo vyhľadávanie vyhráva pri vkladaní nových znalostí do LLM

Empirické porovnanie RAG oproti neriadenému jemnému doladeniu na 7B LLM modeloch ukazuje, že RAG dosahuje presnosť 0,875+ pri faktoch po dátume ukončenia tréningu, zatiaľ čo jemné doladenie stagnuje na 0,504 – s priamymi dôsledkami pre návrh agentov Beancount a akýkoľvek systém vyžadujúci časté aktualizácie znalostí.

AILLMMachine LearningAutomationPython APIDevelopersBeancount

Gorilla: How Retrieval-Aware Training Reduces LLM API Hallucinations from 78% to 11%

Gorilla (Patil et al., NeurIPS 2024) fine-tunes a 7B LLaMA model with Retriever-Aware Training on retrieved API documentation, cutting hallucination rates from 78% to 11% versus GPT-4 zero-shot — with direct implications for finance AI write-back agents where wrong account names or inverted signs are correctness failures, not annoyances.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Ako dizajn rozhrania odomyká automatizované softvérové inžinierstvo

SWE-agent (NeurIPS 2024) predstavuje rozhrania agent-počítač (ACI) — účelovo vytvorené vrstvy medzi LLM a softvérovými prostrediami — čím vykazuje 10,7-percentuálne zlepšenie oproti priamemu prístupu k shellu a 12,47 % úspešnosť riešenia v SWE-bench s GPT-4 Turbo. Dizajn rozhrania, nie schopnosti modelu, je primárnym úzkym hrdlom pre autonómne programovacie agenty.

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench: Dokážu jazykové modely riešiť skutočné problémy na GitHub-e?

SWE-bench vyhodnocuje jazykové modely na 2 294 skutočných problémoch GitHub-u v 12 repozitároch Pythonu pomocou testov založených na spustení; v čase publikácie Claude 2 vyriešil iba 1,96 % problémov s realistickým vyhľadávaním, čím vytvoril de facto benchmark pre kódovacích agentov a odhalil zlyhania pri vyhľadávaní a dĺžke opráv priamo relevantné pre write-back agentov Beancount.

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer: Samostatočne dohliadané používanie nástrojov a jeho limity pre finančnú AI

Detailná analýza Toolformer (Meta AI, NeurIPS 2023): ako samostatočne dohliadaný tréning filtrovaný perplexitou učí 6,7B-parametrový model volať externé API, kde prekonáva GPT-3 175B v aritmetických benchmarkoch a prečo jeho jednokroková architektúra nedokáže podporovať reťazené volania nástrojov potrebné pre operácie v štruktúrovaných účtovných knihách.

Všetko o Developers

OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií

ShieldAgent: Overiteľné zdôvodňovanie bezpečnostných pravidiel pre LLM agentov

Fine-Tuning vs. RAG: Prečo vyhľadávanie vyhráva pri vkladaní nových znalostí do LLM

Gorilla: How Retrieval-Aware Training Reduces LLM API Hallucinations from 78% to 11%

SWE-agent: Ako dizajn rozhrania odomyká automatizované softvérové inžinierstvo

SWE-bench: Dokážu jazykové modely riešiť skutočné problémy na GitHub-e?

Toolformer: Samostatočne dohliadané používanie nástrojov a jeho limity pre finančnú AI

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie