Doorgaan naar hoofdinhoud
Developers

Alles Over Developers

7 artikelen
Developer resources, APIs, and integration documentation for finance tools

OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering

OpenHands is een onder MIT gelicentieerd, in Docker gesandboxed agent-platform waar CodeAct 26% scoort op SWE-Bench Lite — een ontnuchterende benchmark die vaststelt wat AI-agents vandaag de dag betrouwbaar kunnen doen, en waarom de eerste productieve financiële implementaties nauw gedefinieerd moeten zijn in plaats van autonoom.

Fine-Tuning vs. RAG: Waarom Retrieval wint bij het toevoegen van nieuwe kennis aan LLM's

Een empirische vergelijking van RAG versus ongecontroleerde fine-tuning bij LLM's met 7 miljard parameters laat zien dat RAG een nauwkeurigheid van 0.875+ behaalt op feiten van na de cutoff, terwijl fine-tuning stagneert op 0.504 — met directe gevolgen voor het ontwerpen van Beancount-agents en systemen die frequente kennisupdates vereisen.

Gorilla: Hoe Retrieval-Aware Training LLM API-hallucinaties vermindert van 78% naar 11%

Gorilla (Patil et al., NeurIPS 2024) fine-tunt een 7B LLaMA-model met Retriever-Aware Training op opgehaalde API-documentatie, waardoor het aantal hallucinaties daalt van 78% naar 11% ten opzichte van GPT-4 zero-shot — met directe gevolgen voor AI-agenten in de financiële sector waarbij foute accountnamen of omgekeerde tekens fatale fouten zijn in plaats van kleine ongemakken.

SWE-agent: Hoe interface-ontwerp geautomatiseerde software-engineering mogelijk maakt

SWE-agent (NeurIPS 2024) introduceert Agent-Computer Interfaces (ACI's) — speciaal gebouwde lagen tussen LLM's en softwareomgevingen — en toont een verbetering van 10,7 procentpunt ten opzichte van directe shell-toegang en een oplossingspercentage van 12,47% op SWE-bench met GPT-4 Turbo. Interface-ontwerp, niet de modelcapaciteit, is de primaire bottleneck voor autonome codeer-agents.

SWE-bench: Kunnen taalmodellen echte GitHub-problemen oplossen?

SWE-bench evalueert taalmodellen op 2.294 echte GitHub-issues in 12 Python-repositories met behulp van op uitvoering gebaseerde tests; bij publicatie loste Claude 2 slechts 1,96% van de issues op met realistische retrieval, waarmee de de facto benchmark voor codeer-agents werd vastgesteld en retrieval- en patchlengte-foutmodi werden onthuld die direct relevant zijn voor Beancount write-back agents.

Toolformer: Zelf-gesuperviseerd toolgebruik en de beperkingen voor Finance AI

Een grondige analyse van Toolformer (Meta AI, NeurIPS 2023): hoe door perplexiteit gefilterde zelf-gesuperviseerde training een model met 6,7 miljard parameters leert om externe API's aan te roepen, waarbij het GPT-3 175B overtreft op rekenkundige benchmarks, en waarom de eenstaps-architectuur geen ondersteuning biedt voor de gekoppelde tool-aanroepen die nodig zijn voor gestructureerde grootboekbewerkingen.