Doorgaan naar hoofdinhoud

Bean Labs Research Log

Gorilla: Hoe Retrieval-Aware Training LLM API-hallucinaties vermindert van 78% naar 11%

Gorilla (Patil et al., NeurIPS 2024) fine-tunt een 7B LLaMA-model met Retriever-Aware Training op opgehaalde API-documentatie, waardoor het aantal hallucinaties daalt van 78% naar 11% ten opzichte van GPT-4 zero-shot — met directe gevolgen voor AI-agenten in de financiële sector waarbij foute accountnamen of omgekeerde tekens fatale fouten zijn in plaats van kleine ongemakken.

Latest articles

SWE-agent: Hoe interface-ontwerp geautomatiseerde software-engineering mogelijk maakt

SWE-agent (NeurIPS 2024) introduceert Agent-Computer Interfaces (ACI's) — speciaal gebouwde lagen tussen LLM's en softwareomgevingen — en toont een verbetering van 10,7 procentpunt ten opzichte van directe shell-toegang en een oplossingspercentage van 12,47% op SWE-bench met GPT-4 Turbo. Interface-ontwerp, niet de modelcapaciteit, is de primaire bottleneck voor autonome codeer-agents.

SWE-bench: Kunnen taalmodellen echte GitHub-problemen oplossen?

SWE-bench evalueert taalmodellen op 2.294 echte GitHub-issues in 12 Python-repositories met behulp van op uitvoering gebaseerde tests; bij publicatie loste Claude 2 slechts 1,96% van de issues op met realistische retrieval, waarmee de de facto benchmark voor codeer-agents werd vastgesteld en retrieval- en patchlengte-foutmodi werden onthuld die direct relevant zijn voor Beancount write-back agents.

Reflexion: Taalagenten die leren van fouten zonder hertraining

Reflexion (NeurIPS 2023) stelt LLM-agenten in staat om te verbeteren door verbale post-mortems op te slaan in een episodische buffer — geen gewichtsupdates vereist. Het bereikt 91% op HumanEval met GPT-4, maar faalt op WebShop, wat een structurele beperking onthult: verbale bekrachtiging werkt alleen wanneer de evaluator een helder, bruikbaar signaal afgeeft. Dit is wat dat betekent voor het bouwen van een zelfcorrigerende Beancount-grootboekagent.

Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought

Zelfconsistentie vervangt 'greedy' chain-of-thought decodering door een meerderheidsstemming over N gesamplede redeneerpaden — wat de GPT-3 nauwkeurigheid op GSM8K met 17,9 procentpunten verhoogt zonder enige fine-tuning — en is direct toepasbaar op financiële berekeningen in meerdere stappen waarbij een enkele LLM-decodering onbetrouwbaar is.