Prejsť na hlavný obsah

Bean Labs Research Log

Gorilla: How Retrieval-Aware Training Reduces LLM API Hallucinations from 78% to 11%

Gorilla (Patil et al., NeurIPS 2024) fine-tunes a 7B LLaMA model with Retriever-Aware Training on retrieved API documentation, cutting hallucination rates from 78% to 11% versus GPT-4 zero-shot — with direct implications for finance AI write-back agents where wrong account names or inverted signs are correctness failures, not annoyances.

Latest articles

MemGPT: Virtuálna správa kontextu pre LLM agentov

MemGPT aplikuje stránkovanie virtuálnej pamäte v štýle operačných systémov na modely LLM, pričom využíva trojúrovňové úložisko — pracovnú pamäť, pamäť pre vyvolanie a archívnu pamäť — aby agentom poskytol trvalé vybavovanie informácií naprieč reláciami; v benchmarkoch viac-reláciových chatov dosahuje MemGPT s GPT-4 presnosť 92,5 % oproti 32,1 % základnej úrovni s pevným kontextom.

SWE-agent: Ako dizajn rozhrania odomyká automatizované softvérové inžinierstvo

SWE-agent (NeurIPS 2024) predstavuje rozhrania agent-počítač (ACI) — účelovo vytvorené vrstvy medzi LLM a softvérovými prostrediami — čím vykazuje 10,7-percentuálne zlepšenie oproti priamemu prístupu k shellu a 12,47 % úspešnosť riešenia v SWE-bench s GPT-4 Turbo. Dizajn rozhrania, nie schopnosti modelu, je primárnym úzkym hrdlom pre autonómne programovacie agenty.

SWE-bench: Dokážu jazykové modely riešiť skutočné problémy na GitHub-e?

SWE-bench vyhodnocuje jazykové modely na 2 294 skutočných problémoch GitHub-u v 12 repozitároch Pythonu pomocou testov založených na spustení; v čase publikácie Claude 2 vyriešil iba 1,96 % problémov s realistickým vyhľadávaním, čím vytvoril de facto benchmark pre kódovacích agentov a odhalil zlyhania pri vyhľadávaní a dĺžke opráv priamo relevantné pre write-back agentov Beancount.

CodeAct: Prečo spustiteľný Python kód robí LLM agentov o 20 % presnejšími

CodeAct (ICML 2024) nahrádza volanie nástrojov cez JSON spustiteľným Python kódom, čím zvyšuje mieru úspešnosti agentov GPT-4 o približne 20 percentuálnych bodov pri úlohách s viacerými nástrojmi a znižuje počet interakčných kôl o 30 % — s priamymi dôsledkami pre budovanie spoľahlivých agentov na párovanie v Beancount.

Strom myšlienok: Premyslené riešenie problémov s vyhľadávaním pomocou LLM

Strom myšlienok (ToT) dosahuje 74 % v Hre 24 oproti 4 % pri štandardnom GPT-4 CoT organizovaním uvažovania LLM do rozvetveného vyhľadávacieho stromu s orezávaním a spätným vyhľadávaním — s priamymi dôsledkami pre viacstupňovú finančnú klasifikáciu a daňovú optimalizáciu v pracovných postupoch Beancount.

CRITIC: Prečo samooprava LLM vyžaduje spätnú väzbu od externých nástrojov

CRITIC (ICLR 2024) dosahuje zlepšenie F1 o 7,7 v QA s otvorenou doménou a 79,2 % zníženie toxicity tým, že revíziu LLM zakladá na signáloch z externých nástrojov – slučka verifikácie a následnej opravy, ktorá sa priamo vzťahuje na bezpečnosť zápisu pre finančných agentov v Beancount.

Reflexion: Jazykoví agenti, ktorí sa učia z chýb bez opätovného trénovania

Reflexion (NeurIPS 2023) umožňuje LLM agentom zlepšovať sa ukladaním verbálnych analýz po zlyhaní do epizodickej vyrovnávacej pamäte – bez potreby aktualizácie váh. S GPT-4 dosahuje 91 % v HumanEval, ale zlyháva vo WebShop-e, čo odhaľuje štrukturálne obmedzenie: verbálne posilňovanie funguje len vtedy, keď evaluátor poskytuje jasný, akcieschopný signál. Tu je vysvetlenie, čo to znamená pre budovanie samoopravného agenta pre účtovnú knihu Beancount.

Self-Consistency: Vzorkovanie väčšinovým hlasovaním zvyšuje presnosť Chain-of-Thought

Self-consistency nahrádza chamtivé (greedy) dekódovanie chain-of-thought väčšinovým hlasovaním nad N vzorkovanými cestami uvažovania — čím zvyšuje presnosť GPT-3 na GSM8K o 17,9 percentuálneho bodu bez akéhokoľvek doladenia — a je priamo aplikovateľná na viacstupňové finančné výpočty, kde je jedno dekódovanie LLM nespoľahlivé.