Salta al contingut principal

Bean Labs Research Log

Gorilla: Com l'entrenament conscient de la recuperació (RAT) redueix les al·lucinacions de l'API dels LLM del 78% a l'11%

Gorilla (Patil et al., NeurIPS 2024) ajusta un model LLaMA de 7B amb entrenament conscient del recuperador (RAT) sobre documentació d'API recuperada, reduint les taxes d'al·lucinació del 78% a l'11% en comparació amb GPT-4 zero-shot, amb implicacions directes per als agents d'escriptura d'IA financera on els noms de compte incorrectes o els signes invertits són fallades de correcció, no simples molèsties.

Latest articles

MemGPT: Gestió de context virtual per a agents d'LLM

MemGPT aplica la paginació de memòria virtual d'estil sistema operatiu als LLM, utilitzant un emmagatzematge de tres nivells (memòria de treball, de recuperació i d'arxiu) per donar als agents un record persistent entre sessions; en bancs de proves de xat multisessió, MemGPT amb GPT-4 assoleix una precisió del 92,5% en comparació amb el 32,1% del model de referència de context fix.

SWE-agent: Com el disseny d'interfícies desbloqueja l'enginyeria de programari automatitzada

SWE-agent (NeurIPS 2024) introdueix les interfícies agent-ordinador (ACI) —capes creades específicament entre els LLM i els entorns de programari—, mostrant una millora de 10,7 punts percentuals respecte a l'accés directe a la shell i una resolució del 12,47% a SWE-bench amb GPT-4 Turbo. El disseny de la interfície, i no la capacitat del model, és el principal coll d'ampolla per als agents de programació autònoms.

SWE-bench: Poden els models de llenguatge resoldre problemes reals de GitHub?

SWE-bench avalua els models de llenguatge en 2.294 problemes reals de GitHub en 12 repositoris de Python mitjançant proves basades en l'execució; en el moment de la publicació, Claude 2 va resoldre només l'1,96% dels problemes amb una recuperació realista, establint el referent de facto per als agents de codificació i revelant modes d'error de recuperació i longitud de pegats directament rellevants per als agents d'escriptura de Beancount.

CodeAct: Per què el codi Python executable fa que els agents LLM siguin un 20% més precisos

CodeAct (ICML 2024) substitueix les crides d'eines JSON per codi Python executable, millorant les taxes d'èxit dels agents GPT-4 en uns 20 punts percentuals en tasques multi-eina i reduint els torns d'interacció en un 30%, amb implicacions directes per a la construcció d'agents de conciliació de Beancount fiables.

Tree of Thoughts: Resolució Deliberada de Problemes amb Cerca de LLM

Tree of Thoughts (ToT) aconsegueix un 74% en el Joc del 24 en comparació amb el 4% de la CoT estàndard de GPT-4 organitzant el raonament de l'LLM en un arbre de cerca ramificat amb poda i retrocés, amb implicacions directes per a la classificació financera de múltiples passos i l'optimització fiscal en fluxos de treball de Beancount.

CRITIC: Per què l'autocorrecció dels LLM requereix retroacció d'eines externes

CRITIC (ICLR 2024) aconsegueix guanys de 7,7 en F1 en QA de domini obert i una reducció de la toxicitat del 79,2% en basar la revisió de l'LLM en senyals d'eines externes — un bucle de verificar i després corregir que es trasllada directament a la seguretat d'escriptura per als agents financers de Beancount.

Reflexion: Agents de llenguatge que aprenen dels errors sense reentrenament

Reflexion (NeurIPS 2023) permet que els agents LLM millorin emmagatzemant autòpsies verbals en un buffer episòdic — sense necessitat d'actualitzar els pesos. Arriba al 91% a HumanEval amb GPT-4 però falla a WebShop, revelant una restricció estructural: el reforç verbal només funciona quan l'avaluador produeix un senyal clar i executable. Aquí expliquem què significa això per construir un agent de llibre major de Beancount que s'autocorregeixi.

Auto-consistència: el mostreig per votació majoritària millora la precisió de la cadena de pensament

L'auto-consistència substitueix la descodificació voraç de la cadena de pensament per una votació majoritària sobre N rutes de raonament mostrejades —millorant la precisió de GPT-3 a GSM8K en 17,9 punts percentuals sense cap ajust fi— i s'aplica directament als càlculs financers de diversos passos on una única descodificació de LLM no és fiable.