Aller au contenu principal

Bean Labs Research Log

Gorilla : Comment le Retrieval-Aware Training réduit les hallucinations d'API des LLM de 78 % à 11 %

Gorilla (Patil et al., NeurIPS 2024) affine un modèle LLaMA 7B avec le Retriever-Aware Training sur la documentation d'API récupérée, réduisant les taux d'hallucination de 78 % à 11 % par rapport à GPT-4 en zero-shot — avec des implications directes pour les agents d'écriture IA en finance où les noms de comptes erronés ou les signes inversés sont des échecs d'exactitude, et non de simples désagréments.

Latest articles

MemGPT : Gestion virtuelle du contexte pour les agents LLM

MemGPT applique la pagination de mémoire virtuelle de type OS aux LLM, utilisant un stockage à trois niveaux — mémoire de travail, rappel et archivage — pour donner aux agents un rappel persistant d'une session à l'autre ; sur les benchmarks de chat multi-sessions, MemGPT avec GPT-4 atteint une précision de 92,5 % contre 32,1 % pour une base de référence à contexte fixe.

SWE-agent : comment la conception d'interface libère l'ingénierie logicielle automatisée

SWE-agent (NeurIPS 2024) introduit les interfaces agent-ordinateur (ACI) — des couches logicielles conçues sur mesure entre les LLMs et les environnements de développement — montrant une amélioration de 10,7 points de pourcentage par rapport à l'accès shell brut et une résolution de 12,47 % sur SWE-bench avec GPT-4 Turbo. La conception de l'interface, et non la capacité du modèle, est le principal goulot d'étranglement pour les agents de codage autonomes.

SWE-bench : Les modèles de langage peuvent-ils résoudre des problèmes GitHub réels ?

SWE-bench évalue les modèles de langage sur 2 294 problèmes GitHub réels répartis dans 12 dépôts Python à l'aide de tests basés sur l'exécution ; lors de la publication, Claude 2 n'a résolu que 1,96 % des problèmes avec une recherche réaliste, établissant la référence de facto pour les agents de codage et révélant des modes d'échec de recherche et de longueur de correctif directement pertinents pour les agents d'écriture Beancount.

CodeAct : Pourquoi le code Python exécutable rend les agents LLM 20 % plus précis

CodeAct (ICML 2024) remplace l'appel d'outils JSON par du code Python exécutable, améliorant les taux de réussite des agents GPT-4 d'environ 20 points de pourcentage sur les tâches multi-outils et réduisant les tours d'interaction de 30 % — avec des implications directes pour la création d'agents de rapprochement Beancount fiables.

Les LLM ne peuvent pas encore s'autocorriger en matière de raisonnement — Constats de l'ICLR 2024 et implications pour l'IA en finance

Huang et al. (ICLR 2024) démontrent que les LLM invités à réviser leur propre raisonnement sans retour externe dégradent systématiquement leur précision — GPT-4 passe de 95,5 % à 91,5 % sur GSM8K — et ce que cela signifie pour la conception d'agents fiables de saisie de journaux Beancount.

Arbre de pensées : Résolution délibérée de problèmes avec la recherche LLM

Tree of Thoughts (ToT) atteint un taux de réussite de 74 % sur le Jeu de 24, contre 4 % pour le CoT standard de GPT-4, en organisant le raisonnement du LLM en un arbre de recherche ramifié avec élagage et retour en arrière — avec des implications directes pour la classification financière multi-étapes et l'optimisation fiscale dans les flux de travail Beancount.

CRITIC : Pourquoi l'auto-correction des LLM nécessite un retour d'outils externes

CRITIC (ICLR 2024) obtient des gains de 7,7 F1 sur le QA en domaine ouvert et une réduction de 79,2 % de la toxicité en ancrant la révision des LLM dans des signaux d'outils externes — une boucle vérification-puis-correction qui s'applique directement à la sécurité d'écriture pour les agents financiers Beancount.

Reflexion : Des agents de langage qui apprennent de leurs erreurs sans réentraînement

Reflexion (NeurIPS 2023) permet aux agents LLM de s'améliorer en stockant des analyses post-mortem verbales dans un tampon épisodique — sans mise à jour des poids. Il atteint 91 % sur HumanEval avec GPT-4 mais échoue sur WebShop, révélant une contrainte structurelle : le renforcement verbal ne fonctionne que lorsque l'évaluateur produit un signal clair et exploitable. Voici ce que cela signifie pour la création d'un agent de grand livre Beancount autocorrecteur.

Auto-cohérence : l'échantillonnage par vote majoritaire améliore la précision de la chaîne de pensée

L'auto-cohérence remplace le décodage glouton de la chaîne de pensée par un vote majoritaire sur N chemins de raisonnement échantillonnés — augmentant la précision de GPT-3 sur GSM8K de 17,9 points de pourcentage sans aucun réglage fin — et s'applique directement aux calculs financiers en plusieurs étapes où un seul décodage LLM n'est pas fiable.