Bean Labs Research Log

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT : Gestion virtuelle du contexte pour les agents LLM

MemGPT applique la pagination de mémoire virtuelle de type OS aux LLM, utilisant un stockage à trois niveaux — mémoire de travail, rappel et archivage — pour donner aux agents un rappel persistant d'une session à l'autre ; sur les benchmarks de chat multi-sessions, MemGPT avec GPT-4 atteint une précision de 92,5 % contre 32,1 % pour une base de référence à contexte fixe.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent : comment la conception d'interface libère l'ingénierie logicielle automatisée

SWE-agent (NeurIPS 2024) introduit les interfaces agent-ordinateur (ACI) — des couches logicielles conçues sur mesure entre les LLMs et les environnements de développement — montrant une amélioration de 10,7 points de pourcentage par rapport à l'accès shell brut et une résolution de 12,47 % sur SWE-bench avec GPT-4 Turbo. La conception de l'interface, et non la capacité du modèle, est le principal goulot d'étranglement pour les agents de codage autonomes.

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench : Les modèles de langage peuvent-ils résoudre des problèmes GitHub réels ?

SWE-bench évalue les modèles de langage sur 2 294 problèmes GitHub réels répartis dans 12 dépôts Python à l'aide de tests basés sur l'exécution ; lors de la publication, Claude 2 n'a résolu que 1,96 % des problèmes avec une recherche réaliste, établissant la référence de facto pour les agents de codage et révélant des modes d'échec de recherche et de longueur de correctif directement pertinents pour les agents d'écriture Beancount.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct : Pourquoi le code Python exécutable rend les agents LLM 20 % plus précis

CodeAct (ICML 2024) remplace l'appel d'outils JSON par du code Python exécutable, améliorant les taux de réussite des agents GPT-4 d'environ 20 points de pourcentage sur les tâches multi-outils et réduisant les tours d'interaction de 30 % — avec des implications directes pour la création d'agents de rapprochement Beancount fiables.

LLMAIMachine LearningAutomationBeancountFinanceTrust

Les LLM ne peuvent pas encore s'autocorriger en matière de raisonnement — Constats de l'ICLR 2024 et implications pour l'IA en finance

Huang et al. (ICLR 2024) démontrent que les LLM invités à réviser leur propre raisonnement sans retour externe dégradent systématiquement leur précision — GPT-4 passe de 95,5 % à 91,5 % sur GSM8K — et ce que cela signifie pour la conception d'agents fiables de saisie de journaux Beancount.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Arbre de pensées : Résolution délibérée de problèmes avec la recherche LLM

Tree of Thoughts (ToT) atteint un taux de réussite de 74 % sur le Jeu de 24, contre 4 % pour le CoT standard de GPT-4, en organisant le raisonnement du LLM en un arbre de recherche ramifié avec élagage et retour en arrière — avec des implications directes pour la classification financière multi-étapes et l'optimisation fiscale dans les flux de travail Beancount.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC : Pourquoi l'auto-correction des LLM nécessite un retour d'outils externes

CRITIC (ICLR 2024) obtient des gains de 7,7 F1 sur le QA en domaine ouvert et une réduction de 79,2 % de la toxicité en ancrant la révision des LLM dans des signaux d'outils externes — une boucle vérification-puis-correction qui s'applique directement à la sécurité d'écriture pour les agents financiers Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text Accounting

Reflexion : Des agents de langage qui apprennent de leurs erreurs sans réentraînement

Reflexion (NeurIPS 2023) permet aux agents LLM de s'améliorer en stockant des analyses post-mortem verbales dans un tampon épisodique — sans mise à jour des poids. Il atteint 91 % sur HumanEval avec GPT-4 mais échoue sur WebShop, révélant une contrainte structurelle : le renforcement verbal ne fonctionne que lorsque l'évaluateur produit un signal clair et exploitable. Voici ce que cela signifie pour la création d'un agent de grand livre Beancount autocorrecteur.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Auto-cohérence : l'échantillonnage par vote majoritaire améliore la précision de la chaîne de pensée

L'auto-cohérence remplace le décodage glouton de la chaîne de pensée par un vote majoritaire sur N chemins de raisonnement échantillonnés — augmentant la précision de GPT-3 sur GSM8K de 17,9 points de pourcentage sans aucun réglage fin — et s'applique directement aux calculs financiers en plusieurs étapes où un seul décodage LLM n'est pas fiable.

Gorilla : Comment le Retrieval-Aware Training réduit les hallucinations d'API des LLM de 78 % à 11 %

Latest articles

MemGPT : Gestion virtuelle du contexte pour les agents LLM

SWE-agent : comment la conception d'interface libère l'ingénierie logicielle automatisée

SWE-bench : Les modèles de langage peuvent-ils résoudre des problèmes GitHub réels ?

CodeAct : Pourquoi le code Python exécutable rend les agents LLM 20 % plus précis

Les LLM ne peuvent pas encore s'autocorriger en matière de raisonnement — Constats de l'ICLR 2024 et implications pour l'IA en finance

Arbre de pensées : Résolution délibérée de problèmes avec la recherche LLM

CRITIC : Pourquoi l'auto-correction des LLM nécessite un retour d'outils externes

Reflexion : Des agents de langage qui apprennent de leurs erreurs sans réentraînement

Auto-cohérence : l'échantillonnage par vote majoritaire améliore la précision de la chaîne de pensée

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales