Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025) : Choisir la bonne structure de document surpasse GraphRAG de 28 points

StructRAG (ICLR 2025) oriente chaque requête vers un type de structure adapté à la tâche — tableau, graphe, catalogue, algorithme ou fragment — avant le raisonnement, obtenant un score supérieur de 28 points à GraphRAG sur le benchmark Loong tout en étant 22 fois plus rapide, le routeur entraîné par DPO représentant à lui seul un gain de précision de 15 points.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

Les LLM à agent unique surpassent les systèmes multi-agents en raisonnement multi-sauts à budget égal de jetons de réflexion

Un préprint de Stanford de 2026 égalise les budgets de jetons de réflexion sur cinq architectures multi-agents et révèle que les LLM à agent unique égalent ou surpassent les systèmes multi-agents sur le raisonnement multi-sauts — avec un fondement théorique dans l'inégalité de traitement de l'information et des implications pour la conception d'agents d'IA en finance.

AILLMMachine LearningAutomationFinanceData ScienceMulti-Agent

M3MAD-Bench : Les débats multi-agents sont-ils réellement efficaces à travers les domaines et les modalités ?

M3MAD-Bench met à l'épreuve le débat multi-agent sur 9 modèles, 5 domaines et des configurations vision-langage, révélant que le délire collectif cause 65 % des échecs, que le débat contradictoire réduit la précision jusqu'à 12,8 % et que l'auto-cohérence égale généralement la précision du débat à un coût en jetons inférieur.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail : Des garde-fous de sécurité adaptatifs pour les agents LLM qui apprennent à travers les tâches

AGrail (ACL 2025) introduit un garde-fou coopératif à deux LLM qui adapte les contrôles de sécurité au moment de l'inférence via l'adaptation au temps de test, atteignant un taux de succès d'attaque par injection de prompt de 0 % et une préservation des actions bénignes de 95,6 % sur Safe-OS — comparativement à GuardAgent et LLaMA-Guard qui bloquent jusqu'à 49,2 % des actions légitimes.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent : Raisonnement vérifiable sur les politiques de sécurité pour les agents LLM

ShieldAgent (ICML 2025) remplace les garde-fous basés sur les LLM par des circuits de règles probabilistes s'appuyant sur des réseaux logiques de Markov, atteignant une précision de 90,4 % sur les attaques d'agents avec 64,7 % d'appels API en moins — et ce que cela signifie pour la sécurité vérifiable dans les systèmes d'IA financière.

AIMachine LearningLLMData ScienceBeancountFinanceAutomation

Atlas : le pré-entraînement conjoint de l'extracteur et du lecteur surpasse les LLM à 540 milliards de paramètres avec seulement 11 milliards

Atlas (JMLR 2023) atteint une précision de 42,4 % sur Natural Questions avec seulement 64 exemples d'entraînement — battant PaLM 540B de 3 points en utilisant 11B paramètres — grâce au pré-entraînement conjoint d'un extracteur dense basé sur Contriever avec un lecteur T5 Fusion-in-Decoder. L'analyse couvre les limites de précision de récupération, les coûts d'infrastructure d'un index de 587 Go et les implications pour les systèmes de QA sur les grands livres Beancount.

AIMachine LearningLLMBeancountData SciencePlain-Text Accounting

Fusion-in-Decoder : Comment la recherche multi-passages améliore l'AQ générative

L'architecture FiD d'Izacard et Grave encode indépendamment les passages récupérés puis les fusionne dans le décodeur, surpassant RAG-Sequence de 4 à 11 points sur NQ et TriviaQA. Cet article examine la conception et ses implications pour l'AQ des grands livres Beancount, où la synthèse multi-entrées à travers les transactions est la norme.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent : Application déterministe de la sécurité pour les agents LLM via l'exécution de code

GuardAgent (ICML 2025) place un agent LLM distinct entre un agent cible et son environnement, vérifiant chaque action proposée en générant et en exécutant du code Python — atteignant une précision d'application des politiques de 98,7 % tout en préservant 100 % de l'achèvement des tâches, contre 81 % de précision et 29 à 71 % d'échec des tâches pour les règles de sécurité intégrées au prompt.

AILLMMachine LearningAutomationBeancountTransaction Validation

Débat LLM multi-agents : Gains de précision réels, calcul incontrôlé et délire collectif

Une analyse approfondie de l'article de Du et al. (ICML 2024) sur le débat multi-agents — qui fait état de gains de précision de 14,8 points en arithmétique — accompagnée de réfutations de 2025 montrant que des agents uniques à budget équivalent égalent les performances de débat, et une analyse de la raison pour laquelle le Délire Collectif (65 % des échecs de débat) présente des risques spécifiques pour les validations de grands livres assistées par IA.

InvestorBench : Évaluation des agents LLM sur les décisions de trading financier

Latest articles

StructRAG (ICLR 2025) : Choisir la bonne structure de document surpasse GraphRAG de 28 points

Les LLM à agent unique surpassent les systèmes multi-agents en raisonnement multi-sauts à budget égal de jetons de réflexion

M3MAD-Bench : Les débats multi-agents sont-ils réellement efficaces à travers les domaines et les modalités ?

AGrail : Des garde-fous de sécurité adaptatifs pour les agents LLM qui apprennent à travers les tâches

ShieldAgent : Raisonnement vérifiable sur les politiques de sécurité pour les agents LLM

Atlas : le pré-entraînement conjoint de l'extracteur et du lecteur surpasse les LLM à 540 milliards de paramètres avec seulement 11 milliards

Fusion-in-Decoder : Comment la recherche multi-passages améliore l'AQ générative

GuardAgent : Application déterministe de la sécurité pour les agents LLM via l'exécution de code

Débat LLM multi-agents : Gains de précision réels, calcul incontrôlé et délire collectif

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales