Aller au contenu principal

Bean Labs Research Log

InvestorBench : Évaluation des agents LLM sur les décisions de trading financier

InvestorBench (ACL 2025) teste 13 modèles de base LLM sur du trading backtesté d'actions, de cryptomonnaies et d'ETF en utilisant le rendement cumulé et le ratio de Sharpe — et non la précision des réponses aux questions. Qwen2.5-72B arrive en tête du classement des actions avec un rendement cumulé de 46,15 % ; les modèles optimisés pour la finance échouent sur les actions. La taille du modèle prédit les performances de manière plus fiable que l'ajustement spécifique au domaine.

Latest articles

StructRAG (ICLR 2025) : Choisir la bonne structure de document surpasse GraphRAG de 28 points

StructRAG (ICLR 2025) oriente chaque requête vers un type de structure adapté à la tâche — tableau, graphe, catalogue, algorithme ou fragment — avant le raisonnement, obtenant un score supérieur de 28 points à GraphRAG sur le benchmark Loong tout en étant 22 fois plus rapide, le routeur entraîné par DPO représentant à lui seul un gain de précision de 15 points.

Les LLM à agent unique surpassent les systèmes multi-agents en raisonnement multi-sauts à budget égal de jetons de réflexion

Un préprint de Stanford de 2026 égalise les budgets de jetons de réflexion sur cinq architectures multi-agents et révèle que les LLM à agent unique égalent ou surpassent les systèmes multi-agents sur le raisonnement multi-sauts — avec un fondement théorique dans l'inégalité de traitement de l'information et des implications pour la conception d'agents d'IA en finance.

M3MAD-Bench : Les débats multi-agents sont-ils réellement efficaces à travers les domaines et les modalités ?

M3MAD-Bench met à l'épreuve le débat multi-agent sur 9 modèles, 5 domaines et des configurations vision-langage, révélant que le délire collectif cause 65 % des échecs, que le débat contradictoire réduit la précision jusqu'à 12,8 % et que l'auto-cohérence égale généralement la précision du débat à un coût en jetons inférieur.

AGrail : Des garde-fous de sécurité adaptatifs pour les agents LLM qui apprennent à travers les tâches

AGrail (ACL 2025) introduit un garde-fou coopératif à deux LLM qui adapte les contrôles de sécurité au moment de l'inférence via l'adaptation au temps de test, atteignant un taux de succès d'attaque par injection de prompt de 0 % et une préservation des actions bénignes de 95,6 % sur Safe-OS — comparativement à GuardAgent et LLaMA-Guard qui bloquent jusqu'à 49,2 % des actions légitimes.

ShieldAgent : Raisonnement vérifiable sur les politiques de sécurité pour les agents LLM

ShieldAgent (ICML 2025) remplace les garde-fous basés sur les LLM par des circuits de règles probabilistes s'appuyant sur des réseaux logiques de Markov, atteignant une précision de 90,4 % sur les attaques d'agents avec 64,7 % d'appels API en moins — et ce que cela signifie pour la sécurité vérifiable dans les systèmes d'IA financière.

Atlas : le pré-entraînement conjoint de l'extracteur et du lecteur surpasse les LLM à 540 milliards de paramètres avec seulement 11 milliards

Atlas (JMLR 2023) atteint une précision de 42,4 % sur Natural Questions avec seulement 64 exemples d'entraînement — battant PaLM 540B de 3 points en utilisant 11B paramètres — grâce au pré-entraînement conjoint d'un extracteur dense basé sur Contriever avec un lecteur T5 Fusion-in-Decoder. L'analyse couvre les limites de précision de récupération, les coûts d'infrastructure d'un index de 587 Go et les implications pour les systèmes de QA sur les grands livres Beancount.

Fusion-in-Decoder : Comment la recherche multi-passages améliore l'AQ générative

L'architecture FiD d'Izacard et Grave encode indépendamment les passages récupérés puis les fusionne dans le décodeur, surpassant RAG-Sequence de 4 à 11 points sur NQ et TriviaQA. Cet article examine la conception et ses implications pour l'AQ des grands livres Beancount, où la synthèse multi-entrées à travers les transactions est la norme.

GuardAgent : Application déterministe de la sécurité pour les agents LLM via l'exécution de code

GuardAgent (ICML 2025) place un agent LLM distinct entre un agent cible et son environnement, vérifiant chaque action proposée en générant et en exécutant du code Python — atteignant une précision d'application des politiques de 98,7 % tout en préservant 100 % de l'achèvement des tâches, contre 81 % de précision et 29 à 71 % d'échec des tâches pour les règles de sécurité intégrées au prompt.

Débat LLM multi-agents : Gains de précision réels, calcul incontrôlé et délire collectif

Une analyse approfondie de l'article de Du et al. (ICML 2024) sur le débat multi-agents — qui fait état de gains de précision de 14,8 points en arithmétique — accompagnée de réfutations de 2025 montrant que des agents uniques à budget équivalent égalent les performances de débat, et une analyse de la raison pour laquelle le Délire Collectif (65 % des échecs de débat) présente des risques spécifiques pour les validations de grands livres assistées par IA.