Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Voir tous les auteurs

Benchmark BIRD : l'écart des bases de données réelles dans le Text-to-SQL par LLM
·mike

Benchmark BIRD : l'écart des bases de données réelles dans le Text-to-SQL par LLM

Le benchmark BIRD (NeurIPS 2023) teste les LLM sur 95 bases de données réelles — GPT-4 n'atteint que 54,89 % de précision d'exécution avec des indices de domaine et 34,88 % sans, un écart de 20 points qui définit directement les défis qu'une interface BQL en langage naturel pour Beancount devrait résoudre.

beancount
ai
llm
database
+3
Utilisation d'outils vérifiablement sûre pour les agents LLM : Quand STPA rencontre MCP
·mike

Utilisation d'outils vérifiablement sûre pour les agents LLM : Quand STPA rencontre MCP

Des chercheurs de CMU et NC State proposent d'utiliser l'Analyse de Processus Systémique (STPA) et un protocole Model Context Protocol enrichi de capacités pour dériver des spécifications de sécurité formelles pour l'utilisation d'outils par les agents LLM, avec une vérification basée sur Alloy démontrant l'absence de flux dangereux dans une étude de cas de planification d'agenda.

ai
llm
security
automation
+3
GraphRAG : de la recherche locale à la synthèse globale centrée sur les requêtes
·mike

GraphRAG : de la recherche locale à la synthèse globale centrée sur les requêtes

Le GraphRAG de Microsoft construit un graphe d'entités partitionné selon Leiden sur un corpus de texte et précalcule des résumés de communauté pour répondre aux questions de compréhension globale que le RAG vectoriel standard ne peut pas gérer — mais un audit de biais de 2025 montre que ses taux de victoire de 72 à 83 % s'effondrent après correction des artefacts de position et de longueur dans l'évaluation par LLM en tant que juge.

ai
llm
machine-learning
beancount
+3
FinAuditing : les LLM obtiennent un score inférieur à 14 % sur des tâches réelles d'audit XBRL de la SEC
·mike

FinAuditing : les LLM obtiennent un score inférieur à 14 % sur des tâches réelles d'audit XBRL de la SEC

FinAuditing teste 13 LLM en zero-shot sur 1 102 instances réelles de dépôts XBRL de la SEC ; les meilleurs scores sont de 13,86 % sur la vérification mathématique financière et de 12,42 % sur l'extraction de concepts — des résultats qui limitent directement ce que les outils de comptabilité par IA peuvent automatiser en toute confiance sans outils externes.

llm
ai
financial-reporting
machine-learning
+2
InvestorBench : Évaluation des agents LLM sur les décisions de trading financier
·mike

InvestorBench : Évaluation des agents LLM sur les décisions de trading financier

InvestorBench (ACL 2025) teste 13 modèles de base LLM sur du trading backtesté d'actions, de cryptomonnaies et d'ETF en utilisant le rendement cumulé et le ratio de Sharpe — et non la précision des réponses aux questions. Qwen2.5-72B arrive en tête du classement des actions avec un rendement cumulé de 46,15 % ; les modèles optimisés pour la finance échouent sur les actions. La taille du modèle prédit les performances de manière plus fiable que l'ajustement spécifique au domaine.

llm
ai
finance
machine-learning
+3
StructRAG (ICLR 2025) : Choisir la bonne structure de document surpasse GraphRAG de 28 points
·mike

StructRAG (ICLR 2025) : Choisir la bonne structure de document surpasse GraphRAG de 28 points

StructRAG (ICLR 2025) oriente chaque requête vers un type de structure adapté à la tâche — tableau, graphe, catalogue, algorithme ou fragment — avant le raisonnement, obtenant un score supérieur de 28 points à GraphRAG sur le benchmark Loong tout en étant 22 fois plus rapide, le routeur entraîné par DPO représentant à lui seul un gain de précision de 15 points.

ai
llm
machine-learning
beancount
+3
Les LLM à agent unique surpassent les systèmes multi-agents en raisonnement multi-sauts à budget égal de jetons de réflexion
·mike

Les LLM à agent unique surpassent les systèmes multi-agents en raisonnement multi-sauts à budget égal de jetons de réflexion

Un préprint de Stanford de 2026 égalise les budgets de jetons de réflexion sur cinq architectures multi-agents et révèle que les LLM à agent unique égalent ou surpassent les systèmes multi-agents sur le raisonnement multi-sauts — avec un fondement théorique dans l'inégalité de traitement de l'information et des implications pour la conception d'agents d'IA en finance.

ai
llm
machine-learning
automation
+3
M3MAD-Bench : Les débats multi-agents sont-ils réellement efficaces à travers les domaines et les modalités ?
·mike

M3MAD-Bench : Les débats multi-agents sont-ils réellement efficaces à travers les domaines et les modalités ?

M3MAD-Bench met à l'épreuve le débat multi-agent sur 9 modèles, 5 domaines et des configurations vision-langage, révélant que le délire collectif cause 65 % des échecs, que le débat contradictoire réduit la précision jusqu'à 12,8 % et que l'auto-cohérence égale généralement la précision du débat à un coût en jetons inférieur.

ai
llm
machine-learning
automation
+3
AGrail : Des garde-fous de sécurité adaptatifs pour les agents LLM qui apprennent à travers les tâches
·mike

AGrail : Des garde-fous de sécurité adaptatifs pour les agents LLM qui apprennent à travers les tâches

AGrail (ACL 2025) introduit un garde-fou coopératif à deux LLM qui adapte les contrôles de sécurité au moment de l'inférence via l'adaptation au temps de test, atteignant un taux de succès d'attaque par injection de prompt de 0 % et une préservation des actions bénignes de 95,6 % sur Safe-OS — comparativement à GuardAgent et LLaMA-Guard qui bloquent jusqu'à 49,2 % des actions légitimes.

ai
llm
security
automation
+3
ShieldAgent : Raisonnement vérifiable sur les politiques de sécurité pour les agents LLM
·mike

ShieldAgent : Raisonnement vérifiable sur les politiques de sécurité pour les agents LLM

ShieldAgent (ICML 2025) remplace les garde-fous basés sur les LLM par des circuits de règles probabilistes s'appuyant sur des réseaux logiques de Markov, atteignant une précision de 90,4 % sur les attaques d'agents avec 64,7 % d'appels API en moins — et ce que cela signifie pour la sécurité vérifiable dans les systèmes d'IA financière.

ai
llm
machine-learning
security
+4
Atlas : le pré-entraînement conjoint de l'extracteur et du lecteur surpasse les LLM à 540 milliards de paramètres avec seulement 11 milliards
·mike

Atlas : le pré-entraînement conjoint de l'extracteur et du lecteur surpasse les LLM à 540 milliards de paramètres avec seulement 11 milliards

Atlas (JMLR 2023) atteint une précision de 42,4 % sur Natural Questions avec seulement 64 exemples d'entraînement — battant PaLM 540B de 3 points en utilisant 11B paramètres — grâce au pré-entraînement conjoint d'un extracteur dense basé sur Contriever avec un lecteur T5 Fusion-in-Decoder. L'analyse couvre les limites de précision de récupération, les coûts d'infrastructure d'un index de 587 Go et les implications pour les systèmes de QA sur les grands livres Beancount.

ai
machine-learning
llm
data-science
+3
Fusion-in-Decoder : Comment la recherche multi-passages améliore l'AQ générative
·mike

Fusion-in-Decoder : Comment la recherche multi-passages améliore l'AQ générative

L'architecture FiD d'Izacard et Grave encode indépendamment les passages récupérés puis les fusionne dans le décodeur, surpassant RAG-Sequence de 4 à 11 points sur NQ et TriviaQA. Cet article examine la conception et ses implications pour l'AQ des grands livres Beancount, où la synthèse multi-entrées à travers les transactions est la norme.

ai
machine-learning
llm
beancount
+2
Affichage de 37–48 sur 87 articles