4 articles tagués avec « Transaction Validation »

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

Les LLM obtiennent un score de 2,3 % sur la génération du DSL Beancount : le benchmark LLMFinLiteracy

Le benchmark LLMFinLiteracy révèle que cinq modèles à poids ouverts de ~7B paramètres ne génèrent des transactions Beancount entièrement correctes que dans 2,3 % des cas, les échecs se concentrant sur le raisonnement comptable — et non sur la syntaxe — ce qui désigne le retour d'information du compilateur comme l'ingrédient critique manquant pour des agents d'écriture fiables.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent : Application déterministe de la sécurité pour les agents LLM via l'exécution de code

GuardAgent (ICML 2025) place un agent LLM distinct entre un agent cible et son environnement, vérifiant chaque action proposée en générant et en exécutant du code Python — atteignant une précision d'application des politiques de 98,7 % tout en préservant 100 % de l'achèvement des tâches, contre 81 % de précision et 29 à 71 % d'échec des tâches pour les règles de sécurité intégrées au prompt.

AILLMMachine LearningAutomationBeancountTransaction Validation

Débat LLM multi-agents : Gains de précision réels, calcul incontrôlé et délire collectif

Une analyse approfondie de l'article de Du et al. (ICML 2024) sur le débat multi-agents — qui fait état de gains de précision de 14,8 points en arithmétique — accompagnée de réfutations de 2025 montrant que des agents uniques à budget équivalent égalent les performances de débat, et une analyse de la raison pour laquelle le Délire Collectif (65 % des échecs de débat) présente des risques spécifiques pour les validations de grands livres assistées par IA.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC : Pourquoi l'auto-correction des LLM nécessite un retour d'outils externes

CRITIC (ICLR 2024) obtient des gains de 7,7 F1 sur le QA en domaine ouvert et une réduction de 79,2 % de la toxicité en ancrant la révision des LLM dans des signaux d'outils externes — une boucle vérification-puis-correction qui s'applique directement à la sécurité d'écriture pour les agents financiers Beancount.

Tout sur Transaction Validation

Les LLM obtiennent un score de 2,3 % sur la génération du DSL Beancount : le benchmark LLMFinLiteracy

GuardAgent : Application déterministe de la sécurité pour les agents LLM via l'exécution de code

Débat LLM multi-agents : Gains de précision réels, calcul incontrôlé et délire collectif

CRITIC : Pourquoi l'auto-correction des LLM nécessite un retour d'outils externes

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales