Aller au contenu principal
Plain-Text Accounting

Tout sur Plain-Text Accounting

33 articles
Research grounded in plain-text accounting formats and workflows

Report avec détection d'incertitude pour les agents LLM : quand passer d'un petit à un grand modèle

ReDAct utilise par défaut un petit modèle et ne passe à un modèle coûteux que lorsque la perplexité au niveau des jetons signale une incertitude, réalisant 64 % d'économies par rapport à GPT-5.2 seul tout en égalant ou dépassant sa précision — un modèle directement applicable aux agents de catégorisation de transactions Beancount.

OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance

OpenHands est une plateforme d'agents sous licence MIT et isolée par Docker, où CodeAct atteint 26 % sur SWE-Bench Lite — un benchmark lucide qui établit ce que les agents d'IA peuvent faire de manière fiable aujourd'hui, et pourquoi les premiers déploiements financiers productifs devraient être strictement délimités plutôt qu'autonomes.

Les LLM obtiennent un score de 2,3 % sur la génération du DSL Beancount : le benchmark LLMFinLiteracy

Le benchmark LLMFinLiteracy révèle que cinq modèles à poids ouverts de ~7B paramètres ne génèrent des transactions Beancount entièrement correctes que dans 2,3 % des cas, les échecs se concentrant sur le raisonnement comptable — et non sur la syntaxe — ce qui désigne le retour d'information du compilateur comme l'ingrédient critique manquant pour des agents d'écriture fiables.

TableMaster : Raisonnement adaptatif pour la compréhension de tableaux avec les LLM

TableMaster est un pipeline basé uniquement sur le prompting qui atteint 78,13 % sur WikiTQ avec GPT-4o-mini — soit 13 points de plus que Chain-of-Table — en combinant l'extraction de tableaux ciblés, la verbalisation sémantique et le basculement adaptatif entre raisonnement textuel et symbolique. Voici ce que cette architecture signifie pour les agents IA exploitant des grands livres financiers comme Beancount.

τ²-bench : mesurer le coût du double contrôle dans les agents IA conversationnels

τ²-bench étend l'évaluation des agents aux environnements à double contrôle où l'IA et l'utilisateur invoquent tous deux des outils sur un état partagé — révélant que les utilisateurs actifs réduisent les taux de réussite de 18 à 25 points de pourcentage, avec des implications directes pour les agents Beancount partageant l'accès en écriture avec des utilisateurs humains.

WorkArena : comment les agents Web LLM se comportent face au travail de connaissance réel en entreprise

WorkArena évalue les agents Web LLM sur 33 tâches ServiceNow réelles — GPT-4o atteint 42,7 % globalement mais 0 % sur les tâches de filtrage de liste, révélant un fossé entre le remplissage de formulaires et l'interaction avec des interfaces structurées, ce qui renvoie directement aux défis de l'automatisation des registres Beancount.

Chain-of-Table : Évolution des tableaux dans la chaîne de raisonnement des LLM

Chain-of-Table (ICLR 2024) améliore le raisonnement tabulaire des LLM en faisant évoluer le tableau lui-même en tant qu'état intermédiaire — atteignant 67,31 % sur WikiTQ contre 61,48 % pour les références précédentes, avec un avantage de +10,25 points sur les tableaux dépassant 4 000 jetons et une applicabilité directe aux agents de requête de grand livre Beancount.

TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?

TableLlama affine Llama 2 (7B) sur 2,6 millions d'exemples de tâches liées aux tableaux et surpasse GPT-4 sur les tâches structurelles telles que l'annotation de type de colonne (F1 94 contre 32), mais reste en retrait de 33 points sur le raisonnement compositionnel WikiTQ — un benchmark calibré sur ce que les modèles ouverts 7B peuvent et ne peuvent pas accomplir dans l'IA financière aujourd'hui.