33 articles tagués avec « Plain-Text Accounting »

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Report avec détection d'incertitude pour les agents LLM : quand passer d'un petit à un grand modèle

ReDAct utilise par défaut un petit modèle et ne passe à un modèle coûteux que lorsque la perplexité au niveau des jetons signale une incertitude, réalisant 64 % d'économies par rapport à GPT-5.2 seul tout en égalant ou dépassant sa précision — un modèle directement applicable aux agents de catégorisation de transactions Beancount.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance

OpenHands est une plateforme d'agents sous licence MIT et isolée par Docker, où CodeAct atteint 26 % sur SWE-Bench Lite — un benchmark lucide qui établit ce que les agents d'IA peuvent faire de manière fiable aujourd'hui, et pourquoi les premiers déploiements financiers productifs devraient être strictement délimités plutôt qu'autonomes.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

Les LLM obtiennent un score de 2,3 % sur la génération du DSL Beancount : le benchmark LLMFinLiteracy

Le benchmark LLMFinLiteracy révèle que cinq modèles à poids ouverts de ~7B paramètres ne génèrent des transactions Beancount entièrement correctes que dans 2,3 % des cas, les échecs se concentrant sur le raisonnement comptable — et non sur la syntaxe — ce qui désigne le retour d'information du compilateur comme l'ingrédient critique manquant pour des agents d'écriture fiables.

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster : Raisonnement adaptatif pour la compréhension de tableaux avec les LLM

TableMaster est un pipeline basé uniquement sur le prompting qui atteint 78,13 % sur WikiTQ avec GPT-4o-mini — soit 13 points de plus que Chain-of-Table — en combinant l'extraction de tableaux ciblés, la verbalisation sémantique et le basculement adaptatif entre raisonnement textuel et symbolique. Voici ce que cette architecture signifie pour les agents IA exploitant des grands livres financiers comme Beancount.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench : mesurer le coût du double contrôle dans les agents IA conversationnels

τ²-bench étend l'évaluation des agents aux environnements à double contrôle où l'IA et l'utilisateur invoquent tous deux des outils sur un état partagé — révélant que les utilisateurs actifs réduisent les taux de réussite de 18 à 25 points de pourcentage, avec des implications directes pour les agents Beancount partageant l'accès en écriture avec des utilisateurs humains.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

Benchmark GAIA : Mesurer ce que les agents IA de pointe peuvent réellement faire

GAIA évalue 466 tâches du monde réel sur trois niveaux de difficulté ; les agents de pointe ont atteint 74,55 % à la mi-2026 contre 92 % pour les humains, et l'écart restant au niveau 3 correspond directement aux défis de coordination multi-étapes dans les flux de travail automatisés du grand livre Beancount.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena : comment les agents Web LLM se comportent face au travail de connaissance réel en entreprise

WorkArena évalue les agents Web LLM sur 33 tâches ServiceNow réelles — GPT-4o atteint 42,7 % globalement mais 0 % sur les tâches de filtrage de liste, révélant un fossé entre le remplissage de formulaires et l'interaction avec des interfaces structurées, ce qui renvoie directement aux défis de l'automatisation des registres Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench : Mesurer la fiabilité des agents IA dans des domaines réels d'utilisation d'outils

τ-bench montre que les meilleurs LLM comme Claude 3.5 Sonnet chutent d'un pass@1 de 0,692 à un pass@4 de 0,462 dans les tâches de service client de détail — une chute de cohérence brutale avec des implications directes pour tout agent d'écriture opérant sur un grand livre Beancount.

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table : Évolution des tableaux dans la chaîne de raisonnement des LLM

Chain-of-Table (ICLR 2024) améliore le raisonnement tabulaire des LLM en faisant évoluer le tableau lui-même en tant qu'état intermédiaire — atteignant 67,31 % sur WikiTQ contre 61,48 % pour les références précédentes, avec un avantage de +10,25 points sur les tableaux dépassant 4 000 jetons et une applicabilité directe aux agents de requête de grand livre Beancount.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?

TableLlama affine Llama 2 (7B) sur 2,6 millions d'exemples de tâches liées aux tableaux et surpasse GPT-4 sur les tâches structurelles telles que l'annotation de type de colonne (F1 94 contre 32), mais reste en retrait de 33 points sur le raisonnement compositionnel WikiTQ — un benchmark calibré sur ce que les modèles ouverts 7B peuvent et ne peuvent pas accomplir dans l'IA financière aujourd'hui.

Tout sur Plain-Text Accounting

Report avec détection d'incertitude pour les agents LLM : quand passer d'un petit à un grand modèle

OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance

Les LLM obtiennent un score de 2,3 % sur la génération du DSL Beancount : le benchmark LLMFinLiteracy

TableMaster : Raisonnement adaptatif pour la compréhension de tableaux avec les LLM

τ²-bench : mesurer le coût du double contrôle dans les agents IA conversationnels

Benchmark GAIA : Mesurer ce que les agents IA de pointe peuvent réellement faire

WorkArena : comment les agents Web LLM se comportent face au travail de connaissance réel en entreprise

τ-bench : Mesurer la fiabilité des agents IA dans des domaines réels d'utilisation d'outils

Chain-of-Table : Évolution des tableaux dans la chaîne de raisonnement des LLM

TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales