Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table : Évolution des tableaux dans la chaîne de raisonnement des LLM

Chain-of-Table (ICLR 2024) améliore le raisonnement tabulaire des LLM en faisant évoluer le tableau lui-même en tant qu'état intermédiaire — atteignant 67,31 % sur WikiTQ contre 61,48 % pour les références précédentes, avec un avantage de +10,25 points sur les tableaux dépassant 4 000 jetons et une applicabilité directe aux agents de requête de grand livre Beancount.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?

TableLlama affine Llama 2 (7B) sur 2,6 millions d'exemples de tâches liées aux tableaux et surpasse GPT-4 sur les tâches structurelles telles que l'annotation de type de colonne (F1 94 contre 32), mais reste en retrait de 33 points sur le raisonnement compositionnel WikiTQ — un benchmark calibré sur ce que les modèles ouverts 7B peuvent et ne peuvent pas accomplir dans l'IA financière aujourd'hui.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS : Table QA supervisé de manière faible sans SQL, et ce que cela signifie pour Beancount

TAPAS (Google Research, ACL 2020) répond aux questions sur les tableaux en sélectionnant des cellules et en appliquant des agrégations scalaires — sans génération de SQL. Cet article analyse l'architecture, son gain de précision SQA de 12 points, et pourquoi le paradigme de sélection de cellules convient aux requêtes de petits registres Beancount mais échoue à grande échelle.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL : Collaboration Multi-Agents pour le Text-to-SQL

MAC-SQL (COLING 2025) utilise trois agents spécialisés — Selector pour la réduction de schéma, Decomposer pour la décomposition des questions et Refiner pour la correction SQL guidée par l'exécution — pour atteindre une précision d'exécution de 59,59 % sur le benchmark BIRD ; l'ablation montre que le Refiner contribue le plus (+4,63 points), avec des implications directes pour la génération de requêtes de grand livre Beancount.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL : Apprentissage en contexte décomposé pour le Text-to-SQL

DIN-SQL (NeurIPS 2023) décompose le text-to-SQL en étapes de liaison de schéma, de classification de la complexité et de génération SQL, faisant passer l'exactitude d'exécution de GPT-4 de 67,4 % à 85,3 % sur Spider sans fine-tuning — et cette même stratégie de décomposition s'applique directement aux interfaces en langage naturel pour le langage de requête BQL de Beancount.

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

Benchmark BIRD : l'écart des bases de données réelles dans le Text-to-SQL par LLM

Le benchmark BIRD (NeurIPS 2023) teste les LLM sur 95 bases de données réelles — GPT-4 n'atteint que 54,89 % de précision d'exécution avec des indices de domaine et 34,88 % sans, un écart de 20 points qui définit directement les défis qu'une interface BQL en langage naturel pour Beancount devrait résoudre.

AILLMSecurityAutomationBeancountComplianceTrust

Utilisation d'outils vérifiablement sûre pour les agents LLM : Quand STPA rencontre MCP

Des chercheurs de CMU et NC State proposent d'utiliser l'Analyse de Processus Systémique (STPA) et un protocole Model Context Protocol enrichi de capacités pour dériver des spécifications de sécurité formelles pour l'utilisation d'outils par les agents LLM, avec une vérification basée sur Alloy démontrant l'absence de flux dangereux dans une étude de cas de planification d'agenda.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG : de la recherche locale à la synthèse globale centrée sur les requêtes

Le GraphRAG de Microsoft construit un graphe d'entités partitionné selon Leiden sur un corpus de texte et précalcule des résumés de communauté pour répondre aux questions de compréhension globale que le RAG vectoriel standard ne peut pas gérer — mais un audit de biais de 2025 montre que ses taux de victoire de 72 à 83 % s'effondrent après correction des artefacts de position et de longueur dans l'évaluation par LLM en tant que juge.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing : les LLM obtiennent un score inférieur à 14 % sur des tâches réelles d'audit XBRL de la SEC

FinAuditing teste 13 LLM en zero-shot sur 1 102 instances réelles de dépôts XBRL de la SEC ; les meilleurs scores sont de 13,86 % sur la vérification mathématique financière et de 12,42 % sur l'extraction de concepts — des résultats qui limitent directement ce que les outils de comptabilité par IA peuvent automatiser en toute confiance sans outils externes.

τ-bench : Mesurer la fiabilité des agents IA dans des domaines réels d'utilisation d'outils

Latest articles

Chain-of-Table : Évolution des tableaux dans la chaîne de raisonnement des LLM

TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?

TAPAS : Table QA supervisé de manière faible sans SQL, et ce que cela signifie pour Beancount

MAC-SQL : Collaboration Multi-Agents pour le Text-to-SQL

DIN-SQL : Apprentissage en contexte décomposé pour le Text-to-SQL

Benchmark BIRD : l'écart des bases de données réelles dans le Text-to-SQL par LLM

Utilisation d'outils vérifiablement sûre pour les agents LLM : Quand STPA rencontre MCP

GraphRAG : de la recherche locale à la synthèse globale centrée sur les requêtes

FinAuditing : les LLM obtiennent un score inférieur à 14 % sur des tâches réelles d'audit XBRL de la SEC

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales