Bean Labs Research Log

Fraud DetectionLLMDouble-EntryJournal EntriesAIMachine LearningComplianceBookkeeping

AuditCopilot : les LLM pour la détection de fraude en comptabilité en partie double

AuditCopilot applique des LLM open-source (Mistral-8B, Gemma, Llama-3.1) à la détection de fraude dans les écritures comptables d'entreprises, réduisant les faux positifs de 942 à 12 — mais l'ablation révèle que le LLM fonctionne principalement comme une couche de synthèse au-dessus des scores Isolation Forest, et non comme un détecteur d'anomalies indépendant.

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM : LLaMA 2 affiné pour le raisonnement discret sur les tableaux et textes financiers

TAT-LLM affine LLaMA 2 7B avec LoRA sur des benchmarks de QA table-texte financiers, atteignant 64,60 % d'EM sur FinQA — dépassant les 63,91 % de GPT-4 — en décomposant le raisonnement en étapes déterministes Extraire-Raisonner-Exécuter qui éliminent les erreurs arithmétiques.

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

Fine-Tuning vs RAG : Pourquoi la récupération l'emporte pour l'injection de nouvelles connaissances dans les LLM

Une comparaison empirique entre le RAG et l'ajustement fin non supervisé sur des LLM de 7 milliards de paramètres montre que le RAG atteint une précision de plus de 0,875 sur les faits postérieurs à la date de coupure, alors que l'ajustement fin plafonne à 0,504 — avec des implications directes pour la conception d'agents Beancount et tout système nécessitant des mises à jour fréquentes des connaissances.

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT : Entrelacer la recherche d'information avec la chaîne de pensée pour les questions-réponses multi-étapes

IRCoT entrelace la recherche BM25 avec chaque étape d'une boucle de raisonnement par chaîne de pensée, obtenant un rappel de recherche de +11,3 et un score F1 de +7,1 sur HotpotQA par rapport au RAG en une étape — et démontre qu'un modèle de 3B peut surpasser GPT-3 175B lorsque la stratégie de recherche est adéquate.

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE : Génération augmentée par récupération active

FLARE (EMNLP 2023) améliore le RAG standard en déclenchant la récupération en cours de génération à l'aide de seuils de confiance de probabilité de jetons, atteignant 51,0 EM sur 2WikiMultihopQA contre 39,4 pour la récupération unique — mais les échecs de calibration dans les modèles de chat optimisés pour les instructions limitent sa fiabilité pour les agents financiers en production.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancount

Génération augmentée par récupération pour les tâches de TAL à forte intensité de connaissances

L'article de Lewis et al. présenté à NeurIPS 2020 a introduit l'architecture hybride RAG — un générateur BART-large couplé à un récupérateur indexé par FAISS sur 21 millions de passages Wikipédia — atteignant 44,5 EM sur Natural Questions et établissant la séparation paramétrique/non paramétrique qui sous-tend désormais la plupart des systèmes d'IA en production. Cette revue couvre les compromis RAG-Sequence vs RAG-Token, le mode de défaillance par effondrement de la récupération, et ce que des index obsolètes signifient pour l'IA financière construite sur des grands livres Beancount en ajout seul.

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt : Évaluation du raisonnement numérique sur des tableaux financiers multi-hiérarchiques

MultiHiertt (ACL 2022) présente 10 440 paires de questions-réponses issues de rapports financiers réels comprenant en moyenne 3,89 tableaux hiérarchiques chacun ; les modèles de pointe obtiennent un score F1 de 38 % contre 87 % pour les humains, avec une pénalité de 15 points pour les questions multi-tableaux — quantifiant l'écart de récupération que l'IA financière doit combler.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA : QA financière multi-tours et l'écart de 21 points entre modèles et experts humains

ConvFinQA (EMNLP 2022) étend FinQA à la conversation multi-tours sur les rapports de résultats du S&P 500, révélant que le meilleur modèle affiné atteint une précision d'exécution de 68,9 % contre 89,4 % pour les experts humains — et tombe à 52,4 % lors de conversations hybrides multi-aspects où les modèles doivent transporter le contexte numérique à travers différents sujets financiers.

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA : Un benchmark de QA hybride tableau-texte pour le raisonnement sur les rapports annuels financiers

TAT-QA est un benchmark de 16 552 questions sur des contextes de rapports financiers hybrides (tableaux et textes) ayant démontré que l'ancrage des preuves — et non l'arithmétique — est le principal goulot d'étranglement de l'IA en finance ; en 2024, des LLM 7B affinés ont atteint 83 % de F1, comblant l'essentiel de l'écart face au plafond humain de 91 %.

Les LLM ne sont pas utiles pour la prévision de séries temporelles : ce que NeurIPS 2024 signifie pour l'IA financière

Latest articles

AuditCopilot : les LLM pour la détection de fraude en comptabilité en partie double

TAT-LLM : LLaMA 2 affiné pour le raisonnement discret sur les tableaux et textes financiers

Fine-Tuning vs RAG : Pourquoi la récupération l'emporte pour l'injection de nouvelles connaissances dans les LLM

IRCoT : Entrelacer la recherche d'information avec la chaîne de pensée pour les questions-réponses multi-étapes

FLARE : Génération augmentée par récupération active

Génération augmentée par récupération pour les tâches de TAL à forte intensité de connaissances

MultiHiertt : Évaluation du raisonnement numérique sur des tableaux financiers multi-hiérarchiques

ConvFinQA : QA financière multi-tours et l'écart de 21 points entre modèles et experts humains

TAT-QA : Un benchmark de QA hybride tableau-texte pour le raisonnement sur les rapports annuels financiers

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales