AuditCopilot applique des LLM open-source (Mistral-8B, Gemma, Llama-3.1) à la détection de fraude dans les écritures comptables d'entreprises, réduisant les faux positifs de 942 à 12 — mais l'ablation révèle que le LLM fonctionne principalement comme une couche de synthèse au-dessus des scores Isolation Forest, et non comme un détecteur d'anomalies indépendant.
TAT-LLM affine LLaMA 2 7B avec LoRA sur des benchmarks de QA table-texte financiers, atteignant 64,60 % d'EM sur FinQA — dépassant les 63,91 % de GPT-4 — en décomposant le raisonnement en étapes déterministes Extraire-Raisonner-Exécuter qui éliminent les erreurs arithmétiques.
Une comparaison empirique entre le RAG et l'ajustement fin non supervisé sur des LLM de 7 milliards de paramètres montre que le RAG atteint une précision de plus de 0,875 sur les faits postérieurs à la date de coupure, alors que l'ajustement fin plafonne à 0,504 — avec des implications directes pour la conception d'agents Beancount et tout système nécessitant des mises à jour fréquentes des connaissances.
IRCoT entrelace la recherche BM25 avec chaque étape d'une boucle de raisonnement par chaîne de pensée, obtenant un rappel de recherche de +11,3 et un score F1 de +7,1 sur HotpotQA par rapport au RAG en une étape — et démontre qu'un modèle de 3B peut surpasser GPT-3 175B lorsque la stratégie de recherche est adéquate.
FLARE (EMNLP 2023) améliore le RAG standard en déclenchant la récupération en cours de génération à l'aide de seuils de confiance de probabilité de jetons, atteignant 51,0 EM sur 2WikiMultihopQA contre 39,4 pour la récupération unique — mais les échecs de calibration dans les modèles de chat optimisés pour les instructions limitent sa fiabilité pour les agents financiers en production.
L'article de Lewis et al. présenté à NeurIPS 2020 a introduit l'architecture hybride RAG — un générateur BART-large couplé à un récupérateur indexé par FAISS sur 21 millions de passages Wikipédia — atteignant 44,5 EM sur Natural Questions et établissant la séparation paramétrique/non paramétrique qui sous-tend désormais la plupart des systèmes d'IA en production. Cette revue couvre les compromis RAG-Sequence vs RAG-Token, le mode de défaillance par effondrement de la récupération, et ce que des index obsolètes signifient pour l'IA financière construite sur des grands livres Beancount en ajout seul.
MultiHiertt (ACL 2022) présente 10 440 paires de questions-réponses issues de rapports financiers réels comprenant en moyenne 3,89 tableaux hiérarchiques chacun ; les modèles de pointe obtiennent un score F1 de 38 % contre 87 % pour les humains, avec une pénalité de 15 points pour les questions multi-tableaux — quantifiant l'écart de récupération que l'IA financière doit combler.
ConvFinQA (EMNLP 2022) étend FinQA à la conversation multi-tours sur les rapports de résultats du S&P 500, révélant que le meilleur modèle affiné atteint une précision d'exécution de 68,9 % contre 89,4 % pour les experts humains — et tombe à 52,4 % lors de conversations hybrides multi-aspects où les modèles doivent transporter le contexte numérique à travers différents sujets financiers.
TAT-QA est un benchmark de 16 552 questions sur des contextes de rapports financiers hybrides (tableaux et textes) ayant démontré que l'ancrage des preuves — et non l'arithmétique — est le principal goulot d'étranglement de l'IA en finance ; en 2024, des LLM 7B affinés ont atteint 83 % de F1, comblant l'essentiel de l'écart face au plafond humain de 91 %.