Aller au contenu principal

Bean Labs Research Log

Les LLM ne sont pas utiles pour la prévision de séries temporelles : ce que NeurIPS 2024 signifie pour l'IA financière

Un article Spotlight de NeurIPS 2024 analyse par ablation trois méthodes de prévision de séries temporelles basées sur les LLM — OneFitsAll, Time-LLM et CALF — et constate que la suppression du modèle de langage améliore la précision dans la plupart des cas, avec une accélération de l'entraînement allant jusqu'à 1 383×. Pour les applications d'IA financière comme la prédiction de solde Beancount, les modèles légers dédiés surpassent systématiquement les LLM détournés de leur usage initial.

Latest articles

AuditCopilot : les LLM pour la détection de fraude en comptabilité en partie double

AuditCopilot applique des LLM open-source (Mistral-8B, Gemma, Llama-3.1) à la détection de fraude dans les écritures comptables d'entreprises, réduisant les faux positifs de 942 à 12 — mais l'ablation révèle que le LLM fonctionne principalement comme une couche de synthèse au-dessus des scores Isolation Forest, et non comme un détecteur d'anomalies indépendant.

Fine-Tuning vs RAG : Pourquoi la récupération l'emporte pour l'injection de nouvelles connaissances dans les LLM

Une comparaison empirique entre le RAG et l'ajustement fin non supervisé sur des LLM de 7 milliards de paramètres montre que le RAG atteint une précision de plus de 0,875 sur les faits postérieurs à la date de coupure, alors que l'ajustement fin plafonne à 0,504 — avec des implications directes pour la conception d'agents Beancount et tout système nécessitant des mises à jour fréquentes des connaissances.

IRCoT : Entrelacer la recherche d'information avec la chaîne de pensée pour les questions-réponses multi-étapes

IRCoT entrelace la recherche BM25 avec chaque étape d'une boucle de raisonnement par chaîne de pensée, obtenant un rappel de recherche de +11,3 et un score F1 de +7,1 sur HotpotQA par rapport au RAG en une étape — et démontre qu'un modèle de 3B peut surpasser GPT-3 175B lorsque la stratégie de recherche est adéquate.

FLARE : Génération augmentée par récupération active

FLARE (EMNLP 2023) améliore le RAG standard en déclenchant la récupération en cours de génération à l'aide de seuils de confiance de probabilité de jetons, atteignant 51,0 EM sur 2WikiMultihopQA contre 39,4 pour la récupération unique — mais les échecs de calibration dans les modèles de chat optimisés pour les instructions limitent sa fiabilité pour les agents financiers en production.

Génération augmentée par récupération pour les tâches de TAL à forte intensité de connaissances

L'article de Lewis et al. présenté à NeurIPS 2020 a introduit l'architecture hybride RAG — un générateur BART-large couplé à un récupérateur indexé par FAISS sur 21 millions de passages Wikipédia — atteignant 44,5 EM sur Natural Questions et établissant la séparation paramétrique/non paramétrique qui sous-tend désormais la plupart des systèmes d'IA en production. Cette revue couvre les compromis RAG-Sequence vs RAG-Token, le mode de défaillance par effondrement de la récupération, et ce que des index obsolètes signifient pour l'IA financière construite sur des grands livres Beancount en ajout seul.

MultiHiertt : Évaluation du raisonnement numérique sur des tableaux financiers multi-hiérarchiques

MultiHiertt (ACL 2022) présente 10 440 paires de questions-réponses issues de rapports financiers réels comprenant en moyenne 3,89 tableaux hiérarchiques chacun ; les modèles de pointe obtiennent un score F1 de 38 % contre 87 % pour les humains, avec une pénalité de 15 points pour les questions multi-tableaux — quantifiant l'écart de récupération que l'IA financière doit combler.

ConvFinQA : QA financière multi-tours et l'écart de 21 points entre modèles et experts humains

ConvFinQA (EMNLP 2022) étend FinQA à la conversation multi-tours sur les rapports de résultats du S&P 500, révélant que le meilleur modèle affiné atteint une précision d'exécution de 68,9 % contre 89,4 % pour les experts humains — et tombe à 52,4 % lors de conversations hybrides multi-aspects où les modèles doivent transporter le contexte numérique à travers différents sujets financiers.

TAT-QA : Un benchmark de QA hybride tableau-texte pour le raisonnement sur les rapports annuels financiers

TAT-QA est un benchmark de 16 552 questions sur des contextes de rapports financiers hybrides (tableaux et textes) ayant démontré que l'ancrage des preuves — et non l'arithmétique — est le principal goulot d'étranglement de l'IA en finance ; en 2024, des LLM 7B affinés ont atteint 83 % de F1, comblant l'essentiel de l'écart face au plafond humain de 91 %.