AuditCopilot aplica LLM de codi obert (Mistral-8B, Gemma, Llama-3.1) a la detecció de frau en assentaments comptables corporatius, reduint els falsos positius de 942 a 12 — però l'ablació revela que l'LLM funciona principalment com una capa de síntesi sobre les puntuacions d'Isolation Forest, no com un detector d'anomalies independent.
TAT-LLM ajusta LLaMA 2 7B amb LoRA en referents de preguntes i respostes de taules i textos financers, assolint un 64,60% d'EM a FinQA —superant el 63,91% de GPT-4— mitjançant la descomposició del raonament en passos deterministes d'Extracció-Raonament-Execució que eliminen els errors aritmètics.
La comparació empírica de RAG vs. l'ajustament fi no supervisat en LLM de 7.000 milions de paràmetres mostra que el RAG aconsegueix una precisió de més de 0,875 en fets posteriors a la data de tall, mentre que l'ajustament fi s'estanca en 0,504, amb implicacions directes per al disseny d'agents de Beancount i qualsevol sistema que requereixi actualitzacions freqüents de coneixement.
IRCoT entrellaça la recuperació BM25 amb cada pas d'un bucle de raonament de cadena de pensament, aconseguint +11,3 en recuperació i +7,1 en F1 a HotpotQA respecte al RAG d'un sol pas — i demostra que un model de 3B pot superar el GPT-3 de 175B quan l'estratègia de recuperació és la correcta.
FLARE (EMNLP 2023) millora el RAG estàndard activant la recuperació a mitja generació mitjançant llindars de confiança de probabilitat de tokens, assolint un 51,0 EM a 2WikiMultihopQA en comparació amb el 39,4 de la recuperació única — però els errors de calibratge en models de xat ajustats per instruccions limiten la seva fiabilitat per a agents financers de producció.
L'article de Lewis et al. per al NeurIPS 2020 va introduir l'arquitectura híbrida RAG —un generador BART-large emparellat amb un recuperador indexat per FAISS sobre 21 milions de passatges de la Viquipèdia— assolint un 44,5 d'EM en Natural Questions i establint la divisió paramètrica/no paramètrica que actualment sustenta la majoria de sistemes d'IA en producció. Aquesta revisió cobreix les compensacions entre RAG-Sequence i RAG-Token, el mode de fallada per col·lapse de recuperació i què signifiquen els índexs obsolets per a la IA financera basada en llibres de comptabilitat Beancount de només addició.
MultiHiertt (ACL 2022) presenta 10.440 parells de preguntes i respostes d'informes financers reals amb una mitjana de 3,89 taules jeràrquiques cadascun; els models d'última generació obtenen un 38% de puntuació F1 en comparació amb el 87% dels humans, amb una penalització de 15 punts per a les preguntes entre taules, quantificant la bretxa de recuperació que l'IA financera ha de tancar.
ConvFinQA (EMNLP 2022) estén FinQA a converses multi-torn sobre informes de resultats de l'S&P 500, trobant que el millor model ajustat aconsegueix un 68,9% de precisió d'execució enfront del 89,4% dels experts humans—i cau al 52,4% en converses híbrides on els models han de mantenir el context numèric entre diferents temes financers.
TAT-QA és un benchmark de 16.552 preguntes sobre contextos híbrids de taula i text d'informes financers que ha demostrat que la fonamentació de l'evidència —i no l'aritmètica— és el coll d'ampolla principal en l'IA financera; el 2024, els LLM de 7B ajustats van assolir un F1 del 83%, tancant la major part de la bretxa respecte al sostre humà del 91%.