Una lectura crítica de l'enquesta de Xu i Ding per a la NAACL 2025 sobre la detecció d'anomalies i OOD basada en LLM: la taxonomia detecció-vs-generació es manté, però l'absència gairebé total de cobertura tabular significa que els professionals de la IA financera han de sintetitzar els coneixements dels models de visió ells mateixos.
Fin-RATE avalua 17 LLM en 7.500 parells de preguntes i respostes seleccionades per experts de 2.472 documents de la SEC, revelant un col·lapse de la precisió del 18,60% en el seguiment longitudinal i una caiguda de 54 punts per al model Fin-R1 especialitzat en finances en tasques entre entitats, amb el pipeline de recuperació, i no el model base, com el coll d'ampolla principal.
L'article de TACL 2024 de Liu et al. mostra que els LLM funcionen fins a 20 punts pitjor amb la informació enterrada al mig de contextos llargs —una degradació en forma de U que afecta tots els models provats, inclòs Claude-1.3-100K— amb implicacions concretes sobre com les canalitzacions RAG haurien d'ordenar els fragments recuperats en aplicacions de finances i comptabilitat.
AD-LLM avalua GPT-4o i Llama 3.1 8B en tres rols de detecció d'anomalies —detector zero-shot, augmentador de dades i selector de models— en cinc conjunts de dades de PNL; GPT-4o arriba a un AUROC de 0,93–0,99 zero-shot, però la selecció de models basada en LLM continua sent poc fiable, amb implicacions directes per a la IA d'auditoria financera.
τ-bench mostra que els millors LLM com Claude 3.5 Sonnet cauen d'un pass@1 de 0,692 a un pass@4 de 0,462 en tasques d'atenció al client minorista — un penya-segat de consistència amb implicacions directes per a qualsevol agent d'escriptura que operi en un llibre major de Beancount.
ConvFinQA (EMNLP 2022) estén FinQA a converses multi-torn sobre informes de resultats de l'S&P 500, trobant que el millor model ajustat aconsegueix un 68,9% de precisió d'execució enfront del 89,4% dels experts humans—i cau al 52,4% en converses híbrides on els models han de mantenir el context numèric entre diferents temes financers.
FinanceBench avalua 16 configuracions d'IA amb 10.231 preguntes de documents reals de la SEC; el RAG de magatzem de vectors compartit respon correctament només el 19% de les vegades, i fins i tot GPT-4-Turbo amb el fragment d'oracle arriba només al 85% de precisió, cosa que demostra que el raonament numèric, i no la recuperació, és el factor limitant per a la IA en les finances empresarials.
L'auto-consistència substitueix la descodificació voraç de la cadena de pensament per una votació majoritària sobre N rutes de raonament mostrejades —millorant la precisió de GPT-3 a GSM8K en 17,9 punts percentuals sense cap ajust fi— i s'aplica directament als càlculs financers de diversos passos on una única descodificació de LLM no és fiable.