AuditCopilot aplica LLMs de código abierto (Mistral-8B, Gemma, Llama-3.1) a la detección de fraude en asientos de diario corporativos, reduciendo los falsos positivos de 942 a 12; sin embargo, la ablación revela que el LLM funciona principalmente como una capa de síntesis sobre las puntuaciones de Isolation Forest, no como un detector de anomalías independiente.
TAT-LLM ajusta LLaMA 2 7B con LoRA en benchmarks de QA de tablas y textos financieros, logrando un 64,60% de EM en FinQA — superando el 63,91% de GPT-4 — al descomponer el razonamiento en pasos deterministas de Extracción-Razonamiento-Ejecución que eliminan errores aritméticos.
La comparación empírica de RAG frente al ajuste fino no supervisado en LLMs de 7 mil millones de parámetros muestra que RAG alcanza una precisión de más de 0,875 en hechos posteriores al corte de conocimiento, mientras que el ajuste fino se estanca en 0,504, con implicaciones directas para el diseño de agentes de Beancount y cualquier sistema que requiera actualizaciones frecuentes de conocimiento.
IRCoT entrelaza la recuperación BM25 con cada paso de un bucle de razonamiento de cadena de pensamiento, logrando +11.3 en recuperación y +7.1 en F1 en HotpotQA sobre RAG de un solo paso — y muestra que un modelo de 3B puede superar a GPT-3 de 175B cuando la estrategia de recuperación es la adecuada.
FLARE (EMNLP 2023) mejora el RAG estándar al activar la recuperación a mitad de la generación mediante umbrales de confianza de probabilidad de tokens, alcanzando un 51.0 EM en 2WikiMultihopQA frente al 39.4 de la recuperación única; sin embargo, los fallos de calibración en los modelos de chat ajustados por instrucciones limitan su fiabilidad para agentes financieros de producción.
El artículo de Lewis et al. de NeurIPS 2020 introdujo la arquitectura híbrida RAG —un generador BART-large emparejado con un recuperador indexado por FAISS sobre 21 millones de pasajes de Wikipedia— logrando 44.5 EM en Natural Questions y estableciendo la división paramétrica/no paramétrica que ahora subyace en la mayoría de los sistemas de IA en producción. Esta revisión cubre los compromisos entre RAG-Sequence y RAG-Token, el modo de fallo de colapso de recuperación y lo que significan los índices obsoletos para la IA financiera construida sobre libros de contabilidad Beancount de solo adición.
MultiHiertt (ACL 2022) presenta 10,440 pares de preguntas y respuestas de informes financieros reales con un promedio de 3.89 tablas jerárquicas cada uno; los modelos de vanguardia obtienen un F1 del 38% frente al 87% de los humanos, con una penalización de 15 puntos para las preguntas entre tablas, cuantificando la brecha de recuperación que la IA financiera debe cerrar.
ConvFinQA (EMNLP 2022) extiende FinQA a conversaciones de turnos múltiples sobre informes de ganancias del S&P 500, encontrando que el mejor modelo ajustado logra una precisión de ejecución del 68,9% frente al 89,4% de los expertos humanos, y cae al 52,4% en conversaciones híbridas de múltiples aspectos donde los modelos deben mantener el contexto numérico a través de diferentes temas financieros.
TAT-QA es un benchmark de 16.552 preguntas sobre contextos de informes financieros híbridos de tabla más texto que demostró que la fundamentación en la evidencia —no la aritmética— es el cuello de botella central en la IA financiera; para 2024, los LLM de 7B ajustados alcanzaron un 83% de F1, cerrando la mayor parte de la brecha frente al techo humano del 91%.