Mike Thrift
Marketing Manager
GuardAgent: Cumplimiento de seguridad determinista para agentes de LLM mediante ejecución de código
GuardAgent (ICML 2025) sitúa un agente de LLM independiente entre un agente objetivo y su entorno, verificando cada acción propuesta mediante la generación y ejecución de código Python; logra una precisión del 98.7% en la aplicación de políticas y mantiene el 100% de la finalización de tareas, en comparación con el 81% de precisión y el 29-71% de fallos en tareas de las reglas de seguridad integradas en el prompt.
Debate de LLM multiagente: Ganancias reales de precisión, cómputo no controlado y delusión colectiva
Una lectura detallada del artículo sobre debate multiagente de Du et al. en ICML 2024 —que informa ganancias de precisión de 14.8 puntos en aritmética— junto con refutaciones de 2025 que muestran que los agentes individuales con el mismo presupuesto igualan el rendimiento del debate, y un análisis de por qué la delusión colectiva (65% de los fallos del debate) plantea riesgos específicos para los registros asistidos por IA.
Los LLM no son útiles para el pronóstico de series temporales: lo que NeurIPS 2024 significa para la IA financiera
Un artículo Spotlight de NeurIPS 2024 analiza tres métodos de pronóstico de series temporales basados en LLM (OneFitsAll, Time-LLM y CALF) y descubre que eliminar el modelo de lenguaje mejora la precisión en la mayoría de los casos, con una aceleración del entrenamiento de hasta 1,383 veces. Para aplicaciones de IA financiera como la predicción de saldos en Beancount, los modelos ligeros diseñados específicamente superan consistentemente a los LLM reutilizados.
AuditCopilot: LLMs para la detección de fraude en contabilidad de partida doble
AuditCopilot aplica LLMs de código abierto (Mistral-8B, Gemma, Llama-3.1) a la detección de fraude en asientos de diario corporativos, reduciendo los falsos positivos de 942 a 12; sin embargo, la ablación revela que el LLM funciona principalmente como una capa de síntesis sobre las puntuaciones de Isolation Forest, no como un detector de anomalías independiente.
TAT-LLM: LLaMA 2 ajustado para razonamiento discreto sobre tablas y textos financieros
TAT-LLM ajusta LLaMA 2 7B con LoRA en benchmarks de QA de tablas y textos financieros, logrando un 64,60% de EM en FinQA — superando el 63,91% de GPT-4 — al descomponer el razonamiento en pasos deterministas de Extracción-Razonamiento-Ejecución que eliminan errores aritméticos.
Ajuste fino (Fine-Tuning) vs. RAG: Por qué la recuperación gana al inyectar nuevo conocimiento en LLMs
La comparación empírica de RAG frente al ajuste fino no supervisado en LLMs de 7 mil millones de parámetros muestra que RAG alcanza una precisión de más de 0,875 en hechos posteriores al corte de conocimiento, mientras que el ajuste fino se estanca en 0,504, con implicaciones directas para el diseño de agentes de Beancount y cualquier sistema que requiera actualizaciones frecuentes de conocimiento.
IRCoT: Entrelazando la Recuperación con Cadena de Pensamiento para QA de Múltiples Pasos
IRCoT entrelaza la recuperación BM25 con cada paso de un bucle de razonamiento de cadena de pensamiento, logrando +11.3 en recuperación y +7.1 en F1 en HotpotQA sobre RAG de un solo paso — y muestra que un modelo de 3B puede superar a GPT-3 de 175B cuando la estrategia de recuperación es la adecuada.
FLARE: Generación Aumentada por Recuperación Activa
FLARE (EMNLP 2023) mejora el RAG estándar al activar la recuperación a mitad de la generación mediante umbrales de confianza de probabilidad de tokens, alcanzando un 51.0 EM en 2WikiMultihopQA frente al 39.4 de la recuperación única; sin embargo, los fallos de calibración en los modelos de chat ajustados por instrucciones limitan su fiabilidad para agentes financieros de producción.
Generación aumentada por recuperación para tareas de PLN con uso intensivo de conocimiento
El artículo de Lewis et al. de NeurIPS 2020 introdujo la arquitectura híbrida RAG —un generador BART-large emparejado con un recuperador indexado por FAISS sobre 21 millones de pasajes de Wikipedia— logrando 44.5 EM en Natural Questions y estableciendo la división paramétrica/no paramétrica que ahora subyace en la mayoría de los sistemas de IA en producción. Esta revisión cubre los compromisos entre RAG-Sequence y RAG-Token, el modo de fallo de colapso de recuperación y lo que significan los índices obsoletos para la IA financiera construida sobre libros de contabilidad Beancount de solo adición.
MultiHiertt: Evaluación del razonamiento numérico en tablas financieras multi-jerárquicas
MultiHiertt (ACL 2022) presenta 10,440 pares de preguntas y respuestas de informes financieros reales con un promedio de 3.89 tablas jerárquicas cada uno; los modelos de vanguardia obtienen un F1 del 38% frente al 87% de los humanos, con una penalización de 15 puntos para las preguntas entre tablas, cuantificando la brecha de recuperación que la IA financiera debe cerrar.
ConvFinQA: QA financiero de turnos múltiples y la brecha de 21 puntos entre modelos y expertos humanos
ConvFinQA (EMNLP 2022) extiende FinQA a conversaciones de turnos múltiples sobre informes de ganancias del S&P 500, encontrando que el mejor modelo ajustado logra una precisión de ejecución del 68,9% frente al 89,4% de los expertos humanos, y cae al 52,4% en conversaciones híbridas de múltiples aspectos donde los modelos deben mantener el contexto numérico a través de diferentes temas financieros.
TAT-QA: Benchmark de QA Híbrido de Tabla y Texto para el Razonamiento de Informes Financieros Anuales
TAT-QA es un benchmark de 16.552 preguntas sobre contextos de informes financieros híbridos de tabla más texto que demostró que la fundamentación en la evidencia —no la aritmética— es el cuello de botella central en la IA financiera; para 2024, los LLM de 7B ajustados alcanzaron un 83% de F1, cerrando la mayor parte de la brecha frente al techo humano del 91%.