StructRAG (ICLR 2025) enruta cada consulta a un tipo de estructura adecuada para la tarea (tabla, grafo, catálogo, algoritmo o fragmento) antes del razonamiento, logrando 28 puntos más que GraphRAG en el benchmark Loong y funcionando 22 veces más rápido, siendo el enrutador entrenado con DPO responsable por sí solo de una ganancia de 15 puntos en precisión.
Un pre-print de Stanford de 2026 iguala los presupuestos de tokens de pensamiento en cinco arquitecturas multiagente y descubre que los LLM de agente único igualan o superan a los sistemas multiagente en el razonamiento de saltos múltiples, con una base teórica en la Desigualdad de Procesamiento de Datos e implicaciones para el diseño de agentes de IA financiera.
M3MAD-Bench pone a prueba el debate multi-agente en 9 modelos, 5 dominios y entornos de visión-lenguaje, encontrando que el delirio colectivo causa el 65% de los fallos, el debate adversarial reduce la precisión hasta en un 12,8% y la autoconsistencia suele igualar la precisión del debate con un menor coste de tokens.
AGrail (ACL 2025) presenta una pasarela cooperativa de dos LLM que adapta las comprobaciones de seguridad en el momento de la inferencia mediante la adaptación en tiempo de prueba, logrando un 0% de éxito en ataques de inyección de prompts y un 95,6% de preservación de acciones benignas en Safe-OS — en comparación con GuardAgent y LLaMA-Guard que bloquean hasta el 49,2% de las acciones legítimas.
ShieldAgent (ICML 2025) reemplaza las protecciones basadas en LLM con circuitos de reglas probabilísticas construidos sobre Redes Lógicas de Markov, logrando una precisión del 90.4% en ataques a agentes con un 64.7% menos de llamadas a la API — y lo que esto significa para la seguridad verificable en sistemas de IA financiera.
Atlas (JMLR 2023) logra una precisión del 42,4% en Natural Questions con solo 64 ejemplos de entrenamiento —superando a PaLM 540B por 3 puntos usando 11B de parámetros— mediante el preentrenamiento conjunto de un recuperador denso basado en Contriever con un lector T5 Fusion-in-Decoder. El análisis cubre los límites de precisión de recuperación, los costos de infraestructura de un índice de 587GB y las implicaciones para los sistemas de QA de libros contables de Beancount.
La arquitectura FiD de Izacard y Grave codifica de forma independiente los pasajes recuperados y luego los fusiona en el decodificador, superando a RAG-Sequence por 4–11 puntos en NQ y TriviaQA. Este post examina el diseño y sus implicaciones para el QA de libros mayores de Beancount, donde la síntesis de múltiples entradas a través de transacciones es la norma.
GuardAgent (ICML 2025) sitúa un agente de LLM independiente entre un agente objetivo y su entorno, verificando cada acción propuesta mediante la generación y ejecución de código Python; logra una precisión del 98.7% en la aplicación de políticas y mantiene el 100% de la finalización de tareas, en comparación con el 81% de precisión y el 29-71% de fallos en tareas de las reglas de seguridad integradas en el prompt.
Una lectura detallada del artículo sobre debate multiagente de Du et al. en ICML 2024 —que informa ganancias de precisión de 14.8 puntos en aritmética— junto con refutaciones de 2025 que muestran que los agentes individuales con el mismo presupuesto igualan el rendimiento del debate, y un análisis de por qué la delusión colectiva (65% de los fallos del debate) plantea riesgos específicos para los registros asistidos por IA.