StructRAG (ICLR 2025) encamina cada consulta a un tipus d'estructura adequat per a la tasca —taula, graf, catàleg, algoritme o fragment— abans del raonament, obtenint 28 punts més que GraphRAG al benchmark Loong mentre s'executa 22 vegades més ràpid, amb l'encaminador entrenat amb DPO representant per si sol un guany de 15 punts en precisió.
Un preprint de Stanford de 2026 iguala els pressupostos de tòquens de pensament en cinc arquitectures multi-agent i descobreix que els LLM d'agent únic igualen o superen els sistemes multi-agent en el raonament de múltiples salts, amb base teòrica en la Desigualtat de Processament de Dades i implicacions per al disseny d'agents d'IA financera.
M3MAD-Bench posa a prova el debat multiagent en 9 models, 5 dominis i entorns de llenguatge visual, i descobreix que el deliri col·lectiu causa el 65% dels errors, el debat adversari redueix la precisió fins a un 12,8% i l'autoconsistència sol igualar la precisió del debat amb un cost de tòquens inferior.
AGrail (ACL 2025) introdueix un guardrail cooperatiu de dos LLM que adapta les comprovacions de seguretat en temps d'inferència mitjançant l'adaptació en temps de prova, aconseguint un 0% d'èxit en atacs d'injecció de prompts i un 95,6% de preservació d'accions benignes a Safe-OS — en comparació amb GuardAgent i LLaMA-Guard que bloquegen fins al 49,2% de les accions legítimes.
ShieldAgent (ICML 2025) substitueix les barreres de seguretat basades en LLM per circuits de regles probabilístics construïts sobre xarxes lògiques de Markov, aconseguint una precisió del 90,4% en atacs contra agents amb un 64,7% menys de crides a l'API — i què significa això per a la seguretat verificable en sistemes d'IA financera.
Atlas (JMLR 2023) aconsegueix una precisió del 42,4% en Natural Questions amb només 64 exemples d'entrenament, superant PaLM 540B per 3 punts utilitzant 11 mil milions de paràmetres, mitjançant el pre-entrenament conjunt d'un recuperador dens basat en Contriever amb un lector T5 Fusion-in-Decoder. L'anàlisi cobreix els límits de la precisió de recuperació, els costos d'infraestructura d'índex de 587 GB i les implicacions per als sistemes de preguntes i respostes de llibres majors de Beancount.
L'arquitectura FiD d'Izacard i Grave codifica independentment els fragments recuperats i després els fusiona en el descodificador, superant RAG-Sequence entre 4 i 11 punts en NQ i TriviaQA. Aquest article examina el disseny i les seves implicacions per a les consultes sobre llibres majors de Beancount, on la síntesi de múltiples entrades entre transaccions és la norma.
GuardAgent (ICML 2025) situa un agent LLM independent entre un agent objectiu i el seu entorn, verificant cada acció proposada mitjançant la generació i execució de codi Python — aconseguint una precisió del 98,7% en l'aplicació de polítiques mentre preserva el 100% de la finalització de tasques, enfront del 81% de precisió i el 29–71% de fracàs en les tasques per a regles de seguretat integrades en el prompt.
Una lectura detinguda de l'article de Du et al. per a l'ICML 2024 sobre el debat multiagent —que informa de guanys de precisió de 14,8 punts en aritmètica— juntament amb les refutacions de 2025 que mostren que agents únics amb el mateix pressupost igualen el rendiment del debat, i una anàlisi de per què el deliri col·lectiu (65% dels errors de debat) planteja riscos específics per a les entrades de llibre major assistides per IA.