Los LLM de agente único superan a los sistemas multiagente en el razonamiento de saltos múltiples bajo presupuestos iguales de tokens de pensamiento
Después de dedicar varias entradas de registro al debate multiagente y a las arquitecturas de barandillas (guardrails), quería poner a prueba la premisa: ¿orquestar múltiples LLM realmente nos proporciona un mejor razonamiento, o simplemente estamos gastando más cómputo? Dat Tran y Douwe Kiela de Stanford se preguntan exactamente eso en un pre-print publicado en abril de 2026, y la respuesta es incómoda para los evangelistas de los sistemas multiagente.
El artículo
"Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets" (arXiv:2604.02460) plantea un punto metodológico engañosamente simple: casi todas las evaluaciones comparativas multiagente comparan un solo agente con un sistema multiagente que utiliza significativamente más computación. Una vez que se mantiene constante el presupuesto de tokens de pensamiento —igualando los tokens de razonamiento intermedio, excluyendo los prompts y las respuestas finales— los agentes individuales igualan o superan a los sistemas multiagente en tareas de razonamiento de saltos múltiples.
Los autores enmarcan esto con un argumento de teoría de la información a través de la Desigualdad de Procesamiento de Datos (DPI). Cuando un agente pasa un mensaje a otro, el agente receptor trabaja a partir de una versión procesada del contexto original, no del contexto en sí. La información solo puede perderse o permanecer igual en esa cadena; nunca ganarse. Por lo tanto, la DPI predice que la descomposición multiagente introduce cuellos de botella de comunicación inevitables, y los sistemas multiagente solo pueden superar a los agentes individuales cuando la utilización efectiva del contexto de un solo agente ya está degradada.
Ideas clave
- El estudio controla los "tokens de pensamiento" —solo tokens de razonamiento intermedio— a través de seis presupuestos de tokens de 100 a 10,000 tokens, utilizando tres familias de modelos: Qwen3-30B, DeepSeek-R1-Distill-Llama-70B y Gemini 2.5.
- Se evalúan cinco arquitecturas multiagente: secuencial, subtareas en paralelo, roles en paralelo, debate y conjunto (ensemble).
- Las evaluaciones comparativas utilizadas son FRAMES (824 preguntas desafiantes de saltos múltiples que requieren la integración de múltiples fuentes) y MuSiQue (preguntas de conocimiento mundial de 4 saltos).
- Los sistemas de agente único (SAS) lograron la precisión más alta o estadísticamente equivalente en casi todas las condiciones de presupuesto igualado. La precisión de los SAS osciló entre 0.280 y 0.427; las variantes multiagente (MAS) comparables promediaron entre 0.280 y 0.420.
- El modo de falla característico de los MAS es la sobreexploración y la deriva: los agentes exploran subpreguntas sin podar y pierden el rastro de la consulta original. El SAS mantiene un anclaje léxico más fuerte con la pregunta original.
- La predicción de la DPI se mantiene empíricamente: bajo una fuerte degradación del contexto (enmascaramiento o sustitución en α=0.7), los sistemas multiagente se vuelven competitivos, pero solo entonces.
Qué se sostiene — y qué no
La metodología central es el movimiento correcto. El campo tiene un problema de reproducibilidad con las evaluaciones comparativas multiagente precisamente porque el cómputo rara vez se mantiene constante, y la insistencia de los autores en presupuestos de pensamiento igualados es una contribución genuina. El encuadre de la DPI es nítido, y la predicción experimental que genera —que los MAS ayudan cuando la utilización del contexto falla— se verifica en tres familias de modelos, lo que añade credibilidad.
Dicho esto, varios vacíos son importantes. El artículo evalúa solo el razonamiento de saltos múltiples basado en texto. Excluye explícitamente el uso de herramientas, la ejecución de código y las tareas de visión. Esa exclusión es significativa: la mayoría de los sistemas multiagente en producción que se despliegan actualmente no realizan puras preguntas y respuestas de texto, sino que orquestan llamadas a herramientas, búsquedas en API o intérpretes de código entre agentes. El argumento de la DPI sobre el paso de mensajes entre agentes es teóricamente aplicable a estos entornos, pero la afirmación empírica no ha sido validada allí.
Se reconoce que el control del presupuesto de tokens de Gemini es aproximado; los autores desarrollaron una variante especial SAS-L con prompting estructurado porque el canal de pensamiento de Gemini parecía subutilizado en el modo estándar de agente único. Ese es un factor de confusión que vale la pena examinar. Si la contabilidad de tokens de pensamiento no es confiable para una de las tres familias de modelos, la afirmación de igualación de presupuesto se vuelve más difícil de interpretar.
Dos evaluaciones comparativas también es poco para una afirmación arquitectónica general. FRAMES tiene solo 824 preguntas; MuSiQue es una evaluación estándar pero no cubre toda la diversidad de estructuras de saltos múltiples. Y el artículo no aborda cómo cambia la brecha entre agente único y multiagente a medida que escala la capacidad del modelo; el resultado podría ser una propiedad de los tamaños de los modelos actuales en lugar de un hallazgo arquitectónico fundamental.
Por qué esto importa para la IA financiera
La conexión con Bean Labs es real pero necesita precisión. Para un agente de escritura de Beancount, la arquitectura que más me interesa es un par de escritor-verificador: un agente genera una entrada de libro mayor y otro la verifica para el cumplimiento de políticas antes de confirmarla. Eso no es una sesión de preguntas y respuestas de texto de saltos múltiples; es un flujo secuencial de uso de herramientas donde el verificador examina un artefacto propuesto en lugar de volver a procesar el mismo contexto original. El argumento de la DPI se aplica de forma laxa: un agente de verificación independiente que trabaje a partir de la entrada propuesta todavía no puede recuperar hechos que el escritor descartó. Pero el cuello de botella en la práctica es la recuperación de reglas de política y la corrección aritmética, no la pérdida de información a través de los mensajes.
Donde este artículo impacta más directamente es en las arquitecturas de debate consideradas en registros anteriores (Du et al., M3MAD-Bench). Si el objetivo es un par de agentes en debate para detectar errores en el libro mayor, y si ambos agentes tienen el mismo presupuesto total de pensamiento que un solo agente con razonamiento extendido, la evidencia aquí sugiere que el enfoque de agente único es más confiable. El hallazgo de que los MAS son competitivos solo cuando el contexto está muy degradado también importa: para las entradas de Beancount bien estructuradas, donde el contexto es limpio y está bien formado, la ventaja del agente único debería mantenerse.
La lección práctica es desconfiar de la complejidad multiagente a menos que se tenga una razón específica para creer que la utilización del contexto es el cuello de botella. Para la mayoría de las tareas de consultas al libro mayor, probablemente no lo sea.
Qué leer a continuación
- Mixture-of-Agents Enhances Large Language Model Capabilities (arXiv:2406.04692) — el artículo cuyas afirmaciones de AlpacaEval son desafiadas más directamente por este; vale la pena leerlo para entender exactamente qué suposiciones de presupuesto hizo.
- "Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key?" (arXiv:2402.18272, ACL 2024) — una versión anterior de esencialmente el mismo hallazgo: un solo agente con buenos prompts iguala la discusión multiagente; útil para ver cómo ha evolucionado la crítica.
- Literatura sobre escalado de cómputo en tiempo de prueba (DeepSeek-R1, ficha de sistema de OpenAI o1) — la pregunta más amplia es dónde ayuda realmente el cómputo de inferencia adicional, y una cadena de pensamiento extendida dentro de un solo modelo puede ser la respuesta más robusta.
