Salta al contingut principal

AutoGen: Marcs de conversació multiagent per a la IA financera

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Després que Gorilla demostrés que un sol LLM pot aprendre a cridar milers d'API amb precisió, la pregunta natural és: què passa quan dones a diversos LLM rols diferents i els deixes parlar entre ells? AutoGen (Wu et al., 2023) respon a aquesta pregunta construint un marc per a la conversació multiagent, i llegir-lo ara sembla oportú — la majoria de sistemes d'IA financera en producció que veig dissenyar inclouen almenys tres agents per defecte.

L'article

2026-05-04-autogen-multi-agent-conversation-framework

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation (Wu, Bansal, Zhang et al., Microsoft Research, 2023) proposa un marc on els "agents conversables" —cadascun recolzat per una combinació d'un LLM, eines i intervenció humana— s'envien missatges entre ells fins que es completa una tasca. El marc introdueix dos tipus d'agents integrats: AssistantAgent (impulsat per un LLM) i UserProxyAgent (que pot executar codi i transmetre la intervenció humana), a més d'un GroupChatManager que encamina els torns en conjunts més grans.

La idea central és el que els autors anomenen "programació de converses": en lloc d'escriure manualment la lògica d'orquestració en codi, especifiques què ha de fer cada agent mitjançant indicacions (prompts) del sistema en llenguatge natural i deixes que el pas de missatges gestioni el flux de control. L'article ho demostra en la resolució de problemes matemàtics, control de qualitat (QA) augmentat per recuperació, presa de decisions a ALFWorld i una aplicació de recerca operativa anomenada OptiGuide.

Idees clau

  • Augment de la precisió en la referència MATH: una configuració d'AutoGen de dos agents (un assistent LLM més un intermediari d'execució de codi) arriba al 69,48% en el conjunt de proves MATH, en comparació amb el 55,18% del GPT-4 utilitzat sol — un guany de 14 punts en afegir la retroalimentació de l'execució de codi.
  • L'humà en el bucle és de primera classe: l'UserProxyAgent té un human_input_mode configurable — ALWAYS, NEVER o TERMINATE — el que significa que pots augmentar o reduir la supervisió sense canviar la lògica de l'agent.
  • Xat de grup dinàmic: el GroupChatManager selecciona el següent interlocutor basant-se en l'estat de la conversa en lloc d'un ordre fix de torns, la qual cosa permet que els fluxos de treball es ramifiquin en resposta als resultats que van sorgint.
  • Guany de seguretat d'OptiGuide: adjuntar un agent SafeGuard a un flux de treball d'optimització de la cadena de subministrament va millorar la detecció de codi insegur F1 en 8 punts percentuals en GPT-4 i 35 punts en GPT-3.5, alhora que reduïa la base de codi de l'usuari de 430 línies a 100.
  • Recuperació interactiva: en tasques de QA, l'agent assistent podia sol·licitar context addicional emetent un senyal UPDATE CONTEXT; això es va activar en aproximadament el 19,4% de les preguntes a Natural Questions, i el F1 global va ser del 23,40%.
  • Composabilitat per disseny: qualsevol agent d'AutoGen és en si mateix una "eina" vàlida que un altre agent pot cridar, de manera que les canonades jeràrquiques es componen sense necessitat de codi d'unió especial.

Què es manté ferm — i què no

Els resultats de MATH i ALFWorld són sòlids — comparacions controlades i reproduïbles amb línies de base conegudes amb referències reals. La xifra del 69,48% és significativa perquè aïlla el benefici de la retroalimentació de l'execució de codi dins d'un bucle de conversa estructurat.

El que és més feble és l'anàlisi de costos i latència, o més aviat la seva absència. Cada torn de GroupChat desencadena una crida completa al LLM amb l'historial de conversa acumulat. Un flux de treball de quatre agents amb deu rondes significa un mínim de quaranta crides al LLM, cadascuna amb una finestra de context creixent. L'article mai informa del cost de tokens ni de la latència per a cap de les seves aplicacions. En un pipeline de comptabilitat en viu que processa milers de transaccions, aquesta omissió no és acadèmica — determina si l'enfocament és viable o no.

La metàfora de la programació de converses també és més fràgil del que sembla a les demostracions. El GroupChatManager selecciona el següent interlocutor demanant al LLM que triï d'una llista d'agents. Aquesta selecció és en si mateixa un pas de generació de text probabilístic, la qual cosa significa que el flux de control pot fallar de maneres subtils que no plantegen excepcions. Per a un agent d'escriptura de llibres comptables —on l'ordre de les operacions importa i una crida a una eina mal ubicada podria corrompre una entrada del diari— la selecció no determinista de l'interlocutor és un risc real.

Finalment, les tasques d'avaluació són totes d'una sola sessió i d'horitzó curt. No hi ha cap experiment on els agents acumulin estat al llarg dels dies, gestionin instruccions contradictòries o hagin de resoldre conflictes entre una memòria d'agent més antiga i una entrada de llibre comptable més nova. Aquests són exactament els escenaris que sorgeixen en els fluxos de treball comptables reals.

Per què això és important per a la IA financera

El cas de la IA financera per als sistemes multiagent és senzill: la conciliació, l'assentament i els informes són naturalment preocupacions separades. Un pipeline de Beancount podria tenir un LedgerReaderAgent que consulti el llibre comptable com a només lectura, un ReconcilerAgent que compari les transaccions amb els extractes bancaris, un WriterAgent que proposi noves entrades i un ReviewerAgent que les verifiqui segons les regles del pla de comptes abans que es confirmi qualsevol escriptura. El patró UserProxyAgent d'AutoGen és l'abstracció adequada per al WriterAgent — pot executar l'escriptura real al llibre comptable i retornar el resultat com un missatge que el ReviewerAgent inspecciona.

El resultat del SafeGuard d'OptiGuide és la troballa directament més transferible: afegir un agent de verificació dedicat per detectar accions insegures va millorar substancialment la detecció, i la detecció es va produir dins del bucle de conversa en lloc de com una auditoria post-hoc. Aquesta és exactament l'arquitectura que voldria per a la seguretat d'escriptura de Beancount — un verificador que bloquegi el commit, no un que alerti a posteriori.

El problema de la selecció no determinista de l'interlocutor es pot resoldre: pots anul·lar el GroupChatManager amb una funció de Python determinista que encamini segons el contingut del missatge. Però cal saber que s'ha de fer, i l'article no ho presenta com una preocupació prioritària.

Què llegir a continuació

  • AgentBench: Evaluating LLMs as Agents (Liu et al., arXiv:2308.03688, ICLR 2024) — avalua els LLM en vuit entorns d'agents diferents, inclosos la navegació web, la codificació i la manipulació de bases de dades; la bretxa entre els models comercials i els de codi obert és la troballa clau i informa directament sobre quins models base utilitzar per als pipelines d'agents financers.
  • TradingAgents: Multi-Agents LLM Financial Trading Framework (arXiv:2412.20138) — instancia directament el patró AutoGen per als mercats financers amb agents especialitzats d'analista, investigador, operador i gestor de riscos; els resultats del ràtio de Sharpe i el "drawdown" màxim donen les primeres xifres reals de rendiment per als sistemes financers multiagent.
  • AGENTLESS: Demystifying LLM-based Software Engineering Agents (Xia et al., arXiv:2407.01514) — argumenta que un enfocament senzill de dues fases sense agents (localitzar i després reparar) supera els complexos marcs multiagent a SWE-bench; un contrapès útil a la suposició que tenir més agents sempre ajuda.