AutoGen: Фреймворки мультиагентної взаємодії для ШІ у фінансах
Після того, як Gorilla показала, що одна LLM може навчитися точно викликати тисячі API, виникає логічне запитання: що станеться, якщо дати кільком LLM різні ролі та дозволити їм спілкуватися між собою? AutoGen (Wu et al., 2023) дає відповідь, створюючи фреймворк для мультиагентної взаємодії. Читати це зараз дуже вчасно — більшість виробничих систем ШІ для фінансів, які я бачу сьогодні, за замовчуванням включають щонайменше трьох агентів.
Стаття
AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation (Wu, Bansal, Zhang et al., Microsoft Research, 2023) пропонує фреймворк, де «агенти, здатні до розмови» (conversable agents) — кожен з яких базується на комбінації LLM, інструментів та людського введення — надсилають повідомлення один одному до завершення завдання. Фреймворк представляє два вбудовані типи агентів: AssistantAgent (керований LLM) та UserProxyAgent (який може виконувати код і передавати людське введення), а також GroupChatManager, який регулює черговість ходів у великих ансамблях.
Основна ідея полягає у тому, що автори називають «програмуванням розмов» (conversation programming): замість того, щоб прописувати логіку оркестрації в коді вручну, ви вказуєте, що повинен робити кожен агент за допомогою системних підказок (prompts) природною мовою, а передача повідомлень бере на себе управління потоком виконання. Стаття демонструє це на прикладах розв'язання математичних задач, QA з розширеним пошуком (RAG), прийняття рішень в ALFWorld та застосування для дослідження операцій під назвою OptiGuide.