Перейти к контенту
Multi-Agent

Все о Multi-Agent

2 статей
Multi-agent LLM frameworks and architectures for collaborative financial automation

M3MAD-Bench: Действительно ли многоагентные дебаты эффективны в различных областях и модальностях?

M3MAD-Bench проводит стресс-тестирование многоагентных дебатов на 9 моделях в 5 областях и мультимодальных условиях. Выяснилось, что «Коллективное заблуждение» вызывает 65% сбоев, состязательные дебаты снижают точность на величину до 12,8%, а метод Self-Consistency обычно достигает сопоставимой точности при меньших затратах токенов.

AutoGen: Фреймворки многоагентного диалога для ИИ в финансах

AutoGen (Wu et al., 2023) представляет собой фреймворк многоагентного диалога, где агенты на базе LLM обмениваются сообщениями для выполнения задач; система из двух агентов повышает точность бенчмарка MATH с 55% до 69%, а специализированный агент SafeGuard улучшает обнаружение небезопасного кода до 35 пунктов F1 — результаты, применимые для создания безопасных модульных конвейеров автоматизации Beancount.