2 поста с тегом "Multi-Agent"

AILLMMachine LearningAutomationFinanceData ScienceMulti-Agent

M3MAD-Bench: Действительно ли многоагентные дебаты эффективны в различных областях и модальностях?

M3MAD-Bench проводит стресс-тестирование многоагентных дебатов на 9 моделях в 5 областях и мультимодальных условиях. Выяснилось, что «Коллективное заблуждение» вызывает 65% сбоев, состязательные дебаты снижают точность на величину до 12,8%, а метод Self-Consistency обычно достигает сопоставимой точности при меньших затратах токенов.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Фреймворки многоагентного диалога для ИИ в финансах

AutoGen (Wu et al., 2023) представляет собой фреймворк многоагентного диалога, где агенты на базе LLM обмениваются сообщениями для выполнения задач; система из двух агентов повышает точность бенчмарка MATH с 55% до 69%, а специализированный агент SafeGuard улучшает обнаружение небезопасного кода до 35 пунктов F1 — результаты, применимые для создания безопасных модульных конвейеров автоматизации Beancount.

Все о Multi-Agent

M3MAD-Bench: Действительно ли многоагентные дебаты эффективны в различных областях и модальностях?

AutoGen: Фреймворки многоагентного диалога для ИИ в финансах

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация