Prejsť na hlavný obsah
Multi-Agent

Všetko o Multi-Agent

2 články
Multi-agent LLM frameworks and architectures for collaborative financial automation

M3MAD-Bench: Sú debaty viacerých agentov skutočne efektívne naprieč doménami a modalitami?

M3MAD-Bench záťažovo testuje debatu viacerých agentov na 9 modeloch, 5 doménach a v prostrediach obraz-jazyk. Zisťuje, že kolektívna ilúzia spôsobuje 65 % zlyhaní, adverziálna debata znižuje presnosť až o 12,8 % a Self-Consistency zvyčajne dosahuje rovnakú presnosť ako debata pri nižších nákladoch na tokeny.

AutoGen: Viacagentové konverzačné rámce pre finančnú AI

AutoGen (Wu et al., 2023) predstavuje viacagentový konverzačný rámec, v ktorom agenti s podporou LLM odosielajú správy na dokončenie úloh; nastavenie s dvoma agentmi zvyšuje presnosť MATH benchmarku z 55 % na 69 % a vyhradený agent SafeGuard zlepšuje detekciu nebezpečného kódu až o 35 bodov F1 – tieto zistenia sú priamo použiteľné na budovanie bezpečných, modulárnych automatizačných liniek pre Beancount.