Дебат между мултиагентни LLM: Реални ползи в точността, неконтролирани изчисления и колективна заблуда
Мислех за мултиагентна верификация за безопасност при обратно записване в Beancount — по-конкретно дали агент-проверител може смислено да дебатира с агент-пишещ, преди счетоводният запис да бъде потвърден в главната книга. Този въпрос ме върна към фундаменталната статия за дебат между мултиагентни системи, представена на ICML 2024, която оттогава насам събра полезен набор от критични последващи разработки.
Статията
„Подобряване на фактологичността и разсъжденията в езиковите модели чрез дебат между мултиагентни системи“ от Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum и Igor Mordatch предлага подход, който те наричат „общество от умове“: множество инстанции на LLM генерират първоначален отговор, след което прочитат пълния набор от отговори на своите колеги и актуализират своя отговор в рамките на няколко кръга. Ключовият избор в дизайна е, че подходът изисква само достъп тип „черна кутия“ до изходите на модела — без градиенти, без фина настройка (fine-tuning), без промени в архитектурата. Те тестват това в шест бенчмарка: аритметика, GSM8K, оптималност на ходове в шахмата, биографична фактологичност, MMLU и валидност на ходове в шахмата.
Конфигурацията, за която отчитат най-много резултати, включва 3 агента, дебатиращи в 2 кръга. Концептуалният залог е, че несъгласието принуждава агентите да артикулират своите разсъждения, докато сближаването на позициите сигнализира за истинска увереност, а не за случайна последователност.
Ключови идеи
- При аритметиката дебатът достига 81,8% точност срещу 67,0% за единичен агент и 72,1% за рефлексия на единичен агент — ръст от 14,8 пункта спрямо базовата линия.
- При GSM8K (математика за началното училище): 85,0% срещу 77,0% за единичен агент и 75,0% с рефлексия.
- При MMLU (100 въпроса в различни предметни области): 71,1% срещу 63,9% за единичен агент и 57,7% с рефлексия.
- При биографична фактологичност: 73,8% срещу 66,0% за единичен агент.
- Дебатът между различни модели (ChatGPT + Bard върху 20 задачи от GSM8K) решава 17/20 спрямо 11–14 за всеки модел поотделно — най-поразителният резултат в статията, защото показва как хетерогенни агенти ула вят грешките си един на друг.
- Производителността се мащабира както с броя на агентите, така и с броя на кръговете до 4 кръга, като след това се наблюдава намаляваща възвращаемост. „Дългите“ подкани (prompts), изрично насърчаващи агентите да забавят темпото преди постигане на консенсус, постоянно превъзхождат кратките подкани.
Какво се потвърждава — и какво не
Ползите са реални и обхватът на бенчмарковете е по-широк от повечето статии за подкани. Вярвам в посоката на констатацията: наличието на множество агенти, които се критикуват взаимно, улавя повече грешки, отколкото един агент, който рефлектира върху собствения си изход.
Проблемът е в това, което не е контролирано. Три агента, дебатиращи в два кръга, означават приблизително 6 пъти повече изчисления за инференция в сравнение с едно извикване, преди да се вземе предвид по-дългият контекст. Статията никога не представя базова линия с равен бюджет. Самосъгласуваността (self-consistency) — гласуване с мнозинство върху много независими извадки от единичен агент — е естествено сравнение, на което статията обръща само бегло внимание. Статия от 2025 г. (arXiv:2604.02460) прави точно този контролен експеримент върху бенчмаркове за многостепенно разсъждение в Qwen3, DeepSeek-R1 и Gemini 2.5 с изравнени бюджети за токени за разсъждение и установява, че „системите с единичен агент могат да се изравнят или да превъзхождат мултиагентните системи (MAS)“, след като изчисленията бъдат изравнени. Това е директно предизвикателство към основното твърдение.
Другият режим на отказ, който статията признава, но подценява, е това, което M3MAD-Bench (arXiv:2601.02854) нарича „Колективна заблуда“: при ръчен анализ на 100 неуспеха при дебати, 65% включват агенти, които взаимно потвърждават грешни отговори, вместо да ги коригират. В самия текст на статията се отбелязва, че агентите понякога „уверено твърдят, че техният отговор е правилен“, дори когато се обединяват около неправилен резултат. Когато всички агенти споделят една и съща тренировъчна извадка — случаят на хомогенни агенти — те вероятно ще споделят и едни и същи слепи петна. Тогава дебатът засилва грешката, вместо да я открие.
Свързана констатация от същата статия: „Неправилното съответствие“ (Incorrect Conformity) съставлява нетривиален дял от неуспехите — правилно разсъждаващ агент изоставя логичните си доводи, след като прочете грешните отговори на колегите си. Това е обратното на това, което рамката за дебати трябва да постигне. Това е напомняне, че динамиката на убеждаване в тези мултиагентни цикли може да работи и в двете посоки.
Защо това е важно за финансовия ИИ
Архитектурата е наистина привлекателна за безопасността на записите в Beancount: агент-пишещ предлага счетоводен запис, агент-проверител го дебатира, консенсусът задейства записа в главната книга. Анализът на риска се променя в зависимост от това какво записвате. За рутинен разход за хранителни стоки цената на един кръг дебат не си заслужава. За мемориален ордер за края на данъчната година или вътрешнофирмен трансфер, наличието на втори агент, който да провери кодовете на сметките и сумите преди запис, е оправдано.
Но Колективната заблуда е особено опасна за счетоводството. Ако и агентът-пишещ, и агентът-проверител споделят едно и също погрешно вярване за това как конкретна удръжка се категоризира според правилата на дадена юрисдикция, дебатът потвърждава грешката, вместо да я сигнализира. Резултатът на статията за дебат между различни модели подсказва решението: хетерогенни агенти — различни модели, различни системни подкани или един агент, базиран на външна документация — са по-склонни да извадят на повърхността истинско несъгласие. M3MAD-Bench потвърждава, че „колаборативният хетерогенен дебат“ значително превъзхожда хомогенните конфигурации.
Умножаването на изчислителните ресурси също е от значение при производствен мащаб. Десет редакции в главната книга на сесия × 3 агента × 2 кръга = 60 извиквания на LLM. Това е устойчиво за високорискови записи, но не и за рутинен импорт на трансакции. Правилният дизайн вероятно е многоетапен подход: бърз път с единичен агент за добре структурирани записи и задействане на дебат само когато пишещият агент изрази несигурност или когато записът засяга високочувствителен клас сметки (данъчни задължения, неразпределена печалба, вътрешнофирмени сметки).
Какво да прочетете след това
- arXiv:2604.02460 — „Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets“: най-чистото публикувано предизвикателство към твърденията за изчислителни предимства на дебата.
- arXiv:2601.02854 — M3MAD-Bench: мащабна оценка на дебати в 9 модела и 13 набора от данни, с таксономия на отказите тип „Колективна заблуда“.
- arXiv:2406.09187 — GuardAgent: защитен агент, който превежда политики за безопасност в изпълним код; по-директен подход към безопасността на записите от консенсуса, базиран на дебати.
