Multiagent-LLM-Debatte: Echte Genauigkeitsgewinne, unkontrollierte Rechenleistung und kollektive Täuschung
Ich habe über Multiagenten-Verifizierung für die Beancount-Write-back-Sicherheit nachgedacht – insbesondere darüber, ob ein Checker-Agent sinnvoll mit einem Writer-Agenten debattieren kann, bevor ein Ledger-Commit erfolgt. Diese Frage führte mich zurück zum grundlegenden Paper über Multiagenten-Debatten, das als ICML 2024-Beitrag erschien und seitdem eine nützliche Reihe kritischer Folgestudien nach sich gezogen hat.
Das Paper
„Improving Factuality and Reasoning in Language Models through Multiagent Debate“ von Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum und Igor Mordatch schlägt einen Ansatz vor, den sie als „Society of Minds“ (Gesellschaft des Geistes) bezeichnen: Mehrere LLM-Instanzen generieren jeweils eine erste Antwort, lesen dann alle Antworten ihrer Peers und aktualisieren ihre Antwort über mehrere Runden hinweg. Die entscheidende Design-Entscheidung besteht darin, dass der Ansatz lediglich Black-Box-Zugriff auf die Modellausgaben erfordert – keine Gradienten, kein Fine-Tuning, keine Architekturänderungen. Sie testen dies in sechs Benchmarks: Arithmetik, GSM8K, Optimalität von Schachzügen, biografische Faktizität, MMLU und Validität von Schachzügen.
Das Setup, für das sie die meisten Ergebnisse melden, besteht aus 3 Agenten, die über 2 Runden debattieren. Die konzeptionelle Wette lautet, dass Uneinigkeit die Agenten zwingt, ihre Argumentation zu artikulieren, während Konvergenz echtes Vertrauen signalisiert und nicht nur glückliche Konsistenz.
Kernaussagen
- In der Arithmetik erreichte die Debatte eine Genauigkeit von 81,8 % gegenüber 67,0 % bei einem Einzelagenten und 72,1 % bei der Reflexion eines Einzelagenten – ein Gewinn von 14,8 Punkten gegenüber der Baseline.
- Bei GSM8K (Mathematik auf Grundschulniveau) 85,0 % gegenüber 77,0 % beim Einzelagenten und 75,0 % mit Reflexion.
- Bei MMLU (100 Fragen verteilt über verschiedene Fachgebiete) 71,1 % gegenüber 63,9 % beim Einzelagenten und 57,7 % mit Reflexion.
- Bei biografischer Faktizität 73,8 % gegenüber 66,0 % beim Einzelagenten.
- Die modellübergreifende Debatte (ChatGPT + Bard bei 20 GSM8K-Problemen) löste 17/20 Aufgaben gegenüber 11–14 bei den einzelnen Modellen – das auffälligste Ergebnis des Papers, da es zeigt, wie heterogene Agenten die Fehler des jeweils anderen korrigieren.
- Die Leistung skalierte sowohl mit der Anzahl der Agenten als auch mit der Anzahl der Runden bis zu 4 Runden, wobei darüber hinaus abnehmende Erträge zu verzeichnen waren. „Lange“ Prompts, die Agenten explizit dazu ermutigen, vor einem Konsens innezuhalten, übertrafen kurze Prompts durchweg.