Zum Hauptinhalt springen

Multiagent-LLM-Debatte: Echte Genauigkeitsgewinne, unkontrollierte Rechenleistung und kollektive Täuschung

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Ich habe über Multiagenten-Verifizierung für die Beancount-Write-back-Sicherheit nachgedacht – insbesondere darüber, ob ein Checker-Agent sinnvoll mit einem Writer-Agenten debattieren kann, bevor ein Ledger-Commit erfolgt. Diese Frage führte mich zurück zum grundlegenden Paper über Multiagenten-Debatten, das als ICML 2024-Beitrag erschien und seitdem eine nützliche Reihe kritischer Folgestudien nach sich gezogen hat.

Das Paper

2026-05-24-multiagent-debate-factuality-reasoning-llms

„Improving Factuality and Reasoning in Language Models through Multiagent Debate“ von Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum und Igor Mordatch schlägt einen Ansatz vor, den sie als „Society of Minds“ (Gesellschaft des Geistes) bezeichnen: Mehrere LLM-Instanzen generieren jeweils eine erste Antwort, lesen dann alle Antworten ihrer Peers und aktualisieren ihre Antwort über mehrere Runden hinweg. Die entscheidende Design-Entscheidung besteht darin, dass der Ansatz lediglich Black-Box-Zugriff auf die Modellausgaben erfordert – keine Gradienten, kein Fine-Tuning, keine Architekturänderungen. Sie testen dies in sechs Benchmarks: Arithmetik, GSM8K, Optimalität von Schachzügen, biografische Faktizität, MMLU und Validität von Schachzügen.

Das Setup, für das sie die meisten Ergebnisse melden, besteht aus 3 Agenten, die über 2 Runden debattieren. Die konzeptionelle Wette lautet, dass Uneinigkeit die Agenten zwingt, ihre Argumentation zu artikulieren, während Konvergenz echtes Vertrauen signalisiert und nicht nur glückliche Konsistenz.

Kernaussagen

  • In der Arithmetik erreichte die Debatte eine Genauigkeit von 81,8 % gegenüber 67,0 % bei einem Einzelagenten und 72,1 % bei der Reflexion eines Einzelagenten – ein Gewinn von 14,8 Punkten gegenüber der Baseline.
  • Bei GSM8K (Mathematik auf Grundschulniveau) 85,0 % gegenüber 77,0 % beim Einzelagenten und 75,0 % mit Reflexion.
  • Bei MMLU (100 Fragen verteilt über verschiedene Fachgebiete) 71,1 % gegenüber 63,9 % beim Einzelagenten und 57,7 % mit Reflexion.
  • Bei biografischer Faktizität 73,8 % gegenüber 66,0 % beim Einzelagenten.
  • Die modellübergreifende Debatte (ChatGPT + Bard bei 20 GSM8K-Problemen) löste 17/20 Aufgaben gegenüber 11–14 bei den einzelnen Modellen – das auffälligste Ergebnis des Papers, da es zeigt, wie heterogene Agenten die Fehler des jeweils anderen korrigieren.
  • Die Leistung skalierte sowohl mit der Anzahl der Agenten als auch mit der Anzahl der Runden bis zu 4 Runden, wobei darüber hinaus abnehmende Erträge zu verzeichnen waren. „Lange“ Prompts, die Agenten explizit dazu ermutigen, vor einem Konsens innezuhalten, übertrafen kurze Prompts durchweg.

Was Bestand hat – und was nicht

Die Gewinne sind real, und die Abdeckung der Benchmarks ist breiter als in den meisten Prompting-Papern. Ich glaube an den richtungsweisenden Befund: Wenn sich mehrere Agenten gegenseitig kritisieren, werden mehr Fehler abgefangen als bei einem einzelnen Agenten, der seine eigene Ausgabe reflektiert.

Das Problem ist das, was nicht kontrolliert wird. Drei Agenten, die über zwei Runden debattieren, bedeuten etwa die 6-fache Inferenz-Rechenleistung eines einzelnen Aufrufs, noch bevor man den längeren Kontext berücksichtigt. Das Paper präsentiert nie eine Baseline mit gleichem Budget. „Self-consistency“ – Mehrheitsentscheidung über viele unabhängige Einzelagenten-Samples – ist ein natürlicher Vergleich, den das Paper nur kurz anspricht. Ein Paper aus dem Jahr 2025 (arXiv:2604.02460) führt genau diese Kontrolle bei Multi-Hop-Reasoning-Benchmarks über Qwen3, DeepSeek-R1 und Gemini 2.5 mit angeglichenen Reasoning-Token-Budgets durch und stellt fest, dass „Einzelagenten-Systeme MAS erreichen oder übertreffen können“, sobald die Rechenleistung angeglichen ist. Das ist eine direkte Herausforderung für die Hauptbehauptung.

Der andere Fehlermodus, den das Paper zwar anerkennt, aber unterbewertet, ist das, was M3MAD-Bench (arXiv:2601.02854) als „Kollektive Täuschung“ (Collective Delusion) bezeichnet: In einer manuellen Analyse von 100 Debattenfehlern waren in 65 % der Fälle Agenten beteiligt, die sich gegenseitig in falschen Antworten bestärkten, anstatt sie zu korrigieren. Der Text des Papers selbst merkt an, dass Agenten manchmal „selbstbewusst bestätigen, dass ihre Antwort richtig ist“, selbst wenn sie zu einer falschen Antwort konvergieren. Wenn alle Agenten dieselbe Trainingsverteilung teilen – der homogene Fall –, teilen sie wahrscheinlich auch dieselben blinden Flecken. Die Debatte verstärkt dann den Fehler, anstatt ihn abzufangen.

Ein verwandter Befund aus demselben Paper: „Inkorrekte Konformität“ macht einen nicht unerheblichen Teil der Fehler aus – ein korrekter Agent gibt eine fundierte Argumentation auf, nachdem er Peer-Antworten gelesen hat, die falsch sind. Dies ist das Gegenteil dessen, was das Debatten-Framework bewirken soll. Es ist eine Erinnerung daran, dass die Überzeugungsdynamik in diesen Multiagenten-Schleifen in beide Richtungen verlaufen kann.

Warum dies für Finanz-KI wichtig ist

Die Architektur ist für die Beancount-Write-back-Sicherheit wirklich reizvoll: Ein Writer schlägt einen Ledger-Eintrag vor, ein Checker debattiert darüber, Konsens löst den Commit aus. Die Risikoanalyse ändert sich je nachdem, was man schreibt. Für eine routinemäßige Lebensmittelausgabe lohnt sich der Aufwand einer Debattenrunde nicht. Für eine Buchung zum Geschäftsjahresende oder einen Intercompany-Transfer ist es vertretbar, wenn ein zweiter Agent die Kontocodes und Beträge vor dem Commit prüft.

Aber die kollektive Täuschung ist für die Buchhaltung besonders gefährlich. Wenn sowohl ein Writer- als auch ein Checker-Agent die gleiche falsche Überzeugung darüber teilen, wie ein spezifischer Abzug nach den Regeln einer bestimmten Jurisdiktion kategorisiert wird, bestätigt die Debatte den Fehler, anstatt ihn zu melden. Das modellübergreifende Ergebnis des Papers deutet auf die Lösung hin: Heterogene Agenten – unterschiedliche Modelle, unterschiedliche System-Prompts oder ein Agent, der auf externer Dokumentation basiert – führen eher dazu, dass echte Unstimmigkeiten zu Tage treten. M3MAD-Bench bestätigt, dass eine „kollaborative heterogene Debatte“ homogene Setups erheblich übertrifft.

Die Multiplikation der Rechenleistung spielt auch auf Produktionsebene eine Rolle. Zehn Ledger-Edits pro Sitzung × 3 Agenten × 2 Runden = 60 LLM-Aufrufe. Das ist bei kritischen Buchungen tragbar, aber nicht beim routinemäßigen Import von Transaktionen. Das richtige Design ist wahrscheinlich ein gestufter Ansatz: ein schneller Einzelagenten-Pfad für gut strukturierte Einträge und eine Debatte, die nur dann aufgerufen wird, wenn der Writer Unsicherheit äußert oder wenn der Eintrag eine hochsensible Kontenklasse betrifft (Steuerschulden, Gewinnrücklagen, Intercompany).

Was man als Nächstes lesen sollte

  • arXiv:2604.02460 – „Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets“: die klarste veröffentlichte Infragestellung der behaupteten Rechenvorteile der Debatte.
  • arXiv:2601.02854 – M3MAD-Bench: groß angelegte Evaluierung von Debatten über 9 Modelle und 13 Datensätze hinweg, mit der Fehlertaxonomie der kollektiven Täuschung.
  • arXiv:2406.09187 – GuardAgent: ein Guard-Agent, der Sicherheitsrichtlinien in ausführbaren Code übersetzt; ein direkterer Ansatz zur Write-back-Sicherheit als ein debattenbasierter Konsens.