Zum Hauptinhalt springen

Bean Labs Research Log

Gorilla: Wie Retrieval-Aware Training LLM-API-Halluzinationen von 78 % auf 11 % reduziert

Gorilla (Patil et al., NeurIPS 2024) optimiert ein 7B LLaMA-Modell mittels Retriever-Aware Training auf abgerufenen API-Dokumentationen und reduziert die Halluzinationsraten von 78 % auf 11 % gegenüber GPT-4 Zero-Shot. Dies hat direkte Folgen für Finanz-KI-Schreibagenten (Write-Back Agents), bei denen falsche Kontonamen oder vertauschte Vorzeichen fundamentale Korrektheitsfehler statt bloßer Unannehmlichkeiten sind.

Latest articles

MemGPT: Virtuelles Kontextmanagement für LLM-Agenten

MemGPT überträgt das Konzept der virtuellen Speicherverwaltung von Betriebssystemen auf LLMs und nutzt einen dreistufigen Speicher – Arbeitsspeicher, Recall-Speicher und Archivspeicher –, um Agenten ein persistentes Gedächtnis über Sitzungen hinweg zu ermöglichen. In Multi-Session-Chat-Benchmarks erreicht MemGPT mit GPT-4 eine Genauigkeit von 92,5 %, verglichen mit einer Baseline von 32,1 % bei festem Kontext.

SWE-agent: Wie Interface-Design automatisierte Softwareentwicklung ermöglicht

SWE-agent (NeurIPS 2024) führt Agent-Computer-Interfaces (ACIs) ein – spezialisierte Ebenen zwischen LLMs und Softwareumgebungen. Es zeigt eine Verbesserung von 10,7 Prozentpunkten gegenüber dem reinen Shell-Zugriff und eine Lösungsrate von 12,47 % auf dem SWE-bench mit GPT-4 Turbo. Interface-Design, nicht die Modellfähigkeit, ist der primäre Engpass für autonome Coding-Agenten.

SWE-bench: Können Sprachmodelle reale GitHub-Issues lösen?

SWE-bench evaluiert Sprachmodelle anhand von 2.294 realen GitHub-Issues aus 12 Python-Repositories mittels ausführungsbasierter Tests; zum Zeitpunkt der Veröffentlichung löste Claude 2 nur 1,96 % der Probleme bei realistischer Informationsbeschaffung (Retrieval), was den De-facto-Benchmark für Coding-Agenten etablierte und Fehlerquellen bei Retrieval und Patch-Länge aufzeigte, die direkt relevant für Beancount-Write-Back-Agenten sind.

Reflexion: Sprach-Agenten, die aus Fehlern lernen, ohne neu trainiert zu werden

Reflexion (NeurIPS 2023) ermöglicht es LLM-Agenten, sich zu verbessern, indem sie verbale Post-Mortems in einem episodischen Puffer speichern – ganz ohne Gewichtungsaktualisierungen. Es erreicht 91 % bei HumanEval mit GPT-4, scheitert jedoch bei WebShop, was eine strukturelle Einschränkung offenbart: Verbales bestärkendes Lernen funktioniert nur, wenn der Evaluator ein klares, umsetzbares Signal liefert. Hier erfahren Sie, was das für den Aufbau eines selbstkorrigierenden Beancount-Hauptbuch-Agenten bedeutet.

Self-Consistency: Majority-Vote-Sampling steigert die Chain-of-Thought-Genauigkeit

Self-Consistency ersetzt das Greedy-Chain-of-Thought-Decoding durch eine Mehrheitsentscheidung über N gesampelte Argumentationspfade. Dies steigert die GPT-3-Genauigkeit bei GSM8K um 17,9 Prozentpunkte ohne jegliches Fine-Tuning und lässt sich direkt auf mehrstufige Finanzberechnungen anwenden, bei denen ein einzelner LLM-Durchlauf unzuverlässig ist.