FinanceBench bewertet 16 KI-Konfigurationen anhand von 10.231 Fragen aus echten SEC-Einreichungen; RAG mit gemeinsamem Vektorspeicher beantwortet nur 19 % der Fragen korrekt, und selbst GPT-4-Turbo mit der Oracle-Passage erreicht nur eine Genauigkeit von 85 % – was zeigt, dass numerisches Schlussfolgern und nicht das Retrieval der entscheidende Engpass für Unternehmensfinanz-KI ist.
DSPy ersetzt handgefertigte Prompt-Strings durch deklarative Signaturen und einen metrikgesteuerten Compiler – dies steigert die Leistung von Llama2-13b bei GSM8K-Mathematikaufgaben von 9,4 % auf 46,9 % und bietet einen wartungsfreundlicheren Weg für KI-Pipelines in der Finanzproduktion.
LATS (Language Agent Tree Search, ICML 2024) vereint ReAct, Tree of Thoughts und Reflexion in einem einzigen MCTS-Framework und erreicht mit GPT-4 einen Pass@1 von 92,7 % bei HumanEval. Für Git-basierte Beancount-Hauptbücher ist die Anforderung der Zustandsrückführung, die LATS in Produktionsumgebungen einschränkt, trivial erfüllt.
Self-RAG (ICLR 2024 Oral) trainiert ein Sprachmodell darauf, zu entscheiden, wann Informationen abgerufen werden sollen, und die Ergebnisse anschließend anhand von vier Reflection-Tokens zu bewerten — dabei erreicht es 55,8 % bei PopQA und einen FactScore von 80,2 bei Biografien und übertrifft ChatGPT in fünf Benchmarks. Die Analyse umfasst den Mechanismus, Ablationsergebnisse, Grenzen der Reproduzierbarkeit und Auswirkungen auf Finanz-KI-Agenten für Beancount-Ledger.
Voyager, ein GPT-4-gestützter Minecraft-Agent von NVIDIA und Caltech, zeigt, dass eine persistente Code-Skill-Bibliothek echtes lebenslanges Lernen ohne Feintuning ermöglicht — und dabei 3,3-mal mehr Gegenstände entdeckt als der bisherige Stand der Technik. Dieses Muster lässt sich direkt auf die langfristige Beancount-Ledger-Automatisierung übertragen, obwohl finanzielle Korrektheit Staging-Layer erfordert, die in Spiele-Sandboxes nie benötigt werden.
HippoRAG (NeurIPS 2024) erstellt einen Wissensgraph aus OpenIE-Triples und wendet Personalized PageRank zum Abfragezeitpunkt an. Es erreicht einen Recall@5 von 89,1 % bei 2WikiMultiHopQA im Vergleich zu 68,2 % bei ColBERTv2 – mit direkten Auswirkungen auf die Abfrage komplexer Finanzbücher über mehrjährige Transaktionshistorien hinweg.
AgentBench (Liu et al., ICLR 2024) bewertet 27 LLMs in 8 interaktiven Umgebungen — GPT-4 erreichte insgesamt 4,01 gegenüber 0,96 für das beste Open-Source-Modell. Die drei dominanten Fehlermodi (Aufgabenlimit überschritten bei 67,9 % der Wissensgraph-Fehler, Formatfehler bei 53,3 % der Datenbankfehler und ungültige Aktionen) lassen sich direkt auf die Risiken des Einsatzes eines Beancount-Write-Back-Agenten in einem echten Hauptbuch übertragen.
Bloomberg trainierte ein LLM mit 50 Mrd. Parametern auf 569 Mrd. Token an Finanzdaten und schlug allgemeine Modelle bei Sentiment- und Tabellen-Logik-Benchmarks – doch dann zog GPT-4 ohne spezifisches Finanz-Vortraining gleich. Was das 10-Millionen-Dollar-Experiment über Abwägungen beim Domänen-Vortraining, die Tokenisierung von Zahlen und die Überlegenheit von Tool-Nutzung gegenüber internen Modellabläufen für Buchhaltungsagenten verrät.
AutoGen (Wu et al., 2023) führt ein Multi-Agent-Konversations-Framework ein, bei dem LLM-gestützte Agenten Nachrichten austauschen, um Aufgaben zu lösen; ein Setup mit zwei Agenten steigert die Genauigkeit im MATH-Benchmark von 55 % auf 69 %, und ein spezieller SafeGuard-Agent verbessert die Erkennung von unsicherem Code um bis zu 35 F1-Punkte – Erkenntnisse, die direkt auf den Aufbau sicherer, modularer Beancount-Automatisierungspipelines anwendbar sind.