Mike Thrift
Marketing Manager
FinQA: Der Benchmark zur Messung numerischer Schlussfolgerungen von KI in Finanzberichten
FinQA (EMNLP 2021) erstellte 8.281 Q&A-Paare aus S&P 500-Ergebnisberichten, die mehrstufige arithmetische Programme erfordern. Neuronale Modelle erzielten bei Veröffentlichung 61 % gegenüber 91 % bei menschlichen Experten; die Genauigkeit bricht bei Programmen mit drei oder mehr Schritten auf 22 % ein. Die Fehlermodi – Domänenkonstanten, modalitätsübergreifende Verankerung, Kettenlänge – lassen sich direkt auf die Herausforderungen übertragen, vor denen Beancount-Agenten heute stehen.
FinanceBench: Warum Vector-Store RAG bei echten Finanzdokumenten scheitert
FinanceBench bewertet 16 KI-Konfigurationen anhand von 10.231 Fragen aus echten SEC-Einreichungen; RAG mit gemeinsamem Vektorspeicher beantwortet nur 19 % der Fragen korrekt, und selbst GPT-4-Turbo mit der Oracle-Passage erreicht nur eine Genauigkeit von 85 % – was zeigt, dass numerisches Schlussfolgern und nicht das Retrieval der entscheidende Engpass für Unternehmensfinanz-KI ist.
DSPy: Ersatz von sprödem Prompt-Engineering durch kompilierte LLM-Pipelines
DSPy ersetzt handgefertigte Prompt-Strings durch deklarative Signaturen und einen metrikgesteuerten Compiler – dies steigert die Leistung von Llama2-13b bei GSM8K-Mathematikaufgaben von 9,4 % auf 46,9 % und bietet einen wartungsfreundlicheren Weg für KI-Pipelines in der Finanzproduktion.
LATS: Language Agent Tree Search — Schlussfolgern, Handeln und Planen in einem Framework
LATS (Language Agent Tree Search, ICML 2024) vereint ReAct, Tree of Thoughts und Reflexion in einem einzigen MCTS-Framework und erreicht mit GPT-4 einen Pass@1 von 92,7 % bei HumanEval. Für Git-basierte Beancount-Hauptbücher ist die Anforderung der Zustandsrückführung, die LATS in Produktionsumgebungen einschränkt, trivial erfüllt.
Self-RAG: Adaptive Retrieval und Selbstkritik für LLMs
Self-RAG (ICLR 2024 Oral) trainiert ein Sprachmodell darauf, zu entscheiden, wann Informationen abgerufen werden sollen, und die Ergebnisse anschließend anhand von vier Reflection-Tokens zu bewerten — dabei erreicht es 55,8 % bei PopQA und einen FactScore von 80,2 bei Biografien und übertrifft ChatGPT in fünf Benchmarks. Die Analyse umfasst den Mechanismus, Ablationsergebnisse, Grenzen der Reproduzierbarkeit und Auswirkungen auf Finanz-KI-Agenten für Beancount-Ledger.
Voyager: Skill-Bibliotheken als Grundlage für lebenslanges Lernen von KI-Agenten
Voyager, ein GPT-4-gestützter Minecraft-Agent von NVIDIA und Caltech, zeigt, dass eine persistente Code-Skill-Bibliothek echtes lebenslanges Lernen ohne Feintuning ermöglicht — und dabei 3,3-mal mehr Gegenstände entdeckt als der bisherige Stand der Technik. Dieses Muster lässt sich direkt auf die langfristige Beancount-Ledger-Automatisierung übertragen, obwohl finanzielle Korrektheit Staging-Layer erfordert, die in Spiele-Sandboxes nie benötigt werden.
HippoRAG: Neurobiologisch inspirierter Langzeitspeicher für LLMs
HippoRAG (NeurIPS 2024) erstellt einen Wissensgraph aus OpenIE-Triples und wendet Personalized PageRank zum Abfragezeitpunkt an. Es erreicht einen Recall@5 von 89,1 % bei 2WikiMultiHopQA im Vergleich zu 68,2 % bei ColBERTv2 – mit direkten Auswirkungen auf die Abfrage komplexer Finanzbücher über mehrjährige Transaktionshistorien hinweg.
AgentBench: Evaluierung von LLMs als Agenten — Lehren für die Zuverlässigkeit von Finanz-KI
AgentBench (Liu et al., ICLR 2024) bewertet 27 LLMs in 8 interaktiven Umgebungen — GPT-4 erreichte insgesamt 4,01 gegenüber 0,96 für das beste Open-Source-Modell. Die drei dominanten Fehlermodi (Aufgabenlimit überschritten bei 67,9 % der Wissensgraph-Fehler, Formatfehler bei 53,3 % der Datenbankfehler und ungültige Aktionen) lassen sich direkt auf die Risiken des Einsatzes eines Beancount-Write-Back-Agenten in einem echten Hauptbuch übertragen.
BloombergGPT und die Grenzen domänenspezifischer LLMs im Finanzwesen
Bloomberg trainierte ein LLM mit 50 Mrd. Parametern auf 569 Mrd. Token an Finanzdaten und schlug allgemeine Modelle bei Sentiment- und Tabellen-Logik-Benchmarks – doch dann zog GPT-4 ohne spezifisches Finanz-Vortraining gleich. Was das 10-Millionen-Dollar-Experiment über Abwägungen beim Domänen-Vortraining, die Tokenisierung von Zahlen und die Überlegenheit von Tool-Nutzung gegenüber internen Modellabläufen für Buchhaltungsagenten verrät.
AutoGen: Multi-Agent-Konversations-Frameworks für Finanz-KI
AutoGen (Wu et al., 2023) führt ein Multi-Agent-Konversations-Framework ein, bei dem LLM-gestützte Agenten Nachrichten austauschen, um Aufgaben zu lösen; ein Setup mit zwei Agenten steigert die Genauigkeit im MATH-Benchmark von 55 % auf 69 %, und ein spezieller SafeGuard-Agent verbessert die Erkennung von unsicherem Code um bis zu 35 F1-Punkte – Erkenntnisse, die direkt auf den Aufbau sicherer, modularer Beancount-Automatisierungspipelines anwendbar sind.
Gorilla: Wie Retrieval-Aware Training LLM-API-Halluzinationen von 78 % auf 11 % reduziert
Gorilla (Patil et al., NeurIPS 2024) optimiert ein 7B LLaMA-Modell mittels Retriever-Aware Training auf abgerufenen API-Dokumentationen und reduziert die Halluzinationsraten von 78 % auf 11 % gegenüber GPT-4 Zero-Shot. Dies hat direkte Folgen für Finanz-KI-Schreibagenten (Write-Back Agents), bei denen falsche Kontonamen oder vertauschte Vorzeichen fundamentale Korrektheitsfehler statt bloßer Unannehmlichkeiten sind.
MemGPT: Virtuelles Kontextmanagement für LLM-Agenten
MemGPT überträgt das Konzept der virtuellen Speicherverwaltung von Betriebssystemen auf LLMs und nutzt einen dreistufigen Speicher – Arbeitsspeicher, Recall-Speicher und Archivspeicher –, um Agenten ein persistentes Gedächtnis über Sitzungen hinweg zu ermöglichen. In Multi-Session-Chat-Benchmarks erreicht MemGPT mit GPT-4 eine Genauigkeit von 92,5 %, verglichen mit einer Baseline von 32,1 % bei festem Kontext.