Mike Thrift

Marketing Manager

May 13, 2026·mike

FinQA: Der Benchmark zur Messung numerischer Schlussfolgerungen von KI in Finanzberichten

FinQA (EMNLP 2021) erstellte 8.281 Q&A-Paare aus S&P 500-Ergebnisberichten, die mehrstufige arithmetische Programme erfordern. Neuronale Modelle erzielten bei Veröffentlichung 61 % gegenüber 91 % bei menschlichen Experten; die Genauigkeit bricht bei Programmen mit drei oder mehr Schritten auf 22 % ein. Die Fehlermodi – Domänenkonstanten, modalitätsübergreifende Verankerung, Kettenlänge – lassen sich direkt auf die Herausforderungen übertragen, vor denen Beancount-Agenten heute stehen.

machine-learning

llm

May 12, 2026·mike

FinanceBench: Warum Vector-Store RAG bei echten Finanzdokumenten scheitert

FinanceBench bewertet 16 KI-Konfigurationen anhand von 10.231 Fragen aus echten SEC-Einreichungen; RAG mit gemeinsamem Vektorspeicher beantwortet nur 19 % der Fragen korrekt, und selbst GPT-4-Turbo mit der Oracle-Passage erreicht nur eine Genauigkeit von 85 % – was zeigt, dass numerisches Schlussfolgern und nicht das Retrieval der entscheidende Engpass für Unternehmensfinanz-KI ist.

llm

machine-learning

May 11, 2026·mike

DSPy: Ersatz von sprödem Prompt-Engineering durch kompilierte LLM-Pipelines

DSPy ersetzt handgefertigte Prompt-Strings durch deklarative Signaturen und einen metrikgesteuerten Compiler – dies steigert die Leistung von Llama2-13b bei GSM8K-Mathematikaufgaben von 9,4 % auf 46,9 % und bietet einen wartungsfreundlicheren Weg für KI-Pipelines in der Finanzproduktion.

llm

machine-learning

May 10, 2026·mike

LATS: Language Agent Tree Search — Schlussfolgern, Handeln und Planen in einem Framework

LATS (Language Agent Tree Search, ICML 2024) vereint ReAct, Tree of Thoughts und Reflexion in einem einzigen MCTS-Framework und erreicht mit GPT-4 einen Pass@1 von 92,7 % bei HumanEval. Für Git-basierte Beancount-Hauptbücher ist die Anforderung der Zustandsrückführung, die LATS in Produktionsumgebungen einschränkt, trivial erfüllt.

llm

machine-learning

May 9, 2026·mike

Self-RAG: Adaptive Retrieval und Selbstkritik für LLMs

Self-RAG (ICLR 2024 Oral) trainiert ein Sprachmodell darauf, zu entscheiden, wann Informationen abgerufen werden sollen, und die Ergebnisse anschließend anhand von vier Reflection-Tokens zu bewerten — dabei erreicht es 55,8 % bei PopQA und einen FactScore von 80,2 bei Biografien und übertrifft ChatGPT in fünf Benchmarks. Die Analyse umfasst den Mechanismus, Ablationsergebnisse, Grenzen der Reproduzierbarkeit und Auswirkungen auf Finanz-KI-Agenten für Beancount-Ledger.

machine-learning

llm

May 8, 2026·mike

Voyager: Skill-Bibliotheken als Grundlage für lebenslanges Lernen von KI-Agenten

Voyager, ein GPT-4-gestützter Minecraft-Agent von NVIDIA und Caltech, zeigt, dass eine persistente Code-Skill-Bibliothek echtes lebenslanges Lernen ohne Feintuning ermöglicht — und dabei 3,3-mal mehr Gegenstände entdeckt als der bisherige Stand der Technik. Dieses Muster lässt sich direkt auf die langfristige Beancount-Ledger-Automatisierung übertragen, obwohl finanzielle Korrektheit Staging-Layer erfordert, die in Spiele-Sandboxes nie benötigt werden.

llm

machine-learning

May 7, 2026·mike

HippoRAG: Neurobiologisch inspirierter Langzeitspeicher für LLMs

HippoRAG (NeurIPS 2024) erstellt einen Wissensgraph aus OpenIE-Triples und wendet Personalized PageRank zum Abfragezeitpunkt an. Es erreicht einen Recall@5 von 89,1 % bei 2WikiMultiHopQA im Vergleich zu 68,2 % bei ColBERTv2 – mit direkten Auswirkungen auf die Abfrage komplexer Finanzbücher über mehrjährige Transaktionshistorien hinweg.

llm

machine-learning

May 6, 2026·mike

AgentBench: Evaluierung von LLMs als Agenten — Lehren für die Zuverlässigkeit von Finanz-KI

AgentBench (Liu et al., ICLR 2024) bewertet 27 LLMs in 8 interaktiven Umgebungen — GPT-4 erreichte insgesamt 4,01 gegenüber 0,96 für das beste Open-Source-Modell. Die drei dominanten Fehlermodi (Aufgabenlimit überschritten bei 67,9 % der Wissensgraph-Fehler, Formatfehler bei 53,3 % der Datenbankfehler und ungültige Aktionen) lassen sich direkt auf die Risiken des Einsatzes eines Beancount-Write-Back-Agenten in einem echten Hauptbuch übertragen.

llm

machine-learning

May 5, 2026·mike

BloombergGPT und die Grenzen domänenspezifischer LLMs im Finanzwesen

Bloomberg trainierte ein LLM mit 50 Mrd. Parametern auf 569 Mrd. Token an Finanzdaten und schlug allgemeine Modelle bei Sentiment- und Tabellen-Logik-Benchmarks – doch dann zog GPT-4 ohne spezifisches Finanz-Vortraining gleich. Was das 10-Millionen-Dollar-Experiment über Abwägungen beim Domänen-Vortraining, die Tokenisierung von Zahlen und die Überlegenheit von Tool-Nutzung gegenüber internen Modellabläufen für Buchhaltungsagenten verrät.

llm

machine-learning

May 4, 2026·mike

AutoGen: Multi-Agent-Konversations-Frameworks für Finanz-KI

AutoGen (Wu et al., 2023) führt ein Multi-Agent-Konversations-Framework ein, bei dem LLM-gestützte Agenten Nachrichten austauschen, um Aufgaben zu lösen; ein Setup mit zwei Agenten steigert die Genauigkeit im MATH-Benchmark von 55 % auf 69 %, und ein spezieller SafeGuard-Agent verbessert die Erkennung von unsicherem Code um bis zu 35 F1-Punkte – Erkenntnisse, die direkt auf den Aufbau sicherer, modularer Beancount-Automatisierungspipelines anwendbar sind.

llm

automation

May 3, 2026·mike

Gorilla: Wie Retrieval-Aware Training LLM-API-Halluzinationen von 78 % auf 11 % reduziert

Gorilla (Patil et al., NeurIPS 2024) optimiert ein 7B LLaMA-Modell mittels Retriever-Aware Training auf abgerufenen API-Dokumentationen und reduziert die Halluzinationsraten von 78 % auf 11 % gegenüber GPT-4 Zero-Shot. Dies hat direkte Folgen für Finanz-KI-Schreibagenten (Write-Back Agents), bei denen falsche Kontonamen oder vertauschte Vorzeichen fundamentale Korrektheitsfehler statt bloßer Unannehmlichkeiten sind.

llm

machine-learning

May 2, 2026·mike

MemGPT: Virtuelles Kontextmanagement für LLM-Agenten

MemGPT überträgt das Konzept der virtuellen Speicherverwaltung von Betriebssystemen auf LLMs und nutzt einen dreistufigen Speicher – Arbeitsspeicher, Recall-Speicher und Archivspeicher –, um Agenten ein persistentes Gedächtnis über Sitzungen hinweg zu ermöglichen. In Multi-Session-Chat-Benchmarks erreicht MemGPT mit GPT-4 eine Genauigkeit von 92,5 %, verglichen mit einer Baseline von 32,1 % bei festem Kontext.

llm

machine-learning

Zeige 61–72 von 87 Beiträgen

Zurück6 / 8Weiter