Bean Labs Research Log

AIMachine LearningLLMFinanceFinancial ReportingBeancount

FinQA: Der Benchmark zur Messung numerischer Schlussfolgerungen von KI in Finanzberichten

FinQA (EMNLP 2021) erstellte 8.281 Q&A-Paare aus S&P 500-Ergebnisberichten, die mehrstufige arithmetische Programme erfordern. Neuronale Modelle erzielten bei Veröffentlichung 61 % gegenüber 91 % bei menschlichen Experten; die Genauigkeit bricht bei Programmen mit drei oder mehr Schritten auf 22 % ein. Die Fehlermodi – Domänenkonstanten, modalitätsübergreifende Verankerung, Kettenlänge – lassen sich direkt auf die Herausforderungen übertragen, vor denen Beancount-Agenten heute stehen.

Latest articles

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Warum Vector-Store RAG bei echten Finanzdokumenten scheitert

FinanceBench bewertet 16 KI-Konfigurationen anhand von 10.231 Fragen aus echten SEC-Einreichungen; RAG mit gemeinsamem Vektorspeicher beantwortet nur 19 % der Fragen korrekt, und selbst GPT-4-Turbo mit der Oracle-Passage erreicht nur eine Genauigkeit von 85 % – was zeigt, dass numerisches Schlussfolgern und nicht das Retrieval der entscheidende Engpass für Unternehmensfinanz-KI ist.

AILLMMachine LearningAutomationFinanceBeancount

DSPy: Ersatz von sprödem Prompt-Engineering durch kompilierte LLM-Pipelines

DSPy ersetzt handgefertigte Prompt-Strings durch deklarative Signaturen und einen metrikgesteuerten Compiler – dies steigert die Leistung von Llama2-13b bei GSM8K-Mathematikaufgaben von 9,4 % auf 46,9 % und bietet einen wartungsfreundlicheren Weg für KI-Pipelines in der Finanzproduktion.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Language Agent Tree Search — Schlussfolgern, Handeln und Planen in einem Framework

LATS (Language Agent Tree Search, ICML 2024) vereint ReAct, Tree of Thoughts und Reflexion in einem einzigen MCTS-Framework und erreicht mit GPT-4 einen Pass@1 von 92,7 % bei HumanEval. Für Git-basierte Beancount-Hauptbücher ist die Anforderung der Zustandsrückführung, die LATS in Produktionsumgebungen einschränkt, trivial erfüllt.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Adaptive Retrieval und Selbstkritik für LLMs

Self-RAG (ICLR 2024 Oral) trainiert ein Sprachmodell darauf, zu entscheiden, wann Informationen abgerufen werden sollen, und die Ergebnisse anschließend anhand von vier Reflection-Tokens zu bewerten — dabei erreicht es 55,8 % bei PopQA und einen FactScore von 80,2 bei Biografien und übertrifft ChatGPT in fünf Benchmarks. Die Analyse umfasst den Mechanismus, Ablationsergebnisse, Grenzen der Reproduzierbarkeit und Auswirkungen auf Finanz-KI-Agenten für Beancount-Ledger.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Skill-Bibliotheken als Grundlage für lebenslanges Lernen von KI-Agenten

Voyager, ein GPT-4-gestützter Minecraft-Agent von NVIDIA und Caltech, zeigt, dass eine persistente Code-Skill-Bibliothek echtes lebenslanges Lernen ohne Feintuning ermöglicht — und dabei 3,3-mal mehr Gegenstände entdeckt als der bisherige Stand der Technik. Dieses Muster lässt sich direkt auf die langfristige Beancount-Ledger-Automatisierung übertragen, obwohl finanzielle Korrektheit Staging-Layer erfordert, die in Spiele-Sandboxes nie benötigt werden.

LLMAIMachine LearningBeancountPlain-Text AccountingFinanceAutomation

HippoRAG: Neurobiologisch inspirierter Langzeitspeicher für LLMs

HippoRAG (NeurIPS 2024) erstellt einen Wissensgraph aus OpenIE-Triples und wendet Personalized PageRank zum Abfragezeitpunkt an. Es erreicht einen Recall@5 von 89,1 % bei 2WikiMultiHopQA im Vergleich zu 68,2 % bei ColBERTv2 – mit direkten Auswirkungen auf die Abfrage komplexer Finanzbücher über mehrjährige Transaktionshistorien hinweg.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: Evaluierung von LLMs als Agenten — Lehren für die Zuverlässigkeit von Finanz-KI

AgentBench (Liu et al., ICLR 2024) bewertet 27 LLMs in 8 interaktiven Umgebungen — GPT-4 erreichte insgesamt 4,01 gegenüber 0,96 für das beste Open-Source-Modell. Die drei dominanten Fehlermodi (Aufgabenlimit überschritten bei 67,9 % der Wissensgraph-Fehler, Formatfehler bei 53,3 % der Datenbankfehler und ungültige Aktionen) lassen sich direkt auf die Risiken des Einsatzes eines Beancount-Write-Back-Agenten in einem echten Hauptbuch übertragen.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT und die Grenzen domänenspezifischer LLMs im Finanzwesen

Bloomberg trainierte ein LLM mit 50 Mrd. Parametern auf 569 Mrd. Token an Finanzdaten und schlug allgemeine Modelle bei Sentiment- und Tabellen-Logik-Benchmarks – doch dann zog GPT-4 ohne spezifisches Finanz-Vortraining gleich. Was das 10-Millionen-Dollar-Experiment über Abwägungen beim Domänen-Vortraining, die Tokenisierung von Zahlen und die Überlegenheit von Tool-Nutzung gegenüber internen Modellabläufen für Buchhaltungsagenten verrät.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Multi-Agent-Konversations-Frameworks für Finanz-KI

AutoGen (Wu et al., 2023) führt ein Multi-Agent-Konversations-Framework ein, bei dem LLM-gestützte Agenten Nachrichten austauschen, um Aufgaben zu lösen; ein Setup mit zwei Agenten steigert die Genauigkeit im MATH-Benchmark von 55 % auf 69 %, und ein spezieller SafeGuard-Agent verbessert die Erkennung von unsicherem Code um bis zu 35 F1-Punkte – Erkenntnisse, die direkt auf den Aufbau sicherer, modularer Beancount-Automatisierungspipelines anwendbar sind.

Erste Schritte mit Beancount.io

Übernehmen Sie die Kontrolle über Ihre Finanzen mit unserem Open-Source-System für die doppelte Buchführung. Starten Sie noch heute Ihr Ledger.

Kostenlos loslegen Preise ansehen

Gebaut mit Transparenz • Versionskontrolliert • KI-gestützt