Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Alle Autoren anzeigen

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung
·mike

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung

GuardAgent (ICML 2025) platziert einen separaten LLM-Agenten zwischen einem Zielagenten und seiner Umgebung, verifiziert jede vorgeschlagene Aktion durch Generierung und Ausführung von Python-Code und erreicht so eine Genauigkeit bei der Richtliniendurchsetzung von 98,7 % bei 100 % Aufgabenerfüllung, verglichen mit 81 % Genauigkeit und 29–71 % Aufgabenfehlern bei Prompt-basierten Sicherheitsregeln.

ai
llm
automation
security
+3
Multiagent-LLM-Debatte: Echte Genauigkeitsgewinne, unkontrollierte Rechenleistung und kollektive Täuschung
·mike

Multiagent-LLM-Debatte: Echte Genauigkeitsgewinne, unkontrollierte Rechenleistung und kollektive Täuschung

Eine genaue Lektüre des ICML 2024 Multiagenten-Debatten-Papers von Du et al. – das 14,8 Punkte Genauigkeitsgewinn in der Arithmetik meldet – zusammen mit Widerlegungen aus dem Jahr 2025, die zeigen, dass Einzelagenten mit gleichem Budget die Debattenleistung erreichen, sowie eine Analyse, warum kollektive Täuschung (65 % der Debattenfehler) spezifische Risiken für KI-gestützte Ledger-Commits birgt.

ai
llm
machine-learning
automation
+2
LLMs sind für Zeitreihen-Vorhersagen nicht nützlich: Was die NeurIPS 2024 für Finanz-KI bedeutet
·mike

LLMs sind für Zeitreihen-Vorhersagen nicht nützlich: Was die NeurIPS 2024 für Finanz-KI bedeutet

Ein NeurIPS 2024 Spotlight-Paper untersucht drei LLM-basierte Zeitreihen-Vorhersagemethoden — OneFitsAll, Time-LLM und CALF — und stellt fest, dass das Entfernen des Sprachmodells die Genauigkeit in den meisten Fällen verbessert, bei einer bis zu 1.383-fachen Trainingsbeschleunigung. Für Finanz-KI-Anwendungen wie die Beancount-Kontostandsprognose schlagen leichtgewichtige, zweckgebundene Modelle konsequent zweckentfremdete LLMs.

ai
machine-learning
forecasting
data-science
+3
AuditCopilot: LLMs zur Betrugserkennung in der doppelten Buchführung
·mike

AuditCopilot: LLMs zur Betrugserkennung in der doppelten Buchführung

AuditCopilot nutzt Open-Source-LLMs (Mistral-8B, Gemma, Llama-3.1) zur Betrugserkennung in Journalbuchungen von Unternehmen und reduziert falsch-positive Ergebnisse von 942 auf 12 – doch Ablationsstudien zeigen, dass das LLM primär als Syntheseschicht über Isolation-Forest-Scores fungiert und nicht als eigenständiger Anomaliedetektor.

fraud-detection
llm
double-entry
journal-entries
+4
TAT-LLM: Feinabgestimmtes LLaMA 2 für diskretes logisches Schließen über Finanztabellen und Texte
·mike

TAT-LLM: Feinabgestimmtes LLaMA 2 für diskretes logisches Schließen über Finanztabellen und Texte

TAT-LLM optimiert LLaMA 2 7B mittels LoRA für Finanz-Benchmarks zur Beantwortung von Fragen zu Tabellen und Texten. Mit 64,60 % EM auf FinQA übertrifft es GPT-4 (63,91 %), indem es logisches Schließen in deterministische Extraktions-, Analyse- und Ausführungsschritte unterteilt, um Rechenfehler zu eliminieren.

llm
ai
machine-learning
finance
+3
Fine-Tuning vs. RAG: Warum Retrieval bei der Injektion von neuem Wissen in LLMs gewinnt
·mike

Fine-Tuning vs. RAG: Warum Retrieval bei der Injektion von neuem Wissen in LLMs gewinnt

Ein empirischer Vergleich von RAG gegenüber unüberwachtem Fine-Tuning bei 7B-Parameter-LLMs zeigt, dass RAG eine Genauigkeit von über 0,875 bei Fakten nach dem Wissensstopp erreicht, während Fine-Tuning bei 0,504 stagniert – mit direkten Auswirkungen auf das Design von Beancount-Agenten und Systemen, die häufige Wissensaktualisierungen erfordern.

ai
llm
machine-learning
data-science
+3
IRCoT: Verschachtelung von Retrieval mit Chain-of-Thought für mehrstufige QA
·mike

IRCoT: Verschachtelung von Retrieval mit Chain-of-Thought für mehrstufige QA

IRCoT verschachtelt das BM25-Retrieval mit jedem Schritt einer Chain-of-Thought-Argumentationsschleife und erreicht im Vergleich zu einstufigem RAG ein um +11,3 höheres Retrieval-Recall sowie +7,1 F1 auf HotpotQA – und zeigt, dass ein 3B-Modell GPT-3 175B schlagen kann, wenn die Retrieval-Strategie stimmt.

ai
llm
machine-learning
automation
+3
FLARE: Aktive Retrieval Augmented Generation
·mike

FLARE: Aktive Retrieval Augmented Generation

FLARE (EMNLP 2023) verbessert Standard-RAG, indem es das Retrieval während der Generierung mittels Token-Wahrscheinlichkeits-Schwellenwerten auslöst. Es erreicht 51,0 EM bei 2WikiMultihopQA im Vergleich zu 39,4 bei Single-Retrieval – doch Kalibrierungsfehler in instruktionsoptimierten Chat-Modellen schränken die Zuverlässigkeit für produktive Finanz-Agenten ein.

ai
machine-learning
llm
retrieval-augmented-generation
+3
Retrieval-Augmented Generation für wissensintensive NLP-Aufgaben
·mike

Retrieval-Augmented Generation für wissensintensive NLP-Aufgaben

Das NeurIPS-2020-Paper von Lewis et al. führte die hybride RAG-Architektur ein – einen BART-large-Generator gepaart mit einem FAISS-indexierten Retriever über 21 Millionen Wikipedia-Passagen – erreichte 44,5 EM bei Natural Questions und etablierte die parametrische/nicht-parametrische Aufteilung, die heute den meisten KI-Produktionssystemen zugrunde liegt. Diese Rezension behandelt die Abwägungen zwischen RAG-Sequence und RAG-Token, den Fehlermodus des Retrieval-Collapse und was veraltete Indizes für Finanz-KI bedeuten, die auf Append-only-Beancount-Hauptbüchern aufbaut.

ai
machine-learning
llm
data-science
+2
MultiHiertt: Benchmarking für numerisches Schlussfolgern über multi-hierarchische Finanztabellen
·mike

MultiHiertt: Benchmarking für numerisches Schlussfolgern über multi-hierarchische Finanztabellen

MultiHiertt (ACL 2022) führt 10.440 QA-Paare aus echten Finanzberichten mit durchschnittlich 3,89 hierarchischen Tabellen ein; modernste Modelle erreichen einen F1-Score von 38 % gegenüber 87 % bei Menschen, mit einem Malus von 15 Punkten bei tabellenübergreifenden Fragen – eine Quantifizierung der Retrieval-Lücke, die Finanz-KI schließen muss.

ai
machine-learning
llm
financial-reporting
+3
ConvFinQA: Mehrstufige Finanz-QA und der 21-Punkte-Abstand zwischen Modellen und menschlichen Experten
·mike

ConvFinQA: Mehrstufige Finanz-QA und der 21-Punkte-Abstand zwischen Modellen und menschlichen Experten

ConvFinQA (EMNLP 2022) erweitert FinQA um mehrstufige Konversationen über S&P 500 Ergebnisberichte und stellt fest, dass das beste feinabgestimmte Modell eine Ausführungsgenauigkeit von 68,9 % erreicht, verglichen mit 89,4 % bei menschlichen Experten – und auf 52,4 % bei hybriden, multi-aspektiven Gesprächen abfällt, in denen Modelle den numerischen Kontext über verschiedene Finanzthemen hinweg beibehalten müssen.

ai
llm
machine-learning
finance
+3
TAT-QA: Hybrid Table-Text QA Benchmark für logisches Schließen in Geschäftsberichten
·mike

TAT-QA: Hybrid Table-Text QA Benchmark für logisches Schließen in Geschäftsberichten

TAT-QA ist ein Benchmark mit 16.552 Fragen zu hybriden Kontexten aus Tabellen und Texten in Finanzberichten. Er zeigt, dass das Grounding von Belegen – nicht die Arithmetik – der zentrale Engpass in der Finanz-KI ist; bis 2024 erreichten feinabgestimmte 7B LLMs einen F1-Wert von 83 % und schlossen damit einen Großteil der Lücke zum menschlichen Maximum von 91 %.

ai
machine-learning
llm
finance
+2
Zeige 49–60 von 87 Beiträgen