Mike Thrift

Marketing Manager

May 25, 2026·mike

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung

GuardAgent (ICML 2025) platziert einen separaten LLM-Agenten zwischen einem Zielagenten und seiner Umgebung, verifiziert jede vorgeschlagene Aktion durch Generierung und Ausführung von Python-Code und erreicht so eine Genauigkeit bei der Richtliniendurchsetzung von 98,7 % bei 100 % Aufgabenerfüllung, verglichen mit 81 % Genauigkeit und 29–71 % Aufgabenfehlern bei Prompt-basierten Sicherheitsregeln.

llm

automation

May 24, 2026·mike

Multiagent-LLM-Debatte: Echte Genauigkeitsgewinne, unkontrollierte Rechenleistung und kollektive Täuschung

Eine genaue Lektüre des ICML 2024 Multiagenten-Debatten-Papers von Du et al. – das 14,8 Punkte Genauigkeitsgewinn in der Arithmetik meldet – zusammen mit Widerlegungen aus dem Jahr 2025, die zeigen, dass Einzelagenten mit gleichem Budget die Debattenleistung erreichen, sowie eine Analyse, warum kollektive Täuschung (65 % der Debattenfehler) spezifische Risiken für KI-gestützte Ledger-Commits birgt.

llm

machine-learning

May 23, 2026·mike

LLMs sind für Zeitreihen-Vorhersagen nicht nützlich: Was die NeurIPS 2024 für Finanz-KI bedeutet

Ein NeurIPS 2024 Spotlight-Paper untersucht drei LLM-basierte Zeitreihen-Vorhersagemethoden — OneFitsAll, Time-LLM und CALF — und stellt fest, dass das Entfernen des Sprachmodells die Genauigkeit in den meisten Fällen verbessert, bei einer bis zu 1.383-fachen Trainingsbeschleunigung. Für Finanz-KI-Anwendungen wie die Beancount-Kontostandsprognose schlagen leichtgewichtige, zweckgebundene Modelle konsequent zweckentfremdete LLMs.

machine-learning

forecasting

May 22, 2026·mike

AuditCopilot: LLMs zur Betrugserkennung in der doppelten Buchführung

AuditCopilot nutzt Open-Source-LLMs (Mistral-8B, Gemma, Llama-3.1) zur Betrugserkennung in Journalbuchungen von Unternehmen und reduziert falsch-positive Ergebnisse von 942 auf 12 – doch Ablationsstudien zeigen, dass das LLM primär als Syntheseschicht über Isolation-Forest-Scores fungiert und nicht als eigenständiger Anomaliedetektor.

TAT-LLM: Feinabgestimmtes LLaMA 2 für diskretes logisches Schließen über Finanztabellen und Texte

TAT-LLM optimiert LLaMA 2 7B mittels LoRA für Finanz-Benchmarks zur Beantwortung von Fragen zu Tabellen und Texten. Mit 64,60 % EM auf FinQA übertrifft es GPT-4 (63,91 %), indem es logisches Schließen in deterministische Extraktions-, Analyse- und Ausführungsschritte unterteilt, um Rechenfehler zu eliminieren.

llm

machine-learning

May 20, 2026·mike

Fine-Tuning vs. RAG: Warum Retrieval bei der Injektion von neuem Wissen in LLMs gewinnt

Ein empirischer Vergleich von RAG gegenüber unüberwachtem Fine-Tuning bei 7B-Parameter-LLMs zeigt, dass RAG eine Genauigkeit von über 0,875 bei Fakten nach dem Wissensstopp erreicht, während Fine-Tuning bei 0,504 stagniert – mit direkten Auswirkungen auf das Design von Beancount-Agenten und Systemen, die häufige Wissensaktualisierungen erfordern.

llm

machine-learning

May 19, 2026·mike

IRCoT: Verschachtelung von Retrieval mit Chain-of-Thought für mehrstufige QA

IRCoT verschachtelt das BM25-Retrieval mit jedem Schritt einer Chain-of-Thought-Argumentationsschleife und erreicht im Vergleich zu einstufigem RAG ein um +11,3 höheres Retrieval-Recall sowie +7,1 F1 auf HotpotQA – und zeigt, dass ein 3B-Modell GPT-3 175B schlagen kann, wenn die Retrieval-Strategie stimmt.

llm

machine-learning

May 18, 2026·mike

FLARE: Aktive Retrieval Augmented Generation

FLARE (EMNLP 2023) verbessert Standard-RAG, indem es das Retrieval während der Generierung mittels Token-Wahrscheinlichkeits-Schwellenwerten auslöst. Es erreicht 51,0 EM bei 2WikiMultihopQA im Vergleich zu 39,4 bei Single-Retrieval – doch Kalibrierungsfehler in instruktionsoptimierten Chat-Modellen schränken die Zuverlässigkeit für produktive Finanz-Agenten ein.

machine-learning

llm

May 17, 2026·mike

Retrieval-Augmented Generation für wissensintensive NLP-Aufgaben

Das NeurIPS-2020-Paper von Lewis et al. führte die hybride RAG-Architektur ein – einen BART-large-Generator gepaart mit einem FAISS-indexierten Retriever über 21 Millionen Wikipedia-Passagen – erreichte 44,5 EM bei Natural Questions und etablierte die parametrische/nicht-parametrische Aufteilung, die heute den meisten KI-Produktionssystemen zugrunde liegt. Diese Rezension behandelt die Abwägungen zwischen RAG-Sequence und RAG-Token, den Fehlermodus des Retrieval-Collapse und was veraltete Indizes für Finanz-KI bedeuten, die auf Append-only-Beancount-Hauptbüchern aufbaut.

machine-learning

llm

May 16, 2026·mike

MultiHiertt: Benchmarking für numerisches Schlussfolgern über multi-hierarchische Finanztabellen

MultiHiertt (ACL 2022) führt 10.440 QA-Paare aus echten Finanzberichten mit durchschnittlich 3,89 hierarchischen Tabellen ein; modernste Modelle erreichen einen F1-Score von 38 % gegenüber 87 % bei Menschen, mit einem Malus von 15 Punkten bei tabellenübergreifenden Fragen – eine Quantifizierung der Retrieval-Lücke, die Finanz-KI schließen muss.

machine-learning

llm

May 15, 2026·mike

ConvFinQA: Mehrstufige Finanz-QA und der 21-Punkte-Abstand zwischen Modellen und menschlichen Experten

ConvFinQA (EMNLP 2022) erweitert FinQA um mehrstufige Konversationen über S&P 500 Ergebnisberichte und stellt fest, dass das beste feinabgestimmte Modell eine Ausführungsgenauigkeit von 68,9 % erreicht, verglichen mit 89,4 % bei menschlichen Experten – und auf 52,4 % bei hybriden, multi-aspektiven Gesprächen abfällt, in denen Modelle den numerischen Kontext über verschiedene Finanzthemen hinweg beibehalten müssen.

llm

machine-learning

May 14, 2026·mike

TAT-QA: Hybrid Table-Text QA Benchmark für logisches Schließen in Geschäftsberichten

TAT-QA ist ein Benchmark mit 16.552 Fragen zu hybriden Kontexten aus Tabellen und Texten in Finanzberichten. Er zeigt, dass das Grounding von Belegen – nicht die Arithmetik – der zentrale Engpass in der Finanz-KI ist; bis 2024 erreichten feinabgestimmte 7B LLMs einen F1-Wert von 83 % und schlossen damit einen Großteil der Lücke zum menschlichen Maximum von 91 %.

machine-learning

llm

Zeige 49–60 von 87 Beiträgen

Zurück5 / 8Weiter