8 Posts getaggt mit „Technology“

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Warum kein LLM eine Sitzungsgenauigkeit von 15 % bei der realen Tool-Nutzung überschreitet

WildToolBench (ICLR 2026) bewertet 57 LLMs anhand von 1.024 Aufgaben aus realem Nutzerverhalten – kein Modell überschreitet eine Sitzungsgenauigkeit von 15 %, wobei kompositionelle Orchestrierung, verborgene Absichten und Instruktionsübergänge die drei kritischsten Fehlermodi darstellen.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI

Das TACL-2024-Paper von Liu et al. zeigt, dass LLMs bei Informationen, die in der Mitte langer Kontexte verborgen sind, bis zu 20 Punkte schlechter abschneiden – eine U-förmige Verschlechterung, die jedes getestete Modell einschließlich Claude-1.3-100K betrifft – mit konkreten Auswirkungen darauf, wie RAG-Pipelines abgerufene Passagen in Finanz- und Buchhaltungsanwendungen anordnen sollten.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Desktop AI-Agenten bewältigen 12 % der Aufgaben, während Menschen 72 % lösen

OSWorld (NeurIPS 2024) testet multimodale KI-Agenten bei 369 realen Desktop-Aufgaben unter Ubuntu, Windows und macOS – und stellt eine Lücke von 60 Prozentpunkten zwischen dem besten Modell (12,24 %) und menschlicher Leistung (72,36 %) fest, wobei 75 % der Fehler auf visuomotorische Erdungsfehler statt auf logische Fehlleistungen zurückzuführen sind.

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): Die Wahl der richtigen Dokumentenstruktur schlägt GraphRAG um 28 Punkte

StructRAG (ICLR 2025) leitet jede Abfrage an einen aufgabengerechten Strukturtyp weiter – Tabelle, Graph, Katalog, Algorithmus oder Chunk – bevor die Argumentation erfolgt. Dabei erzielt es im Loong-Benchmark 28 Punkte mehr als GraphRAG bei 22-facher Geschwindigkeit, wobei allein der DPO-trainierte Router für einen Genauigkeitsgewinn von 15 Punkten sorgt.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

Single-Agent-LLMs übertreffen Multi-Agenten-Systeme beim Multi-Hop-Reasoning unter gleichem Thinking-Token-Budget

Ein Stanford-Preprint aus dem Jahr 2026 gleicht die Thinking-Token-Budgets über fünf Multi-Agenten-Architekturen hinweg an und stellt fest, dass Single-Agent-LLMs bei Multi-Hop-Reasoning-Aufgaben mit Multi-Agenten-Systemen gleichziehen oder diese übertreffen – mit theoretischer Fundierung in der Datenverarbeitungsungleichung und Auswirkungen auf das Design von KI-Finanzagenten.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Adaptive Retrieval und Selbstkritik für LLMs

Self-RAG (ICLR 2024 Oral) trainiert ein Sprachmodell darauf, zu entscheiden, wann Informationen abgerufen werden sollen, und die Ergebnisse anschließend anhand von vier Reflection-Tokens zu bewerten — dabei erreicht es 55,8 % bei PopQA und einen FactScore von 80,2 bei Biografien und übertrifft ChatGPT in fünf Benchmarks. Die Analyse umfasst den Mechanismus, Ablationsergebnisse, Grenzen der Reproduzierbarkeit und Auswirkungen auf Finanz-KI-Agenten für Beancount-Ledger.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: Evaluierung von LLMs als Agenten — Lehren für die Zuverlässigkeit von Finanz-KI

AgentBench (Liu et al., ICLR 2024) bewertet 27 LLMs in 8 interaktiven Umgebungen — GPT-4 erreichte insgesamt 4,01 gegenüber 0,96 für das beste Open-Source-Modell. Die drei dominanten Fehlermodi (Aufgabenlimit überschritten bei 67,9 % der Wissensgraph-Fehler, Formatfehler bei 53,3 % der Datenbankfehler und ungültige Aktionen) lassen sich direkt auf die Risiken des Einsatzes eines Beancount-Write-Back-Agenten in einem echten Hauptbuch übertragen.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Virtuelles Kontextmanagement für LLM-Agenten

MemGPT überträgt das Konzept der virtuellen Speicherverwaltung von Betriebssystemen auf LLMs und nutzt einen dreistufigen Speicher – Arbeitsspeicher, Recall-Speicher und Archivspeicher –, um Agenten ein persistentes Gedächtnis über Sitzungen hinweg zu ermöglichen. In Multi-Session-Chat-Benchmarks erreicht MemGPT mit GPT-4 eine Genauigkeit von 92,5 %, verglichen mit einer Baseline von 32,1 % bei festem Kontext.

Alles Über Technology

WildToolBench: Warum kein LLM eine Sitzungsgenauigkeit von 15 % bei der realen Tool-Nutzung überschreitet

Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI

OSWorld: Desktop AI-Agenten bewältigen 12 % der Aufgaben, während Menschen 72 % lösen

StructRAG (ICLR 2025): Die Wahl der richtigen Dokumentenstruktur schlägt GraphRAG um 28 Punkte

Single-Agent-LLMs übertreffen Multi-Agenten-Systeme beim Multi-Hop-Reasoning unter gleichem Thinking-Token-Budget

Self-RAG: Adaptive Retrieval und Selbstkritik für LLMs

AgentBench: Evaluierung von LLMs als Agenten — Lehren für die Zuverlässigkeit von Finanz-KI

MemGPT: Virtuelles Kontextmanagement für LLM-Agenten

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches