8 berichten getagd met "Technology"

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Waarom geen enkele LLM meer dan 15% sessienauwkeurigheid behaalt bij toolgebruik in de praktijk

WildToolBench (ICLR 2026) evalueert 57 LLM's op 1.024 taken gebaseerd op echt gebruikersgedrag — geen enkel model overschrijdt 15% sessienauwkeurigheid, waarbij compositionele orkestratie, verborgen intentie en instructie-overgangen de drie meest kritieke faalmodi zijn.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Lost in the Middle: Positiebias in LLM's en de impact op Finance AI

Het TACL 2024-artikel van Liu et al. toont aan dat LLM's tot 20 punten slechter presteren op informatie die in het midden van lange contexten is begraven — een U-vormige degradatie die elk getest model beïnvloedt, inclusief Claude-1.3-100K — met concrete gevolgen voor de manier waarop RAG-pipelines opgehaalde fragmenten moeten ordenen in financiële en boekhoudkundige toepassingen.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Desktop AI-agents slagen in 12% van de taken waar mensen in 72% slagen

OSWorld (NeurIPS 2024) benchmarkt multimodale AI-agents op 369 echte desktoptaken in Ubuntu, Windows en macOS — met een kloof van 60 procentpunten tussen het beste model (12,24%) en menselijke prestaties (72,36%), waarbij 75% van de fouten wordt herleid naar visuomotorische verankeringsfouten in plaats van redeneerfouten.

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): De juiste documentstructuur kiezen verslaat GraphRAG met 28 punten

StructRAG (ICLR 2025) stuurt elke zoekopdracht naar een taakgeschikt structuurtype — tabel, graaf, catalogus, algoritme of chunk — alvorens te redeneren. Het scoort 28 punten hoger dan GraphRAG op de Loong-benchmark terwijl het 22× sneller draait, waarbij de met DPO getrainde router alleen al verantwoordelijk is voor een nauwkeurigheidswinst van 15 punten.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

Single-Agent LLM's presteren beter dan multi-agent systemen bij multi-hop redeneren onder gelijke budgetten voor denk-tokens

Een Stanford-preprint uit 2026 egaliseert de budgetten voor denk-tokens over vijf multi-agent-architecturen en stelt vast dat single-agent LLM's multi-agent-systemen evenaren of verslaan bij multi-hop redeneren — met een theoretische onderbouwing in de Dataverwerkingsongelijkheid en implicaties voor het ontwerp van financiële AI-agents.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Adaptief ophalen en zelfkritiek voor LLM's

Self-RAG (ICLR 2024 Oral) traint een taalmodel om te beslissen wanneer informatie moet worden opgehaald en vervolgens de eigen resultaten te beoordelen met behulp van vier reflectie-tokens — met resultaten van 55,8% op PopQA en een FactScore van 80,2 op biografieën, waarmee het ChatGPT op vijf benchmarks overtreft. De analyse behandelt het mechanisme, de ablatieresultaten, beperkingen in reproduceerbaarheid en implicaties voor financiële AI-agents op basis van Beancount-grootboeken.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: LLM's evalueren als agenten — Lessen voor de betrouwbaarheid van AI in de financiële sector

AgentBench (Liu et al., ICLR 2024) benchmarkt 27 LLM's in 8 interactieve omgevingen — GPT-4 scoorde gemiddeld 4,01 tegenover 0,96 voor het beste open-sourcemodel. De drie dominante foutmodi (overschrijding van de taaklimiet bij 67,9% van de fouten in de kennisgraaf, formaatfouten bij 53,3% van de databasefouten, en ongeldige acties) sluiten direct aan bij de risico's van het inzetten van een Beancount write-back-agent op een echt grootboek.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Virtueel contextbeheer voor LLM-agenten

MemGPT past OS-stijl virtuele geheugenpaging toe op LLM's, gebruikmakend van opslag in drie niveaus — werkgeheugen, recall en archief — om agenten persistent geheugen over sessies heen te geven; op chatbenchmarks voor meerdere sessies behaalt MemGPT met GPT-4 een nauwkeurigheid van 92,5% tegenover een baseline van 32,1% bij een vaste context.

Alles Over Technology

WildToolBench: Waarom geen enkele LLM meer dan 15% sessienauwkeurigheid behaalt bij toolgebruik in de praktijk

Lost in the Middle: Positiebias in LLM's en de impact op Finance AI

OSWorld: Desktop AI-agents slagen in 12% van de taken waar mensen in 72% slagen

StructRAG (ICLR 2025): De juiste documentstructuur kiezen verslaat GraphRAG met 28 punten

Single-Agent LLM's presteren beter dan multi-agent systemen bij multi-hop redeneren onder gelijke budgetten voor denk-tokens

Self-RAG: Adaptief ophalen en zelfkritiek voor LLM's

AgentBench: LLM's evalueren als agenten — Lessen voor de betrouwbaarheid van AI in de financiële sector

MemGPT: Virtueel contextbeheer voor LLM-agenten

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch