2026
- 15 april - FinBen: Benchmarking van LLM's over 36 financiële taken — implicaties voor AI in de boekhouding
- 16 april - Toolformer: Zelf-gesuperviseerd toolgebruik en de beperkingen voor Finance AI
- 17 april - ReAct: Synergie tussen redeneren en handelen in taalmodellen
- 18 april - FinMaster Benchmark: Waarom LLM's 96% scoren op financiële geletterdheid maar 3% op het genereren van overzichten
- 19 april - PHANTOM (NeurIPS 2025): Het meten van LLM-hallucinatie-detectie in financiële documenten
- 20 april - Chain-of-Thought Prompting: Precision-Recall Trade-offs voor Finance AI
- 21 april - Constitutionele AI voor boekhoud-agents: RLAIF, beleidsregels en Goodharting-risico's
- 22 april - Kunnen LLM's redeneren over tabelgegevens? Wat vier benchmarks ons vertellen over Finance AI
- 23 april - PAL: Program-Aided Language Models voor betrouwbare financiële rekenkunde
- 24 april - Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought
- 25 april - Reflexion: Taalagenten die leren van fouten zonder hertraining
- 26 april - CRITIC: Waarom LLM-zelfcorrectie feedback van externe tools vereist
- 27 april - Tree of Thoughts: Doelgericht problemen oplossen met LLM-zoekalgoritmen
- 28 april - LLM's kunnen hun redeneringen nog niet zelf corrigeren — ICLR 2024-bevindingen en implicaties voor Financiële AI
- 29 april - CodeAct: Waarom uitvoerbare Python-code LLM-agents 20% nauwkeuriger maakt
- 30 april - SWE-bench: Kunnen taalmodellen echte GitHub-problemen oplossen?
- 1 mei - SWE-agent: Hoe interface-ontwerp geautomatiseerde software-engineering mogelijk maakt
- 2 mei - MemGPT: Virtueel contextbeheer voor LLM-agenten
- 3 mei - Gorilla: Hoe Retrieval-Aware Training LLM API-hallucinaties vermindert van 78% naar 11%
- 4 mei - AutoGen: Multi-Agent Conversatie-frameworks voor Financiële AI
- 5 mei - BloombergGPT en de grenzen van domeinspecifieke LLM's in de financiële sector
- 6 mei - AgentBench: LLM's evalueren als agenten — Lessen voor de betrouwbaarheid van AI in de financiële sector
- 7 mei - HippoRAG: Neurobiologisch geïnspireerd langetermijngeheugen voor LLM's
- 8 mei - Voyager: Vaardigheidsbibliotheken als de basis voor levenslang leren van AI-agents
- 9 mei - Self-RAG: Adaptief ophalen en zelfkritiek voor LLM's
- 10 mei - LATS: Language Agent Tree Search — Redeneren, Handelen en Plannen in Eén Framework
- 11 mei - DSPy: Broze Prompt Engineering Vervangen door Gecompileerde LLM-Pipelines
- 12 mei - FinanceBench: Waarom Vector-Store RAG faalt bij echte financiële documenten
- 13 mei - FinQA: De benchmark voor het meten van numeriek redeneren door AI in financiële rapporten
- 14 mei - TAT-QA: Hybride tabel-tekst QA-benchmark voor redeneren over financiële jaarverslagen
- 15 mei - ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts
- 16 mei - MultiHiertt: Benchmarking van numeriek redeneren over multi-hiërarchische financiële tabellen
- 17 mei - Retrieval-Augmented Generation voor Kennisintensieve NLP-taken
- 18 mei - FLARE: Actieve Retrieval Augmented Generation
- 19 mei - IRCoT: Interleaving van Retrieval met Chain-of-Thought voor Meerstaps QA
- 20 mei - Fine-Tuning vs. RAG: Waarom Retrieval wint bij het toevoegen van nieuwe kennis aan LLM's
- 21 mei - TAT-LLM: Gefinetunede LLaMA 2 voor discreet redeneren over financiële tabellen en tekst
- 22 mei - AuditCopilot: LLM's voor fraudedetectie in dubbel boekhouden
- 23 mei - LLM's zijn niet nuttig voor tijdreeksvoorspelling: Wat NeurIPS 2024 betekent voor Finance AI
- 24 mei - Multi-agent LLM-debat: Echte nauwkeurigheidswinst, ongecontroleerde rekenkracht en collectieve waanbeelden
- 25 mei - GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering
- 26 mei - Fusion-in-Decoder: Hoe Multi-Passage Retrieval Generatieve QA Verbetert
- 27 mei - Atlas: Gezamenlijke Retriever-Reader Pre-Training Verslaat LLM's met 540 Miljard Parameters met Slechts 11 Miljard Parameters
- 28 mei - ShieldAgent: Verifieerbare veiligheidsbeleid-redenering voor LLM-agents
- 29 mei - AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken
- 30 mei - M3MAD-Bench: Zijn debatten tussen meerdere agenten echt effectief over verschillende domeinen en modaliteiten?
- 31 mei - Single-Agent LLM's presteren beter dan multi-agent systemen bij multi-hop redeneren onder gelijke budgetten voor denk-tokens
- 1 juni - StructRAG (ICLR 2025): De juiste documentstructuur kiezen verslaat GraphRAG met 28 punten
- 2 juni - InvestorBench: LLM-agenten benchmarken op financiële handelsbeslissingen
- 3 juni - FinAuditing: LLM's scoren onder de 14% op echte SEC XBRL-audittaken
- 4 juni - GraphRAG: Van Lokale naar Globale Query-Gerichte Samenvatting
- 5 juni - Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP
- 6 juni - BIRD-benchmark: De kloof met echte databases in LLM Text-to-SQL
- 7 juni - DIN-SQL: Gedecomponeerd In-Context Leren voor Text-to-SQL
- 8 juni - MAC-SQL: Multi-Agent Collaboratieve Text-to-SQL
- 9 juni - TAPAS: Zwak gesuperviseerde tabel-QA zonder SQL, en wat dit betekent voor Beancount
- 10 juni - TableLlama: Kan een open 7B-model GPT-4 evenaren in tabelbegrip?
- 11 juni - Chain-of-Table: Evoluerende Tabellen in de LLM-Redeneerketen
- 12 juni - τ-bench: De betrouwbaarheid van AI-agents meten in praktijkgerichte toolgebruik-domeinen
- 13 juni - WorkArena: Hoe LLM-webagents presteren op echt zakelijk kenniswerk
- 14 juni - WebArena: De 812-Taken Benchmark die Meet wat Web-agents Werkelijk Wel en Niet Kunnen
- 15 juni - OSWorld: Desktop AI-agents slagen in 12% van de taken waar mensen in 72% slagen
- 16 juni - GAIA-benchmark: Meten wat grensverleggende AI-agenten echt kunnen
- 17 juni - WorkArena++: De kloof van 93% tussen menselijke en AI-agentprestaties bij compositionele bedrijfstaken
- 18 juni - τ²-bench: De kosten meten van dual-control in conversationele AI-agents
- 19 juni - TheAgentCompany: Benchmarking van LLM-agents voor realistische bedrijfstaken
- 20 juni - DocFinQA: Financieel redeneren met lange context op volledige SEC-documenten
- 21 juni - Zero-Shot Anomalie-Detectie met LLM's: Hoe GPT-4 Presteert op Tabulaire Data
- 22 juni - TableMaster: Adaptief redeneren voor tabelbegrip met LLM's
- 23 juni - LLM's scoren 2,3% op Beancount DSL-generatie: De LLMFinLiteracy-benchmark
- 24 juni - AnoLLM: LLM's finetunen voor tabelgebaseerde anomaliedetectie in financiële gegevens
- 25 juni - CausalTAD: Causale Kolomvolgorde voor LLM Tabulaire Anomaliedetectie
- 26 juni - AD-LLM Benchmark: GPT-4o behaalt 0,93+ AUROC Zero-Shot voor tekstuele anomaliedetectie
- 27 juni - Lost in the Middle: Positiebias in LLM's en de impact op Finance AI
- 28 juni - FinDER: Echte vragen van analisten onthullen een recall-kloof van 74% in financiële RAG
- 29 juni - Fin-RATE: Hoe LLM's falen bij financiële analyse over verschillende perioden en entiteiten
- 30 juni - OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering
- 1 juli - Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen
- 2 juli - Gevonden in het midden: Kalibreren van positionele aandachts-bias verbetert RAG met lange context
- 3 juli - LLM Anomaly Detection Survey (NAACL 2025): Sterke Taxonomie, Ontbrekende Tabeldekking
- 4 juli - OmniEval: Omnidirectionele RAG-evaluatiebenchmark voor de financiële sector
- 5 juli - FinToolBench: Evaluatie van LLM-agents bij het gebruik van financiële tools in de praktijk
- 6 juli - FinTrace: Evaluatie op trajectniveau van LLM tool-aanroepen voor financiële taken
- 7 juli - FinMCP-Bench: Benchmarking van LLM-agenten voor financieel toolgebruik in de praktijk onder MCP
- 8 juli - JSONSchemaBench: Complexiteit van real-world schema's doorbreekt garanties voor gestructureerde LLM-output
- 9 juli - LLM-betrouwbaarheid en -kalibratie: Een overzicht van wat het onderzoek daadwerkelijk aantoont
- 10 juli - WildToolBench: Waarom geen enkele LLM meer dan 15% sessienauwkeurigheid behaalt bij toolgebruik in de praktijk
- 11 juli - Kunnen LLM-agents CFO's zijn? EnterpriseArena's 132-maanden simulatie onthult een grote kloof
- 12 juli - FinRAGBench-V: Multimodale RAG met visuele citaten in het financiële domein
