2026
- 15. April - FinBen: Benchmarking von LLMs über 36 Finanzaufgaben hinweg – Implikationen für Buchhaltungs-KI
- 16. April - Toolformer: Selbstüberwachte Werkzeugnutzung und ihre Grenzen für Finanz-KI
- 17. April - ReAct: Synergie von Schlussfolgerung und Handeln in Sprachmodellen
- 18. April - FinMaster-Benchmark: Warum LLMs 96 % bei Finanzkompetenz, aber nur 3 % bei der Erstellung von Abschlüssen erreichen
- 19. April - PHANTOM (NeurIPS 2025): Messung der LLM-Halluzinationserkennung in Finanzdokumenten
- 20. April - Chain-of-Thought-Prompting: Precision-Recall-Abwägungen für Finanz-KI
- 21. April - Konstitutionelle KI für Buchhaltungs-Agenten: RLAIF, Richtlinienregeln und Goodharting-Risiken
- 22. April - Können LLMs über tabellarische Daten schlussfolgern? Was vier Benchmarks über Finanz-KI verraten
- 23. April - PAL: Programm-gestützte Sprachmodelle für zuverlässige Finanzarithmetik
- 24. April - Self-Consistency: Majority-Vote-Sampling steigert die Chain-of-Thought-Genauigkeit
- 25. April - Reflexion: Sprach-Agenten, die aus Fehlern lernen, ohne neu trainiert zu werden
- 26. April - CRITIC: Warum die LLM-Selbstkorrektur externes Werkzeug-Feedback erfordert
- 27. April - Tree of Thoughts: Bewusste Problemlösung mit LLM-Suche
- 28. April - LLMs können Logikfehler noch nicht selbst korrigieren — ICLR 2024 Ergebnisse und Auswirkungen auf Finance AI
- 29. April - CodeAct: Warum ausführbarer Python-Code LLM-Agenten um 20 % genauer macht
- 30. April - SWE-bench: Können Sprachmodelle reale GitHub-Issues lösen?
- 1. Mai - SWE-agent: Wie Interface-Design automatisierte Softwareentwicklung ermöglicht
- 2. Mai - MemGPT: Virtuelles Kontextmanagement für LLM-Agenten
- 3. Mai - Gorilla: Wie Retrieval-Aware Training LLM-API-Halluzinationen von 78 % auf 11 % reduziert
- 4. Mai - AutoGen: Multi-Agent-Konversations-Frameworks für Finanz-KI
- 5. Mai - BloombergGPT und die Grenzen domänenspezifischer LLMs im Finanzwesen
- 6. Mai - AgentBench: Evaluierung von LLMs als Agenten — Lehren für die Zuverlässigkeit von Finanz-KI
- 7. Mai - HippoRAG: Neurobiologisch inspirierter Langzeitspeicher für LLMs
- 8. Mai - Voyager: Skill-Bibliotheken als Grundlage für lebenslanges Lernen von KI-Agenten
- 9. Mai - Self-RAG: Adaptive Retrieval und Selbstkritik für LLMs
- 10. Mai - LATS: Language Agent Tree Search — Schlussfolgern, Handeln und Planen in einem Framework
- 11. Mai - DSPy: Ersatz von sprödem Prompt-Engineering durch kompilierte LLM-Pipelines
- 12. Mai - FinanceBench: Warum Vector-Store RAG bei echten Finanzdokumenten scheitert
- 13. Mai - FinQA: Der Benchmark zur Messung numerischer Schlussfolgerungen von KI in Finanzberichten
- 14. Mai - TAT-QA: Hybrid Table-Text QA Benchmark für logisches Schließen in Geschäftsberichten
- 15. Mai - ConvFinQA: Mehrstufige Finanz-QA und der 21-Punkte-Abstand zwischen Modellen und menschlichen Experten
- 16. Mai - MultiHiertt: Benchmarking für numerisches Schlussfolgern über multi-hierarchische Finanztabellen
- 17. Mai - Retrieval-Augmented Generation für wissensintensive NLP-Aufgaben
- 18. Mai - FLARE: Aktive Retrieval Augmented Generation
- 19. Mai - IRCoT: Verschachtelung von Retrieval mit Chain-of-Thought für mehrstufige QA
- 20. Mai - Fine-Tuning vs. RAG: Warum Retrieval bei der Injektion von neuem Wissen in LLMs gewinnt
- 21. Mai - TAT-LLM: Feinabgestimmtes LLaMA 2 für diskretes logisches Schließen über Finanztabellen und Texte
- 22. Mai - AuditCopilot: LLMs zur Betrugserkennung in der doppelten Buchführung
- 23. Mai - LLMs sind für Zeitreihen-Vorhersagen nicht nützlich: Was die NeurIPS 2024 für Finanz-KI bedeutet
- 24. Mai - Multiagent-LLM-Debatte: Echte Genauigkeitsgewinne, unkontrollierte Rechenleistung und kollektive Täuschung
- 25. Mai - GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung
- 26. Mai - Fusion-in-Decoder: Wie Multi-Passage-Retrieval das generative QA verbessert
- 27. Mai - Atlas: Gemeinsames Retriever-Reader-Pre-Training schlägt LLMs mit 540 Mrd. Parametern mit nur 11 Mrd. Parametern
- 28. Mai - ShieldAgent: Verifizierbare Sicherheitsrichtlinien-Argumentation für LLM-Agenten
- 29. Mai - AGrail: Adaptive Sicherheits-Guardrails für LLM-Agenten mit aufgabenübergreifendem Lernen
- 30. Mai - M3MAD-Bench: Sind Multi-Agenten-Debatten über Domänen und Modalitäten hinweg wirklich effektiv?
- 31. Mai - Single-Agent-LLMs übertreffen Multi-Agenten-Systeme beim Multi-Hop-Reasoning unter gleichem Thinking-Token-Budget
- 1. Juni - StructRAG (ICLR 2025): Die Wahl der richtigen Dokumentenstruktur schlägt GraphRAG um 28 Punkte
- 2. Juni - InvestorBench: Benchmarking von LLM-Agenten bei finanziellen Handelsentscheidungen
- 3. Juni - FinAuditing: LLMs erzielen unter 14 % bei realen SEC-XBRL-Prüfungsaufgaben
- 4. Juni - GraphRAG: Von lokaler zu globaler abfrageorientierter Zusammenfassung
- 5. Juni - Verifizierbar sichere Tool-Nutzung für LLM-Agenten: STPA trifft auf MCP
- 6. Juni - BIRD-Benchmark: Die Kluft bei realen Datenbanken in LLM Text-to-SQL
- 7. Juni - DIN-SQL: Zerlegtes In-Context Learning für Text-zu-SQL
- 8. Juni - MAC-SQL: Multi-Agent Collaborative Text-to-SQL
- 9. Juni - TAPAS: Schwach überwachtes Table-QA ohne SQL und was es für Beancount bedeutet
- 10. Juni - TableLlama: Kann ein offenes 7B-Modell mit GPT-4 beim Tabellenverständnis mithalten?
- 11. Juni - Chain-of-Table: Evolution von Tabellen in der LLM-Schlussfolgerungskette
- 12. Juni - τ-bench: Messung der Zuverlässigkeit von KI-Agenten in praxisnahen Tool-Nutzungs-Domänen
- 13. Juni - WorkArena: Wie LLM-Web-Agenten bei realer Wissensarbeit in Unternehmen abschneiden
- 14. Juni - WebArena: Der Benchmark mit 812 Aufgaben, der misst, was Web-Agenten tatsächlich können und was nicht
- 15. Juni - OSWorld: Desktop AI-Agenten bewältigen 12 % der Aufgaben, während Menschen 72 % lösen
- 16. Juni - GAIA Benchmark: Messen, was modernste KI-Agenten wirklich leisten können
- 17. Juni - WorkArena++: Die 93%-Lücke zwischen menschlicher Leistung und der von KI-Agenten bei kompositorischen Unternehmensaufgaben
- 18. Juni - τ²-bench: Messung der Kosten von Dual-Control in konversationellen KI-Agenten
- 19. Juni - TheAgentCompany: Benchmarking von LLM-Agenten bei realen Unternehmensaufgaben
- 20. Juni - DocFinQA: Langkontextuelles finanzielles Schlussfolgern auf vollständigen SEC-Filings
- 21. Juni - Zero-Shot-Anomalieerkennung mit LLMs: Wie GPT-4 bei tabellarischen Daten abschneidet
- 22. Juni - TableMaster: Adaptives Denken für das Tabellenverständnis mit LLMs
- 23. Juni - LLMs erreichen 2,3 % bei der Beancount DSL-Generierung: Der LLMFinLiteracy-Benchmark
- 24. Juni - AnoLLM: Fine-Tuning von LLMs zur tabellarischen Anomalieerkennung in Finanzdaten
- 25. Juni - CausalTAD: Kausale Spaltenordnung für die Tabellen-Anomalieerkennung mit LLMs
- 26. Juni - AD-LLM-Benchmark: GPT-4o erreicht 0,93+ AUROC Zero-Shot bei der Text-Anomalieerkennung
- 27. Juni - Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI
- 28. Juni - FinDER: Reale Analystenanfragen decken eine Recall-Lücke von 74 % bei Finanz-RAG auf
- 29. Juni - Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern
- 30. Juni - OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet
- 1. Juli - Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte
- 2. Juli - In der Mitte gefunden: Die Kalibrierung des positionalen Attention-Bias verbessert Long-Context RAG
- 3. Juli - LLM-Anomalieerkennung Survey (NAACL 2025): Starke Taxonomie, fehlende Abdeckung tabellarischer Daten
- 4. Juli - OmniEval: Omnidirektionaler RAG-Evaluations-Benchmark für den Finanzsektor
- 5. Juli - FinToolBench: Evaluierung von LLM-Agenten bei der Nutzung von Finanzwerkzeugen in der Praxis
- 6. Juli - FinTrace: Evaluation von LLM-Tool-Aufrufen für Finanzaufgaben auf Trajektorie-Ebene
- 7. Juli - FinMCP-Bench: Benchmarking von LLM-Agenten für den realen Einsatz von Finanz-Tools unter MCP
- 8. Juli - JSONSchemaBench: Reale Schema-Komplexität bricht Garantien für strukturierten LLM-Output
- 9. Juli - LLM-Konfidenz und Kalibrierung: Ein Überblick über den tatsächlichen Stand der Forschung
- 10. Juli - WildToolBench: Warum kein LLM eine Sitzungsgenauigkeit von 15 % bei der realen Tool-Nutzung überschreitet
- 11. Juli - Können LLM-Agenten CFOs sein? EnterpriseArenas 132-monatige Simulation deckt eine große Lücke auf
- 12. Juli - FinRAGBench-V: Multimodales RAG mit visuellen Zitaten im Finanzbereich