2026
- 15. apríla - FinBen: Benchmarking LLMs v 36 finančných úlohách — Dôsledky pre AI v účtovníctve
- 16. apríla - Toolformer: Samostatočne dohliadané používanie nástrojov a jeho limity pre finančnú AI
- 17. apríla - ReAct: Synergia uvažovania a konania v jazykových modeloch
- 18. apríla - Benchmark FinMaster: Prečo LLM dosahujú 96 % vo finančnej gramotnosti, ale iba 3 % pri generovaní výkazov
- 19. apríla - PHANTOM (NeurIPS 2025): Meranie detekcie halucinácií LLM vo finančných dokumentoch
- 20. apríla - Chain-of-Thought Prompting: Kompromisy medzi presnosťou a úplnosťou pre finančnú AI
- 21. apríla - Konštitučná AI pre účtovných agentov: RLAIF, pravidlá politiky a riziká Goodhartovho zákona
- 22. apríla - Dokážu LLM uvažovať nad tabuľkovými údajmi? Čo nám hovoria štyri benchmarky o finančnej AI
- 23. apríla - PAL: Programovo podporované jazykové modely pre spoľahlivú finančnú aritmetiku
- 24. apríla - Self-Consistency: Vzorkovanie väčšinovým hlasovaním zvyšuje presnosť Chain-of-Thought
- 25. apríla - Reflexion: Jazykoví agenti, ktorí sa učia z chýb bez opätovného trénovania
- 26. apríla - CRITIC: Prečo samooprava LLM vyžaduje spätnú väzbu od externých nástrojov
- 27. apríla - Strom myšlienok: Premyslené riešenie problémov s vyhľadávaním pomocou LLM
- 28. apríla - LLM zatiaľ nedokážu samy opravovať uvažovanie – zistenia z ICLR 2024 a dôsledky pre finančnú AI
- 29. apríla - CodeAct: Prečo spustiteľný Python kód robí LLM agentov o 20 % presnejšími
- 30. apríla - SWE-bench: Dokážu jazykové modely riešiť skutočné problémy na GitHub-e?
- 1. mája - SWE-agent: Ako dizajn rozhrania odomyká automatizované softvérové inžinierstvo
- 2. mája - MemGPT: Virtuálna správa kontextu pre LLM agentov
- 3. mája - Gorilla: How Retrieval-Aware Training Reduces LLM API Hallucinations from 78% to 11%
- 4. mája - AutoGen: Viacagentové konverzačné rámce pre finančnú AI
- 5. mája - BloombergGPT a limity doménovo špecifických LLM vo financiách
- 6. mája - AgentBench: Hodnotenie LLM ako agentov — Ponaučenia pre spoľahlivosť finančnej AI
- 7. mája - HippoRAG: Neurobiologicky inšpirovaná dlhodobá pamäť pre LLM
- 8. mája - Voyager: Knižnice zručností ako základ pre celoživotné učenie AI agentov
- 9. mája - Self-RAG: Adaptívne vyhľadávanie a sebakritika pre LLM
- 10. mája - LATS: Language Agent Tree Search — uvažovanie, konanie a plánovanie v jednom rámci
- 11. mája - DSPy: Nahradenie krehkého prompt engineeringu kompilovanými LLM pipeline-ami
- 12. mája - FinanceBench: Prečo RAG s vektorovým úložiskom zlyháva pri reálnych finančných dokumentoch
- 13. mája - FinQA: Benchmark na meranie numerického uvažovania AI vo finančných správach
- 14. mája - TAT-QA: Hybridný benchmark pre usudzovanie z tabuliek a textu vo finančných výročných správach
- 15. mája - ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi
- 16. mája - MultiHiertt: Benchmarking numerického uvažovania nad multi-hierarchickými finančnými tabuľkami
- 17. mája - Generovanie rozšírené o vyhľadávanie pre úlohy NLP náročné na znalosti
- 18. mája - FLARE: Aktívne generovanie rozšírené o vyhľadávanie
- 19. mája - IRCoT: Prekladanie vyhľadávania s reťazcom úvah pre viacstupňové odpovedanie na otázky
- 20. mája - Fine-Tuning vs. RAG: Prečo vyhľadávanie vyhráva pri vkladaní nových znalostí do LLM
- 21. mája - TAT-LLM: Doladený LLaMA 2 pre diskrétne uvažovanie nad finančnými tabuľkami a textom
- 22. mája - AuditCopilot: LLMs na detekciu podvodov v podvojnom účtovníctve
- 23. mája - LLM nie sú užitočné pre predpovedanie časových radov: Čo NeurIPS 2024 znamená pre finančnú AI
- 24. mája - Debata viacerých agentov LLM: Skutočné zisky presnosti, nekontrolovaný výpočtový výkon a kolektívny klam
- 25. mája - GuardAgent: Deterministické presadzovanie bezpečnosti pre LLM agentov prostredníctvom vykonávania kódu
- 26. mája - Fusion-in-Decoder: Ako vyhľadávanie vo viacerých pasážach zlepšuje generatívne QA
- 27. mája - Atlas: Spoločný tréning retrievera a readera prekonáva 540B-parametrové LLM modely s 11B parametrami
- 28. mája - ShieldAgent: Overiteľné zdôvodňovanie bezpečnostných pravidiel pre LLM agentov
- 29. mája - AGrail: Adaptívne bezpečnostné mantinely pre LLM agentov, ktorí sa učia naprieč úlohami
- 30. mája - M3MAD-Bench: Sú debaty viacerých agentov skutočne efektívne naprieč doménami a modalitami?
- 31. mája - Jednoagentové LLM prekonávajú viacagentové systémy v multi-hop uvažovaní pri rovnakom rozpočte thinking tokenov
- 1. júna - StructRAG (ICLR 2025): Výber správnej štruktúry dokumentu poráža GraphRAG o 28 bodov
- 2. júna - InvestorBench: Benchmarking LLM agentov pri rozhodovaní o finančnom obchodovaní
- 3. júna - FinAuditing: LLM dosahujú menej ako 14 % pri reálnych úlohách auditu SEC XBRL
- 4. júna - GraphRAG: Od lokálnej po globálnu sumarizáciu zameranú na dopyty
- 5. júna - Overiteľne bezpečné používanie nástrojov pre LLM agentov: STPA sa stretáva s MCP
- 6. júna - BIRD Benchmark: Priepasť medzi reálnymi databázami a LLM pri prevode textu na SQL
- 7. júna - DIN-SQL: Dekomponované učenie v kontexte pre Text-to-SQL
- 8. júna - MAC-SQL: Spolupráca viacerých agentov pri prevode textu na SQL
- 9. júna - TAPAS: Slabo dohliadané tabuľkové QA bez SQL a čo to znamená pre Beancount
- 10. júna - TableLlama: Dokáže otvorený model so 7B parametrami konkurovať GPT-4 v porozumení tabuliek?
- 11. júna - Chain-of-Table: Evolving Tables in the LLM Reasoning Chain
- 12. júna - τ-bench: Meranie spoľahlivosti AI agentov v reálnych doménach s použitím nástrojov
- 13. júna - WorkArena: Ako si weboví agenti LLM poradia so skutočnou podnikovou znalostnou prácou
- 14. júna - WebArena: Benchmark s 812 úlohami, ktorý meria, čo weboví agenti skutočne dokážu a čo nie
- 15. júna - OSWorld: Desktop AI Agents Succeed on 12% of Tasks Where Humans Succeed on 72%
- 16. júna - GAIA Benchmark: Meranie toho, čo hraničné AI agenty skutočne dokážu
- 17. júna - WorkArena++: 93 % priepasť medzi výkonom ľudí a AI agentov pri kompozičných podnikových úlohách
- 18. júna - τ²-bench: Meranie nákladov na duálne riadenie v konverzačných AI agentoch
- 19. júna - TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta
- 20. júna - DocFinQA: Dlho-kontextové finančné uvažovanie na úplných podaniach SEC
- 21. júna - Detekcia anomálií s nulovým učením pomocou LLM: Ako GPT-4 funguje pri tabuľkových dátach
- 22. júna - TableMaster: Adaptívne uvažovanie pre porozumenie tabuľkám pomocou LLM
- 23. júna - LLM dosahujú 2,3 % v generovaní Beancount DSL: Benchmark LLMFinLiteracy
- 24. júna - AnoLLM: Doladenie LLM pre detekciu anomálií v tabuľkových finančných údajoch
- 25. júna - CausalTAD: Kauzálne usporiadanie stĺpcov pre detekciu anomálií v tabuľkových dátach pomocou LLM
- 26. júna - Benchmark AD-LLM: GPT-4o dosahuje 0,93+ AUROC Zero-Shot pri detekcii textových anomálií
- 27. júna - Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI
- 28. júna - FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG
- 29. júna - Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami
- 30. júna - OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií
- 1. júla - Odkladanie s vedomím neistoty pre agentov LLM: Kedy prejsť z malých na veľké modely
- 2. júla - Nájdené v strede: Kalibrácia predpojatosti pozičnej pozornosti zlepšuje RAG s dlhým kontextom
- 3. júla - Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát
- 4. júla - OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti
- 5. júla - FinToolBench: Evaluácia LLM agentov pri používaní reálnych finančných nástrojov
- 6. júla - FinTrace: Hodnotenie volania nástrojov LLM pre finančné úlohy na úrovni trajektórie
- 7. júla - FinMCP-Bench: Benchmarking agentov LLM pre používanie finančných nástrojov v reálnom svete pod protokolom MCP
- 8. júla - JSONSchemaBench: Komplexita schém v reálnom svete narúša garancie štruktúrovaného výstupu LLM
- 9. júla - Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje
- 10. júla - WildToolBench: Prečo žiadne LLM neprekračuje 15 % presnosť relácie pri používaní nástrojov v reálnom svete
- 11. júla - Môžu byť LLM agenti finančnými riaditeľmi? 132-mesačná simulácia EnterpriseArena odhaľuje veľkú priepasť
- 12. júla - FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti