8 príspevkov so štítkom „Technology“

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Prečo žiadne LLM neprekračuje 15 % presnosť relácie pri používaní nástrojov v reálnom svete

WildToolBench (ICLR 2026) vyhodnocuje 57 LLM na 1 024 úlohách odvodených z reálneho správania používateľov – žiadny model neprekračuje 15 % presnosť relácie, pričom kompozičná orchestrácia, skrytý zámer a prechody v inštrukciách sú tri najvýraznejšie režimy zlyhania.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

Článok TACL 2024 od Liu a kol. ukazuje, že LLM dosahujú až o 20 bodov horšie výsledky pri informáciách ukrytých v strede dlhých kontextov — degradácia v tvare písmena U ovplyvňujúca každý testovaný model vrátane Claude-1.3-100K — s konkrétnymi dôsledkami na to, ako by mali RAG kanály radiť vyhľadané pasáže v aplikáciách pre financie a účtovníctvo.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Desktop AI Agents Succeed on 12% of Tasks Where Humans Succeed on 72%

OSWorld (NeurIPS 2024) benchmarks multimodal AI agents on 369 real desktop tasks across Ubuntu, Windows, and macOS — finding a 60-percentage-point gap between the best model (12.24%) and human performance (72.36%), with 75% of failures traced to visuomotor grounding errors rather than reasoning failures.

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): Výber správnej štruktúry dokumentu poráža GraphRAG o 28 bodov

StructRAG (ICLR 2025) smeruje každý dopyt na typ štruktúry vhodný pre danú úlohu — tabuľku, graf, katalóg, algoritmus alebo fragment — pred samotným uvažovaním, pričom v benchmarku Loong dosahuje o 28 bodov vyššie skóre ako GraphRAG a beží 22-krát rýchlejšie, pričom samotný router vytrénovaný pomocou DPO predstavuje nárast presnosti o 15 bodov.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

Jednoagentové LLM prekonávajú viacagentové systémy v multi-hop uvažovaní pri rovnakom rozpočte thinking tokenov

Preprint zo Stanfordu z roku 2026 zjednocuje rozpočty thinking tokenov v piatich viacagentových architektúrach a zisťuje, že jednoagentové LLM sa vyrovnajú alebo prekonávajú viacagentové systémy v multi-hop uvažovaní – s teoretickým základom v Nerovnosti spracovania údajov a dôsledkami pre návrh finančných AI agentov.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Adaptívne vyhľadávanie a sebakritika pre LLM

Self-RAG (ICLR 2024 Oral) trénuje jazykový model, aby sa rozhodol, kedy vyhľadávať, a následne ohodnotil svoje vlastné výsledky pomocou štyroch reflexných tokenov — dosiahol 55,8 % v PopQA a 80,2 FactScore v biografiách, čím prekonal ChatGPT v piatich benchmarkoch. Analýza pokrýva mechanizmus, výsledky ablácie, limity reprodukovateľnosti a dôsledky pre finančných AI agentov nad Beancount účtovnými knihami.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: Hodnotenie LLM ako agentov — Ponaučenia pre spoľahlivosť finančnej AI

AgentBench (Liu et al., ICLR 2024) benchmarkuje 27 LLM v 8 interaktívnych prostrediach — GPT-4 dosiahol celkové skóre 4,01 oproti 0,96 pri najlepšom open-source modeli. Tri dominantné chybové režimy (prekročenie limitu úloh pri 67,9 % zlyhaní vedomostného grafu, chyby formátu pri 53,3 % zlyhaní databáz a neplatné akcie) priamo zodpovedajú rizikám nasadenia Beancount write-back agenta na reálnu účtovnú knihu.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Virtuálna správa kontextu pre LLM agentov

MemGPT aplikuje stránkovanie virtuálnej pamäte v štýle operačných systémov na modely LLM, pričom využíva trojúrovňové úložisko — pracovnú pamäť, pamäť pre vyvolanie a archívnu pamäť — aby agentom poskytol trvalé vybavovanie informácií naprieč reláciami; v benchmarkoch viac-reláciových chatov dosahuje MemGPT s GPT-4 presnosť 92,5 % oproti 32,1 % základnej úrovni s pevným kontextom.

Všetko o Technology

WildToolBench: Prečo žiadne LLM neprekračuje 15 % presnosť relácie pri používaní nástrojov v reálnom svete

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

OSWorld: Desktop AI Agents Succeed on 12% of Tasks Where Humans Succeed on 72%

StructRAG (ICLR 2025): Výber správnej štruktúry dokumentu poráža GraphRAG o 28 bodov

Jednoagentové LLM prekonávajú viacagentové systémy v multi-hop uvažovaní pri rovnakom rozpočte thinking tokenov

Self-RAG: Adaptívne vyhľadávanie a sebakritika pre LLM

AgentBench: Hodnotenie LLM ako agentov — Ponaučenia pre spoľahlivosť finančnej AI

MemGPT: Virtuálna správa kontextu pre LLM agentov

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie