Prejsť na hlavný obsah
Technology

Všetko o Technology

8 článkov
Technology research and software engineering topics relevant to financial AI systems

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

Článok TACL 2024 od Liu a kol. ukazuje, že LLM dosahujú až o 20 bodov horšie výsledky pri informáciách ukrytých v strede dlhých kontextov — degradácia v tvare písmena U ovplyvňujúca každý testovaný model vrátane Claude-1.3-100K — s konkrétnymi dôsledkami na to, ako by mali RAG kanály radiť vyhľadané pasáže v aplikáciách pre financie a účtovníctvo.

StructRAG (ICLR 2025): Výber správnej štruktúry dokumentu poráža GraphRAG o 28 bodov

StructRAG (ICLR 2025) smeruje každý dopyt na typ štruktúry vhodný pre danú úlohu — tabuľku, graf, katalóg, algoritmus alebo fragment — pred samotným uvažovaním, pričom v benchmarku Loong dosahuje o 28 bodov vyššie skóre ako GraphRAG a beží 22-krát rýchlejšie, pričom samotný router vytrénovaný pomocou DPO predstavuje nárast presnosti o 15 bodov.

Jednoagentové LLM prekonávajú viacagentové systémy v multi-hop uvažovaní pri rovnakom rozpočte thinking tokenov

Preprint zo Stanfordu z roku 2026 zjednocuje rozpočty thinking tokenov v piatich viacagentových architektúrach a zisťuje, že jednoagentové LLM sa vyrovnajú alebo prekonávajú viacagentové systémy v multi-hop uvažovaní – s teoretickým základom v Nerovnosti spracovania údajov a dôsledkami pre návrh finančných AI agentov.

Self-RAG: Adaptívne vyhľadávanie a sebakritika pre LLM

Self-RAG (ICLR 2024 Oral) trénuje jazykový model, aby sa rozhodol, kedy vyhľadávať, a následne ohodnotil svoje vlastné výsledky pomocou štyroch reflexných tokenov — dosiahol 55,8 % v PopQA a 80,2 FactScore v biografiách, čím prekonal ChatGPT v piatich benchmarkoch. Analýza pokrýva mechanizmus, výsledky ablácie, limity reprodukovateľnosti a dôsledky pre finančných AI agentov nad Beancount účtovnými knihami.

AgentBench: Hodnotenie LLM ako agentov — Ponaučenia pre spoľahlivosť finančnej AI

AgentBench (Liu et al., ICLR 2024) benchmarkuje 27 LLM v 8 interaktívnych prostrediach — GPT-4 dosiahol celkové skóre 4,01 oproti 0,96 pri najlepšom open-source modeli. Tri dominantné chybové režimy (prekročenie limitu úloh pri 67,9 % zlyhaní vedomostného grafu, chyby formátu pri 53,3 % zlyhaní databáz a neplatné akcie) priamo zodpovedajú rizikám nasadenia Beancount write-back agenta na reálnu účtovnú knihu.

MemGPT: Virtuálna správa kontextu pre LLM agentov

MemGPT aplikuje stránkovanie virtuálnej pamäte v štýle operačných systémov na modely LLM, pričom využíva trojúrovňové úložisko — pracovnú pamäť, pamäť pre vyvolanie a archívnu pamäť — aby agentom poskytol trvalé vybavovanie informácií naprieč reláciami; v benchmarkoch viac-reláciových chatov dosahuje MemGPT s GPT-4 presnosť 92,5 % oproti 32,1 % základnej úrovni s pevným kontextom.