Prejsť na hlavný obsah

Bean Labs Research Log

InvestorBench: Benchmarking LLM agentov pri rozhodovaní o finančnom obchodovaní

InvestorBench (ACL 2025) testuje 13 základných LLM modelov na spätne testovanom obchodovaní s akciami, kryptomenami a ETF pomocou kumulatívneho výnosu a Sharpeho pomeru – nie presnosti otázok a odpovedí. Qwen2.5-72B vedie v rebríčku akcií s 46,15 % CR; modely vyladené pre financie pri akciách zlyhávajú. Veľkosť modelu predpovedá výkon spoľahlivejšie než doménové jemné doladenie.

Latest articles

StructRAG (ICLR 2025): Výber správnej štruktúry dokumentu poráža GraphRAG o 28 bodov

StructRAG (ICLR 2025) smeruje každý dopyt na typ štruktúry vhodný pre danú úlohu — tabuľku, graf, katalóg, algoritmus alebo fragment — pred samotným uvažovaním, pričom v benchmarku Loong dosahuje o 28 bodov vyššie skóre ako GraphRAG a beží 22-krát rýchlejšie, pričom samotný router vytrénovaný pomocou DPO predstavuje nárast presnosti o 15 bodov.

Jednoagentové LLM prekonávajú viacagentové systémy v multi-hop uvažovaní pri rovnakom rozpočte thinking tokenov

Preprint zo Stanfordu z roku 2026 zjednocuje rozpočty thinking tokenov v piatich viacagentových architektúrach a zisťuje, že jednoagentové LLM sa vyrovnajú alebo prekonávajú viacagentové systémy v multi-hop uvažovaní – s teoretickým základom v Nerovnosti spracovania údajov a dôsledkami pre návrh finančných AI agentov.

M3MAD-Bench: Sú debaty viacerých agentov skutočne efektívne naprieč doménami a modalitami?

M3MAD-Bench záťažovo testuje debatu viacerých agentov na 9 modeloch, 5 doménach a v prostrediach obraz-jazyk. Zisťuje, že kolektívna ilúzia spôsobuje 65 % zlyhaní, adverziálna debata znižuje presnosť až o 12,8 % a Self-Consistency zvyčajne dosahuje rovnakú presnosť ako debata pri nižších nákladoch na tokeny.

AGrail: Adaptívne bezpečnostné mantinely pre LLM agentov, ktorí sa učia naprieč úlohami

AGrail (ACL 2025) predstavuje kooperatívny mantinel s dvoma LLM, ktorý adaptuje bezpečnostné kontroly v čase inferencie pomocou adaptácie v čase testovania (TTA). Dosahuje 0 % úspešnosť útokov typu prompt injection a 95,6 % zachovanie legitímnych akcií na Safe-OS — v porovnaní s GuardAgent a LLaMA-Guard, ktoré blokujú až 49,2 % legitímnych akcií.

Atlas: Spoločný tréning retrievera a readera prekonáva 540B-parametrové LLM modely s 11B parametrami

Atlas (JMLR 2023) dosahuje presnosť 42,4 % v rámci Natural Questions len so 64 tréningovými príkladmi – čím prekonáva PaLM 540B o 3 body pri použití 11 miliárd parametrov – a to vďaka spoločnému predtrénovaniu hustého retrievera na báze modelu Contriever s readerom T5 Fusion-in-Decoder. Analýza pokrýva limity presnosti vyhľadávania, náklady na infraštruktúru indexu s veľkosťou 587 GB a dôsledky pre systémy odpovedania na otázky nad hlavnou knihou Beancount.

Fusion-in-Decoder: Ako vyhľadávanie vo viacerých pasážach zlepšuje generatívne QA

Architektúra FiD od Izacarda a Gravea nezávisle kóduje vyhľadané pasáže a následne ich spája v dekódere, čím prekonáva RAG-Sequence o 4 – 11 bodov v testoch NQ a TriviaQA. Tento príspevok skúma tento dizajn a jeho dôsledky pre QA v účtovných knihách Beancount, kde je syntéza viacerých záznamov naprieč transakciami normou.

GuardAgent: Deterministické presadzovanie bezpečnosti pre LLM agentov prostredníctvom vykonávania kódu

GuardAgent (ICML 2025) umiestňuje samostatného LLM agenta medzi cieľového agenta a jeho prostredie, pričom overuje každú navrhovanú akciu generovaním a spúšťaním kódu v Pythone — dosahuje 98,7 % presnosť presadzovania pravidiel pri zachovaní 100 % dokončenia úloh, v porovnaní s 81 % presnosťou a 29 – 71 % zlyhaním úloh pri bezpečnostných pravidlách vložených priamo do promptu.

Debata viacerých agentov LLM: Skutočné zisky presnosti, nekontrolovaný výpočtový výkon a kolektívny klam

Podrobné čítanie článku Du et al. z ICML 2024 o debate viacerých agentov – ktorý uvádza 14,8-bodový nárast presnosti v aritmetike – spolu s vyvráteniami z roku 2025 ukazujúcimi, že jednotliví agenti s rovnakým rozpočtom vyrovnajú výkon debaty, a analýza toho, prečo kolektívny klam (65 % zlyhaní debaty) predstavuje špecifické riziká pre zápisy do účtovnej knihy s asistenciou AI.