Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Zobraziť všetkých autorov

BIRD Benchmark: Priepasť medzi reálnymi databázami a LLM pri prevode textu na SQL
·mike

BIRD Benchmark: Priepasť medzi reálnymi databázami a LLM pri prevode textu na SQL

Benchmark BIRD (NeurIPS 2023) testuje LLM na 95 reálnych databázach – GPT-4 dosahuje len 54,89 % presnosť vykonávania s doménovými nápovedami a 34,88 % bez nich. Tento 20-bodový rozdiel priamo definuje výzvy, ktoré by muselo riešiť rozhranie BQL v prirodzenom jazyku pre Beancount.

beancount
ai
llm
database
+3
Overiteľne bezpečné používanie nástrojov pre LLM agentov: STPA sa stretáva s MCP
·mike

Overiteľne bezpečné používanie nástrojov pre LLM agentov: STPA sa stretáva s MCP

Výskumníci z CMU a NC State navrhujú využitie systémovo-teoretickej analýzy procesov (STPA) a rozšíreného protokolu Model Context Protocol na odvodenie formálnych bezpečnostných špecifikácií pre používanie nástrojov LLM agentmi, pričom verifikácia založená na nástroji Alloy demonštruje absenciu nebezpečných tokov v prípadovej štúdii plánovania kalendára.

ai
llm
security
automation
+3
GraphRAG: Od lokálnej po globálnu sumarizáciu zameranú na dopyty
·mike

GraphRAG: Od lokálnej po globálnu sumarizáciu zameranú na dopyty

GraphRAG od Microsoftu buduje graf entít rozdelený podľa Leidenského algoritmu nad textovým korpusom a vopred vypočítava súhrny komunít pre zodpovedanie globálnych otázok o zmysle údajov, ktoré štandardný vektorový RAG nezvláda – audit skreslenia z roku 2025 však ukazuje, že jeho 72 – 83 % miera víťazstiev kolabuje po oprave artefaktov pozície a dĺžky pri vyhodnocovaní pomocou LLM ako sudcu.

ai
llm
machine-learning
beancount
+3
FinAuditing: LLM dosahujú menej ako 14 % pri reálnych úlohách auditu SEC XBRL
·mike

FinAuditing: LLM dosahujú menej ako 14 % pri reálnych úlohách auditu SEC XBRL

FinAuditing testuje 13 LLM modelov metódou zero-shot na 1 102 reálnych prípadoch podaní SEC XBRL; najlepšie výsledky sú 13,86 % pri overovaní finančnej matematiky a 12,42 % pri vyhľadávaní konceptov – výsledky, ktoré priamo vymedzujú, do akej miery možno dôverovať automatizácii nástrojov AI účtovníctva bez externých nástrojov.

llm
ai
financial-reporting
machine-learning
+2
InvestorBench: Benchmarking LLM agentov pri rozhodovaní o finančnom obchodovaní
·mike

InvestorBench: Benchmarking LLM agentov pri rozhodovaní o finančnom obchodovaní

InvestorBench (ACL 2025) testuje 13 základných LLM modelov na spätne testovanom obchodovaní s akciami, kryptomenami a ETF pomocou kumulatívneho výnosu a Sharpeho pomeru – nie presnosti otázok a odpovedí. Qwen2.5-72B vedie v rebríčku akcií s 46,15 % CR; modely vyladené pre financie pri akciách zlyhávajú. Veľkosť modelu predpovedá výkon spoľahlivejšie než doménové jemné doladenie.

llm
ai
finance
machine-learning
+3
StructRAG (ICLR 2025): Výber správnej štruktúry dokumentu poráža GraphRAG o 28 bodov
·mike

StructRAG (ICLR 2025): Výber správnej štruktúry dokumentu poráža GraphRAG o 28 bodov

StructRAG (ICLR 2025) smeruje každý dopyt na typ štruktúry vhodný pre danú úlohu — tabuľku, graf, katalóg, algoritmus alebo fragment — pred samotným uvažovaním, pričom v benchmarku Loong dosahuje o 28 bodov vyššie skóre ako GraphRAG a beží 22-krát rýchlejšie, pričom samotný router vytrénovaný pomocou DPO predstavuje nárast presnosti o 15 bodov.

ai
llm
machine-learning
beancount
+3
Jednoagentové LLM prekonávajú viacagentové systémy v multi-hop uvažovaní pri rovnakom rozpočte thinking tokenov
·mike

Jednoagentové LLM prekonávajú viacagentové systémy v multi-hop uvažovaní pri rovnakom rozpočte thinking tokenov

Preprint zo Stanfordu z roku 2026 zjednocuje rozpočty thinking tokenov v piatich viacagentových architektúrach a zisťuje, že jednoagentové LLM sa vyrovnajú alebo prekonávajú viacagentové systémy v multi-hop uvažovaní – s teoretickým základom v Nerovnosti spracovania údajov a dôsledkami pre návrh finančných AI agentov.

ai
llm
machine-learning
automation
+3
M3MAD-Bench: Sú debaty viacerých agentov skutočne efektívne naprieč doménami a modalitami?
·mike

M3MAD-Bench: Sú debaty viacerých agentov skutočne efektívne naprieč doménami a modalitami?

M3MAD-Bench záťažovo testuje debatu viacerých agentov na 9 modeloch, 5 doménach a v prostrediach obraz-jazyk. Zisťuje, že kolektívna ilúzia spôsobuje 65 % zlyhaní, adverziálna debata znižuje presnosť až o 12,8 % a Self-Consistency zvyčajne dosahuje rovnakú presnosť ako debata pri nižších nákladoch na tokeny.

ai
llm
machine-learning
automation
+3
AGrail: Adaptívne bezpečnostné mantinely pre LLM agentov, ktorí sa učia naprieč úlohami
·mike

AGrail: Adaptívne bezpečnostné mantinely pre LLM agentov, ktorí sa učia naprieč úlohami

AGrail (ACL 2025) predstavuje kooperatívny mantinel s dvoma LLM, ktorý adaptuje bezpečnostné kontroly v čase inferencie pomocou adaptácie v čase testovania (TTA). Dosahuje 0 % úspešnosť útokov typu prompt injection a 95,6 % zachovanie legitímnych akcií na Safe-OS — v porovnaní s GuardAgent a LLaMA-Guard, ktoré blokujú až 49,2 % legitímnych akcií.

ai
llm
security
automation
+3
ShieldAgent: Overiteľné zdôvodňovanie bezpečnostných pravidiel pre LLM agentov
·mike

ShieldAgent: Overiteľné zdôvodňovanie bezpečnostných pravidiel pre LLM agentov

ShieldAgent (ICML 2025) nahrádza mantinely založené na LLM pravdepodobnostnými obvodmi pravidiel postavenými na Markovových logických sieťach, čím dosahuje presnosť 90,4 % pri útokoch na agentov so 64,7 % menej volaniami API — a čo to znamená pre overiteľnú bezpečnosť vo finančných AI systémoch.

ai
llm
machine-learning
security
+4
Atlas: Spoločný tréning retrievera a readera prekonáva 540B-parametrové LLM modely s 11B parametrami
·mike

Atlas: Spoločný tréning retrievera a readera prekonáva 540B-parametrové LLM modely s 11B parametrami

Atlas (JMLR 2023) dosahuje presnosť 42,4 % v rámci Natural Questions len so 64 tréningovými príkladmi – čím prekonáva PaLM 540B o 3 body pri použití 11 miliárd parametrov – a to vďaka spoločnému predtrénovaniu hustého retrievera na báze modelu Contriever s readerom T5 Fusion-in-Decoder. Analýza pokrýva limity presnosti vyhľadávania, náklady na infraštruktúru indexu s veľkosťou 587 GB a dôsledky pre systémy odpovedania na otázky nad hlavnou knihou Beancount.

ai
machine-learning
llm
data-science
+3
Fusion-in-Decoder: Ako vyhľadávanie vo viacerých pasážach zlepšuje generatívne QA
·mike

Fusion-in-Decoder: Ako vyhľadávanie vo viacerých pasážach zlepšuje generatívne QA

Architektúra FiD od Izacarda a Gravea nezávisle kóduje vyhľadané pasáže a následne ich spája v dekódere, čím prekonáva RAG-Sequence o 4 – 11 bodov v testoch NQ a TriviaQA. Tento príspevok skúma tento dizajn a jeho dôsledky pre QA v účtovných knihách Beancount, kde je syntéza viacerých záznamov naprieč transakciami normou.

ai
machine-learning
llm
beancount
+2
Zobrazené 37–48 z 87 príspevkov