Mike Thrift

Marketing Manager

May 25, 2026·mike

GuardAgent: Deterministické presadzovanie bezpečnosti pre LLM agentov prostredníctvom vykonávania kódu

GuardAgent (ICML 2025) umiestňuje samostatného LLM agenta medzi cieľového agenta a jeho prostredie, pričom overuje každú navrhovanú akciu generovaním a spúšťaním kódu v Pythone — dosahuje 98,7 % presnosť presadzovania pravidiel pri zachovaní 100 % dokončenia úloh, v porovnaní s 81 % presnosťou a 29 – 71 % zlyhaním úloh pri bezpečnostných pravidlách vložených priamo do promptu.

llm

automation

May 24, 2026·mike

Debata viacerých agentov LLM: Skutočné zisky presnosti, nekontrolovaný výpočtový výkon a kolektívny klam

Podrobné čítanie článku Du et al. z ICML 2024 o debate viacerých agentov – ktorý uvádza 14,8-bodový nárast presnosti v aritmetike – spolu s vyvráteniami z roku 2025 ukazujúcimi, že jednotliví agenti s rovnakým rozpočtom vyrovnajú výkon debaty, a analýza toho, prečo kolektívny klam (65 % zlyhaní debaty) predstavuje špecifické riziká pre zápisy do účtovnej knihy s asistenciou AI.

llm

machine-learning

May 23, 2026·mike

LLM nie sú užitočné pre predpovedanie časových radov: Čo NeurIPS 2024 znamená pre finančnú AI

Článok z konferencie NeurIPS 2024 Spotlight analyzuje tri metódy predpovedania časových radov založené na LLM — OneFitsAll, Time-LLM a CALF — a zisťuje, že odstránenie jazykového modelu vo väčšine prípadov zlepšuje presnosť, pričom zrýchľuje trénovanie až 1 383-násobne. Pre aplikácie finančnej AI, ako je predikcia zostatkov v Beancount, ľahké jednoúčelové modely konzistentne porážajú adaptované LLM.

machine-learning

forecasting

May 22, 2026·mike

AuditCopilot: LLMs na detekciu podvodov v podvojnom účtovníctve

AuditCopilot aplikuje open-source LLM (Mistral-8B, Gemma, Llama-3.1) na detekciu podvodov v podnikových účtovných zápisoch, čím znižuje počet falošne pozitívnych výsledkov z 942 na 12 — avšak ablácia odhaľuje, že LLM funguje primárne ako syntetická vrstva nad skóre Isolation Forest, nie ako nezávislý detektor anomálií.

TAT-LLM: Doladený LLaMA 2 pre diskrétne uvažovanie nad finančnými tabuľkami a textom

TAT-LLM dolaďuje LLaMA 2 7B pomocou LoRA na benchmarkoch QA pre finančné tabuľky a text, pričom dosahuje 64,60 % EM na FinQA — čím prekonáva 63,91 % modelu GPT-4 — rozkladom uvažovania do deterministických krokov Extrahuje-Uvažuje-Vykonáva, ktoré eliminujú aritmetické chyby.

llm

machine-learning

May 20, 2026·mike

Fine-Tuning vs. RAG: Prečo vyhľadávanie vyhráva pri vkladaní nových znalostí do LLM

Empirické porovnanie RAG oproti neriadenému jemnému doladeniu na 7B LLM modeloch ukazuje, že RAG dosahuje presnosť 0,875+ pri faktoch po dátume ukončenia tréningu, zatiaľ čo jemné doladenie stagnuje na 0,504 – s priamymi dôsledkami pre návrh agentov Beancount a akýkoľvek systém vyžadujúci časté aktualizácie znalostí.

llm

machine-learning

May 19, 2026·mike

IRCoT: Prekladanie vyhľadávania s reťazcom úvah pre viacstupňové odpovedanie na otázky

IRCoT prekladá vyhľadávanie BM25 s každým krokom slučky uvažovania pomocou reťazca myšlienok, čím dosahuje o +11,3 vyšší recall vyhľadávania a o +7,1 lepšie F1 na HotpotQA oproti jednostupňovému RAG — a ukazuje, že 3B model môže poraziť GPT-3 175B, ak je stratégia vyhľadávania správna.

llm

machine-learning

May 18, 2026·mike

FLARE: Aktívne generovanie rozšírené o vyhľadávanie

FLARE (EMNLP 2023) zlepšuje štandardný RAG spustením vyhľadávania uprostred generovania pomocou prahových hodnôt spoľahlivosti pravdepodobnosti tokenov, pričom dosahuje 51,0 EM na 2WikiMultihopQA oproti 39,4 pri jednorazovom vyhľadávaní — avšak zlyhania kalibrácie v modeloch vyladených na inštrukcie obmedzujú jeho spoľahlivosť pre produkčných finančných agentov.

machine-learning

llm

May 17, 2026·mike

Generovanie rozšírené o vyhľadávanie pre úlohy NLP náročné na znalosti

Práca Lewisa a kol. z konferencie NeurIPS 2020 predstavila hybridnú architektúru RAG — generátor BART-large spárovaný s vyhľadávačom indexovaným pomocou FAISS nad 21 miliónmi pasáží z Wikipédie — čím dosiahla 44,5 EM v Natural Questions a definovala parametrické/neparametrické rozdelenie, ktoré je dnes základom väčšiny produkčných AI systémov. Táto recenzia sa zaoberá kompromismi medzi RAG-Sequence a RAG-Token, poruchovým režimom kolapsu vyhľadávania a tým, čo znamenajú zastarané indexy pre finančnú AI postavenú na Beancount účtovných knihách typu append-only.

machine-learning

llm

May 16, 2026·mike

MultiHiertt: Benchmarking numerického uvažovania nad multi-hierarchickými finančnými tabuľkami

MultiHiertt (ACL 2022) predstavuje 10 440 párov otázok a odpovedí z reálnych finančných správ s priemerom 3,89 hierarchických tabuliek na správu; najmodernejšie modely dosahujú skóre 38 % F1 oproti 87 % u ľudí, s 15-bodovou penalizáciou pri otázkach naprieč tabuľkami — čo kvantifikuje medzeru vo vyhľadávaní, ktorú musí finančná AI prekonať.

machine-learning

llm

May 15, 2026·mike

ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi

ConvFinQA (EMNLP 2022) rozširuje FinQA o viackolové konverzácie nad správami o výnosoch indexu S&P 500 a zisťuje, že najlepší doladený model dosahuje 68,9 % presnosť vykonania v porovnaní s 89,4 % u ľudských expertov – a klesá na 52,4 % pri hybridných multiaspektových konverzáciách, kde modely musia prenášať numerický kontext medzi rôznymi finančnými témami.

llm

machine-learning

May 14, 2026·mike

TAT-QA: Hybridný benchmark pre usudzovanie z tabuliek a textu vo finančných výročných správach

TAT-QA je benchmark so 16 552 otázkami nad hybridnými kontextmi finančných správ (tabuľky plus text), ktorý ukázal, že hlavným úzkym hrdlom finančnej AI je ukotvenie dôkazov (evidence grounding), nie aritmetika. Do roku 2024 dosiahli vyladené 7B LLM modely F1 skóre 83 %, čím takmer uzavreli stratu voči 91 % ľudskému maximu.

machine-learning

llm

Zobrazené 49–60 z 87 príspevkov

Predch.5 / 8Ďalší