Mike Thrift

Marketing Manager

June 30, 2026·mike

OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií

OpenHands je platforma pre agentov s licenciou MIT a sandboxom v Dockeri, kde CodeAct dosahuje 26 % na SWE-Bench Lite – triezvy benchmark, ktorý stanovuje, čo dnes AI agenti dokážu spoľahlivo urobiť a prečo by prvé produktívne nasadenia vo financiách mali byť úzko špecifikované namiesto autonómnych.

open-source

automation

June 29, 2026·mike

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

Fin-RATE testuje 17 modelov LLM na 7 500 odborne zostavených dvojiciach otázok a odpovedí z 2 472 výkazov SEC, čo odhaľuje prepad presnosti o 18,60 % pri longitudinálnom sledovaní a pokles o 54 bodov u finančne špecializovaného modelu Fin-R1 pri úlohách naprieč entitami – pričom hlavným úzkym hrdlom je proces vyhľadávania (retrieval), nie samotný model.

llm

machine-learning

June 28, 2026·mike

FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG

FinDER benchmarkuje RAG na 5 703 reálnych dopytoch analytikov hedžových fondov voči výkazom 10-K spoločností S&P 500; E5-Mistral dosahuje len 25,95 % návratnosť kontextu a dopyty plné skratiek stoja 8,2 bodu presnosti — dôkaz, že normalizácia dopytov, nie lepšie embeddingy, je prvým riešením pre finančné AI pipeline.

llm

machine-learning

June 27, 2026·mike

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

Článok TACL 2024 od Liu a kol. ukazuje, že LLM dosahujú až o 20 bodov horšie výsledky pri informáciách ukrytých v strede dlhých kontextov — degradácia v tvare písmena U ovplyvňujúca každý testovaný model vrátane Claude-1.3-100K — s konkrétnymi dôsledkami na to, ako by mali RAG kanály radiť vyhľadané pasáže v aplikáciách pre financie a účtovníctvo.

llm

machine-learning

June 26, 2026·mike

Benchmark AD-LLM: GPT-4o dosahuje 0,93+ AUROC Zero-Shot pri detekcii textových anomálií

AD-LLM testuje GPT-4o a Llama 3.1 8B v troch úlohách detekcie anomálií – ako zero-shot detektor, nástroj na augmentáciu dát a poradca pri výbere modelu – na piatich NLP datasetoch; GPT-4o dosahuje AUROC 0,93 – 0,99 v režime zero-shot, avšak výber modelu pomocou LLM zostáva nespoľahlivý, čo má priamy vplyv na AI vo finančnom audite.

llm

machine-learning

June 25, 2026·mike

CausalTAD: Kauzálne usporiadanie stĺpcov pre detekciu anomálií v tabuľkových dátach pomocou LLM

CausalTAD zlepšuje detekciu anomálií v tabuľkových dátach založenú na LLM preusporiadaním stĺpcov tabuľky tak, aby rešpektovali kauzálne závislosti pred serializáciou, čím zvyšuje priemerné AUC-ROC z 0,803 na 0,834 oproti AnoLLM na benchmarkoch so zmiešanými typmi dát — s priamym dopadom na detekciu anomálií v štruktúrovaných údajoch účtovných kníh.

llm

machine-learning

June 24, 2026·mike

AnoLLM: Doladenie LLM pre detekciu anomálií v tabuľkových finančných údajoch

AnoLLM (ICLR 2025) preformulováva detekciu anomálií v tabuľkových údajoch ako odhad hustoty pomocou LLM — doladenie na normálnych riadkoch a skórovanie pomocou zápornej logaritmickej vierohodnosti. Prekonáva klasické metódy na súboroch údajov o podvodoch so zmiešanými typmi, ale neponúka výhodu pri čisto numerických údajoch, s reálnymi dôsledkami pre detekciu anomálií v záznamoch účtovnej knihy Beancount.

llm

machine-learning

June 23, 2026·mike

LLM dosahujú 2,3 % v generovaní Beancount DSL: Benchmark LLMFinLiteracy

Benchmark LLMFinLiteracy zisťuje, že päť modelov s otvorenými váhami o veľkosti približne 7B generuje plne správne transakcie Beancount len v 2,3 % prípadov, pričom zlyhania sa sústreďujú v účtovnom uvažovaní — nie v syntaxi — čo poukazuje na spätnú väzbu kompilátora v slučke ako na kritický chýbajúci prvok pre spoľahlivých agentov na zápis.

llm

beancount

plain-text-accounting

June 22, 2026·mike

TableMaster: Adaptívne uvažovanie pre porozumenie tabuľkám pomocou LLM

TableMaster je pipeline založená výhradne na promptingu, ktorá dosahuje 78,13 % v benchmarku WikiTQ s modelom GPT-4o-mini – o 13 bodov viac ako Chain-of-Table – kombinovaním extrakcie tabuľky záujmu, sémantickej verbalizácie a adaptívneho prepínania medzi textovým a symbolickým uvažovaním. Tu je význam tejto architektúry pre AI agentov nad finančnými knihami ako Beancount.

llm

machine-learning

June 21, 2026·mike

Detekcia anomálií s nulovým učením pomocou LLM: Ako GPT-4 funguje pri tabuľkových dátach

GPT-4 dosahuje priemerné AUROC 74,1 v benchmarku ODDS bez jemného doladenia — čím takmer vyrovnáva klasickú referenčnú hodnotu ECOD na úrovni 75,5 — ale zlyháva pri multidimenzionálnych anomáliách a dátových sadách s vysokým rozptylom; kritický prehľad zero-shot detekcie anomálií pomocou LLM a jej dôsledkov pre automatizovaný audit účtovných kníh Beancount.

llm

fraud-detection

June 20, 2026·mike

DocFinQA: Dlho-kontextové finančné uvažovanie na úplných podaniach SEC

DocFinQA nahrádza kurátorované 700-slovné pasáže z FinQA úplnými podaniami SEC so 123 000 slovami, čím odhaľuje 175-násobný nárast kontextu, ktorý takmer o polovicu znižuje presnosť GPT-4 na dlhých dokumentoch. Vyhľadávacie procesy v 45 % prípadov pri HR@3 nedokážu nájsť správny úsek — a modely s dlhým kontextom nie sú náhradou.

llm

machine-learning

June 19, 2026·mike

TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta

TheAgentCompany testuje 175 reálnych pracovných úloh v rámci simulovaného intranetu s GitLab, OwnCloud a RocketChat. Najlepší model (Gemini-2.5-Pro) dokončí iba 30 % úloh pri cene 4 USD za každú, čo odhaľuje, že autonómni agenti sú stále ďaleko od využiteľnosti pre účtovné a finančné pracovné postupy.

llm

automation

Zobrazené 13–24 z 87 príspevkov

Predch.2 / 8Ďalší