Mike Thrift
Marketing Manager
OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií
OpenHands je platforma pre agentov s licenciou MIT a sandboxom v Dockeri, kde CodeAct dosahuje 26 % na SWE-Bench Lite – triezvy benchmark, ktorý stanovuje, čo dnes AI agenti dokážu spoľahlivo urobiť a prečo by prvé produktívne nasadenia vo financiách mali byť úzko špecifikované namiesto autonómnych.
Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami
Fin-RATE testuje 17 modelov LLM na 7 500 odborne zostavených dvojiciach otázok a odpovedí z 2 472 výkazov SEC, čo odhaľuje prepad presnosti o 18,60 % pri longitudinálnom sledovaní a pokles o 54 bodov u finančne špecializovaného modelu Fin-R1 pri úlohách naprieč entitami – pričom hlavným úzkym hrdlom je proces vyhľadávania (retrieval), nie samotný model.
FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG
FinDER benchmarkuje RAG na 5 703 reálnych dopytoch analytikov hedžových fondov voči výkazom 10-K spoločností S&P 500; E5-Mistral dosahuje len 25,95 % návratnosť kontextu a dopyty plné skratiek stoja 8,2 bodu presnosti — dôkaz, že normalizácia dopytov, nie lepšie embeddingy, je prvým riešením pre finančné AI pipeline.
Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI
Článok TACL 2024 od Liu a kol. ukazuje, že LLM dosahujú až o 20 bodov horšie výsledky pri informáciách ukrytých v strede dlhých kontextov — degradácia v tvare písmena U ovplyvňujúca každý testovaný model vrátane Claude-1.3-100K — s konkrétnymi dôsledkami na to, ako by mali RAG kanály radiť vyhľadané pasáže v aplikáciách pre financie a účtovníctvo.
Benchmark AD-LLM: GPT-4o dosahuje 0,93+ AUROC Zero-Shot pri detekcii textových anomálií
AD-LLM testuje GPT-4o a Llama 3.1 8B v troch úlohách detekcie anomálií – ako zero-shot detektor, nástroj na augmentáciu dát a poradca pri výbere modelu – na piatich NLP datasetoch; GPT-4o dosahuje AUROC 0,93 – 0,99 v režime zero-shot, avšak výber modelu pomocou LLM zostáva nespoľahlivý, čo má priamy vplyv na AI vo finančnom audite.
CausalTAD: Kauzálne usporiadanie stĺpcov pre detekciu anomálií v tabuľkových dátach pomocou LLM
CausalTAD zlepšuje detekciu anomálií v tabuľkových dátach založenú na LLM preusporiadaním stĺpcov tabuľky tak, aby rešpektovali kauzálne závislosti pred serializáciou, čím zvyšuje priemerné AUC-ROC z 0,803 na 0,834 oproti AnoLLM na benchmarkoch so zmiešanými typmi dát — s priamym dopadom na detekciu anomálií v štruktúrovaných údajoch účtovných kníh.
AnoLLM: Doladenie LLM pre detekciu anomálií v tabuľkových finančných údajoch
AnoLLM (ICLR 2025) preformulováva detekciu anomálií v tabuľkových údajoch ako odhad hustoty pomocou LLM — doladenie na normálnych riadkoch a skórovanie pomocou zápornej logaritmickej vierohodnosti. Prekonáva klasické metódy na súboroch údajov o podvodoch so zmiešanými typmi, ale neponúka výhodu pri čisto numerických údajoch, s reálnymi dôsledkami pre detekciu anomálií v záznamoch účtovnej knihy Beancount.
LLM dosahujú 2,3 % v generovaní Beancount DSL: Benchmark LLMFinLiteracy
Benchmark LLMFinLiteracy zisťuje, že päť modelov s otvorenými váhami o veľkosti približne 7B generuje plne správne transakcie Beancount len v 2,3 % prípadov, pričom zlyhania sa sústreďujú v účtovnom uvažovaní — nie v syntaxi — čo poukazuje na spätnú väzbu kompilátora v slučke ako na kritický chýbajúci prvok pre spoľahlivých agentov na zápis.
TableMaster: Adaptívne uvažovanie pre porozumenie tabuľkám pomocou LLM
TableMaster je pipeline založená výhradne na promptingu, ktorá dosahuje 78,13 % v benchmarku WikiTQ s modelom GPT-4o-mini – o 13 bodov viac ako Chain-of-Table – kombinovaním extrakcie tabuľky záujmu, sémantickej verbalizácie a adaptívneho prepínania medzi textovým a symbolickým uvažovaním. Tu je význam tejto architektúry pre AI agentov nad finančnými knihami ako Beancount.
Detekcia anomálií s nulovým učením pomocou LLM: Ako GPT-4 funguje pri tabuľkových dátach
GPT-4 dosahuje priemerné AUROC 74,1 v benchmarku ODDS bez jemného doladenia — čím takmer vyrovnáva klasickú referenčnú hodnotu ECOD na úrovni 75,5 — ale zlyháva pri multidimenzionálnych anomáliách a dátových sadách s vysokým rozptylom; kritický prehľad zero-shot detekcie anomálií pomocou LLM a jej dôsledkov pre automatizovaný audit účtovných kníh Beancount.
DocFinQA: Dlho-kontextové finančné uvažovanie na úplných podaniach SEC
DocFinQA nahrádza kurátorované 700-slovné pasáže z FinQA úplnými podaniami SEC so 123 000 slovami, čím odhaľuje 175-násobný nárast kontextu, ktorý takmer o polovicu znižuje presnosť GPT-4 na dlhých dokumentoch. Vyhľadávacie procesy v 45 % prípadov pri HR@3 nedokážu nájsť správny úsek — a modely s dlhým kontextom nie sú náhradou.
TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta
TheAgentCompany testuje 175 reálnych pracovných úloh v rámci simulovaného intranetu s GitLab, OwnCloud a RocketChat. Najlepší model (Gemini-2.5-Pro) dokončí iba 30 % úloh pri cene 4 USD za každú, čo odhaľuje, že autonómni agenti sú stále ďaleko od využiteľnosti pre účtovné a finančné pracovné postupy.