Mike Thrift
Marketing Manager
PHANTOM (NeurIPS 2025): Meranie detekcie halucinácií LLM vo finančných dokumentoch
PHANTOM (NeurIPS 2025) je prvý benchmark na meranie detekcie halucinácií LLM v reálnych podaniach SEC v dĺžkach kontextu až do 30 000 tokenov. Qwen3-30B-A3B-Thinking vedie s F1=0,882; 7B modely dosahujú výsledky blízke náhodnému tipovaniu — s priamymi dôsledkami pre autonómnych účtovných agentov.
Benchmark FinMaster: Prečo LLM dosahujú 96 % vo finančnej gramotnosti, ale iba 3 % pri generovaní výkazov
FinMaster (arXiv:2505.13533) porovnáva modely o3-mini, Claude 3.7 Sonnet a DeepSeek-V3 v 183 finančných úlohách – odhaľuje, že modely dosahujú 96 % vo finančnej gramotnosti, ale klesajú na 3 % pri generovaní výkazov, pričom viacstupňové konzultačné úlohy strácajú 21 bodov presnosti v dôsledku šírenia chýb.
ReAct: Synergia uvažovania a konania v jazykových modeloch
ReAct (Yao a kol., ICLR 2023) preplieta uvažovanie typu reťazec myšlienok s akciami nástrojov v jednej trajektórii, čím prekonáva čisté CoT pri overovaní faktov a imitačné učenie pri stelesnených úlohách o 34 percentuálnych bodov. Táto analýza pokrýva chybové režimy článku — rozptýlenie vyvolané vyhľadávaním a kumulovanie chýb — a to, čo znamenajú pre autonómnych agentov zapisujúcich späť do účtovných kníh Beancount.