Mike Thrift
Marketing Manager
PHANTOM (NeurIPS 2025): Измерване на откриването на халюцинации при LLM във финансови документи
PHANTOM (NeurIPS 2025) е първият бенчмарк за измерване на откриването на халюцинации при LLM върху реални документи на SEC с дължина на контекста до 30 000 токена. Qwen3-30B-A3B-Thinking води с F1=0.882; 7B моделите постигат резултати близки до случайно налучкване — с директни последици за автономните счетоводни агенти.
FinMaster Benchmark: Защо големите езикови модели (LLM) постигат 96% при финансова грамотност, но само 3% при генериране на отчети
FinMaster (arXiv:2505.13533) тества o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансови задачи — разкривайки, че моделите постигат 96% при финансовата грамотност, но се сриват до 3% при генерирането на отчети, като многостепенните консултантски задачи губят 21 пункта точност поради разпространение на грешки.
ReAct: Синергия между разсъждение и действие при езиковите модели
ReAct (Yao et al., ICLR 2023) преплита разсъждения от тип „верига от мисли“ с действия чрез инструменти в една обща траектория, превъзхождайки чистия CoT при проверката на факти и обучението чрез имитация при задачи в среда с 34 процентни пункта. Този анализ обхваща видовете грешки в документа — разсейване, породено от търсенето, и натрупващи се грешки — и какво означават те за автономните агенти, които пишат обратно в Beancount леджъри.