Mike Thrift

Marketing Manager

April 19, 2026·mike

PHANTOM (NeurIPS 2025): Измерване на откриването на халюцинации при LLM във финансови документи

PHANTOM (NeurIPS 2025) е първият бенчмарк за измерване на откриването на халюцинации при LLM върху реални документи на SEC с дължина на контекста до 30 000 токена. Qwen3-30B-A3B-Thinking води с F1=0.882; 7B моделите постигат резултати близки до случайно налучкване — с директни последици за автономните счетоводни агенти.

llm

machine-learning

April 18, 2026·mike

FinMaster Benchmark: Защо големите езикови модели (LLM) постигат 96% при финансова грамотност, но само 3% при генериране на отчети

FinMaster (arXiv:2505.13533) тества o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансови задачи — разкривайки, че моделите постигат 96% при финансовата грамотност, но се сриват до 3% при генерирането на отчети, като многостепенните консултантски задачи губят 21 пункта точност поради разпространение на грешки.

llm

accounting

April 17, 2026·mike

ReAct: Синергия между разсъждение и действие при езиковите модели

ReAct (Yao et al., ICLR 2023) преплита разсъждения от тип „верига от мисли“ с действия чрез инструменти в една обща траектория, превъзхождайки чистия CoT при проверката на факти и обучението чрез имитация при задачи в среда с 34 процентни пункта. Този анализ обхваща видовете грешки в документа — разсейване, породено от търсенето, и натрупващи се грешки — и какво означават те за автономните агенти, които пишат обратно в Beancount леджъри.

llm

machine-learning

Показани 85–87 от 87 публикации

Предишна8 / 8