Mike Thrift
Marketing Manager
PHANTOM (NeurIPS 2025): Измерение обнаружения галлюцинаций LLM в финансовых документах
PHANTOM (NeurIPS 2025) — это первый бенчмарк для измерения обнаружения галлюцинаций LLM в реальных отчетах SEC при длине контекста до 30 000 токенов. Qwen3-30B-A3B-Thinking лидирует с F1=0.882; модели 7B показывают результаты на уровне случайного угадывания — что имеет прямые последствия для автономных бухгалтерских агентов.
Бенчмарк FinMaster: почему LLM набирают 96% по финансовой грамотности, но лишь 3% при формировании отчетности
FinMaster (arXiv:2505.13533) оценивает o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансовых задачах, показывая, что модели набирают 96% по финансовой грамотности, но проваливаются до 3% при формировании отчетности, а в многошаговых консалтинговых задачах точность падает на 21 пункт из-за накопления ошибок.
ReAct: Синергия рассуждения и действия в языковых моделях
ReAct (Yao et al., ICLR 2023) чередует рассуждение в формате «цепочки мыслей» с действиями инструментов в рамках одной траектории, превосходя чистый CoT в проверке фактов и имитационном обучении в прикладных задачах на 34 процентных пункта. Этот анализ рассматривает режимы сбоев — отвлечение, вызванное поиском, и накопление ошибок — и то, что они значат для автономных агентов, выполняющих обратную запись в журналы Beancount.