Перейти к основному содержимому
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Все авторы

PHANTOM (NeurIPS 2025): Измерение обнаружения галлюцинаций LLM в финансовых документах
·mike

PHANTOM (NeurIPS 2025): Измерение обнаружения галлюцинаций LLM в финансовых документах

PHANTOM (NeurIPS 2025) — это первый бенчмарк для измерения обнаружения галлюцинаций LLM в реальных отчетах SEC при длине контекста до 30 000 токенов. Qwen3-30B-A3B-Thinking лидирует с F1=0.882; модели 7B показывают результаты на уровне случайного угадывания — что имеет прямые последствия для автономных бухгалтерских агентов.

llm
ai
machine-learning
finance
+4
Бенчмарк FinMaster: почему LLM набирают 96% по финансовой грамотности, но лишь 3% при формировании отчетности
·mike

Бенчмарк FinMaster: почему LLM набирают 96% по финансовой грамотности, но лишь 3% при формировании отчетности

FinMaster (arXiv:2505.13533) оценивает o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансовых задачах, показывая, что модели набирают 96% по финансовой грамотности, но проваливаются до 3% при формировании отчетности, а в многошаговых консалтинговых задачах точность падает на 21 пункт из-за накопления ошибок.

llm
accounting
ai
financial-statements
+3
ReAct: Синергия рассуждения и действия в языковых моделях
·mike

ReAct: Синергия рассуждения и действия в языковых моделях

ReAct (Yao et al., ICLR 2023) чередует рассуждение в формате «цепочки мыслей» с действиями инструментов в рамках одной траектории, превосходя чистый CoT в проверке фактов и имитационном обучении в прикладных задачах на 34 процентных пункта. Этот анализ рассматривает режимы сбоев — отвлечение, вызванное поиском, и накопление ошибок — и то, что они значат для автономных агентов, выполняющих обратную запись в журналы Beancount.

ai
llm
machine-learning
automation
+3
Показано 85–87 из 87 записей
Пред.8 / 8