Mike Thrift
Marketing Manager
PHANTOM (NeurIPS 2025): Вимірювання виявлення галюцинацій LLM у фінансових документах
PHANTOM (NeurIPS 2025) — це перший бенчмарк для вимірювання виявлення галюцинацій LLM у реальних звітах SEC за довжини контексту до 30 000 токенів. Qwen3-30B-A3B-Thinking лідирує з F1=0.882; моделі з 7B параметрів показують результати, близькі до випадкового вгадування — це має прямі наслідки для автономних бухгалтерських агентів.
Бенчмарк FinMaster: чому LLM отримують 96% за фінансову грамотність, але лише 3% за формування звітності
FinMaster (arXiv:2505.13533) тестує o3-mini, Claude 3.7 Sonnet та DeepSeek-V3 у 183 фінансових завданнях — виявляючи, що моделі отримують 96% за фінансову грамотність, але падають до 3% у формуванні звітності, причому багатоетапні консалтингові завдання втрачають 21 пункт точності через поширення помилок.
ReAct: Синергія міркування та дії в мовних моделях
ReAct (Yao та ін., ICLR 2023) поєднує міркування «ланцюжка думок» із діями інструментів в єдиній траєкторії, перевершуючи чистий CoT у перевірці фактів та імітаційному навчанні в ембодімент-завданнях на 34 відсоткові пункти. Цей аналіз розглядає режими відмов статті — відволікання через пошук та накопичення помилок — і те, що вони означають для автономних агентів, які вносять записи до реєстрів Beancount.