Mike Thrift

Marketing Manager

April 19, 2026·mike

PHANTOM (NeurIPS 2025): Вимірювання виявлення галюцинацій LLM у фінансових документах

PHANTOM (NeurIPS 2025) — це перший бенчмарк для вимірювання виявлення галюцинацій LLM у реальних звітах SEC за довжини контексту до 30 000 токенів. Qwen3-30B-A3B-Thinking лідирує з F1=0.882; моделі з 7B параметрів показують результати, близькі до випадкового вгадування — це має прямі наслідки для автономних бухгалтерських агентів.

llm

machine-learning

April 18, 2026·mike

Бенчмарк FinMaster: чому LLM отримують 96% за фінансову грамотність, але лише 3% за формування звітності

FinMaster (arXiv:2505.13533) тестує o3-mini, Claude 3.7 Sonnet та DeepSeek-V3 у 183 фінансових завданнях — виявляючи, що моделі отримують 96% за фінансову грамотність, але падають до 3% у формуванні звітності, причому багатоетапні консалтингові завдання втрачають 21 пункт точності через поширення помилок.

llm

accounting

April 17, 2026·mike

ReAct: Синергія міркування та дії в мовних моделях

ReAct (Yao та ін., ICLR 2023) поєднує міркування «ланцюжка думок» із діями інструментів в єдиній траєкторії, перевершуючи чистий CoT у перевірці фактів та імітаційному навчанні в ембодімент-завданнях на 34 відсоткові пункти. Цей аналіз розглядає режими відмов статті — відволікання через пошук та накопичення помилок — і те, що вони означають для автономних агентів, які вносять записи до реєстрів Beancount.

llm

machine-learning

Показано 85–87 з 87 записів

Попередня8 / 8