Перейти к контенту

PHANTOM (NeurIPS 2025): Измерение обнаружения галлюцинаций LLM в финансовых документах

· 7 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

PHANTOM (NeurIPS 2025) задает вопрос, на который я больше всего хотел получить ответ, прежде чем доверить LLM ведение журнала Beancount: может ли модель на самом деле понять, когда она выдумывает факты в финансовом документе? Результаты не внушают оптимизма, а методологический выбор заслуживает тщательного изучения.

Статья

2026-04-19-phantom-hallucination-detection-financial-long-context%3A%20%D0%98%D0%B7%D0%BC%D0%B5%D1%80%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BE%D0%B1%D0%BD%D0%B0%D1%80%D1%83%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%20%D0%B3%D0%B0%D0%BB%D0%BB%D1%8E%D1%86%D0%B8%D0%BD%D0%B0%D1%86%D0%B8%D0%B9%20LLM%20%D0%B2%20%D1%84%D0%B8%D0%BD%D0%B0%D0%BD%D1%81%D0%BE%D0%B2%D1%8B%D1%85%20%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%85)

Ланлань Цзи, Доминик Сейлер, Гункират Каур, Манджунат Хегде, Коустув Дасгупта и Бинг Сян — большинство из них связаны с IBM Research — разработали PHANTOM специально для того, чтобы восполнить пробел, который оставляют общие бенчмарки галлюцинаций. Стандартные бенчмарки галлюцинаций тестируют короткие, чистые контексты с четко сформулированными запросами. Финансовые документы — полная противоположность: один отчет по форме 10-K обычно превышает 100 000 токенов, числа точны до цента, а язык насыщен отраслевыми терминами с неочевидными значениями (EBITDA, отложенная выручка, обесценение гудвилла). Основной вклад — это набор данных из триплетов «запрос-ответ-документ», созданный на основе реальных отчетов SEC: годовых отчетов 10-K, отчетов взаимных фондов 497K и прокси-заявлений DEF 14A, где каждый ответ либо верен, либо намеренно галлюцинирован, что подтверждено экспертами-аннотаторами. Затем бенчмарк расширяет этот базовый набор для тестирования длины контекста от ~500 до 30 000 токенов и систематически варьирует место появления соответствующей информации: в начале, середине или конце контекста.

Ключевые идеи

  • Задача — обнаружение галлюцинаций, а не их генерация: на основе фрагмента документа и ответа классифицировать, является ли ответ обоснованным или вымышленным. Это более простая задача, чем генерация обоснованного ответа, но модели все равно справляются с ней с трудом.
  • Длина контекста имеет огромное значение. Базовый набор использует фрагменты по ~500 токенов. По мере роста контекста до 10К, 20К и 30К токенов производительность значительно падает у всех моделей — что согласуется с выводом «Lost in the Middle» (arXiv:2307.03172) о том, что возможности LLM деградируют, когда важная информация спрятана в середине длинного контекста.
  • Llama-3.3-70B-Instruct достигает наивысшего показателя F1 0,916 на базовом наборе данных — но авторы отмечают, что эта же модель использовалась для генерации базового набора данных, что создает проблему циклической зависимости, завышающую показатель.
  • Qwen3-30B-A3B-Thinking достигает F1 = 0,882, превосходя все протестированные закрытые модели. Ее «недумающий» собрат Instruct набирает 0,848, что говорит о том, что вычисления во время инференса (цепочка рассуждений) приносят реальную пользу.
  • Малые модели (Qwen-2.5-7B) показывают результат лишь чуть выше случайного угадывания в этом бенчмарке. Обнаружение галлюцинаций в длинных финансовых документах, по-видимому, требует значительной емкости модели.
  • Дообучение (fine-tuning) моделей с открытым исходным кодом на данных PHANTOM существенно улучшает их показатели обнаружения — авторы называют это наиболее перспективным направлением для практиков.

Что заслуживает доверия, а что — нет

Методология построения тщательная. Экспертная аннотация базового набора с последующим систематическим расширением по длине контекста и позициям придает PHANTOM структуру, которой не хватает большинству наборов данных для финансовой обработки естественного языка. Вариация расположения особенно полезна: она позволяет измерить, связана ли неудача модели с общей длиной контекста или со специфическим U-образным паттерном внимания (сильное в начале и конце, слабое в середине), который задокументирован во многих архитектурах LLM.

Цикличность с Llama-3.3-70B — это реальная проблема, и авторам стоит отдать должное за то, что они указали на нее, — но это также означает, что топовый результат бенчмарка невозможно интерпретировать однозначно. Для практиков более полезными цифрами, вероятно, являются результаты Qwen3 и Phi-4, где такого загрязнения нет.

Чего мне не хватило в статье: реальной кривой деградации по мере роста длины контекста от 500 до 30 000 токенов. В статье установлено, что деградация происходит и что расположение имеет значение, но я не смог извлечь конкретные значения падения в процентных пунктах из доступных материалов. Эта детализация важна для принятия решения о размере фрагмента (chunk) в продуктовой системе. Также стоит отметить, что бенчмарк проверяет только то, обнаруживает ли модель галлюцинацию в представленном ответе, — он не проверяет, будет ли модель галлюцинировать при создании ответа с нуля. Это связанные, но разные типы отказов, и система, которая хорошо справляется с обнаружением, все равно может катастрофически ошибаться при генерации.

Наконец, набор данных охватывает три типа отчетов SEC. Это значительный пласт финансовых документов, но он оставляет за рамками стенограммы звонков по доходам, аудиторские отчеты, пункты ковенант в кредитных соглашениях и те описания проводок, которые заполняют журнал Beancount. Перенос результатов на эти форматы остается открытым вопросом.

Почему это важно для финансового ИИ

Галлюцинации — это проблема доверия для любого автономного бухгалтерского агента, которого я могу себе представить поверх Beancount. Сценарий обратной записи — худший случай: агент читает банковскую выписку, классифицирует транзакцию и делает запись в журнале. Если он галлюцинирует получателя, сумму или код счета, бухгалтерская книга оказывается незаметно испорченной. PHANTOM — это первый бенчмарк, который я видел, пытающийся измерить, могут ли модели улавливать ошибки такого класса в реалистичных условиях работы с документами.

Вывод о том, что малые модели (7B) работают на уровне случайности при обнаружении галлюцинаций, имеет прямое отношение к Bean Labs: если мы запускаем агента локально или с низкой задержкой, мы не можем полагаться на модель 7B в проверке ее собственных результатов. Нам нужна либо более крупная модель-верификатор, либо внешняя проверка поиска, либо ограниченный формат вывода, который делает галлюцинации структурно невозможными (например, принуждение модели цитировать номер строки из исходного документа перед записью проводки). Результат дообучения обнадеживает: адаптация к предметной области на данных типа PHANTOM, похоже, восстанавливает большую часть способностей к обнаружению даже у небольших моделей, что позволяет предположить, что дообученный верификатор может быть практичным компонентом в конвейере записи данных.

Что почитать дальше

  • SelfCheckGPT (Manakul et al., arXiv:2303.08896) — обнаружение галлюцинаций на основе выборок без использования справочного документа; дополняет подход PHANTOM, основанный на источнике, и может лучше обобщаться на свободные аннотации в бухгалтерских книгах.
  • «Lost in the Middle» (Liu et al., arXiv:2307.03172) — основополагающая работа о деградации позиционного внимания в длинных контекстах; результаты расположения в PHANTOM по сути являются прикладным воспроизведением этого в финансовой сфере.
  • FinanceBench (Islam et al., 2023) — бенчмарк вопросов и ответов по отчетам SEC, который показал, что GPT-4 Turbo с поиском терпит неудачу в 81% из выборки в 150 случаев; хорошо сочетается с PHANTOM как дополнение со стороны генерации к взгляду PHANTOM со стороны обнаружения.