Преминете към основното съдържание

PHANTOM (NeurIPS 2025): Измерване на откриването на халюцинации при LLM във финансови документи

· 7 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

PHANTOM (NeurIPS 2025) задава въпроса, на който най-много исках да получа отговор, преди да се доверя на LLM да работи с Beancount главна книга: може ли един модел действително да разбере кога си измисля факти за финансов документ? Резултатите не са успокояващи, а методологичният избор заслужава внимателно разглеждане.

Статията

2026-04-19-phantom-hallucination-detection-financial-long-context%3A%20%D0%98%D0%B7%D0%BC%D0%B5%D1%80%D0%B2%D0%B0%D0%BD%D0%B5%20%D0%BD%D0%B0%20%D0%BE%D1%82%D0%BA%D1%80%D0%B8%D0%B2%D0%B0%D0%BD%D0%B5%20%D0%BD%D0%B0%20%D1%85%D0%B0%D0%BB%D1%8E%D1%86%D0%B8%D0%BD%D0%B0%D1%86%D0%B8%D0%B8%20%D0%BF%D1%80%D0%B8%20LLM%20%D0%B2%D1%8A%D0%B2%20%D1%84%D0%B8%D0%BD%D0%B0%D0%BD%D1%81%D0%BE%D0%B2%D0%B8%20%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B8)

Ланлан Джи, Доминик Сейлер, Гункират Каур, Манджунат Хегде, Костув Дасгупта и Бинг Сян — повечето свързани с IBM Research — създадоха PHANTOM специално, за да запълнят празнината, която оставят общите бенчмаркове за халюцинации. Стандартните тестове за халюцинации проверяват кратки, чисти контексти с добре оформени заявки. Финансовите документи са точно обратното: един отчет 10-K рутинно надхвърля 100 000 токена, числата са точни до цент, а езикът е наситен със специфични за областта термини с неочевидни значения (EBITDA, отсрочени приходи, обезценка на репутация). Основният принос е набор от триплети заявка-отговор-документ, изградени от реални документи на SEC — годишни отчети 10-K, документи за взаимни фондове 497K и пълномощни за гласуване DEF 14A — където всеки отговор е или коректен, или умишлено халюциниран, валидиран от човешки анотатори. След това бенчмаркът разширява този базов набор, за да тества дължини на контекста от ~500 токена чак до 30 000 токена, и систематично варира мястото, където се появява подходящата информация: в началото, средата или края на контекста.

Ключови идеи

  • Задачата е откриване на халюцинации, а не генериране на халюцинации: при даден откъс от документ и отговор, трябва да се класифицира дали отговорът е обоснован или измислен. Това е по-лесна задача от генерирането на обоснован отговор — и все пак моделите се затрудняват сериозно.
  • Дължината на контекста е от голямо значение. Базовият набор използва откъси от ~500 токена. Когато контекстът нарасне до 10 000, 20 000 и 30 000 токена, производителността спада значително при всички модели — в съответствие с констатацията „Изгубени по средата“ (Lost in the Middle, arXiv:2307.03172), че LLM се влошават, когато релевантната информация е заровена в средата на дълъг контекст.
  • Llama-3.3-70B-Instruct постига най-високия F1 резултат от 0,916 върху базовия набор от данни — но авторите отбелязват, че този модел е бил използван и за генериране на базовия набор, което е проблем с цикличност, изкуствено повишаващ числото.
  • Qwen3-30B-A3B-Thinking постига F1 = 0,882, превъзхождайки всички тествани модели със затворен код. Неговата „не-мислеща“ версия Instruct постига 0,848, което предполага, че изчислителният ресурс по време на тестване (разсъждения чрез верига от мисли) добавя реална стойност тук.
  • Малките модели (Qwen-2.5-7B) постигат резултат само малко над случайното налучкване в бенчмарка. Откриването на халюцинации в дълги финансови документи изглежда изисква значителен капацитет на модела.
  • Фината настройка (fine-tuning) на модели с отворен код върху данни от PHANTOM значително подобрява техните нива на откриване — статията посочва това като най-обещаващата насока за практиците.

Какво издържа проверката — и какво не

Методологията на изграждане е внимателна. Човешката анотация върху базовия набор, последвана от систематично разширяване през различни дължини на контекста и позиции на поставяне, придава на PHANTOM структура, която липсва на повечето финансови NLP набори от данни. Вариацията в позиционирането е особено полезна: тя позволява да се измери дали провалът на модела е свързан с общата дължина на контекста или със специфичния U-образен модел на вниманието (силно в началото и края, слабо в средата), който е документиран при много LLM архитектури.

Цикличността при Llama-3.3-70B е реален проблем и авторите заслужават признание, че са го отбелязали — но това също означава, че най-добрият резултат на бенчмарка е трудно интерпретируем. За практиците по-полезните числа вероятно са резултатите на Qwen3 и Phi-4, където не съществува такова замърсяване на данните.

Какво бих искал да предостави статията: действителната крива на влошаване при нарастване на контекста от 500 до 30 000 токена. Статията установява, че влошаването се случва и че позиционирането има значение, но не успях да извлека конкретните спадове в процентни пунктове от наличните материали. Тази детайлност е важна за вземане на решение какъв да бъде размерът на откъса при извличане (retrieval chunk size) в производствена система. Също така си струва да се отбележи, че бенчмаркът тества само дали моделът открива халюцинация в представен отговор — той не тества дали моделът ще халюцинира, когато бъде помолен да генерира отговор от нулата. Това са свързани, но различни режими на отказ, и система, която постига добри резултати при откриване, все още може да се провали сериозно при генериране.

Накрая, наборът от данни обхваща три вида документи на SEC. Това е значима част от пространството на финансовите документи, но изключва транскрипти от разговори за финансови резултати, одитни доклади, клаузи за финансови ангажименти в договори за заем и типа ad-hoc описания на счетоводни статии, които изпълват Beancount главната книга. Обобщаването към тези формати остава отворен въпрос.

Защо това е важно за финансовия AI

Халюцинациите са проблемът с доверието за всеки автономен счетоводен агент, който мога да си представя да изградя върху Beancount. Сценарият за обратно записване (write-back) е най-лошият случай: агент, който чете банково извлечение, класифицира трансакция и публикува счетоводна статия. Ако той халюцинира получателя, сумата или сметката, главната книга тихомълком става грешна. PHANTOM е първият бенчмарк, който виждам, че се опитва да измери дали моделите могат да уловят този клас грешки в реалистични условия на документация.

Констатацията, че малките модели (7B) се представят близо до случайното при откриване на халюцинации, е пряко релевантна за Bean Labs: ако използваме агент на устройството или с ниска латентност, не можем да разчитаме на 7B модел да проверява сам собствения си изход. Нуждаем се или от по-голям модел за проверка, или от външна проверка чрез извличане, или от ограничен изходен формат, който прави халюцинациите структурно невъзможни (напр. принуждаване на модела да цитира номер на ред от изходния документ преди публикуване на запис). Резултатът от фината настройка е насърчителен: специфичната за областта адаптация върху данни в стил PHANTOM изглежда възстановява голяма част от способността за откриване дори при по-малките модели, което предполага, че фино настроен верификатор би могъл да бъде практически компонент в конвейер за обратно записване.

Какво да прочетете след това

  • SelfCheckGPT (Manakul et al., arXiv:2303.08896) — откриване на халюцинации чрез вземане на проби без референтен документ; допълва базирания на референции подход на PHANTOM и може да се обобщава по-добре към отворени анотации в главната книга.
  • "Lost in the Middle" (Liu et al., arXiv:2307.03172) — фундаменталната статия за позиционното влошаване на вниманието в дълги контексти; резултатите за позициониране в PHANTOM са по същество приложна репликация на това във финансовата сфера.
  • FinanceBench (Islam et al., 2023) — QA бенчмарк върху документи на SEC, който показа, че GPT-4 Turbo с извличане се проваля в 81% от извадка от 150 случая; съчетава се добре с PHANTOM като допълнение от страната на генериране към гледната точка на PHANTOM от страната на откриване.