Перейти до основного вмісту

PHANTOM (NeurIPS 2025): Вимірювання виявлення галюцинацій LLM у фінансових документах

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

PHANTOM (NeurIPS 2025) ставить питання, на яке я найбільше хотів отримати відповідь, перш ніж довірити LLM роботу з книговиробництвом у Beancount: чи може модель насправді зрозуміти, коли вона вигадує факти про фінансовий документ? Результати не дуже втішні, а методологічний вибір заслуговує на ретельний розгляд.

Стаття

2026-04-19-phantom-hallucination-detection-financial-long-context

Ланьлань Цзі, Домінік Сейлер, Гункірат Каур, Манджунат Гегде, Кустув Дасгупта та Бін Сян — більшість із яких афілійовані з IBM Research — розробили PHANTOM спеціально для заповнення прогалини, яку залишають загальні бенчмарки галюцинацій. Стандартні бенчмарки тестують короткі чисті контексти з чітко сформульованими запитами. Фінансові документи — це протилежність: один звіт 10-K зазвичай перевищує 100 000 токенів, числа точні до цента, а мова насичена вузькоспеціалізованими термінами, що мають неочевидні значення (EBITDA, відстрочений дохід, знецінення гудвілу). Основний внесок — це набір даних із трійок «запит—відповідь—документ», побудований на основі реальних звітів SEC: річних звітів 10-K, звітів взаємних фондів 497K та проксі-заяв DEF 14A. У цьому наборі кожна відповідь є або правильною, або навмисно сфабрикованою (галюцинованою) та підтвердженою людьми-анотаторами. Далі бенчмарк розширює цей базовий набір для тестування контексту довжиною від ~500 до 30 000 токенів і систематично змінює місце, де з'являється релевантна інформація: на початку, в середині чи в кінці контексту.

Основні ідеї

  • Завданням є виявлення галюцинацій, а не їх генерація: маючи фрагмент документа та відповідь, необхідно класифікувати, чи є відповідь обґрунтованою, чи вигаданою. Це простіше завдання, ніж генерація обґрунтованої відповіді, проте моделі все одно мають із цим значні труднощі.
  • Довжина контексту має величезне значення. Базовий набір використовує фрагменти по ~500 токенів. Коли довжина контексту зростає до 10К, 20К та 30К токенів, продуктивність усіх моделей суттєво падає. Це узгоджується з висновком «Загублені посередині» (Lost in the Middle, arXiv:2307.03172) про те, що якість роботи LLM погіршується, коли релевантна інформація прихована всередині довгого контексту.
  • Llama-3.3-70B-Instruct досягає найвищого показника F1 (0,916) на базовому наборі даних, але автори застерігають, що ця сама модель використовувалася для генерації набору даних. Ця проблема циклічності штучно завищує цифру.
  • Qwen3-30B-A3B-Thinking досягає F1 = 0,882, перевершуючи всі протестовані пропрієтарні моделі. Її споріднена модель Instruct (без режиму міркування) отримує 0,848, що свідчить про те, що обчислення під час виконання (ланцюжок міркувань) додають реальну цінність у цьому процесі.
  • Малі моделі (Qwen-2.5-7B) показують результати лише трохи вищі за випадкове вгадування. Виявлення галюцинацій у довгих фінансових документах, очевидно, потребує значної потужності моделі.
  • Тонке налаштування моделей із відкритим кодом на даних PHANTOM суттєво покращує рівень виявлення — автори визначають це як найбільш перспективний шлях для практиків.

Що підтверджується, а що ні

Методологія побудови є ретельною. Анотування базового набору людьми з подальшим систематичним розширенням за довжиною контексту та позиціями розміщення надає PHANTOM структуру, якої бракує більшості фінансових наборів даних NLP. Варіативність розміщення є особливо корисною: вона дозволяє виміряти, чи пов'язана невдача моделі із загальною довжиною контексту, чи зі специфічним U-подібним шаблоном уваги (сильна на початку та в кінці, слабка посередині), який було зафіксовано для багатьох архітектур LLM.

Циклічність Llama-3.3-70B є реальною проблемою, і автори заслуговують на повагу за те, що вказали на це — проте це також означає, що найкращий результат бенчмарку неможливо однозначно інтерпретувати. Для практиків кориснішими є, мабуть, результати Qwen3 та Phi-4, де такого забруднення не спостерігається.

Чого мені не вистачило в статті: реальної кривої деградації при зростанні контексту від 500 до 30 000 токенів. Стаття доводить, що деградація відбувається і що розміщення має значення, але я не зміг витягнути конкретні показники падіння у відсотках із доступних матеріалів. Ця деталізація важлива для вибору розміру фрагментів при отриманні даних (retrieval) у продуктивних системах. Також варто зазначити, що бенчмарк перевіряє лише те, чи виявляє модель галюцинацію в наданій відповіді, а не те, чи буде вона галюцинувати, якщо її попросити створити відповідь самостійно. Це пов'язані, але різні типи помилок, і система, що добре справляється з виявленням, все одно може зазнати краху при генерації.

Нарешті, набір даних охоплює три типи звітів SEC. Це значний пласт фінансової документації, але він залишає поза увагою стенограми дзвінків про прибутки, аудиторські звіти, пункти про ковенанти в кредитних угодах та той тип довільних описів журнальних проводок, якими наповнена книга Beancount. Здатність до узагальнення на ці формати залишається відкритим питанням.

Чому це важливо для фінансового ШІ

Галюцинації — це критична проблема довіри для будь-якого автономного бухгалтерського агента, якого я можу собі уявити на базі Beancount. Сценарій зворотного запису є найгіршим випадком: агент читає банківську виписку, класифікує транзакцію та створює запис у журналі. Якщо він галюцинує отримувача, суму чи код рахунку, облікова книга стає приховано помилковою. PHANTOM — це перший бенчмарк, який я бачив, що намагається виміряти, чи можуть моделі розпізнавати цей клас помилок у реалістичних документальних умовах.

Висновок про те, що малі моделі (7B) працюють майже на рівні випадковості у виявленні галюцинацій, має пряме відношення до Bean Labs: якщо ми запускаємо агента на пристрої або з низькою затримкою, ми не можемо покладатися на 7B модель для самоперевірки її результатів. Нам потрібна або більша модель-верифікатор, або зовнішня перевірка через пошук, або жорстко обмежений формат виводу, який робить галюцинації структурно неможливими (наприклад, примушуючи модель цитувати номер рядка з джерела перед створенням запису). Результат тонкого налаштування обнадіює: специфічна для домену адаптація на даних у стилі PHANTOM, здається, повертає значну частину здатності до виявлення навіть у менших моделей. Це свідчить про те, що доналаштований верифікатор може бути практичним компонентом у конвеєрі автоматичного запису проводок.

Що почитати далі

  • SelfCheckGPT (Manakul et al., arXiv:2303.08896) — виявлення галюцинацій на основі вибірок без референтного документа; доповнює підхід PHANTOM, що ґрунтується на джерелах, і може краще підходити для відкритих анотацій у книгах.
  • "Lost in the Middle" (Liu et al., arXiv:2307.03172) — фундаментальна стаття про деградацію позиційної уваги в довгих контекстах; результати PHANTOM щодо розміщення інформації є, по суті, прикладним відтворенням цього у фінансовій сфері.
  • FinanceBench (Islam et al., 2023) — QA-бенчмарк для звітів SEC, який показав, що GPT-4 Turbo з пошуком помилявся у 81% випадків із вибірки у 150 кейсів; добре доповнює PHANTOM з точки зору генерації.