پرش به محتوای اصلی

PHANTOM (NeurIPS 2025): سنجش تشخیص توهم مدل‌های زبانی بزرگ در اسناد مالی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

PHANTOM (NeurIPS 2025) سوالی را می‌پرسد که من بیش از همه دوست داشتم قبل از اعتماد به یک مدل زبانی بزرگ (LLM) برای دسترسی به دفتر کل Beancount پاسخ داده شود: آیا یک مدل واقعاً می‌تواند تشخیص دهد که چه زمانی در مورد یک سند مالی در حال خیال‌پردازی است؟ نتایج اطمینان‌بخش نیستند و انتخاب‌های روش‌شناختی ارزش بررسی دقیق دارند.

مقاله

2026-04-19-phantom-hallucination-detection-financial-long-context%3A%20%D8%B3%D9%86%D8%AC%D8%B4%20%D8%AA%D8%B4%D8%AE%DB%8C%D8%B5%20%D8%AA%D9%88%D9%87%D9%85%20%D9%85%D8%AF%D9%84%E2%80%8C%D9%87%D8%A7%DB%8C%20%D8%B2%D8%A8%D8%A7%D9%86%DB%8C%20%D8%A8%D8%B2%D8%B1%DA%AF%20%D8%AF%D8%B1%20%D8%A7%D8%B3%D9%86%D8%A7%D8%AF%20%D9%85%D8%A7%D9%84%DB%8C)

Lanlan Ji، Dominic Seyler، Gunkirat Kaur، Manjunath Hegde، Koustuv Dasgupta و Bing Xiang — که اکثراً وابسته به IBM Research هستند — PHANTOM را به‌طور خاص برای پر کردن شکافی ساختند که بنچ‌مارک‌های عمومی توهم باقی گذاشته‌اند. بنچ‌مارک‌های استاندارد توهم، زمینه‌های کوتاه و تمیز را با پرس‌وجوهای خوش‌ساخت آزمایش می‌کنند. اسناد مالی نقطه مقابل هستند: یک گزارش ۱۰-K به تنهایی معمولاً از ۱۰۰,۰۰۰ توکن فراتر می‌رود، اعداد تا سطح سنت دقیق هستند و زبان مملو از اصطلاحات تخصصی است که معانی غیربدیهی دارند (مانند EBITDA، درآمد معوق، کاهش ارزش سرقفلی). سهم اصلی این مقاله، مجموعه‌ای از سه‌تایی‌های پرس‌وجو-پاسخ-سند است که از گزارش‌های واقعی SEC ساخته شده‌اند — گزارش‌های سالانه ۱۰-K، گزارش‌های صندوق سرمایه‌گذاری مشترک ۴۹۷K و بیانیه‌های وکالت‌نامه DEF 14A — که در آن‌ها هر پاسخ یا صحیح است یا عمداً دچار توهم شده و توسط ارزیابان انسانی تأیید شده است. سپس بنچ‌مارک این مجموعه اولیه را گسترش می‌دهد تا طول زمینه‌ها را از حدود ۵۰۰ توکن تا ۳۰,۰۰۰ توکن آزمایش کند و به‌طور سیستماتیک محل قرارگیری اطلاعات مرتبط را تغییر می‌دهد: در ابتدا، میانه یا انتهای زمینه.

ایده‌های کلیدی

  • وظیفه تشخیص توهم است، نه تولید توهم: با داشتن یک تکه از سند و یک پاسخ، طبقه‌بندی کنید که آیا پاسخ مستند است یا ساختگی. این کار ساده‌تر از تولید یک پاسخ مستند است — با این حال مدل‌ها همچنان به شدت با آن دست‌وپنجه نرم می‌کنند.
  • طول زمینه بسیار مهم است. مجموعه اولیه از تکه‌های ۵۰۰ توکنی استفاده می‌کند. با افزایش زمینه به ۱۰ هزار، ۲۰ هزار و ۳۰ هزار توکن، عملکرد در تمام مدل‌ها به میزان قابل توجهی کاهش می‌یابد — که با یافته "گمشده در میان" (arXiv:2307.03172) مطابقت دارد؛ یعنی مدل‌های زبانی بزرگ زمانی که اطلاعات مرتبط در میان یک زمینه طولانی مدفون شده باشد، دچار افت کیفیت می‌شوند.
  • Llama-3.3-70B-Instruct به بالاترین امتیاز F1 یعنی ۰.۹۱۶ در مجموعه اولیه دست می‌یابد — اما نویسندگان خاطرنشان می‌کنند که از همین مدل برای تولید مجموعه داده اولیه نیز استفاده شده است، که یک مشکل دورانی است و عدد را به صورت کاذب بالا می‌برد.
  • Qwen3-30B-A3B-Thinking به امتیاز F1 = 0.882 می‌رسد و از تمام مدل‌های تست شده منبع‌بسته پیشی می‌گیرد. نسخه Instruct غیر-Thinking آن امتیاز ۰.۸۴۸ را کسب کرده که نشان می‌دهد محاسبات زمان تست (استدلال زنجیره افکار) ارزش واقعی در اینجا ایجاد می‌کند.
  • مدل‌های کوچک (Qwen-2.5-7B) امتیازی فقط کمی بالاتر از حدس تصادفی در این بنچ‌مارک کسب می‌کنند. به نظر می‌رسد تشخیص توهم در اسناد مالی طولانی نیازمند ظرفیت مدل بالایی است.
  • تنظیم دقیق (Fine-tuning) مدل‌های منبع‌باز روی داده‌های PHANTOM به میزان قابل توجهی نرخ تشخیص آن‌ها را بهبود می‌بخشد — مقاله این مورد را امیدوارکننده‌ترین مسیر برای متخصصان معرفی می‌کند.

چه چیزی پابرجاست — و چه چیزی نه

روش‌شناسی ساخت بسیار دقیق است. حاشیه‌نویسی انسانی در مجموعه اولیه و به دنبال آن گسترش سیستماتیک در طول زمینه‌ها و موقعیت‌های قرارگیری، به PHANTOM ساختاری می‌دهد که اکثر مجموعه‌داده‌های NLP مالی فاقد آن هستند. تنوع در محل قرارگیری به ویژه مفید است: این امکان را می‌دهد تا اندازه‌گیری کنید که آیا شکست مدل مربوط به کل طول زمینه است یا مربوط به الگوی توجه U-شکل خاص (قوی در ابتدا و انتها، ضعیف در میانه) که در بسیاری از معماری‌های LLM مستند شده است.

مشکل دورانی Llama-3.3-70B یک مسئله واقعی است و نویسندگان برای اشاره به آن شایسته تحسین هستند — اما این همچنین به این معنی است که نتیجه برتر بنچ‌مارک غیرقابل تفسیر است. برای متخصصان، اعداد مفیدتر احتمالاً نتایج Qwen3 و Phi-4 هستند که چنین آلودگی‌ای در آن‌ها وجود ندارد.

آنچه آرزو می‌کردم مقاله ارائه می‌داد: منحنی واقعی تخریب با افزایش طول زمینه از ۵۰۰ به ۳۰,۰۰۰ توکن. مقاله ثابت می‌کند که تخریب اتفاق می‌افتد و محل قرارگیری مهم است، اما من نتوانستم درصدهای دقیق افت عملکرد را از مطالب موجود استخراج کنم. این جزئیات برای تصمیم‌گیری در مورد اندازه تکه‌های بازیابی (retrieval chunk size) در یک سیستم عملیاتی اهمیت دارد. همچنین شایان ذکر است که بنچ‌مارک تنها آزمایش می‌کند که آیا مدل توهم را در یک پاسخ ارائه شده تشخیص می‌دهد یا خیر — آزمایش نمی‌کند که آیا مدل زمانی که از او خواسته شود پاسخی را از ابتدا تولید کند، دچار توهم می‌شود یا خیر. این‌ها حالت‌های شکست مرتبط اما متفاوتی هستند و سیستمی که در تشخیص امتیاز خوبی می‌گیرد، همچنان می‌تواند در تولید به شدت شکست بخورد.

در نهایت، مجموعه‌داده سه نوع گزارش SEC را پوشش می‌دهد. این بخش معناداری از فضای اسناد مالی است، اما متن‌های جلسات اعلام سود، گزارش‌های حسابرسی، بندهای میثاق در قراردادهای وام و انواع شرح‌های بداهه ثبت روزنامه که یک دفتر کل Beancount را پر می‌کنند، نادیده می‌گیرد. تعمیم‌پذیری به آن فرمت‌ها یک سوال بی‌پاسخ است.

چرا این موضوع برای هوش مصنوعی مالی مهم است

توهم، مشکل اعتماد برای هر عامل حسابداری خودکاری است که بتوانم تصور کنم روی Beancount ساخته شود. سناریوی بازنویسی (write-back) بدترین حالت است: عاملی که صورت‌حساب بانکی را می‌خواند، یک تراکنش را طبقه‌بندی می‌کند و یک ثبت روزنامه ارسال می‌کند. اگر در مورد دریافت‌کننده وجه، مبلغ یا کد حساب دچار توهم شود، دفتر کل در سکوت اشتباه خواهد بود. PHANTOM اولین بنچ‌مارکی است که دیده‌ام سعی می‌کند اندازه‌گیری کند آیا مدل‌ها می‌توانند این کلاس از خطا را در شرایط واقعی اسناد شناسایی کنند یا خیر.

این یافته که مدل‌های کوچک (7B) در تشخیص توهم عملکردی نزدیک به تصادفی دارند، مستقیماً به Bean Labs مربوط می‌شود: اگر ما در حال اجرای یک عامل روی دستگاه یا با تأخیر کم هستیم، نمی‌توانیم برای تأیید خروجی خود مدل به یک مدل 7B تکیه کنیم. ما یا به یک مدل تأییدکننده بزرگتر، یک بررسی بازیابی خارجی یا یک فرمت خروجی محدود نیاز داریم که توهم را از نظر ساختاری غیرممکن کند (مثلاً مجبور کردن مدل به ذکر شماره خط از سند منبع قبل از ارسال یک ثبت). نتیجه تنظیم دقیق دلگرم‌کننده است: انطباق خاص دامنه روی داده‌های سبک PHANTOM به نظر می‌رسد بخش زیادی از قابلیت تشخیص را حتی برای مدل‌های کوچکتر بازیابی می‌کند، که نشان می‌دهد یک تأییدکننده تنظیم‌دقیق شده می‌تواند یک جزء کاربردی در یک خط لوله بازنویسی باشد.

چه چیزی را در ادامه بخوانیم

  • SelfCheckGPT (Manakul et al., arXiv:2303.08896) — تشخیص توهم مبتنی بر نمونه‌گیری بدون سند مرجع؛ رویکرد مستند به مرجع PHANTOM را تکمیل می‌کند و ممکن است به حاشیه‌نویسی‌های دفتر کل با پایان باز بهتر تعمیم یابد.
  • "Lost in the Middle" (Liu et al., arXiv:2307.03172) — مقاله بنیادی در مورد تخریب توجه موقعیتی در زمینه‌های طولانی؛ نتایج قرارگیری PHANTOM در اصل یک تکرار کاربردی از این موضوع در حوزه مالی است.
  • FinanceBench (Islam et al., 2023) — بنچ‌مارک پرسش و پاسخ روی گزارش‌های SEC که نشان داد GPT-4 Turbo با بازیابی در ۸۱٪ از یک نمونه ۱۵۰ موردی شکست خورده است؛ به خوبی با PHANTOM به عنوان مکملِ بخش تولید برای دیدگاهِ بخش تشخیصِ PHANTOM جفت می‌شود.