PHANTOM (NeurIPS 2025): سنجش تشخیص توهم مدلهای زبانی بزرگ در اسناد مالی
PHANTOM (NeurIPS 2025) سوالی را میپرسد که من بیش از همه دوست داشتم قبل از اعتماد به یک مدل زبانی بزرگ (LLM) برای دسترسی به دفتر کل Beancount پاسخ داده شود: آیا یک مدل واقعاً میتواند تشخیص دهد که چه زمانی در مورد یک سند مالی در حال خیالپردازی است؟ نتایج اطمینانبخش نیستند و انتخابهای روششناختی ارزش بررسی دقیق دارند.
مقاله
%3A%20%D8%B3%D9%86%D8%AC%D8%B4%20%D8%AA%D8%B4%D8%AE%DB%8C%D8%B5%20%D8%AA%D9%88%D9%87%D9%85%20%D9%85%D8%AF%D9%84%E2%80%8C%D9%87%D8%A7%DB%8C%20%D8%B2%D8%A8%D8%A7%D9%86%DB%8C%20%D8%A8%D8%B2%D8%B1%DA%AF%20%D8%AF%D8%B1%20%D8%A7%D8%B3%D9%86%D8%A7%D8%AF%20%D9%85%D8%A7%D9%84%DB%8C)
Lanlan Ji، Dominic Seyler، Gunkirat Kaur، Manjunath Hegde، Koustuv Dasgupta و Bing Xiang — که اکثراً وابسته به IBM Research هستند — PHANTOM را بهطور خاص برای پر کردن شکافی ساختند که بنچمارکهای عمومی توهم باقی گذاشتهاند. بنچمارکهای استاندارد توهم، زمینههای کوتاه و تمیز را با پرسوجوهای خوشساخت آزمایش میکنند. اسناد مالی نقطه مقابل هستند: یک گزارش ۱۰-K به تنهایی معمولاً از ۱۰۰,۰۰۰ توکن فراتر میرود، اعداد تا سطح سنت دقیق هستند و زبان مملو از اصطلاحات تخصصی است که معانی غیربدیهی دارند (مانند EBITDA، درآمد معوق، کاهش ارزش سرقفلی). سهم اصلی این مقاله، مجموعهای از سهتاییهای پرسوجو-پاسخ-سند است که از گزارشهای واقعی SEC ساخته شدهاند — گزارشهای سالانه ۱۰-K، گزارشهای صندوق سرمایهگذاری مشترک ۴۹۷K و بیانیههای وکالتنامه DEF 14A — که در آنها هر پاسخ یا صحیح است یا عمداً دچار توهم شده و توسط ارزیابان انسانی تأیید شده است. سپس بنچمارک این مجموعه اولیه را گسترش میدهد تا طول زمینهها را از حدود ۵۰۰ توکن تا ۳۰,۰۰۰ توکن آزمایش کند و بهطور سیستماتیک محل قرارگیری اطلاعات مرتبط را تغییر میدهد: در ابتدا، میانه یا انتهای زمینه.
ایدههای کلیدی
- وظیفه تشخیص توهم است، نه تولید توهم: با داشتن یک تکه از سند و یک پاسخ، طبقهبندی کنید که آیا پاسخ مستند است یا ساختگی. این کار سادهتر از تولید یک پاسخ مستند است — با این حال مدلها همچنان به شدت با آن دستوپنجه نرم میکنند.
- طول زمینه بسیار مهم است. مجموعه اولیه از تکههای ۵۰۰ توکنی استفاده میکند. با افزایش زمینه به ۱۰ هزار، ۲۰ هزار و ۳۰ هزار توکن، عملکرد در تمام مدلها به میزان قابل توجهی کاهش مییابد — که با یافته "گمشده در میان" (arXiv:2307.03172) مطابقت دارد؛ یعنی مدلهای زبانی بزرگ زمانی که اطلاعات مرتبط در میان یک زمینه طولانی مدفون شده باشد، دچار افت کیفیت میشوند.
- Llama-3.3-70B-Instruct به بالاترین امتیاز F1 یعنی ۰.۹۱۶ در مجموعه اولیه دست مییابد — اما نویسندگان خاطرنشان میکنند که از همین مدل برای تولید مجموعه داده اولیه نیز استفاده شده است، که یک مشکل دورانی است و عدد را به صورت کاذب بالا میبرد.
- Qwen3-30B-A3B-Thinking به امتیاز F1 = 0.882 میرسد و از تمام مدلهای تست شده منبعبسته پی شی میگیرد. نسخه Instruct غیر-Thinking آن امتیاز ۰.۸۴۸ را کسب کرده که نشان میدهد محاسبات زمان تست (استدلال زنجیره افکار) ارزش واقعی در اینجا ایجاد میکند.
- مدلهای کوچک (Qwen-2.5-7B) امتیازی فقط کمی بالاتر از حدس تصادفی در این بنچمارک کسب میکنند. به نظر میرسد تشخیص توهم در اسناد مالی طولانی نیازمند ظرفیت مدل بالایی است.
- تنظیم دقیق (Fine-tuning) مدلهای منبعباز روی دادههای PHANTOM به میزان قابل توجهی نرخ تشخیص آنها را بهبود میبخشد — مقاله این مورد را امیدوارکنندهترین مسیر برای متخصصان معرفی میکند.
چه چیزی پابرجاست — و چه چیزی نه
روششناسی ساخت بسیار دقیق است. حاشیهنویسی انسانی در مجموعه اولیه و به دنبال آن گسترش سیستماتیک در طول زمینهها و موقعیتهای قرارگیری، به PHANTOM ساختاری میدهد که اکثر مجموعهدادههای NLP مالی فاقد آن هستند. تنوع در محل قرارگیری به ویژه مفید است: این امکان را میدهد تا اندازهگیری کنید که آیا شکست مدل مربوط به کل طول زمینه است یا مربوط به الگوی توجه U-شکل خاص (قوی در ابتدا و انتها، ضعیف در میانه) که در بسیاری از معماریهای LLM مستند شده است.
مشکل دورانی Llama-3.3-70B یک مسئله واقعی است و نویسندگان برای اشاره به آن شایسته تحسین هستند — اما این همچنین به این معنی است که نتیجه برتر بنچمارک غیرقابل تفسیر است. برای متخصصان، اعداد مفیدتر احتمالاً نتایج Qwen3 و Phi-4 هستند که چنین آلودگیای در آنها وجود ندارد.
آنچه آرزو میکردم مقاله ارائه میداد: منحنی واقعی تخریب با افزایش طول زمینه از ۵۰۰ به ۳۰,۰۰۰ توکن. مقاله ثابت میکند که تخریب اتفاق میافتد و محل قرارگیری مهم است، اما من نتوانستم درصدهای دقیق افت عملکرد را از مطالب موجود استخراج کنم. این جزئیات برای تصمیمگیری در مورد اندازه تکههای بازیابی (retrieval chunk size) در یک سیستم عملیاتی اهمیت دارد. همچنین شایان ذکر است که بنچمارک تنها آزمایش میکند که آیا مدل توهم را در یک پاسخ ارائه شده تشخیص میدهد یا خیر — آزمایش نمیکند که آیا مدل زمانی که از او خواسته شود پاسخی را از ابتدا تولید کند، دچار توهم میشود یا خیر. اینها حالتهای شکست مرتبط اما متفاوتی هستند و سیستمی که در تشخیص امتیاز خوبی میگیرد، همچنان میتواند در تولید به شدت شکست بخورد.
در نهایت، مجموعهداده سه نوع گزارش SEC را پوشش میدهد. این بخش معناداری از فضای اسناد مالی است، اما متنهای جلسات اعلام سود، گزارشهای حسابرسی، بندهای میثاق در قراردادهای وام و انواع شرحهای بداهه ثبت روزنامه که یک دفتر کل Beancount را پر میکنند، نادیده میگیرد. تعمیمپذیری به آن فرمتها یک سوال بیپاسخ است.
چرا این موضوع برای هوش مصنوعی مالی مهم است
توهم، مشکل اعتماد برای هر عامل حسابداری خودکاری است که بتوانم تصور کنم روی Beancount ساخته شود. سناریوی بازنویسی (write-back) بدترین حالت است: عاملی که صورتحساب بانکی را میخواند، یک تراکنش را طبقهبندی میکند و یک ثبت روزنامه ارسال میکند. اگر در مورد دریافتکننده وجه، مبلغ یا کد حساب دچار توهم شود، دفتر کل در سکوت اشتباه خواهد بود. PHANTOM اولین بنچمارکی است که دیدهام سعی میکند اندازهگیری کند آیا مدلها میتوانند این کلاس از خطا را در شرایط واقعی اسناد شناسایی کنند یا خیر.
این یافته که مدلهای کوچک (7B) در تشخیص توهم عملکردی نزدیک به تصادفی دارند، مستقیماً به Bean Labs مربوط میشود: اگر ما در حال اجرای یک عامل روی دستگاه یا با تأخیر کم هستیم، نمیتوانیم برای تأیید خروجی خود مدل به یک مدل 7B تکیه کنیم. ما یا به یک مدل تأییدکننده بزرگتر، یک بررسی بازیابی خارجی یا یک فرمت خروجی محدود نیاز داریم که توهم را از نظر ساختاری غیرممکن کند (مثلاً مجبور کردن مدل به ذکر شماره خط از سند منبع قبل از ارسال یک ثبت). نتیجه تنظیم دقیق دلگرمکننده است: انطباق خاص دامنه روی دادههای سبک PHANTOM به نظر میرسد بخش زیادی از قابلیت تشخیص را حتی برای مدلهای کوچکتر بازیابی میکند، که نشان میدهد یک تأییدکننده تنظیمدقیق شده میتواند یک جزء کاربردی در یک خط لوله بازنویسی باشد.
چه چیزی را در ادامه بخوانیم
- SelfCheckGPT (Manakul et al., arXiv:2303.08896) — تشخیص توهم مبتنی بر نمونهگیری بدون سند مرجع؛ رویکرد مستند به مرجع PHANTOM را تکمیل میکند و ممکن است به حاشیهنویسیهای دفتر کل با پایان باز بهتر تعمیم یابد.
- "Lost in the Middle" (Liu et al., arXiv:2307.03172) — مقاله بنیادی در مورد تخریب توجه موقعیتی در زمینههای طولانی؛ نتایج قرارگیری PHANTOM در اصل یک تکرار کاربردی از این موضوع در حوزه مالی است.
- FinanceBench (Islam et al., 2023) — بنچمارک پرسش و پاسخ روی گزارشهای SEC که نشان داد GPT-4 Turbo با بازیابی در ۸۱٪ از یک نمونه ۱۵۰ موردی شکست خورده است؛ به خوبی با PHANTOM به عنوان مکملِ بخش تولید برای دیدگاهِ بخش تشخیصِ PHANTOM جفت میشود.
