پرش به محتوای اصلی

درخواست‌دهی زنجیره اندیشه: موازنه‌های دقت-بازیابی در هوش مصنوعی مالی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

من در حال بازخوانی مقاله زنجیره اندیشه سال ۲۰۲۲ از Wei و همکاران (arXiv:2201.11903) با یک سوال خاص در ذهن هستم: آزمایش‌های قبلی نشان دادند که درخواست‌دهی CoT دقت را بهبود می‌بخشد اما در شناسایی ناهنجاری‌های مالی به بازیابی (Recall) آسیب می‌زند. این مقاله باید توضیح دهد که چرا — یا حداقل شهود مکانیکی کافی برای شکل‌دهی یک فرضیه را به من بدهد.

مقاله

2026-04-20-chain-of-thought-prompting-reasoning-tradeoffs

مقاله «درخواست‌دهی زنجیره اندیشه استدلال را در مدل‌های زبانی بزرگ استخراج می‌کند» نوشته جیسون وی، شوژو وانگ، دیل شورمنز، ماراتن باسما و همکاران (Google Brain)، مقاله‌ای بود که CoT را بر سر زبان‌ها انداخت. ایده ساده است: به جای اینکه از مدل بخواهید مستقیماً به سراغ پاسخ برود، چند مثال به آن نشان می‌دهید که در آن‌ها پاسخ با یک توالی استدلال مکتوب مقدم شده است. سپس مدل قبل از پاسخ دادن، توالی استدلال خود را تولید می‌کند.

این مقاله این روش را بر روی وظایف محاسباتی (GSM8K, SVAMP, AQuA)، درک عمومی (CommonsenseQA, StrategyQA) و استدلال نمادین (اتصال حروف، پرتاب سکه) در سه مدل زبانی بزرگ — PaLM 540B، GPT-3 175B و LaMDA 137B — آزمایش کرده و با درخواست‌دهی چند-نمونه‌ای (few-shot) استاندارد مقایسه می‌کند.

ایده‌های کلیدی

  • GSM8K (مسائل کلامی ریاضی): درخواست‌دهی استاندارد با PaLM 540B امتیاز ۱۷.۹٪ می‌گیرد؛ CoT امتیاز ۵۶.۹٪ را کسب می‌کند که یک جهش ۳۹ پله‌ای است. این یک دستاورد خیره‌کننده در یک بنچمارک سخت است و نتیجه‌ای است که مقاله به درستی با آن شناخته می‌شود.
  • اتصال حروف: استاندارد ۷.۶٪، CoT ۹۹.۴٪. برای دستکاری‌های نمادین محض، CoT اساساً وظیفه را در مقیاس بزرگ حل می‌کند.
  • CommonsenseQA: استاندارد ۷۸.۱٪، CoT ۷۹.۹٪. دستاورد حداقلی. وظایفی که نیازی به استنتاج چندمرحله‌ای ندارند، سود چندانی نمی‌برند.
  • سقوط مقیاس: CoT تنها در مدل‌هایی با تقریباً ۱۰۰ میلیارد پارامتر به بالا به طور قابل اعتمادی کمک می‌کند. در مدل‌های زیر ۱۰ میلیارد پارامتر، اضافه کردن توالی استدلال اغلب ضرر می‌رساند — مدل «زنجیره‌های اندیشه روان اما غیرمنطقی» تولید می‌کند که فعالانه آن را به گمراهی می‌کشاند.
  • وظایف آسان سودی نمی‌برند: در MAWPS SingleOp (محاسبات تک‌مرحله‌ای)، PaLM 540B در هر دو روش استاندارد و CoT امتیاز ۹۴.۱٪ را کسب کرد. زمانی که وظیفه واقعاً به استنتاج چندمرحله‌ای نیاز ندارد، سربار استدلال ارزشی اضافه نمی‌کند.
  • عدم تضمین صحت: نویسندگان صراحتاً بیان می‌کنند که یک LLM می‌تواند توالی استدلالی تولید کند که منسجم به نظر می‌رسد اما به پاسخ اشتباه ختم می‌شود. توالی و پاسخ به طور مشترک تولید می‌شوند و هیچ‌کدام به طور مستقل تایید نمی‌شوند.

چه چیزی تایید می‌شود — و چه چیزی نه

نتایج تجربی پابرجا هستند. دستاوردها در GSM8K در کارهای بعدی تکرار شده‌اند، آستانه مقیاس با آنچه در جاهای دیگر مشاهده شده مطابقت دارد و اعداد استدلال نمادین با آنچه از مکانیک یادگیری در متن (in-context learning) انتظار می‌رود، همخوانی دارند. این مقاله یک کار علمی واقعی انجام داده است.

چیزی که به نظر من کمتر مورد بررسی قرار گرفته، عدم تقارن دقت/بازیابی (precision/recall) است. Wei و همکاران اعداد کلی دقت را نشان می‌دهند — آن‌ها نرخ‌های مثبت کاذب در مقابل منفی کاذب را تفکیک نمی‌کنند. اما اگر به نحوه تغییر توزیع پاسخ توسط CoT فکر کنید، مکانیسم آن قابل تامل است: CoT مدل را وادار می‌کند تا یک مسیر استدلال تولید کرده و به آن پایبند بماند. این محدود کردن فضای تولید احتمالاً ویژگی (Precision) را به قیمت پوشش (Recall) افزایش می‌دهد. مدل در مجموع پاسخ‌های کمتری تولید می‌کند و پاسخ‌هایی که تولید می‌کند تمایل دارند توجیه بهتری داشته باشند — اما ممکن است از پاسخ‌های صحیحی که در یک روایت گام‌به‌گام مرتب نمی‌گنجند، عبور کند. برای شناسایی ناهنجاری در داده‌های مالی، جایی که کلاس «ناهنجاری» طبق تعریف نادر و غیرمعمول است، این دقیقاً همان حالت شکستی است که انتظار می‌رود.

همچنین مقاله سوال مکانیکی را باز می‌گذارد. نویسندگان مراقب هستند که ادعا نکنند مدل «واقعاً در حال استدلال» به معنای قوی کلمه است. اینکه آیا CoT استنتاج چندمرحله‌ای واقعی را استخراج می‌کند یا یک میان‌بر پیچیده الگویابی که چنین استدلالی را تقلید می‌کند، هنوز حل نشده است. یک گزارش وارتون در سال ۲۰۲۵ که مدل‌های استدلال مدرن (o3-mini, o4-mini) را آزمایش می‌کرد، نشان داد که دستورالعمل‌های صریح CoT تنها ۲ تا ۳ درصد سود حاشیه‌ای ایجاد کرده و گاهی اوقات با ایجاد خطا در سوالاتی که مدل در حالت عادی به درستی پاسخ می‌داد، «دقت کامل» را کاهش داده است. آستانه مقیاس مقاله ممکن است با بهتر شدن مدل‌ها در استدلال ضمنی تغییر کرده باشد — اما مشکل نوسان، جایی که CoT شانس غیرصفری برای منحرف کردن یک پاسخ در غیر این صورت صحیح ایجاد می‌کند، همچنان باقی است.

چرا این موضوع برای هوش مصنوعی مالی مهم است

سه ارتباط با برنامه کاری Bean Labs:

اول، مشکل امنیت بازنویسی (write-back). یک عامل مجهز به CoT که قبل از انجام یک عملیات در دفتر کل، استدلال خود را توضیح می‌دهد، یک دنباله حسابرسی (audit trail) فراهم می‌کند — اما توالی استدلال تضمینی برای صحت نیست. عامل می‌تواند توضیحی به ظاهر منطقی برای یک اقدام اشتباه ارائه دهد. این بدان معناست که نشان دادن توالی استدلال به کاربران ممکن است به جای ایجاد قابلیت حسابرسی واقعی، اعتماد کاذب ایجاد کند.

دوم، عدم تقارن شناسایی ناهنجاری. اگر CoT دقت را بالا ببرد اما بازیابی را در وظایف شناسایی رویدادهای نادر کاهش دهد، برای موارد استفاده Beancount — مانند یافتن تراکنش‌های اشتباه طبقه‌بندی شده، علامت‌گذاری ورودی‌های تکراری، شناسایی نقض سیاست‌ها — استفاده ساده‌لوحانه از CoT ممکن است هشدارهای کاذب کمتری به قیمت از دست دادن مشکلات واقعی تولید کند. این پتانسیل یک موازنه اشتباه است. یک عامل مالی که با اطمینان توضیح می‌دهد چرا یک مورد مشکوک را علامت‌گذاری نکرده است، خطرناک‌تر از عاملی است که بیش از حد علامت‌گذاری می‌کند.

سوم، وابستگی به مقیاس. اگر عامل‌های مالی تولیدی به دلایل هزینه یا تأخیر روی مدل‌های کوچک‌تر اجرا شوند، دستاوردهای CoT از بین می‌روند و حتی می‌توانند معکوس شوند. هرگونه ارزیابی از یک عامل مالی مبتنی بر CoT باید در همان مقیاس مدلی انجام شود که در محیط عملیاتی استفاده می‌شود.

پیشنهاد مطالعه بعدی

  • "Self-Consistency Improves Chain of Thought Reasoning in Language Models" (Wang et al., 2022, arXiv:2203.11171) — چندین مسیر CoT را نمونه‌برداری کرده و رای اکثریت را می‌گیرد؛ مستقیماً به مشکل واریانسی که Wei و همکاران اشاره کردند می‌پردازد.
  • "Large Language Models are Zero-Shot Reasoners" (Kojima et al., 2022, arXiv:2205.11916) — نشان می‌دهد که عبارت «بیا گام‌به‌گام فکر کنیم» بدون هیچ مثالی نیز استدلال را استخراج می‌کند؛ مرزهای آنچه CoT واقعاً نیاز دارد را آزمایش می‌کند.
  • "Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?" (arXiv:2508.01191) — مستقیماً به سوال مکانیکی که مقاله اصلی باز گذاشته بود حمله می‌کند.