درخواستدهی زنجیره اندیشه: موازنههای دقت-بازیابی در هوش مصنوعی مالی
من در حال بازخوانی مقاله زنجیره اندیشه سال ۲۰۲۲ از Wei و همکاران (arXiv:2201.11903) با یک سوال خاص در ذهن هستم: آزمایشهای قبلی نشان دادند که درخواستدهی CoT دقت را بهبود میبخشد اما در شناسایی ناهنجاریهای مالی به بازیابی (Recall) آسیب میزند. این مقاله باید توضیح دهد که چرا — یا حداقل شهود مکانیکی کافی برای شکلدهی یک فرضیه را به من بدهد.
مقاله
مقاله «درخواستدهی زنجیره اندیشه استدلال را در مدلهای زبانی بزرگ استخراج میکند» نوشته جیسون وی، شوژو وانگ، دیل شورمنز، ماراتن باسما و همکاران (Google Brain)، مقالهای بود که CoT را بر سر زبانها انداخت. ایده ساده است: به جای اینکه از مدل بخواهید مستقیماً به سراغ پاسخ برود، چند مثال به آن نشان میدهید که در آنها پاسخ با یک توالی استدلال مکتوب مقدم شده است. سپس مدل قبل از پاسخ دادن، توالی استدلال خود را تولید میکند.
این مقاله این روش را بر روی وظایف محاسباتی (GSM8K, SVAMP, AQuA)، درک عمومی (CommonsenseQA, StrategyQA) و استدلال نمادین (اتصال حروف، پرتاب سکه) در سه مدل زبانی بزرگ — PaLM 540B، GPT-3 175B و LaMDA 137B — آزمایش کرده و با درخواستدهی چند-نمونهای (few-shot) استاندارد مقایسه میکند.
ایدههای کلیدی
- GSM8K (مسائل کلامی ریاضی): درخواستدهی استاندارد با PaLM 540B امتیاز ۱۷.۹٪ میگیرد؛ CoT امتیاز ۵۶.۹٪ را کسب میکند که یک جهش ۳۹ پلهای است. این یک دستاورد خیرهکننده در یک بنچمارک سخت است و نتیجهای است که مقاله به درستی با آن شناخته میشود.
- اتصال حروف: استاندارد ۷.۶٪، CoT ۹۹.۴٪. برای دستکاریهای نمادین محض، CoT اساساً وظیفه را در مقیاس بزرگ حل میکند.
- CommonsenseQA: استاندارد ۷۸.۱٪، CoT ۷۹.۹٪. دستاورد حداقلی. وظایفی که نیازی به استنتاج چندمرحلهای ندارند، سود چندانی نمیبرند.
- سقوط مقیاس: CoT تنها در مدلهایی با تقریباً ۱۰۰ میلیارد پارامتر به بالا به طور قابل اعتمادی کمک میکند. در مدلهای زیر ۱۰ میلیارد پارامتر، اضافه کردن توالی استدلال اغلب ضرر میرساند — مدل «زنجیرههای اندیشه روان اما غیرمنطقی» تولید میکند که فعالانه آن را به گمراهی میکشاند.
- وظایف آسان سودی نمیبرند: در MAWPS SingleOp (محاسبات تکمرحلهای)، PaLM 540B در هر دو روش استاندارد و CoT امتیاز ۹۴.۱٪ را کسب کرد. زمانی که وظیفه واقعاً به استنتاج چندمرحلهای نیاز ندارد، سربار استدلال ارزشی اضافه نمیکند.
- عدم تضمین صحت: نویسندگان صراحتاً بیان میکنند که یک LLM میتواند توالی استدلالی تولید کند که منسجم به نظر میرسد اما به پاسخ اشتباه ختم میشود. توالی و پاسخ به طور مشترک تولید میشوند و هیچکدام به طور مستقل تایید نمیشوند.