ConvFinQA (EMNLP 2022) بنچمارک FinQA را به گفتگوهای چندنو بتی درباره گزارشهای سود S&P 500 گسترش میدهد و نشان میدهد که بهترین مدل تنظیمشده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست مییابد؛ این رقم در گفتگوهای ترکیبی چندوجهی، جایی که مدلها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش مییابد.
TAT-QA یک معیار ارزیابی با ۱۶,۵۵۲ پرسش روی متنهای گزارش مالی ترکیبی (جدول به علاوه متن) است که نشان داد اتکا به شواهد — و نه محاسبات ریاضی — گلوگاه اصلی در هوش مصنوعی مالی است؛ تا سال ۲۰۲۴، مدلهای زبانی ۷ میلیاردی تنظیمشده به دقت F1 ۸۳٪ رسیدند و بیشتر شکاف با سقف ۹۱ درصدی انسانی را پر کردند.
FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پروندههای واقعی SEC ارزیابی میکند؛ RAG با ذخیرهساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح میدهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ میرسد — این نشان میدهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.
خودسازگاری جایگزین رمزگشایی حریصانه زنجیره فکر با رای اکثریت بر روی N مسیر استدلال نمونهبرداری شده میشود — که دقت GPT-3 را در GSM8K بدون هیچ تنظیم دقیق ۱۷.۹ واحد درصد افزایش میدهد — و مستقیماً در محاسبات مالی چندمرحلهای که در آنها یک رمزگشایی واحد مدل زبانی غیرقابل اعتماد است، کاربرد دارد.
PAL (مدلهای زبانی به کمک برنامه) با واگذاری محاسبات به یک مفسر پایتون، به افزایش دقت ۳۸ واحد درصدی نسبت به زنجیره اندیشه در وظایف سنگین محاسباتی دست مییابد — معماریای که مستقیماً برای پرسوجوهای دفتر کل Beancount و هوش مصنوعی مالی قابل اطمینان کاربرد دارد.
چهار بنچمارک سالهای ۲۰۲۴-۲۰۲۵ نشان میدهند که GPT-4 در پاسخدهی به سوالات جداول واقعی امتیاز ۴۲٪ را در مقابل ۸۶٪ انسانها کسب کرده است، در حالی که در تجمیعهای پیچیده این عدد به ۱۹.۶٪ سقوط میکند — و نحو بومی Beancount در بدترین رتبه سلسلهمراتب سریالسازی برای ورودی مدلهای زبانی قرار دارد.
یک بررسی دقیق بر روی مقاله زنجیره اندیشه سال ۲۰۲۲ Wei و همکاران و پیامدهای آن برای هوش مصنوعی مالی — چرا CoT دقت را افزایش میدهد اما ممکن است بازیابی در شناسایی رویدادهای نادر را کاهش دهد، چرا آستانه مقیاس برای عاملهای عملیاتی مهم است، و تیمهای مالی که با استفاده از LLMها سیستم میسازند باید به چه مواردی توجه کنند.
PHANTOM (NeurIPS 2025) اولین بنچمارک برای سنجش تشخیص توهم مدلهای زبانی بزرگ (LLM) در گزارشهای واقعی SEC با طول زمینه تا ۳۰,۰۰۰ توکن است. Qwen3-30B-A3B-Thinking با F1=0.882 پیشتاز است؛ مدلهای 7B امتیازی نزدیک به حدس تصادفی دارند — که پیامدهای مستقیمی برای عوامل حسابداری خودکار دارد.
بررسی دقیق Toolformer (Meta AI, NeurIPS 2023): چگونه آموزش خود-نظارتی فیلتر شده با پرپلکسیتی به یک مدل ۶.۷ میلیارد پارامتری یاد میدهد تا APIهای خارجی را فراخوانی کند، جایی که در بنچمارکهای محاسباتی از GPT-3 175B پیشی میگیرد، و چرا معماری تکمرحلهای آن نمیتواند از فراخوانیهای زنجیرهای ابزار مورد نیاز برای عملیات دفترداری ساختاریافته پشتیبانی کند.
FinBen ۱۵ مدل زبانی بزرگ را در ۳۶ مجموعه داده مالی در NeurIPS 2024 ارزیابی میکند و نشان میدهد که GPT-4 در پرسش و پاسخ عددی به تطابق دقیق ۰.۶۳ و در پیشبینی حرکت سهام به ۰.۵۴ میرسد که نزدیک به شانس است. در اینجا معنای این اعداد برای ساخت یک عامل حسابداری قابل اعتم اد در دفترکل Beancount آورده شده است.