چهار بنچمارک سالهای ۲۰۲۴-۲۰۲۵ نشان میدهند که GPT-4 در پاسخدهی به سوالات جداول واقعی امتیاز ۴۲٪ را در مقابل ۸۶٪ انسانها کسب کرده است، در حالی که در تجمیعهای پیچیده این عدد به ۱۹.۶٪ سقوط میکند — و نحو بومی Beancount در بدترین رتبه سلسلهمراتب سریالسازی برای ورودی مدلهای زبانی قرار دارد.
مقاله هوش مصنوعی قانونمند آنتروپیک (بای و همکاران، ۲۰۲۲) مدلهای زبانی بزرگ را آموزش میدهد تا با استفاده از بازخوردهای تولید شده توسط هوش مصنوعی به جای برچسبهای آسیب انسانی، از قوانین پیروی کنند. این گزارش تحقیقاتی بررسی میکند که چگونه خط لوله نقد-بازبینی-ترجیح RLAIF بر ایمنی بازنویسی برای عوامل خودکار دفترکل Beancount منطبق میشود — و زمانی که «قانون اساسی» به جای مجموعهای از قوانین اخلاقی، یک چارت حسابها باشد، گودهارتینگ، شکستهای کالیبراسیون و ریسکهای استفاده دوگانه چگونه به نظر میرسند.
یک بررسی دقیق بر روی مقاله زنجیره اندیشه سال ۲۰۲۲ Wei و همکاران و پیامدهای آن برای هوش مصنوعی مالی — چرا CoT دقت را افزایش میدهد اما ممکن است بازیابی در شناسایی رویدادهای نادر را کاهش دهد، چرا آستانه مقیاس برای عاملهای عملیاتی مهم است، و تیمهای مالی که با استفاده از LLMها سیستم میسازند باید به چه مواردی توجه کنند.
PHANTOM (NeurIPS 2025) اولین بنچمارک برای سنجش تشخیص توهم مدلهای زبانی بزرگ (LLM) در گزارشهای واقعی SEC با طول زمینه تا ۳۰,۰۰۰ توکن است. Qwen3-30B-A3B-Thinking با F1=0.882 پیشتاز است؛ مدلهای 7B امتیازی نزدیک به حدس تصادفی دارند — که پیامدهای مستقیمی برای عوامل حسابداری خودکار دارد.
بنچمارک FinMaster (arXiv:2505.13533) مدلهای o3-mini، Claude 3.7 Sonnet و DeepSeek-V3 را در ۱۸۳ وظیفه مالی ارزیابی میکند—و نشان م یدهد که این مدلها در سواد مالی امتیاز ۹۶٪ کسب میکنند اما در تولید صورتهای مالی به ۳٪ سقوط میکنند، و در وظایف مشاورهای چند مرحلهای به دلیل انتشار خطا، ۲۱ واحد از دقت خود را از دست میدهند.
مقاله ReAct (Yao و همکاران، ICLR 2023) استدلال زنجیره اندیشه را با اقدامات ابزاری در یک مسیر واحد ادغام می کند و در تأیید واقعیت و یادگیری تقلیدی در وظایف تجسمیافته تا ۳۴ درصد از CoT خالص بهتر عمل میکند. این تحلیل به بررسی حالتهای شکست مقاله — حواسپرتی ناشی از جستجو و خطاهای انباشته — و معنای آنها برای عاملهای خودمختار که در دفترکلهای Beancount مینویسند، میپردازد.
بررسی دقیق Toolformer (Meta AI, NeurIPS 2023): چگونه آموزش خود-نظارتی فیلتر شده با پرپلکسیتی به یک مدل ۶.۷ میلیارد پارامتری یاد میدهد تا APIهای خارجی را فراخوانی کند، جایی که در بنچمارکهای محاسباتی از GPT-3 175B پیشی میگیرد، و چرا معماری تکمرحلهای آن نمیتواند از فراخوانیهای زنجیرهای ابزار مورد نیاز برای عملیات دفترداری ساختاریافته پشتیبانی کند.
FinBen ۱۵ مدل زبانی بزرگ را در ۳۶ مجموعه داده مالی در NeurIPS 2024 ارزیابی میکند و نشان میدهد که GPT-4 در پرسش و پاسخ عددی به تطابق دقیق ۰.۶۳ و در پیشبینی حرکت سهام به ۰.۵۴ میرسد که نزدیک به شانس است. در اینجا معنای این اعداد برای ساخت یک عامل حسابداری قابل اعتماد در دفترکل Beancount آورده شده است.