2026
- ۲۶ فروردین - FinBen: ارزیابی مقایسهای مدلهای زبانی بزرگ در ۳۶ وظیفه مالی — پیامدهایی برای هوش مصنوعی در حسابداری
- ۲۷ فروردین - Toolformer: استفاده از ابزار بصورت خود-نظارتی و محدودیتهای آن برای هوش مصنوعی مالی
- ۲۸ فروردین - ReAct: همافزایی استدلال و عمل در مدلهای زبانی
- ۲۹ فروردین - بنچمارک FinMaster: چرا مدلهای زبانی بزرگ در سواد مالی امتیاز ۹۶٪ اما در تولید صورتهای مالی امتیاز ۳٪ کسب میکنند
- ۳۰ فروردین - PHANTOM (NeurIPS 2025): سنجش تشخیص توهم مدلهای زبانی بزرگ در اسناد مالی
- ۳۱ فروردین - درخواستدهی زنجیره اندیشه: موازنههای دقت-بازیابی در هوش مصنوعی مالی
- ۱ اردیبهشت - ه وش مصنوعی قانونمند برای عوامل حسابداری: RLAIF، قوانین خطمشی و ریسکهای گودهارت
- ۲ اردیبهشت - آیا مدلهای زبانی بزرگ میتوانند دادههای جدولی را تحلیل کنند؟ چهار بنچمارک درباره هوش مصنوعی مالی چه میگویند
- ۳ اردیبهشت - PAL: مدلهای زبانی به کمک برنامه برای محاسبات مالی قابل اطمینان
- ۴ اردیبهشت - خودسازگاری: نمونهبرداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش میدهد
- ۵ اردیبهشت - Reflexion: عاملهای زبانی که بدون بازآموزی از اشتباهات خود میآموزند
- ۶ اردیبهشت - CRITIC: چرا خوداصلاحی مدلهای زبانی بزرگ نیازمند بازخورد ابزارهای خارجی است
- ۷ اردیبهشت - درخت افکار: حل مسئله آگاهانه با جستجوی مدلهای زبانی بزرگ
- ۸ اردیبهشت - مدلهای زبانی بزرگ هنوز نمیتوانند استدلال خود را اصلاح کنند — یافتههای ICLR 2024 و پیامدهای هوش مصنوعی در امور مالی
- ۹ اردیبهشت - CodeAct: چرا کدهای پایتون قابل اجرا، دقت عوامل LLM را ۲۰٪ افزایش میدهند
- ۱۰ اردیبهشت - SWE-bench: آیا مدلهای زبانی میتوانند مسائل واقعی گیتهاب را حل کنند؟
- ۱۱ اردیبهشت - SWE-agent: چگونه طراحی رابط کاربری پتانسیل مهندسی نرمافزار خودکار را آزاد میکند
- ۱۲ اردیبهشت - MemGPT: مدیریت فضای متنی مجازی برای عاملهای مدل زبانی بزرگ (LLM)
- ۱۳ اردیبهشت - گوریلا: چگونه آموزش آگاه از بازیابی توهمات API در مدلهای زبانی بزرگ را از ۷۸٪ به ۱۱٪ کاهش میدهد
- ۱۴ اردیبهشت - AutoGen: چارچوبهای گفتگوی چند-عاملی برای هوش مصنوعی مالی
- ۱۵ اردیبهشت - BloombergGPT و محدودیتهای مدلهای زبانی بزرگ تخصصی در امور مالی
- ۱۶ اردیبهشت - AgentBench: ارزیابی مدلهای زبانی بزرگ به عنوان عامل — درسهایی برای قابلیت اطمینان هوش مصنوعی در امور مالی
- ۱۷ اردیبهشت - HippoRAG: حافظه بلندمدت با الهام از علوم اعصاب برای مدلهای زبانی بزرگ
- ۱۸ اردیبهشت - Voyager: کتابخانههای مهارت به عنوان پایهای برای یادگیری مادامالعمر عاملهای هوش مصنوعی
- ۱۹ اردیبهشت - Self-RAG: بازیابی تطبیقی و خود-انتقادی برای مدلهای زبانی بزرگ
- ۲۰ اردیبهشت - LATS: جستجوی درختی عامل زبانی — استدلال، عمل و برنامهریزی در یک چارچوب واحد
- ۲۱ اردیبهشت - DSPy: جایگزینی مهندسی پرامپت شکننده با خطلولههای کامپایلشده مدل زبانی بزرگ (LLM)
- ۲۲ اردیبهشت - FinanceBench: چرا RAG مبتنی بر ذخیرهساز برداری در اسناد مالی واقعی شکست میخورد
- ۲۳ اردیبهشت - FinQA: محک سنجش استدلال عددی هوش مصنوعی در گزارشهای مالی
- ۲۴ اردیبهشت - TAT-QA: معیار ارزیابی پرسش و پاسخ ترکیبی جدول-متن برای استدلال در گزارشهای سالانه مالی
- ۲۵ اردیبهشت - ConvFinQA: پرسش و پاسخ مالی چندنوبتی و شکاف ۲۱ امتیازی بین مدلها و متخصصان انسانی
- ۲۶ اردیبهشت - MultiHiertt: بنچمارک استدلال عددی بر روی جداول مالی چندسلسلهمراتبی
- ۲۷ اردیبهشت - تولید تقویتشده با بازیابی برای وظایف NLP دانشمحور
- ۲۸ اردیبهشت - FLARE: تولید افزوده با بازیابی فعال
- ۲۹ اردیبهشت - IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحلهای
- ۳۰ اردیبهشت - تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدلهای زبانی بزرگ پیروز میشود
- ۳۱ اردیبهشت - TAT-LLM: مدل LLaMA 2 تنظیمدقیقشده برای استدلال گسسته روی جداول و متون مالی
- ۱ خرداد - AuditCopilot: LLMs for Fraud Detection in Double-Entry Bookkeeping
- ۲ خرداد - مدلهای زبانی بزرگ برای پیشبینی سریهای زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی
- ۳ خرداد - مباحثه چندعاملی مدلهای زبانی بزرگ: دستاوردهای واقعی در دقت، رایانش کنترلنشده و توهم جمعی
- ۴ خرداد - GuardAgent: اعمال امنیت قطعی برای عاملهای LLM از طریق اجرای کد
- ۵ خرداد - Fusion-in-Decoder: چگونه بازیابی چند-متنی پرسش و پاسخ مولد را بهبود میبخشد
- ۶ خرداد - اطلس: پیشآموزش مشترک بازیاب-خوانشگر مدلهای زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست میدهد
- ۷ خرداد - ShieldAgent: استدلال سیاست امنیتی قابل تایید برای عاملهای LLM
- ۸ خرداد - AGrail: نردههای حفاظتی امنیتی تطبیقی برای عاملهای مدل زبانی بزرگ (LLM) با قابلیت یادگیری در طول وظایف
- ۹ خرداد - M3MAD-Bench: آیا مباحثات چند-عاملی واقعاً در حوزهها و مدالیتههای مختلف موثر هستند؟
- ۱۰ خرداد - برتری مدلهای زبانی بزرگ تکعاملی بر سیستمهای چندعاملی در استدلال چندگامی تحت بودجه یکسان توکنهای تفکر
- ۱۱ خرداد - StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست میدهد
- ۱۲ خرداد - InvestorBench: ارزیابی مدلهای زبانی بزرگ در تصمیمگیریهای معاملاتی مالی
- ۱۳ خرداد - FinAuditing: نمرات زیر ۱۴٪ مدلهای زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL
- ۱۴ خرداد - GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرسوجو
- ۱۵ خرداد - استفاده تاییدپذیر و امن از ابزارها برای عاملهای مدل زبانی بزرگ: تلاقی STPA و MCP
- ۱۶ خرداد - بنچمارک BIRD: شکاف پایگاهداده واقعی در مدلهای زبانی بزرگ Text-to-SQL
- ۱۷ خرداد - DIN-SQL: یادگیری در-متن تجزیه شده برای تبدیل متن به SQL
- ۱۸ خرداد - MAC-SQL: تبدیل متن به SQL از طریق همکاری چند-عامل
- ۱۹ خرداد - TAPAS: پرسش و پاسخ جدولی با نظارت ضعیف بدون SQL، و معنای آن برای Beancount
- ۲۰ خرداد - TableLlama: آیا یک مدل متنباز ۷ میلیاردی میتواند در درک جداول با GPT-4 رقابت کند؟
- ۲۱ خرداد - Chain-of-Table: تکامل جداول در زنجیره استدلال مدلهای زبانی بزرگ
- ۲۲ خرداد - τ-bench: سنجش قابلیت اطمینان عاملهای هوش مصنوعی در دامنههای واقعی استفاده از ابزار
- ۲۳ خرداد - WorkArena: نحوه عملکرد عاملهای وب مبتنی بر LLM در کارهای دانشی واقعی سازمانی
- ۲۴ خرداد - WebArena: بنچمارک ۸۱۲-تسک که آنچه را که ایجنتهای وب واقعاً میتوانند و نمیتوانند انجام دهند اندازهگیری میکند
- ۲۵ خرداد - OSWorld: موفقیت عاملهای هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسانها در ۷۲٪ آنها موفق میشوند
- ۲۶ خرداد - بنچمارک GAIA: اندازهگیری آنچه مدلهای هوش مصنوعی پیشرو واقعاً میتوانند انجام دهند
- ۲۷ خرداد - WorkArena++: شکاف ۹۳ درصدی بین عملکرد انسان و عاملهای هوش مصنوعی در وظایف سازمانی ترکیبی
- ۲۸ خرداد - τ²-bench: اندازهگیری هزینه کنترل دوگانه در عاملهای هوش مصنوعی مکالمهای
- ۲۹ خرداد - TheAgentCompany: محکزنی عاملهای LLM در وظایف سازمانی دنیای واقعی
- ۳۰ خرداد - DocFinQA: استدلال مالی با متن طولانی بر روی گزارشهای کامل SEC
- ۳۱ خرداد - تشخیص ناهنجاری بدون آموزش (Zero-Shot) با مدلهای زبانی بزرگ: عملکرد GPT-4 روی دادههای جدولی
- ۱ تیر - TableMaster: استدلال تطبیقی برای درک جداول با مدلهای زبانی بزرگ (LLMs)
- ۲ تیر - امتیاز ۲.۳ درصدی مدلهای زبانی بزرگ در تولید DSL بینکنت: بنچمارک LLMFinLiteracy
- ۳ تیر - AnoLLM: تنظیم دقیق مدلهای زبانی بزرگ (LLM) برای شناسایی ناهنجاریهای جدولی در دادههای مالی
- ۴ تیر - CausalTAD: ترتیببندی علّی ستونها برای تشخیص ناهنجاری جدولی در مدلهای زبانی بزرگ
- ۵ تیر - بنچمارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت
- ۶ تیر - گمشده در میان: سوگیری موقعیتی در مدلهای زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی
- ۷ تیر - FinDER: پرسوجوهای واقعی تحلیلگران شکاف بازخوانی ۷۴ درصدی را در RAG مالی فاش میکنند
- ۸ تیر - Fin-RATE: شکست مدلهای زبانی بزرگ در تحلیل مالی دورهای و بین-موجودیتی
- ۹ تیر - OpenHands: پلتفرم باز برای عاملهای نرمافزاری هوش مصنوعی و معنای آن برای اتوماسیون مالی
- ۱۰ تیر - تعویق آگاه از عدم قطعیت برای عاملهای LLM: چه زمانی از مدلهای کوچک به بزرگ ارجاع دهیم
- ۱۱ تیر - یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود میبخشد
- ۱۲ تیر - بررسی جامع تشخیص ناهنجاری با مدلهای زبانی بزرگ (NAACL 2025): طبقهبندی قوی، غیبت پوشش دادههای جدولی
- ۱۳ تیر - OmniEval: بنچمارک ارزیابی همهجانبه RAG برای حوزه مالی
- ۱۴ تیر - FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی
- ۱۵ تیر - FinTrace: ارزیابی در سطح مسیر فراخوانی ابزار توسط مدلهای زبانی بزرگ برای وظایف مالی
- ۱۶ تیر - FinMCP-Bench: معیار سنجش عاملهای LLM برای استفاده از ابزارهای مالی واقعی تحت MCP
- ۱۷ تیر - JSONSchemaBench: پیچیدگی شمای دنیای واقعی، تضمینهای خروجی ساختاریافته LLM را میشکند
- ۱۸ تیر - اعتماد و کالیبراس یون LLM: مروری بر آنچه تحقیقات واقعاً نشان میدهند
- ۱۹ تیر - WildToolBench: چرا هیچ مدل زبانی بزرگی در دقت جلسات استفاده از ابزار در دنیای واقعی از ۱۵٪ فراتر نمیرود
- ۲۰ تیر - آیا عاملهای LLM میتوانند مدیر مالی باشند؟ شبیهسازی ۱۳۲ ماهه EnterpriseArena شکاف بزرگی را فاش میکند
- ۲۱ تیر - FinRAGBench-V: RAG چندوجهی با استنادهای بصری در حوزه مالی
