Mike Thrift

Marketing Manager

July 12, 2026·mike

FinRAGBench-V: RAG چندوجهی با استنادهای بصری در حوزه مالی

FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزرگ برای RAG چندوجهی با استنادهای بصری در حوزه مالی است که بیش از ۱۱۲ هزار صفحه سند و ۱۳۹۴ جفت سوال و جواب حاشیه‌نویسی شده توسط انسان را پوشش می‌دهد. مدل‌های برتر تنها به ۲۰ تا ۶۱ درصد فراخوانی استناد در سطح بلوک دست می‌یابند و بازیابی چندوجهی تقریباً ۵۰ درصد از بازیابی صرفاً متنی بهتر عمل می‌کند.

llm

machine-learning

July 11, 2026·mike

آیا عامل‌های LLM می‌توانند مدیر مالی باشند؟ شبیه‌سازی ۱۳۲ ماهه EnterpriseArena شکاف بزرگی را فاش می‌کند

پلتفرم EnterpriseArena یازده مدل زبانی بزرگ را در یک شبیه‌سازی ۱۳۲ ماهه مدیریت مالی (CFO) قرار می‌دهد تا بقا، ارزش نهایی و نرخ بستن دفاتر آن‌ها را بررسی کند. تنها مدل Qwen3.5-9B در ۸۰٪ موارد جان سالم به در می‌برد؛ GPT-5.4 و DeepSeek-V3.1 به نرخ بقای ۰٪ می‌رسند. خبرگان انسانی به بقای ۱۰۰٪ با ۵ برابر ارزش نهایی دست می‌یابند. گلوگاه اصلی: مدل‌های زبانی در ۸۰٪ مواقع از تطبیق دفتر کل چشم‌پوشی می‌کنند و بر اساس وضعیت مالی منقضی عمل می‌کنند.

llm

automation

July 10, 2026·mike

WildToolBench: چرا هیچ مدل زبانی بزرگی در دقت جلسات استفاده از ابزار در دنیای واقعی از ۱۵٪ فراتر نمی‌رود

بنچ‌مارک WildToolBench (ICLR 2026) ۵۷ مدل زبانی بزرگ را بر روی ۱۰۲۴ وظیفه استخراج شده از رفتار واقعی کاربران ارزیابی می‌کند — هیچ مدلی از دقت ۱۵٪ در سطح جلسه فراتر نمی‌رود، و سازمان‌دهی ترکیبی، نیت پنهان و انتقال‌های دستورالعمل سه مورد از جدی‌ترین حالت‌های شکست هستند.

llm

automation

July 9, 2026·mike

اعتماد و کالیبراسیون LLM: مروری بر آنچه تحقیقات واقعاً نشان می‌دهند

یک بررسی سیستماتیک از روش‌های تخمین اعتماد و کالیبراسیون در مدل‌های زبانی بزرگ (LLM) — رویکردهای لوجیت جعبه-سفید، SelfCheckGPT مبتنی بر سازگاری و آنتروپی معنایی — نشان می‌دهد که نمرات اعتماد کلامی از GPT-4 تنها به حدود ۶۲.۷٪ AUROC دست می‌یابند، که به سختی بالاتر از شانس است و پیامدهای مستقیمی برای استقرار عامل‌های آگاه به عدم قطعیت در امور مالی و حسابداری دارد.

llm

machine-learning

July 8, 2026·mike

JSONSchemaBench: پیچیدگی شمای دنیای واقعی، تضمین‌های خروجی ساختاریافته LLM را می‌شکند

بنچمارک JSONSchemaBench تعداد ۹,۵۵۸ شمای JSON واقعی را در برابر شش چارچوب رمزگشایی محدود شده آزمایش می‌کند و درمی‌یابد که پیچیدگی شِما باعث فروپاشی پوشش از ۸۶٪ در شماهای ساده به ۳٪ در شماهای پیچیده می‌شود؛ در حالی که XGrammar ۳۸ خروجی غیرمنطبق را بدون اطلاع صادر می‌کند و هیچ چارچوبی تمام ۴۵ دسته‌بندی ویژگی JSON Schema را پوشش نمی‌دهد.

llm

machine-learning

July 7, 2026·mike

FinMCP-Bench: معیار سنجش عامل‌های LLM برای استفاده از ابزارهای مالی واقعی تحت MCP

FinMCP-Bench شش مدل LLM را در ۶۱۳ وظیفه واقعی استفاده از ابزار مالی که توسط ۶۵ سرور MCP پشتیبانی می‌شوند، ارزیابی می‌کند — بهترین مدل در وظایف چند نوبتی امتیاز ۳.۰۸٪ تطبیق دقیق را کسب کرد که نشان‌دهنده فروپاشی عملکرد ۲۰ برابری از سناریوهای تک‌ابزاری به چند نوبتی است.

llm

automation

July 6, 2026·mike

FinTrace: ارزیابی در سطح مسیر فراخوانی ابزار توسط مدل‌های زبانی بزرگ برای وظایف مالی

بنچمارک FinTrace، ۱۳ مدل زبانی بزرگ را در ۸۰۰ مسیر وظایف مالی با حاشیه‌نویسی متخصص بر اساس ۹ معیار ارزیابی می‌کند و دریافت که مدل‌های پیشرو در انتخاب ابزار به نتایج قوی (F1 ~0.9) می‌رسند، اما در بهره‌وری اطلاعات — مرحله‌ای که عوامل بر روی نتایج ابزارها استدلال می‌کنند — تنها امتیاز ۳.۲۳ از ۵ را کسب می‌کنند.

llm

finance

July 5, 2026·mike

FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی

FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرس‌وجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک می‌زند — و به این نتیجه می‌رسد که نرخ فراخوانی محافظه‌کارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه می‌دهد، در حالی که عدم تطابق قصد در تمام مدل‌های آزمایش‌شده بیش از ۵۰٪ است.

llm

automation

July 4, 2026·mike

OmniEval: بنچمارک ارزیابی همه‌جانبه RAG برای حوزه مالی

OmniEval (EMNLP 2025) سیستم‌های RAG را در ۵ نوع تسک × ۱۶ موضوع مالی با استفاده از ۱۱.۴ هزار مورد تست تولیدشده خودکار بنچمارک می‌کند. بهترین سیستم‌ها تنها به ۳۶٪ دقت عددی دست می‌یابند — مدرکی عینی مبنی بر اینکه خط لوله‌های RAG پیش از نوشتن در دفترکل‌های مالی ساختاریافته، به لایه‌های اعتبارسنجی نیاز دارند.

machine-learning

llm

July 3, 2026·mike

بررسی جامع تشخیص ناهنجاری با مدل‌های زبانی بزرگ (NAACL 2025): طبقه‌بندی قوی، غیبت پوشش داده‌های جدولی

خوانشی نقادانه از بررسی جامع شو و دینگ در NAACL 2025 درباره تشخیص ناهنجاری و OOD مبتنی بر LLM؛ در حالی که طبقه‌بندی تشخیص در برابر تولید پابرجاست، اما غیبت تقریباً کامل پوشش داده‌های جدولی به این معناست که متخصصان هوش مصنوعی مالی باید خودشان بینش‌ها را از مدل‌های بینایی استخراج کنند.

llm

machine-learning

July 2, 2026·mike

یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود می‌بخشد

یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش، سوگیری مکانی را از وزن‌های توجه مدل زبانی بزرگ کسر می‌کند و تا ۱۵ واحد درصد از دقت RAG را در زمانی که اسناد بازیابی شده در میانه بافت مدفون شده‌اند، بازیابی می‌کند — و این موضوع چه معنایی برای خط لوله‌های عامل‌های تخصصی مالی دارد.

llm

machine-learning

July 1, 2026·mike

تعویق آگاه از عدم قطعیت برای عامل‌های LLM: چه زمانی از مدل‌های کوچک به بزرگ ارجاع دهیم

سیستم ReDAct به‌طور پیش‌فرض یک مدل کوچک را اجرا می‌کند و تنها زمانی به یک مدل گران‌قیمت ارجاع می‌دهد که پرپلکسیتی در سطح توکن نشان‌دهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفه‌جویی در هزینه‌ها می‌شود؛ الگویی که مستقیماً برای عامل‌های دسته‌بندی تراکنش در Beancount قابل استفاده است.

llm

automation

نمایش 1–12 از 87 پست

1 / 8بعدی