Mike Thrift
Marketing Manager
OpenHands: پلتفرم باز برای عاملهای نرمافزاری هوش مصنوعی و معنای آن برای اتوماسیون مالی
OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأملبرانگیز که نشان میدهد عاملهای هوش مصنوعی امروزه چه کارهایی را میتوانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدودهی دقیق باشند.
Fin-RATE: شکست مدلهای زبانی بزرگ در تحلیل مالی دورهای و بین-موجودیتی
بنچمارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی میکند. نتایج نشاندهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.
FinDER: پرسوجوهای واقعی تحلیلگران شکاف بازخوانی ۷۴ درصدی را در RAG مالی فاش میکنند
بنچمارک FinDER سیستم RAG را بر روی ۵,۷۰۳ پرسوجوی واقعی تحلیلگران صندوقهای پوشش ریسک در برابر پروندههای 10-K شاخص S&P 500 محک میزند؛ E5-Mistral تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست میآورد و پرسوجوهای پر از اختصار باعث کاهش ۸.۲ واحدی در دقت میشوند — شواهدی بر اینکه عادیسازی پرسوجو، و نه جاسازیهای بهتر، اولین راه حل برای خط لولههای هوش مصنوعی مالی است.
گمشده در میان: سوگیری موقعیتی در مدلهای زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی
مقاله TACL 2024 توسط لیو و همکاران نشان میدهد که مدلهای زبانی بزرگ در اطلاعاتی که در میان زمینههای طولانی پنهان شدهاند، تا ۲۰ امتیاز ضعیفتر عمل میکنند — یک افت عملکرد U-شکل که بر تمام مدلهای آزمایششده از جمله Claude-1.3-100K تأثیر میگذارد — با پیامدهای ملموس برای نحوه ترتیببندی قطعات بازیابی شده در خط لولههای RAG در کاربردهای مالی و حسابداری.
بنچمارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت
بنچمارک AD-LLM مدلهای GPT-4o و Llama 3.1 8B را در سه نقشِ تشخیصدهنده بدون آموزش، تقویتکننده داده و مشاور انتخاب مدل روی پنج مجموعه داده NLP ارزیابی میکند؛ GPT-4o به امتیاز AUROC بین ۰.۹۳ تا ۰.۹۹ دست مییابد، اما انتخاب مدل مبتنی بر LLM همچنان غیرقابل اعتماد است که پیامدهای مستقیمی برای هوش مصنوعی در حسابرسی مالی دارد.
CausalTAD: ترتیببندی علّی ستونها برای تشخیص ناهنجاری جدولی در مدلهای زبانی بزرگ
CausalTAD تشخیص ناهنجاری جدولی مبتنی بر مدلهای زبانی بزرگ را با مرتبسازی مجدد ستونهای جدول برای رعایت وابستگیهای علّی قبل از سریالسازی بهبود میبخشد و میانگین AUC-ROC را در معیارهای نوع مختلط نسبت به AnoLLM از ۰.۸۰۳ به ۰.۸۳۴ میرساند — که پیامدهای مستقیمی برای شناسایی ناهنجاریها در دادههای ساختاریافته دفتر کل دارد.
AnoLLM: تنظیم دقیق مدلهای زبانی بزرگ (LLM) برای شناسایی ناهنجاریهای جدولی در دادههای مالی
AnoLLM (ICLR 2025) شناسایی ناهنجاریهای جدولی را به عنوان تخمین چگالی مدل زبانی بازتعریف میکند — تنظیم دقیق روی ردیفهای نرمال و امتیازدهی بر اساس لگاریتم احتمال منفی. این روش در مجموعهدادههای تقلب با انواع ترکیبی از روشهای کلاسیک بهتر عمل میکند، اما در دادههای صرفاً عددی برتری خاصی ندارد؛ موضوعی که پیامدهای واقعی برای شناسایی ناهنجاریها در ورودیهای دفترکل Beancount دارد.
امتیاز ۲.۳ درصدی مدلهای زبانی بزرگ در تولید DSL بینکنت: بنچمارک LLMFinLiteracy
بنچمارک LLMFinLiteracy نشان میدهد که پنج مدل وزن-باز با حدود ۷ میلیارد پارامتر، تنها در ۲.۳٪ مواقع تراکنشهای Beancount کاملاً صحیح تولید میکنند؛ شکستهایی که عمدتاً در استدلال حسابداری — و نه نحو — ریشه دارند و به بازخورد کامپایلر در حلقه به عنوان عنصر حیاتی مفقوده برای عاملهای نوشتاری قابل اعتماد اشاره میکنند.
TableMaster: استدلال تطبیقی برای درک جداول با مدلهای زبانی بزرگ (LLMs)
TableMaster یک خط لوله مبتنی بر پرامپت است که با استفاده از GPT-4o-mini به دقت ۷۸.۱۳٪ در WikiTQ دست مییابد—۱۳ واحد بالاتر از Chain-of-Table—که با ترکیب استخراج جدول تمرکز، شفاهیسازی معنایی و سوئیچ تطبیقی بین استدلال متنی و نمادین به دست آمده است. در اینجا بررسی میکنیم که این معماری برای عاملهای هوش مصنوعی بر روی دفترکلهای مالی مانند Beancount چه معنایی دارد.
تشخیص ناهنجاری بدون آموزش (Zero-Shot) با مدلهای زبانی بزرگ: عملکرد GPT-4 روی دادههای جدولی
مدل GPT-4 در بنچمارک ODDS بدون تنظیم دقیق (fine-tuning) به میانگین AUROC برابر با ۷۴.۱ دست مییابد که تقریباً با خط پایه کلاسیک ECOD در ۷۵.۵ برابری میکند؛ اما در ناهنجاریهای چندبعدی و مجموعهدادههای با واریانس بالا شکست میخورد. بررسی انتقادی تشخیص ناهنجاری LLM بدون آموزش و پیامدهای آن برای حسابرسی خودکار دفتر کل Beancount.
DocFinQA: استدلال مالی با متن طولانی بر روی گزارشهای کامل SEC
DocFinQA قطعات منتخب ۷۰۰ کلمهای FinQA را با گزارشهای کامل ۱۲۳,۰۰۰ کلمهای SEC جایگزین میکند که منجر به افزایش ۱۷۵ برابری متن ورودی میشود و دقت GPT-4 را در اسناد طولانی تقریباً به نصف کاهش میدهد. خط لولههای بازیابی در ۴۵٪ مواقع در HR@3 موفق به یافتن بخش صحیح نمیشوند و مدلهای با متن طولانی جایگزین مناسبی نیستند.
TheAgentCompany: محکزنی عاملهای LLM در وظایف سازمانی دنیای واقعی
پروژه TheAgentCompany تعداد ۱۷۵ وظیفه واقعی محیط کار را در یک اینترانت شبیهسازی شده شامل GitLab، OwnCloud و RocketChat آزمایش میکند. بهترین مدل (Gemini-2.5-Pro) تنها ۳۰٪ وظایف را با هزینه ۴ دلار برای هر مورد به انجام میرساند، که نشان میدهد عاملهای خودمختار هنوز با کاربردی شدن در جریانهای کاری حسابداری و مالی فاصله زیادی دارند.