Mike Thrift

Marketing Manager

June 30, 2026·mike

OpenHands: پلتفرم باز برای عامل‌های نرم‌افزاری هوش مصنوعی و معنای آن برای اتوماسیون مالی

OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأمل‌برانگیز که نشان می‌دهد عامل‌های هوش مصنوعی امروزه چه کارهایی را می‌توانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدوده‌ی دقیق باشند.

open-source

automation

June 29, 2026·mike

Fin-RATE: شکست مدل‌های زبانی بزرگ در تحلیل مالی دوره‌ای و بین-موجودیتی

بنچ‌مارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی می‌کند. نتایج نشان‌دهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.

llm

machine-learning

June 28, 2026·mike

FinDER: پرس‌وجوهای واقعی تحلیل‌گران شکاف بازخوانی ۷۴ درصدی را در RAG مالی فاش می‌کنند

بنچمارک FinDER سیستم RAG را بر روی ۵,۷۰۳ پرس‌وجوی واقعی تحلیل‌گران صندوق‌های پوشش ریسک در برابر پرونده‌های 10-K شاخص S&P 500 محک می‌زند؛ E5-Mistral تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست می‌آورد و پرس‌وجوهای پر از اختصار باعث کاهش ۸.۲ واحدی در دقت می‌شوند — شواهدی بر اینکه عادی‌سازی پرس‌وجو، و نه جاسازی‌های بهتر، اولین راه حل برای خط لوله‌های هوش مصنوعی مالی است.

llm

machine-learning

June 27, 2026·mike

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

مقاله TACL 2024 توسط لیو و همکاران نشان می‌دهد که مدل‌های زبانی بزرگ در اطلاعاتی که در میان زمینه‌های طولانی پنهان شده‌اند، تا ۲۰ امتیاز ضعیف‌تر عمل می‌کنند — یک افت عملکرد U-شکل که بر تمام مدل‌های آزمایش‌شده از جمله Claude-1.3-100K تأثیر می‌گذارد — با پیامدهای ملموس برای نحوه ترتیب‌بندی قطعات بازیابی شده در خط لوله‌های RAG در کاربردهای مالی و حسابداری.

llm

machine-learning

June 26, 2026·mike

بنچ‌مارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت

بنچ‌مارک AD-LLM مدل‌های GPT-4o و Llama 3.1 8B را در سه نقشِ تشخیص‌دهنده بدون آموزش، تقویت‌کننده داده و مشاور انتخاب مدل روی پنج مجموعه داده NLP ارزیابی می‌کند؛ GPT-4o به امتیاز AUROC بین ۰.۹۳ تا ۰.۹۹ دست می‌یابد، اما انتخاب مدل مبتنی بر LLM همچنان غیرقابل اعتماد است که پیامدهای مستقیمی برای هوش مصنوعی در حسابرسی مالی دارد.

llm

machine-learning

June 25, 2026·mike

CausalTAD: ترتیب‌بندی علّی ستون‌ها برای تشخیص ناهنجاری جدولی در مدل‌های زبانی بزرگ

CausalTAD تشخیص ناهنجاری جدولی مبتنی بر مدل‌های زبانی بزرگ را با مرتب‌سازی مجدد ستون‌های جدول برای رعایت وابستگی‌های علّی قبل از سریال‌سازی بهبود می‌بخشد و میانگین AUC-ROC را در معیارهای نوع مختلط نسبت به AnoLLM از ۰.۸۰۳ به ۰.۸۳۴ می‌رساند — که پیامدهای مستقیمی برای شناسایی ناهنجاری‌ها در داده‌های ساختاریافته دفتر کل دارد.

llm

machine-learning

June 24, 2026·mike

AnoLLM: تنظیم دقیق مدل‌های زبانی بزرگ (LLM) برای شناسایی ناهنجاری‌های جدولی در داده‌های مالی

AnoLLM (ICLR 2025) شناسایی ناهنجاری‌های جدولی را به عنوان تخمین چگالی مدل زبانی بازتعریف می‌کند — تنظیم دقیق روی ردیف‌های نرمال و امتیازدهی بر اساس لگاریتم احتمال منفی. این روش در مجموعه‌داده‌های تقلب با انواع ترکیبی از روش‌های کلاسیک بهتر عمل می‌کند، اما در داده‌های صرفاً عددی برتری خاصی ندارد؛ موضوعی که پیامدهای واقعی برای شناسایی ناهنجاری‌ها در ورودی‌های دفترکل Beancount دارد.

llm

machine-learning

June 23, 2026·mike

امتیاز ۲.۳ درصدی مدل‌های زبانی بزرگ در تولید DSL بین‌کنت: بنچمارک LLMFinLiteracy

بنچمارک LLMFinLiteracy نشان می‌دهد که پنج مدل وزن-باز با حدود ۷ میلیارد پارامتر، تنها در ۲.۳٪ مواقع تراکنش‌های Beancount کاملاً صحیح تولید می‌کنند؛ شکست‌هایی که عمدتاً در استدلال حسابداری — و نه نحو — ریشه دارند و به بازخورد کامپایلر در حلقه به عنوان عنصر حیاتی مفقوده برای عامل‌های نوشتاری قابل اعتماد اشاره می‌کنند.

llm

beancount

plain-text-accounting

June 22, 2026·mike

TableMaster: استدلال تطبیقی برای درک جداول با مدل‌های زبانی بزرگ (LLMs)

TableMaster یک خط لوله مبتنی بر پرامپت است که با استفاده از GPT-4o-mini به دقت ۷۸.۱۳٪ در WikiTQ دست می‌یابد—۱۳ واحد بالاتر از Chain-of-Table—که با ترکیب استخراج جدول تمرکز، شفاهی‌سازی معنایی و سوئیچ تطبیقی بین استدلال متنی و نمادین به دست آمده است. در اینجا بررسی می‌کنیم که این معماری برای عامل‌های هوش مصنوعی بر روی دفترکل‌های مالی مانند Beancount چه معنایی دارد.

llm

machine-learning

June 21, 2026·mike

تشخیص ناهنجاری بدون آموزش (Zero-Shot) با مدل‌های زبانی بزرگ: عملکرد GPT-4 روی داده‌های جدولی

مدل GPT-4 در بنچمارک ODDS بدون تنظیم دقیق (fine-tuning) به میانگین AUROC برابر با ۷۴.۱ دست می‌یابد که تقریباً با خط پایه کلاسیک ECOD در ۷۵.۵ برابری می‌کند؛ اما در ناهنجاری‌های چندبعدی و مجموعه‌داده‌های با واریانس بالا شکست می‌خورد. بررسی انتقادی تشخیص ناهنجاری LLM بدون آموزش و پیامدهای آن برای حسابرسی خودکار دفتر کل Beancount.

llm

fraud-detection

June 20, 2026·mike

DocFinQA: استدلال مالی با متن طولانی بر روی گزارش‌های کامل SEC

DocFinQA قطعات منتخب ۷۰۰ کلمه‌ای FinQA را با گزارش‌های کامل ۱۲۳,۰۰۰ کلمه‌ای SEC جایگزین می‌کند که منجر به افزایش ۱۷۵ برابری متن ورودی می‌شود و دقت GPT-4 را در اسناد طولانی تقریباً به نصف کاهش می‌دهد. خط لوله‌های بازیابی در ۴۵٪ مواقع در HR@3 موفق به یافتن بخش صحیح نمی‌شوند و مدل‌های با متن طولانی جایگزین مناسبی نیستند.

llm

machine-learning

June 19, 2026·mike

TheAgentCompany: محک‌زنی عامل‌های LLM در وظایف سازمانی دنیای واقعی

پروژه TheAgentCompany تعداد ۱۷۵ وظیفه واقعی محیط کار را در یک اینترانت شبیه‌سازی شده شامل GitLab، OwnCloud و RocketChat آزمایش می‌کند. بهترین مدل (Gemini-2.5-Pro) تنها ۳۰٪ وظایف را با هزینه ۴ دلار برای هر مورد به انجام می‌رساند، که نشان می‌دهد عامل‌های خودمختار هنوز با کاربردی شدن در جریان‌های کاری حسابداری و مالی فاصله زیادی دارند.

llm

automation

نمایش 13–24 از 87 پست

قبلی2 / 8بعدی