Mike Thrift

Marketing Manager

May 13, 2026·mike

FinQA: محک سنجش استدلال عددی هوش مصنوعی در گزارش‌های مالی

FinQA (EMNLP 2021) با ایجاد ۸,۲۸۱ جفت پرسش و پاسخ از گزارش‌های سوددهی S&P 500 که نیازمند برنامه‌های محاسباتی چند مرحله‌ای هستند، بنا شده است. مدل‌های عصبی در زمان انتشار امتیاز ۶۱٪ را در مقابل ۹۱٪ خبرگان انسانی کسب کردند؛ دقت در برنامه‌های سه مرحله‌ای یا بیشتر به ۲۲٪ کاهش می‌یابد. حالت‌های شکست — ثابت‌های حوزه، اتصال متقابل (cross-modality grounding)، طول زنجیره — مستقیماً با چالش‌هایی که امروزه ایجنت‌های Beancount با آن روبرو هستند، همسو است.

machine-learning

llm

May 12, 2026·mike

FinanceBench: چرا RAG مبتنی بر ذخیره‌ساز برداری در اسناد مالی واقعی شکست می‌خورد

FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پرونده‌های واقعی SEC ارزیابی می‌کند؛ RAG با ذخیره‌ساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح می‌دهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ می‌رسد — این نشان می‌دهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.

llm

machine-learning

May 11, 2026·mike

DSPy: جایگزینی مهندسی پرامپت شکننده با خط‌لوله‌های کامپایل‌شده مدل زبانی بزرگ (LLM)

DSPy رشته‌های پرامپت دست‌ساز را با امضاهای اخباری و یک کامپایلر مبتنی بر معیار جایگزین می‌کند—عملکرد Llama2-13b را در استدلال ریاضی GSM8K از ۹.۴٪ به ۴۶.۹٪ می‌رساند و مسیری قابل‌نگهداری‌تر برای خط‌لوله‌های هوش مصنوعی مالی در محیط عملیاتی ارائه می‌دهد.

llm

machine-learning

May 10, 2026·mike

LATS: جستجوی درختی عامل زبانی — استدلال، عمل و برنامه‌ریزی در یک چارچوب واحد

LATS (جستجوی درختی عامل زبانی، ICML 2024) روش‌های ReAct، درخت افکار (Tree of Thoughts) و Reflexion را در یک چارچوب واحد MCTS ادغام می‌کند و به نرخ موفقیت ۹۲.۷٪ در HumanEval با GPT-4 دست می‌یابد. برای دفترکل‌های Beancount مبتنی بر git، الزام بازگشت به حالت قبل که محدودیت LATS در محیط‌های عملیاتی است، به سادگی برآورده می‌شود.

llm

machine-learning

May 9, 2026·mike

Self-RAG: بازیابی تطبیقی و خود-انتقادی برای مدل‌های زبانی بزرگ

Self-RAG (ارائه شفاهی ICLR 2024) یک مدل زبانی را آموزش می‌دهد تا تصمیم بگیرد چه زمانی بازیابی را انجام دهد و سپس نتایج خود را با استفاده از چهار توکن بازتابی رتبه‌بندی کند — دستیابی به ۵۵.۸٪ در PopQA و ۸۰.۲ FactScore در بیوگرافی‌ها در حالی که در پنج معیار از ChatGPT پیشی گرفته است. این تحلیل شامل مکانیسم، نتایج حذف اجزا (ablation)، محدودیت‌های بازتولید و پیامدهای آن برای ایجنت‌های هوش مصنوعی مالی روی دفترکل‌های Beancount است.

machine-learning

llm

May 8, 2026·mike

Voyager: کتابخانه‌های مهارت به عنوان پایه‌ای برای یادگیری مادام‌العمر عامل‌های هوش مصنوعی

Voyager، یک عامل Minecraft مبتنی بر GPT-4 از NVIDIA و Caltech، نشان می‌دهد که یک کتابخانه کد مهارت پایدار، یادگیری مادام‌العمر واقعی را بدون نیاز به fine-tuning ممکن می‌سازد — کشف ۳.۳ برابر موارد بیشتری نسبت به مدل‌های قبلی. این الگو مستقیماً با خودکارسازی طولانی‌مدت دفتر کل Beancount مطابقت دارد، هرچند دقت مالی مستلزم لایه‌های میانی (staging) است که محیط‌های بازی هرگز به آن‌ها نیاز ندارند.

llm

machine-learning

May 7, 2026·mike

HippoRAG: حافظه بلندمدت با الهام از علوم اعصاب برای مدل‌های زبانی بزرگ

HippoRAG (NeurIPS 2024) با ساخت یک گراف دانش از سه‌تایی‌های OpenIE و اعمال رتبه صفحه شخصی‌سازی شده (PPR) در زمان پرس‌وجو، به نرخ بازیابی ۸۹.۱٪ (Recall@5) در مجموعه داده 2WikiMultiHopQA دست می‌یابد (در مقابل ۶۸.۲٪ برای ColBERTv2)؛ این موضوع تاثیرات مستقیمی بر پرس‌وجو در دفترهای مالی پیچیده با تاریخچه تراکنش‌های چندین ساله دارد.

llm

machine-learning

May 6, 2026·mike

AgentBench: ارزیابی مدل‌های زبانی بزرگ به عنوان عامل — درس‌هایی برای قابلیت اطمینان هوش مصنوعی در امور مالی

AgentBench (لیو و همکاران، ICLR 2024) ۲۷ مدل زبانی بزرگ را در ۸ محیط تعاملی مورد سنجش قرار می‌دهد — GPT-4 امتیاز کلی ۴.۰۱ را در مقابل ۰.۹۶ برای بهترین مدل متن‌باز کسب کرد. سه حالت شکست غالب (تجاوز از حد وظیفه در ۶۷.۹٪ از شکست‌های گراف دانش، خطاهای قالب‌بندی در ۵۳.۳٪ از شکست‌های پایگاه داده و اقدامات نامعتبر) مستقیماً با ریسک‌های استقرار یک عامل بازنویسی Beancount در یک دفتر کل واقعی مطابقت دارند.

llm

machine-learning

May 5, 2026·mike

BloombergGPT و محدودیت‌های مدل‌های زبانی بزرگ تخصصی در امور مالی

بلومبرگ یک مدل زبانی ۵۰ میلیارد پارامتری را با ۵۶۹ میلیارد توکن از داده‌های مالی آموزش داد و در بنچ‌مارک‌های تحلیل احساسات و استدلال جدولی بر مدل‌های عمومی پیروز شد — سپس GPT-4 بدون هیچ پیش‌آموزش اختصاصی مالی، با آن برابری کرد. آنچه این آزمایش ۱۰ میلیون دلاری درباره موازنه‌های پیش‌آموزش دامنه، توکن‌سازی اعداد و چرایی قابل‌اعتمادتر بودن استفاده از ابزارها نسبت به ساختار داخلی مدل برای عامل‌های حسابداری فاش می‌کند.

llm

machine-learning

May 4, 2026·mike

AutoGen: چارچوب‌های گفتگوی چند-عاملی برای هوش مصنوعی مالی

AutoGen (وو و همکاران، ۲۰۲۳) یک چارچوب گفتگوی چند-عاملی را معرفی می‌کند که در آن عامل‌های مبتنی بر مدل‌های زبانی بزرگ (LLM) برای تکمیل وظایف پیام مبادله می‌کنند؛ یک پیکربندی دو-عاملی دقت بنچمارک MATH را از ۵۵٪ به ۶۹٪ افزایش می‌دهد و یک عامل اختصاصی SafeGuard تشخیص کدهای ناامن را تا ۳۵ واحد F1 بهبود می‌بخشد — یافته‌هایی که مستقیماً در ساخت خط‌لوله‌های اتوماسیون امن و ماژولار Beancount کاربرد دارند.

llm

automation

May 3, 2026·mike

گوریلا: چگونه آموزش آگاه از بازیابی توهمات API در مدل‌های زبانی بزرگ را از ۷۸٪ به ۱۱٪ کاهش می‌دهد

گوریلا (Patil et al., NeurIPS 2024) یک مدل LLaMA 7B را با آموزش آگاه از بازیابی (RAT) بر روی مستندات API بازیابی شده تنظیم دقیق می‌کند و نرخ توهم را در مقایسه با GPT-4 از ۷۸٪ به ۱۱٪ کاهش می‌دهد. این موضوع پیامدهای مستقیمی برای عوامل هوش مصنوعی مالی دارد که در آن‌ها نام‌های حساب اشتباه یا علامت‌های معکوس، به جای مزاحمت، خطاهای جدی در صحت داده‌ها محسوب می‌شوند.

llm

machine-learning

May 2, 2026·mike

MemGPT: مدیریت فضای متنی مجازی برای عامل‌های مدل زبانی بزرگ (LLM)

MemGPT روش صفحه‌بندی حافظه مجازی به سبک سیستم‌عامل را در مدل‌های زبانی بزرگ (LLM) پیاده‌سازی می‌کند و با استفاده از ذخیره‌سازی سه‌لایه — حافظه کاری، بازخوانی و آرشیوی — به عامل‌ها قابلیت یادآوری پایدار در جلسات مختلف می‌دهد؛ در بنچمارک‌های چت چندجلسه‌ای، MemGPT با GPT-4 به دقت ۹۲.۵٪ در مقابل پایه ۳۲.۱٪ برای فضای متنی ثابت دست یافته است.

llm

machine-learning

نمایش 61–72 از 87 پست

قبلی6 / 8بعدی