پرش به محتوای اصلی

Bean Labs Research Log

FinQA: محک سنجش استدلال عددی هوش مصنوعی در گزارش‌های مالی

FinQA (EMNLP 2021) با ایجاد ۸,۲۸۱ جفت پرسش و پاسخ از گزارش‌های سوددهی S&P 500 که نیازمند برنامه‌های محاسباتی چند مرحله‌ای هستند، بنا شده است. مدل‌های عصبی در زمان انتشار امتیاز ۶۱٪ را در مقابل ۹۱٪ خبرگان انسانی کسب کردند؛ دقت در برنامه‌های سه مرحله‌ای یا بیشتر به ۲۲٪ کاهش می‌یابد. حالت‌های شکست — ثابت‌های حوزه، اتصال متقابل (cross-modality grounding)، طول زنجیره — مستقیماً با چالش‌هایی که امروزه ایجنت‌های Beancount با آن روبرو هستند، همسو است.

Latest articles

FinanceBench: چرا RAG مبتنی بر ذخیره‌ساز برداری در اسناد مالی واقعی شکست می‌خورد

FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پرونده‌های واقعی SEC ارزیابی می‌کند؛ RAG با ذخیره‌ساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح می‌دهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ می‌رسد — این نشان می‌دهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.

DSPy: جایگزینی مهندسی پرامپت شکننده با خط‌لوله‌های کامپایل‌شده مدل زبانی بزرگ (LLM)

DSPy رشته‌های پرامپت دست‌ساز را با امضاهای اخباری و یک کامپایلر مبتنی بر معیار جایگزین می‌کند—عملکرد Llama2-13b را در استدلال ریاضی GSM8K از ۹.۴٪ به ۴۶.۹٪ می‌رساند و مسیری قابل‌نگهداری‌تر برای خط‌لوله‌های هوش مصنوعی مالی در محیط عملیاتی ارائه می‌دهد.

LATS: جستجوی درختی عامل زبانی — استدلال، عمل و برنامه‌ریزی در یک چارچوب واحد

LATS (جستجوی درختی عامل زبانی، ICML 2024) روش‌های ReAct، درخت افکار (Tree of Thoughts) و Reflexion را در یک چارچوب واحد MCTS ادغام می‌کند و به نرخ موفقیت ۹۲.۷٪ در HumanEval با GPT-4 دست می‌یابد. برای دفترکل‌های Beancount مبتنی بر git، الزام بازگشت به حالت قبل که محدودیت LATS در محیط‌های عملیاتی است، به سادگی برآورده می‌شود.

Self-RAG: بازیابی تطبیقی و خود-انتقادی برای مدل‌های زبانی بزرگ

Self-RAG (ارائه شفاهی ICLR 2024) یک مدل زبانی را آموزش می‌دهد تا تصمیم بگیرد چه زمانی بازیابی را انجام دهد و سپس نتایج خود را با استفاده از چهار توکن بازتابی رتبه‌بندی کند — دستیابی به ۵۵.۸٪ در PopQA و ۸۰.۲ FactScore در بیوگرافی‌ها در حالی که در پنج معیار از ChatGPT پیشی گرفته است. این تحلیل شامل مکانیسم، نتایج حذف اجزا (ablation)، محدودیت‌های بازتولید و پیامدهای آن برای ایجنت‌های هوش مصنوعی مالی روی دفترکل‌های Beancount است.

Voyager: کتابخانه‌های مهارت به عنوان پایه‌ای برای یادگیری مادام‌العمر عامل‌های هوش مصنوعی

Voyager، یک عامل Minecraft مبتنی بر GPT-4 از NVIDIA و Caltech، نشان می‌دهد که یک کتابخانه کد مهارت پایدار، یادگیری مادام‌العمر واقعی را بدون نیاز به fine-tuning ممکن می‌سازد — کشف ۳.۳ برابر موارد بیشتری نسبت به مدل‌های قبلی. این الگو مستقیماً با خودکارسازی طولانی‌مدت دفتر کل Beancount مطابقت دارد، هرچند دقت مالی مستلزم لایه‌های میانی (staging) است که محیط‌های بازی هرگز به آن‌ها نیاز ندارند.

HippoRAG: حافظه بلندمدت با الهام از علوم اعصاب برای مدل‌های زبانی بزرگ

HippoRAG (NeurIPS 2024) با ساخت یک گراف دانش از سه‌تایی‌های OpenIE و اعمال رتبه صفحه شخصی‌سازی شده (PPR) در زمان پرس‌وجو، به نرخ بازیابی ۸۹.۱٪ (Recall@5) در مجموعه داده 2WikiMultiHopQA دست می‌یابد (در مقابل ۶۸.۲٪ برای ColBERTv2)؛ این موضوع تاثیرات مستقیمی بر پرس‌وجو در دفترهای مالی پیچیده با تاریخچه تراکنش‌های چندین ساله دارد.

AgentBench: ارزیابی مدل‌های زبانی بزرگ به عنوان عامل — درس‌هایی برای قابلیت اطمینان هوش مصنوعی در امور مالی

AgentBench (لیو و همکاران، ICLR 2024) ۲۷ مدل زبانی بزرگ را در ۸ محیط تعاملی مورد سنجش قرار می‌دهد — GPT-4 امتیاز کلی ۴.۰۱ را در مقابل ۰.۹۶ برای بهترین مدل متن‌باز کسب کرد. سه حالت شکست غالب (تجاوز از حد وظیفه در ۶۷.۹٪ از شکست‌های گراف دانش، خطاهای قالب‌بندی در ۵۳.۳٪ از شکست‌های پایگاه داده و اقدامات نامعتبر) مستقیماً با ریسک‌های استقرار یک عامل بازنویسی Beancount در یک دفتر کل واقعی مطابقت دارند.

BloombergGPT و محدودیت‌های مدل‌های زبانی بزرگ تخصصی در امور مالی

بلومبرگ یک مدل زبانی ۵۰ میلیارد پارامتری را با ۵۶۹ میلیارد توکن از داده‌های مالی آموزش داد و در بنچ‌مارک‌های تحلیل احساسات و استدلال جدولی بر مدل‌های عمومی پیروز شد — سپس GPT-4 بدون هیچ پیش‌آموزش اختصاصی مالی، با آن برابری کرد. آنچه این آزمایش ۱۰ میلیون دلاری درباره موازنه‌های پیش‌آموزش دامنه، توکن‌سازی اعداد و چرایی قابل‌اعتمادتر بودن استفاده از ابزارها نسبت به ساختار داخلی مدل برای عامل‌های حسابداری فاش می‌کند.

AutoGen: چارچوب‌های گفتگوی چند-عاملی برای هوش مصنوعی مالی

AutoGen (وو و همکاران، ۲۰۲۳) یک چارچوب گفتگوی چند-عاملی را معرفی می‌کند که در آن عامل‌های مبتنی بر مدل‌های زبانی بزرگ (LLM) برای تکمیل وظایف پیام مبادله می‌کنند؛ یک پیکربندی دو-عاملی دقت بنچمارک MATH را از ۵۵٪ به ۶۹٪ افزایش می‌دهد و یک عامل اختصاصی SafeGuard تشخیص کدهای ناامن را تا ۳۵ واحد F1 بهبود می‌بخشد — یافته‌هایی که مستقیماً در ساخت خط‌لوله‌های اتوماسیون امن و ماژولار Beancount کاربرد دارند.