Mike Thrift
Marketing Manager
FinQA: محک سنجش استدلال عددی هوش مصنوعی در گزارشهای مالی
FinQA (EMNLP 2021) با ایجاد ۸,۲۸۱ جفت پرسش و پاسخ از گزارشهای سوددهی S&P 500 که نیازمند برنامههای محاسباتی چند مرحلهای هستند، بنا شده است. مدلهای عصبی در زمان انتشار امتیاز ۶۱٪ را در مقابل ۹۱٪ خبرگان انسانی کسب کردند؛ دقت در برنامههای سه مرحلهای یا بیشتر به ۲۲٪ کاهش مییابد. حالتهای شکست — ثابتهای حوزه، اتصال متقابل (cross-modality grounding)، طول زنجیره — مستقیماً با چالشهایی که امروزه ایجنتهای Beancount با آن روبرو هستند، همسو است.
FinanceBench: چرا RAG مبتنی بر ذخیرهساز برداری در اسناد مالی واقعی شکست میخورد
FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پروندههای واقعی SEC ارزیابی میکند؛ RAG با ذخیرهساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح میدهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ میرسد — این نشان میدهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.
DSPy: جایگزینی مهندسی پرامپت شکننده با خطلولههای کامپایلشده مدل زبانی بزرگ (LLM)
DSPy رشتههای پرامپت دستساز را با امضاهای اخباری و یک کامپایلر مبتنی بر معیار جایگزین میکند—عملکرد Llama2-13b را در استدلال ریاضی GSM8K از ۹.۴٪ به ۴۶.۹٪ میرساند و مسیری قابلنگهداریتر برای خطلولههای هوش مصنوعی مالی در محیط عملیاتی ارائه میدهد.
LATS: جستجوی درختی عامل زبانی — استدلال، عمل و برنامهریزی در یک چارچوب واحد
LATS (جستجوی درختی عامل زبانی، ICML 2024) روشهای ReAct، درخت افکار (Tree of Thoughts) و Reflexion را در یک چارچوب واحد MCTS ادغام میکند و به نرخ موفقیت ۹۲.۷٪ در HumanEval با GPT-4 دست مییابد. برای دفترکلهای Beancount مبتنی بر git، الزام بازگشت به حالت قبل که محدودیت LATS در محیطهای عملیاتی است، به سادگی برآورده میشود.
Self-RAG: بازیابی تطبیقی و خود-انتقادی برای مدلهای زبانی بزرگ
Self-RAG (ارائه شفاهی ICLR 2024) یک مدل زبانی را آموزش میدهد تا تصمیم بگیرد چه زمانی بازیابی را انجام دهد و سپس نتایج خود را با استفاده از چهار توکن بازتابی رتبهبندی کند — دستیابی به ۵۵.۸٪ در PopQA و ۸۰.۲ FactScore در بیوگرافیها در حالی که در پنج معیار از ChatGPT پیشی گرفته است. این تحلیل شامل مکانیسم، نتایج حذف اجزا (ablation)، محدودیتهای بازتولید و پیامدهای آن برای ایجنتهای هوش مصنوعی مالی روی دفترکلهای Beancount است.
Voyager: کتابخانههای مهارت به عنوان پایهای برای یادگیری مادامالعمر عاملهای هوش مصنوعی
Voyager، یک عامل Minecraft مبتنی بر GPT-4 از NVIDIA و Caltech، نشان میدهد که یک کتابخانه کد مهارت پایدار، یادگیری مادامالعمر واقعی را بدون نیاز به fine-tuning ممکن میسازد — کشف ۳.۳ برابر موارد بیشتری نسبت به مدلهای قبلی. این الگو مستقیماً با خودکارسازی طولانیمدت دفتر کل Beancount مطابقت دارد، هرچند دقت مالی مستلزم لایههای میانی (staging) است که محیطهای بازی هرگز به آنها نیاز ندارند.
HippoRAG: حافظه بلندمدت با الهام از علوم اعصاب برای مدلهای زبانی بزرگ
HippoRAG (NeurIPS 2024) با ساخت یک گراف دانش از سهتاییهای OpenIE و اعمال رتبه صفحه شخصیسازی شده (PPR) در زمان پرسوجو، به نرخ بازیابی ۸۹.۱٪ (Recall@5) در مجموعه داده 2WikiMultiHopQA دست مییابد (در مقابل ۶۸.۲٪ برای ColBERTv2)؛ این موضوع تاثیرات مستقیمی بر پرسوجو در دفترهای مالی پیچیده با تاریخچه تراکنشهای چندین ساله دارد.
AgentBench: ارزیابی مدلهای زبانی بزرگ به عنوان عامل — درسهایی برای قابلیت اطمینان هوش مصنوعی در امور مالی
AgentBench (لیو و همکاران، ICLR 2024) ۲۷ مدل زبانی بزرگ را در ۸ محیط تعاملی مورد سنجش قرار میدهد — GPT-4 امتیاز کلی ۴.۰۱ را در مقابل ۰.۹۶ برای بهترین مدل متنباز کسب کرد. سه حالت شکست غالب (تجاوز از حد وظیفه در ۶۷.۹٪ از شکستهای گراف دانش، خطاهای قالببندی در ۵۳.۳٪ از شکستهای پایگاه داده و اقدامات نامعتبر) مستقیماً با ریسکهای استقرار یک عامل بازنویسی Beancount در یک دفتر کل واقعی مطابقت دارند.
BloombergGPT و محدودیتهای مدلهای زبانی بزرگ تخصصی در امور مالی
بلومبرگ یک مدل زبانی ۵۰ میلیارد پارامتری را با ۵۶۹ میلیارد توکن از دادههای مالی آموزش داد و در بنچمارکهای تحلیل احساسات و استدلال جدولی بر مدلهای عمومی پیروز شد — سپس GPT-4 بدون هیچ پیشآموزش اختصاصی مالی، با آن برابری کرد. آنچه این آزمایش ۱۰ میلیون دلاری درباره موازنههای پیشآموزش دامنه، توکنسازی اعداد و چرایی قابلاعتمادتر بودن استفاده از ابزارها نسبت به ساختار داخلی مدل برای عاملهای حسابداری فاش میکند.
AutoGen: چارچوبهای گفتگوی چند-عاملی برای هوش مصنوعی مالی
AutoGen (وو و همکاران، ۲۰۲۳) یک چارچوب گفتگوی چند-عاملی را معرفی میکند که در آن عاملهای مبتنی بر مدلهای زبانی بزرگ (LLM) برای تکمیل وظایف پیام مبادله میکنند؛ یک پیکربندی دو-عاملی دقت بنچمارک MATH را از ۵۵٪ به ۶۹٪ افزایش میدهد و یک عامل اختصاصی SafeGuard تشخیص کدهای ناامن را تا ۳۵ واحد F1 بهبود میبخشد — یافتههایی که مستقیماً در ساخت خطلولههای اتوماسیون امن و ماژولار Beancount کاربرد دارند.
گوریلا: چگونه آموزش آگاه از بازیابی توهمات API در مدلهای زبانی بزرگ را از ۷۸٪ به ۱۱٪ کاهش میدهد
گوریلا (Patil et al., NeurIPS 2024) یک مدل LLaMA 7B را با آموزش آگاه از بازیابی (RAT) بر روی مستندات API بازیابی شده تنظیم دقیق میکند و نرخ توهم را در مقایسه با GPT-4 از ۷۸٪ به ۱۱٪ کاهش میدهد. این موضوع پیامدهای مستقیمی برای عوامل هوش مصنوعی مالی دارد که در آنها نامهای حساب اشتباه یا علامتهای معکوس، به جای مزاحمت، خطاهای جدی در صحت دادهها محسوب میشوند.
MemGPT: مدیریت فضای متنی مجازی برای عاملهای مدل زبانی بزرگ (LLM)
MemGPT روش صفحهبندی حافظه مجازی به سبک سیستمعامل را در مدلهای زبانی بزرگ (LLM) پیادهسازی میکند و با استفاده از ذخیرهسازی سهلایه — حافظه کاری، بازخوانی و آرشیوی — به عاملها قابلیت یادآوری پایدار در جلسات مختلف میدهد؛ در بنچمارکهای چت چندجلسهای، MemGPT با GPT-4 به دقت ۹۲.۵٪ در مقابل پایه ۳۲.۱٪ برای فضای متنی ثابت دست یافته است.