FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پروندههای واقعی SEC ارزیابی میکند؛ RAG با ذخیرهساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح میدهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ میرسد — این نشان میدهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.
DSPy رشتهها ی پرامپت دستساز را با امضاهای اخباری و یک کامپایلر مبتنی بر معیار جایگزین میکند—عملکرد Llama2-13b را در استدلال ریاضی GSM8K از ۹.۴٪ به ۴۶.۹٪ میرساند و مسیری قابلنگهداریتر برای خطلولههای هوش مصنوعی مالی در محیط عملیاتی ارائه میدهد.
LATS (جستجوی درختی عامل زبانی، ICML 2024) روشهای ReAct، درخت افکار (Tree of Thoughts) و Reflexion را در یک چارچوب واحد MCTS ادغام میکند و به نرخ موفقیت ۹۲.۷٪ در HumanEval با GPT-4 دست مییابد. برای دفترکلهای Beancount مبتنی بر git، الزام بازگشت به حالت قبل که محدودیت LATS در محیطهای عملیاتی است، به سادگی برآورده میشود.
Self-RAG (ارائه شفاهی ICLR 2024) یک مدل زبانی را آموزش میدهد تا تصمیم بگیرد چه زمانی بازیابی را انجام دهد و سپس نتایج خود را با استفاده از چهار توکن بازتابی رتبهبندی کند — دستیابی به ۵۵.۸٪ در PopQA و ۸۰.۲ FactScore در بیوگرافیها در حالی که در پنج معیار از ChatGPT پیشی گرفته است. این تحلیل شامل مکانیسم، نتایج حذف اجزا (ablation)، محدودیتهای بازتولید و پیامدهای آن برای ایجنتهای هوش مصنوعی مالی روی دفترکلهای Beancount است.
Voyager، یک عامل Minecraft مبتنی بر GPT-4 از NVIDIA و Caltech، نشان میدهد که یک کتابخانه کد مهارت پایدار، یادگیری مادامالعمر واقعی را بدون نیاز به fine-tuning ممکن میسازد — کشف ۳.۳ برابر موارد بیشتری نسبت به مدلهای قبلی. این الگو مستقیماً با خودکارسازی طولانیمدت دفتر کل Beancount مطابقت دارد، هرچند دقت مالی مستلزم لایههای میانی (staging) است که محیطهای بازی هرگز به آنها نیاز ندارند.
HippoRAG (NeurIPS 2024) با ساخت یک گراف دانش از سهتاییهای OpenIE و اعمال رتبه صفحه شخصیسازی شده (PPR) در زمان پرسوجو، به نرخ بازیابی ۸۹.۱٪ (Recall@5) در مجموعه داده 2WikiMultiHopQA دست مییابد (در مقابل ۶۸.۲٪ برای ColBERTv2)؛ این موضوع تاثیرات مستقیمی بر پرسوجو در دفترهای مالی پیچیده با تاریخچه تراکنشهای چندین ساله دارد.
AgentBench (لیو و همکاران، ICLR 2024) ۲۷ مدل زبانی بزرگ را در ۸ محیط تعاملی مورد سنجش قرار میدهد — GPT-4 امتیاز کلی ۴.۰۱ را در مقابل ۰.۹۶ برای بهترین مدل متنباز کسب کرد. سه حالت شکست غالب (تجاوز از حد وظیفه در ۶۷.۹٪ از شکستهای گراف دانش، خطاهای قالببندی در ۵۳.۳٪ از شکستهای پایگاه داده و اقدامات نامعتبر) مستقیماً با ریسکهای استقرار یک عامل بازنویسی Beancount در یک دفتر کل واقعی مطابقت دارند.
بلومبرگ یک مدل زبانی ۵۰ میلیارد پارامتری را با ۵۶۹ میلیارد توکن از دادههای مالی آموزش داد و در بنچمارکهای تحلیل احساسات و استدلال جدولی بر مدلهای عمومی پیروز شد — سپس GPT-4 بدون هیچ پیشآموزش اختصاصی مالی، با آن برابری کرد. آنچه این آزمایش ۱۰ میلیون دلاری درباره موازنههای پیشآموزش دامنه، توکنسازی اعداد و چرایی قابلاعتمادتر بودن استفاده از ابزارها نسبت به ساختار داخلی مدل برای عاملهای حسابداری فاش میکند.
AutoGen (وو و همکاران، ۲۰۲۳) یک چارچوب گفتگوی چند-عاملی را معرفی میکند که در آن عاملهای مبتنی بر مدلهای زبانی بزرگ (LLM) برای تکمیل وظایف پیام مبادله میکنند؛ یک پیکربندی دو-عاملی دقت بنچمارک MATH را از ۵۵٪ به ۶۹٪ افزایش میدهد و یک عامل اختصاصی SafeGuard تشخیص کدهای ناامن را تا ۳۵ واحد F1 بهبود میبخشد — یافتههایی که مستقیماً در ساخت خطلولههای اتوماسیون امن و ماژولار Beancount کاربرد دارند.