مدل TAT-LLM با تنظیم دقیق LLaMA 2 7B با استفاده از LoRA روی بنچمارکهای پرسش و پاسخ جداول و متون مالی، به دقت ۶۴.۶۰٪ در FinQA دست یافت و با شکست دادن GPT-4 (با دقت ۶۳.۹۱٪) از طریق تجزیه استدلال به مراحل قطعی «استخراج-استدلال-اجرا»، خطاهای محاسباتی را حذف کرد.
مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدلهای زبانی ۷ میلیارد پارامتری نشان میدهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست مییابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف میشود — با پیامدهای مستقیم برای طراحی عاملهای Beancount و هر سیستمی که به بهروزرسانیهای مکرر دانش نیاز دارد.
روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق میکند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تکمرحلهای دست مییابد؛ این روش نشان میدهد که با استراتژی بازیابی صحیح، یک مدل 3B میتواند بر GPT-3 175B غلبه کند.
مدل FLARE (EMNLP 2023) با تحریک بازیابی در میانه تولید با استفاده از آستانههای اطمینان احتمال توکن، RAG استاندارد را بهبود میبخشد و در 2WikiMultihopQA به ۵۱.۰ EM در مقابل ۳۹.۴ برای تکبازیابی میرسد — اما نقص در کالیبراسیون در مدلهای چت آموزشدیده با دستورالعمل، قابلیت اطمینان آن را برای عاملهای مالی تولیدی محدود میکند.
DSPy رشتههای پرامپت دستساز را با امضاهای اخباری و یک کامپایلر مبتنی بر معیار جایگزین میکند—عملکرد Llama2-13b را در استدلال ریاضی GSM8K از ۹.۴٪ به ۴۶.۹٪ میرساند و مسیری قابلنگهداریتر برای خطلولههای هوش مصنوعی مالی در محیط عملیاتی ارائه میدهد.
LATS (جستجوی درختی عامل زبانی، ICML 2024) روشهای ReAct، درخت افکار (Tree of Thoughts) و Reflexion را در یک چارچوب واحد MCTS ادغام میکند و به نرخ موفقیت ۹۲.۷٪ در HumanEval با GPT-4 دست مییابد. برای دفترکلهای Beancount مبتنی بر git، الزام بازگشت به حالت قبل که محدودیت LATS در محیطهای عملیاتی است، به سادگی برآورده میشود.
Voyager، یک عامل Minecraft مبتنی بر GPT-4 از NVIDIA و Caltech، نشان میدهد که یک کتابخانه کد مهارت پایدار، یادگیری مادامالعمر واقعی را بدون نیاز به fine-tuning ممکن میسازد — کشف ۳.۳ برابر موارد بیشتری نسبت به مدلهای قبلی. این الگو مستقیماً با خودکارسازی طولانیمدت دفتر کل Beancount مطابقت دارد، هرچند دقت مالی مستلزم لایههای میانی (staging) است که محیطهای بازی هرگز به آنها نیاز ندارند.
HippoRAG (NeurIPS 2024) با ساخت یک گراف دانش از سهتاییهای OpenIE و اعمال رتبه صفحه شخصیسازی شده (PPR) در زمان پرسوجو، به نرخ بازیابی ۸۹.۱٪ (Recall@5) در مجموعه داده 2WikiMultiHopQA دست مییابد (در مقابل ۶۸.۲٪ برای ColBERTv2)؛ این موضوع تاثیرات مستقیمی بر پرسوجو در دفترهای مالی پیچیده با تاریخچه تراکنشهای چندین ساله دارد.
AgentBench (لیو و همکاران، ICLR 2024) ۲۷ مدل زبانی بزرگ را در ۸ محیط تعاملی مورد سنجش قرار میدهد — GPT-4 امتیاز کلی ۴.۰۱ را در مقابل ۰.۹۶ برای بهترین مدل متنباز کسب کرد. سه حالت شکست غالب (تجاوز از حد وظیفه در ۶۷.۹٪ از شکستهای گراف دانش، خطاهای قالببندی در ۵۳.۳٪ از شکستهای پایگاه داده و اقدامات نامعتبر) مستقیماً با ریسکهای استقرار یک عامل بازنویسی Beancount در یک دفتر کل واقعی مطابقت دارند.
AutoGen (وو و همکاران، ۲۰۲۳) یک چارچوب گفتگوی چند-عاملی را معرفی میکند که در آن عاملهای مبتنی بر مدلهای زبانی بزرگ (LLM) برای تکمیل وظایف پیام مبادله میکنند؛ یک پیکربندی دو-عاملی دقت بنچمارک MATH را از ۵۵٪ به ۶۹٪ افزایش میدهد و یک عامل اختصاصی SafeGuard تشخیص کدهای ناامن را تا ۳۵ واحد F1 بهبود میبخشد — یافتههایی که مستقیماً در ساخت خطلولههای اتوماسیون امن و ماژولار Beancount کاربرد دارند.