پرش به محتوای اصلی
Automation

همه چیز درباره Automation

57 مقاله
Automation techniques and tools for financial data processing workflows

TAT-LLM: مدل LLaMA 2 تنظیم‌دقیق‌شده برای استدلال گسسته روی جداول و متون مالی

مدل TAT-LLM با تنظیم دقیق LLaMA 2 7B با استفاده از LoRA روی بنچ‌مارک‌های پرسش و پاسخ جداول و متون مالی، به دقت ۶۴.۶۰٪ در FinQA دست یافت و با شکست دادن GPT-4 (با دقت ۶۳.۹۱٪) از طریق تجزیه استدلال به مراحل قطعی «استخراج-استدلال-اجرا»، خطاهای محاسباتی را حذف کرد.

تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود

مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدل‌های زبانی ۷ میلیارد پارامتری نشان می‌دهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست می‌یابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف می‌شود — با پیامدهای مستقیم برای طراحی عامل‌های Beancount و هر سیستمی که به به‌روزرسانی‌های مکرر دانش نیاز دارد.

IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحله‌ای

روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق می‌کند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تک‌مرحله‌ای دست می‌یابد؛ این روش نشان می‌دهد که با استراتژی بازیابی صحیح، یک مدل 3B می‌تواند بر GPT-3 175B غلبه کند.

FLARE: تولید افزوده با بازیابی فعال

مدل FLARE (EMNLP 2023) با تحریک بازیابی در میانه تولید با استفاده از آستانه‌های اطمینان احتمال توکن، RAG استاندارد را بهبود می‌بخشد و در 2WikiMultihopQA به ۵۱.۰ EM در مقابل ۳۹.۴ برای تک‌بازیابی می‌رسد — اما نقص در کالیبراسیون در مدل‌های چت آموزش‌دیده با دستورالعمل، قابلیت اطمینان آن را برای عامل‌های مالی تولیدی محدود می‌کند.

DSPy: جایگزینی مهندسی پرامپت شکننده با خط‌لوله‌های کامپایل‌شده مدل زبانی بزرگ (LLM)

DSPy رشته‌های پرامپت دست‌ساز را با امضاهای اخباری و یک کامپایلر مبتنی بر معیار جایگزین می‌کند—عملکرد Llama2-13b را در استدلال ریاضی GSM8K از ۹.۴٪ به ۴۶.۹٪ می‌رساند و مسیری قابل‌نگهداری‌تر برای خط‌لوله‌های هوش مصنوعی مالی در محیط عملیاتی ارائه می‌دهد.

LATS: جستجوی درختی عامل زبانی — استدلال، عمل و برنامه‌ریزی در یک چارچوب واحد

LATS (جستجوی درختی عامل زبانی، ICML 2024) روش‌های ReAct، درخت افکار (Tree of Thoughts) و Reflexion را در یک چارچوب واحد MCTS ادغام می‌کند و به نرخ موفقیت ۹۲.۷٪ در HumanEval با GPT-4 دست می‌یابد. برای دفترکل‌های Beancount مبتنی بر git، الزام بازگشت به حالت قبل که محدودیت LATS در محیط‌های عملیاتی است، به سادگی برآورده می‌شود.

Voyager: کتابخانه‌های مهارت به عنوان پایه‌ای برای یادگیری مادام‌العمر عامل‌های هوش مصنوعی

Voyager، یک عامل Minecraft مبتنی بر GPT-4 از NVIDIA و Caltech، نشان می‌دهد که یک کتابخانه کد مهارت پایدار، یادگیری مادام‌العمر واقعی را بدون نیاز به fine-tuning ممکن می‌سازد — کشف ۳.۳ برابر موارد بیشتری نسبت به مدل‌های قبلی. این الگو مستقیماً با خودکارسازی طولانی‌مدت دفتر کل Beancount مطابقت دارد، هرچند دقت مالی مستلزم لایه‌های میانی (staging) است که محیط‌های بازی هرگز به آن‌ها نیاز ندارند.

HippoRAG: حافظه بلندمدت با الهام از علوم اعصاب برای مدل‌های زبانی بزرگ

HippoRAG (NeurIPS 2024) با ساخت یک گراف دانش از سه‌تایی‌های OpenIE و اعمال رتبه صفحه شخصی‌سازی شده (PPR) در زمان پرس‌وجو، به نرخ بازیابی ۸۹.۱٪ (Recall@5) در مجموعه داده 2WikiMultiHopQA دست می‌یابد (در مقابل ۶۸.۲٪ برای ColBERTv2)؛ این موضوع تاثیرات مستقیمی بر پرس‌وجو در دفترهای مالی پیچیده با تاریخچه تراکنش‌های چندین ساله دارد.

AgentBench: ارزیابی مدل‌های زبانی بزرگ به عنوان عامل — درس‌هایی برای قابلیت اطمینان هوش مصنوعی در امور مالی

AgentBench (لیو و همکاران، ICLR 2024) ۲۷ مدل زبانی بزرگ را در ۸ محیط تعاملی مورد سنجش قرار می‌دهد — GPT-4 امتیاز کلی ۴.۰۱ را در مقابل ۰.۹۶ برای بهترین مدل متن‌باز کسب کرد. سه حالت شکست غالب (تجاوز از حد وظیفه در ۶۷.۹٪ از شکست‌های گراف دانش، خطاهای قالب‌بندی در ۵۳.۳٪ از شکست‌های پایگاه داده و اقدامات نامعتبر) مستقیماً با ریسک‌های استقرار یک عامل بازنویسی Beancount در یک دفتر کل واقعی مطابقت دارند.

AutoGen: چارچوب‌های گفتگوی چند-عاملی برای هوش مصنوعی مالی

AutoGen (وو و همکاران، ۲۰۲۳) یک چارچوب گفتگوی چند-عاملی را معرفی می‌کند که در آن عامل‌های مبتنی بر مدل‌های زبانی بزرگ (LLM) برای تکمیل وظایف پیام مبادله می‌کنند؛ یک پیکربندی دو-عاملی دقت بنچمارک MATH را از ۵۵٪ به ۶۹٪ افزایش می‌دهد و یک عامل اختصاصی SafeGuard تشخیص کدهای ناامن را تا ۳۵ واحد F1 بهبود می‌بخشد — یافته‌هایی که مستقیماً در ساخت خط‌لوله‌های اتوماسیون امن و ماژولار Beancount کاربرد دارند.