پرش به محتوای اصلی
Queries

همه چیز درباره Queries

8 مقاله
Query generation, table reasoning, and structured data retrieval for financial AI

TableMaster: استدلال تطبیقی برای درک جداول با مدل‌های زبانی بزرگ (LLMs)

TableMaster یک خط لوله مبتنی بر پرامپت است که با استفاده از GPT-4o-mini به دقت ۷۸.۱۳٪ در WikiTQ دست می‌یابد—۱۳ واحد بالاتر از Chain-of-Table—که با ترکیب استخراج جدول تمرکز، شفاهی‌سازی معنایی و سوئیچ تطبیقی بین استدلال متنی و نمادین به دست آمده است. در اینجا بررسی می‌کنیم که این معماری برای عامل‌های هوش مصنوعی بر روی دفترکل‌های مالی مانند Beancount چه معنایی دارد.

Chain-of-Table: تکامل جداول در زنجیره استدلال مدل‌های زبانی بزرگ

روش Chain-of-Table (ارائه شده در ICLR 2024) استدلال جدولی مدل‌های زبانی بزرگ را با تکامل خود جدول به عنوان حالت میانی بهبود می‌بخشد؛ کسب دقت ۶۷.۳۱٪ در WikiTQ در مقابل ۶۱.۴۸٪ برای مدل‌های پایه پیشین، با برتری ۱۰.۲۵ امتیازی در جداول بیش از ۴۰۰۰ توکن و قابلیت کاربرد مستقیم برای عامل‌های پرس‌وجوی دفتر کل Beancount.

TableLlama: آیا یک مدل متن‌باز ۷ میلیاردی می‌تواند در درک جداول با GPT-4 رقابت کند؟

TableLlama مدل Llama 2 (7B) را بر روی ۲.۶ میلیون نمونه وظایف جدولی تنظیم دقیق می‌کند و در وظایف ساختاری مانند برچسب‌گذاری نوع ستون (F1 ۹۴ در مقابل ۳۲) از GPT-4 پیشی می‌گیرد، اما در استدلال ترکیبی WikiTQ با ۳۳ امتیاز اختلاف عقب می‌ماند — معیاری دقیق برای آنچه مدل‌های متن‌باز ۷ میلیاردی امروزه در هوش مصنوعی مالی می‌توانند و نمی‌توانند انجام دهند.

TAPAS: پرسش و پاسخ جدولی با نظارت ضعیف بدون SQL، و معنای آن برای Beancount

مدل TAPAS (تحقیقات گوگل، ACL 2020) به سوالات جدولی با انتخاب سلول‌ها و اعمال تجمیع‌های اسکالر پاسخ می‌دهد - بدون تولید SQL. این پست معماری آن، افزایش ۱۲ امتیازی دقت SQA، و چرایی تناسب الگوی انتخاب سلول برای پرس‌وجوهای کوچک دفترکل Beancount اما شکست آن در مقیاس بزرگ را تحلیل می‌کند.

MAC-SQL: تبدیل متن به SQL از طریق همکاری چند-عامل

مدل MAC-SQL (COLING 2025) از سه عامل تخصصی — انتخاب‌گر برای کاهش طرحواره، تجزیه‌کننده برای شکستن سوال و اصلاح‌کننده برای تصحیح SQL مبتنی بر اجرا — استفاده می‌کند تا به دقت اجرای ۵۹.۵۹٪ در بنچمارک BIRD دست یابد؛ تحلیل‌ها نشان می‌دهد که عامل اصلاح‌کننده بیشترین سهم را در بهبود عملکرد دارد (۴.۶۳+ واحد)، که پیامدهای مستقیمی برای تولید پرس‌وجو در دفاتر کل Beancount دارد.

DIN-SQL: یادگیری در-متن تجزیه شده برای تبدیل متن به SQL

DIN-SQL (NeurIPS 2023) فرآیند تبدیل متن به SQL را به مراحل پیوند شما، طبقه‌بندی پیچیدگی و تولید SQL تجزیه می‌کند و دقت اجرای GPT-4 را در بنچمارک Spider بدون تنظیم دقیق از ۶۷.۴٪ به ۸۵.۳٪ افزایش می‌دهد — و همین استراتژی تجزیه مستقیماً بر رابط‌های زبان طبیعی برای زبان پرس‌وجوی BQL در Beancount قابل انطباق است.

بنچمارک BIRD: شکاف پایگاه‌داده واقعی در مدل‌های زبانی بزرگ Text-to-SQL

بنچمارک BIRD (NeurIPS 2023) مدل‌های زبانی بزرگ را روی ۹۵ پایگاه‌داده واقعی آزمایش می‌کند — GPT-4 با راهنماهای دامنه تنها به ۵۴.۸۹٪ و بدون آن‌ها به ۳۴.۸۸٪ دقت اجرا می‌رسد؛ شکافی ۲۰ واحدی که مستقیماً چالش‌های ایجاد یک رابط زبان طبیعی BQL برای Beancount را تعریف می‌کند.

GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو

پروژه GraphRAG مایکروسافت یک گراف موجودیت با بخش‌بندی لایدن بر روی یک پیکره متنی ایجاد می‌کند و خلاصه انجمن‌ها را از پیش محاسبه می‌نماید تا به سوالات معنایی جهانی پاسخ دهد که RAG برداری استاندارد قادر به مدیریت آن‌ها نیست — اما یک حسابرسی سوگیری در سال ۲۰۲۵ نشان می‌دهد که نرخ پیروزی ۷۲ تا ۸۳ درصدی آن پس از اصلاح آثار موقعیت و طول در ارزیابی‌های مبتنی بر مدل زبانی به عنوان داور (LLM-as-judge)، فرو می‌پاشد.