TableMaster یک خط لوله مبتنی بر پرامپت است که با استفاده از GPT-4o-mini به دقت ۷۸.۱۳٪ در WikiTQ دست مییابد—۱۳ واحد بالاتر از Chain-of-Table—که با ترکیب استخراج جدول تمرکز، شفاهیسازی معنایی و سوئیچ تطبیقی بین استدلال متنی و نمادین به دست آمده است. در اینجا بررسی میکنیم که این معماری برای عاملهای هوش مصنوعی بر روی دفترکلهای مالی مانند Beancount چه معنایی دارد.
روش Chain-of-Table (ارائه شده در ICLR 2024) استدلال جدولی مدلهای زبانی بزرگ را با تکامل خود جدول به عنوان حالت میانی بهبود میبخشد؛ کسب دقت ۶۷.۳۱٪ در WikiTQ در مقابل ۶۱.۴۸٪ برای مدلهای پایه پیشین، با برتری ۱۰.۲۵ امتیازی در جداول بیش از ۴۰۰۰ توکن و قابلیت کاربرد مستقیم برای عاملهای پرسوجوی دفتر کل Beancount.
TableLlama مدل Llama 2 (7B) را بر روی ۲.۶ میلیون نمونه وظایف جدولی تنظیم دقیق میکند و در وظایف ساختاری مانند برچسبگذاری نوع ستون (F1 ۹۴ در مقابل ۳۲) از GPT-4 پیشی میگیرد، اما در استدلال ترکیبی WikiTQ با ۳۳ امتیاز اختلاف عقب میماند — معیاری دقیق برای آنچه مدلهای متنباز ۷ میلیاردی امروزه در هوش مصنوعی مالی میتوانند و نمیتوانند انجام دهند.
مدل TAPAS (تحقیقات گوگل، ACL 2020) به سوالات جدولی با انتخاب سلولها و اعمال تجمیعهای اسکالر پاسخ میدهد - بدون تولید SQL. این پست معماری آن، افزایش ۱۲ امتیازی دقت SQA، و چرایی تناسب الگوی انتخاب سلول برای پرسوجوهای کوچک دفترکل Beancount اما شکست آن در مقیاس بزرگ را تحلیل میکند.
مدل MAC-SQL (COLING 2025) از سه عامل تخصصی — انتخابگر برای کاهش طرحواره، تجزیهکننده برای شکستن سوال و اصلاحکننده برای تصحیح SQL مبتنی بر اجرا — استفاده میکند تا به دقت اجرای ۵۹.۵۹٪ در بنچمارک BIRD دست یابد؛ تحلیلها نشان میدهد که عامل اصلاحکننده بیشترین سهم را در بهبود عملکرد دارد (۴.۶۳+ واحد)، که پیامدهای مستقیمی برای تولید پرسوجو در دفاتر کل Beancount دارد.
DIN-SQL (NeurIPS 2023) فرآیند تبدیل متن به SQL را به مراحل پیوند شما، طبقهبندی پیچیدگی و تولید SQL تجزیه میکند و دقت اجرای GPT-4 را در بنچمارک Spider بدون تنظیم دقیق از ۶۷.۴٪ به ۸۵.۳٪ افزایش میدهد — و همین استراتژی تجزیه مستقیماً بر رابطهای زبان طبیعی برای زبان پرسوجوی BQL در Beancount قابل انطباق است.
بنچمارک BIRD (NeurIPS 2023) مدلهای زبانی بزرگ را روی ۹۵ پایگاهداده واقعی آزمایش میکند — GPT-4 با راهنماهای دامنه تنها به ۵۴.۸۹٪ و بدون آنها به ۳۴.۸۸٪ دقت اجرا میرسد؛ شکافی ۲۰ واحدی که مستقیماً چالشهای ایجاد یک رابط زبان طبیعی BQL برای Beancount را تعریف میکند.
پروژه GraphRAG مایکروسافت یک گراف موجودیت با بخشبندی لایدن بر روی یک پیکره متنی ایجاد میکند و خلاصه انجمنها را از پیش محاسبه مینماید تا به سوالات معنایی جهانی پاسخ دهد که RAG برداری استاندارد قادر به مدیریت آنها نیست — اما یک حسابرسی سوگیری در سال ۲۰۲۵ نشان میدهد که نرخ پیروزی ۷۲ تا ۸۳ درصدی آن پس از اصلاح آثار موقعیت و طول در ارزیابیهای مبتنی بر مدل زبانی به عنوان داور (LLM-as-judge)، فرو میپاشد.