Mike Thrift
Marketing Manager
SWE-agent: چگونه طراحی رابط کاربری پتانسیل مهندسی نرمافزار خودکار را آزاد میکند
سیستم SWE-agent (NeurIPS 2024) رابطهای کاربری عامل-کامپیوتر (ACI) را معرفی میکند — لایههایی که به طور خاص برای تعامل بین مدلهای زبانی بزرگ (LLM) و محیطهای نرمافزاری ساخته شدهاند. این سیستم بهبود ۱۰.۷ واحد درصدی نسبت به دسترسی مستقیم به شل (Shell) و نرخ حل ۱۲.۴۷ درصدی در بنچمارک SWE-bench با GPT-4 Turbo را نشان میدهد. طراحی رابط کاربری، و نه توانایی مدل، گلوگاه اصلی برای عاملهای کدنویسی خودمختار است.
SWE-bench: آیا مدلهای زبانی میتوانند مسائل واقعی گیتهاب را حل کنند؟
SWE-bench مدلهای زبانی را بر روی ۲,۲۹۴ مسئله واقعی گیتهاب در ۱۲ مخزن پایتون با استفاده از تستهای مبتنی بر اجرا ارزیابی میکند؛ در زمان انتشار، Claude 2 تنها ۱.۹۶٪ از مسائل را با بازیابی واقعگرایانه حل کرد که بنچمارک استاندارد برای عاملهای کدنویسی را ایجاد کرد و حالتهای شکست در بازیابی و طول وصله را که مستقیماً به عاملهای بازنویسی Beancount مربوط میشوند، آشکار ساخت.
CodeAct: چرا کدهای پایتون قابل اجرا، دقت عوامل LLM را ۲۰٪ افزایش میدهند
CodeAct (ICML 2024) فراخوانی ابزار مبتنی بر JSON را با کدهای پایتون قابل اجرا جایگزین میکند که نرخ موفقیت عوامل GPT-4 را در وظایف چند-ابزاری حدود ۲۰ درصد بهبود بخشیده و گامهای تعاملی را ۳۰٪ کاهش میدهد — این موضوع پیامدهای مستقیمی برای ساخت عوامل مغایرتگیری قابل اعتماد در Beancount دارد.
مدلهای زبانی بزرگ هنوز نمیتوانند استدلال خود را اصلاح کنند — یافتههای ICLR 2024 و پیامدهای هوش مصنوعی در امور مالی
هوانگ و همکاران (ICLR 2024) نشان میدهند که مدلهای زبانی بزرگ (LLM) وقتی بدون بازخورد بیرونی ملزم به بازبینی استدلال خود میشوند، به طور مداوم دچار کاهش دقت میشوند — دقت GPT-4 در GSM8K از ۹۵.۵٪ به ۹۱.۵٪ کاهش مییابد — و این موضوع چه معنایی برای طراحی عوامل قابل اعتماد ثبت دفتر روزنامه Beancount دارد.
درخت افکار: حل مسئله آگاهانه با جستجوی مدلهای زبانی بزرگ
درخت افکار (ToT) با سازماندهی استدلال مدل زبانی در یک درخت جستجوی شاخهای همراه با هرس و بازگشت به عقب، در بازی ۲۴ به دقت ۷۴٪ در مقابل ۴٪ برای CoT استاندارد GPT-4 دست مییابد؛ این موضوع پیامدهای مستقیمی برای طبقهبندی مالی چندمرحلهای و بهینهسازی مالیاتی در جریانهای کاری Beancount دارد.
CRITIC: چرا خوداصلاحی مدلهای زبانی بزرگ نیازمند بازخورد ابزارهای خارجی است
سیستم CRITIC (کنفرانس ICLR 2024) با تکیه بر سیگنالهای ابزارهای خارجی برای بازنگری در مدلهای زبانی بزرگ، به بهبود ۷.۷ در شاخص F1 در پاسخگویی به سوالات دامنه آزاد و کاهش ۷۹.۲ درصدی سمیت محتوا دست یافت؛ یک حلقه «تایید و سپس اصلاح» که مستقیماً با امنیت ثبت اطلاعات در عاملهای مالی Beancount مطابقت دارد.
Reflexion: عاملهای زبانی که بدون بازآموزی از اشتباهات خود میآموزند
روش Reflexion (ارائه شده در NeurIPS 2023) به عاملهای LLM اجازه میدهد با ذخیره تحلیلهای کلامی پس از شکست در یک بافر اپیزودیک، بدون نیاز به بهروزرسانی وزنها، عملکرد خود را بهبود بخشند. این روش در بنچمارک HumanEval با GPT-4 به دقت ۹۱٪ میرسد اما در WebShop شکست میخورد که نشاندهنده یک محدودیت ساختاری است؛ یادگیری تقویتی کلامی تنها زمانی کار میکند که ارزیاب سیگنالی شفاف و قابل اجرا تولید کند. در ادامه خواهیم دید که این موضوع برای ساخت یک عامل دفترکل خود-اصلاحگر Beancount چه معنایی دارد.
خودسازگاری: نمونهبرداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش میدهد
خودسازگاری جایگزین رمزگشایی حریصانه زنجیره فکر با رای اکثریت بر روی N مسیر استدلال نمونهبرداری شده میشود — که دقت GPT-3 را در GSM8K بدون هیچ تنظیم دقیق ۱۷.۹ واحد درصد افزایش میدهد — و مستقیماً در محاسبات مالی چندمرحلهای که در آنها یک رمزگشایی واحد مدل زبانی غیرقابل اعتماد است، کاربرد دارد.
PAL: مدلهای زبانی به کمک برنامه برای محاسبات مالی قابل اطمینان
PAL (مدلهای زبانی به کمک برنامه) با واگذاری محاسبات به یک مفسر پایتون، به افزایش دقت ۳۸ واحد درصدی نسبت به زنجیره اندیشه در وظایف سنگین محاسباتی دست مییابد — معماریای که مستقیماً برای پرسوجوهای دفتر کل Beancount و هوش مصنوعی مالی قابل اطمینان کاربرد دارد.
آیا مدلهای زبانی بزرگ میتوانند دادههای جدولی را تحلیل کنند؟ چهار بنچمارک درباره هوش مصنوعی مالی چه میگویند
چهار بنچمارک سالهای ۲۰۲۴-۲۰۲۵ نشان میدهند که GPT-4 در پاسخدهی به سوالات جداول واقعی امتیاز ۴۲٪ را در مقابل ۸۶٪ انسانها کسب کرده است، در حالی که در تجمیعهای پیچیده این عدد به ۱۹.۶٪ سقوط میکند — و نحو بومی Beancount در بدترین رتبه سلسلهمراتب سریالسازی برای ورودی مدلهای زبانی قرار دارد.
هوش مصنوعی قانونمند برای عوامل حسابداری: RLAIF، قوانین خطمشی و ریسکهای گودهارت
مقاله هوش مصنوعی قانونمند آنتروپیک (بای و همکاران، ۲۰۲۲) مدلهای زبانی بزرگ را آموزش میدهد تا با استفاده از بازخوردهای تولید شده توسط هوش مصنوعی به جای برچسبهای آسیب انسانی، از قوانین پیروی کنند. این گزارش تحقیقاتی بررسی میکند که چگونه خط لوله نقد-بازبینی-ترجیح RLAIF بر ایمنی بازنویسی برای عوامل خودکار دفترکل Beancount منطبق میشود — و زمانی که «قانون اساسی» به جای مجموعهای از قوانین اخلاقی، یک چارت حسابها باشد، گودهارتینگ، شکستهای کالیبراسیون و ریسکهای استفاده دوگانه چگونه به نظر میرسند.
درخواستدهی زنجیره اندیشه: موازنههای دقت-بازیابی در هوش مصنوعی مالی
یک بررسی دقیق بر روی مقاله زنجیره اندیشه سال ۲۰۲۲ Wei و همکاران و پیامدهای آن برای هوش مصنوعی مالی — چرا CoT دقت را افزایش میدهد اما ممکن است بازیابی در شناسایی رویدادهای نادر را کاهش دهد، چرا آستانه مقیاس برای عاملهای عملیاتی مهم است، و تیمهای مالی که با استفاده از LLMها سیستم میسازند باید به چه مواردی توجه کنند.