سیستم ReDAct بهطور پیشفرض یک مدل کوچک را اجرا میکند و تنها زمانی به یک مدل گرانقیمت ارجاع میدهد که پرپلکسیتی در سطح توکن نشاندهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفهجویی در هزینهها میشود؛ الگویی که مستقیماً برای عاملهای دستهبندی تراکنش در Beancount قابل استفاده است.
پروژه InvestorBench (ACL 2025) ۱۳ مدل پایه LLM را در معاملات بکتست شده سهام، کریپتو و ETF با استفاده از بازده تجمعی و نسبت شارپ آزمایش میکند—نه دقت پرسش و پاسخ. مدل Qwen2.5-72B با بازده تجمعی ۴۶.۱۵٪ در صدر جدول سهام قرار دارد؛ مدلهای تنظیمشده برای امور مالی در بخش سهام نتیجه معکوس دادند. اندازه مدل بیش از تنظیم دقیق تخصصی، پیشبینیکننده عملکرد است.
LATS (جستجوی درختی عامل زبانی، ICML 2024) روشهای ReAct، درخت افکار (Tree of Thoughts) و Reflexion را در یک چارچوب واحد MCTS ادغام میکند و به نرخ موفقیت ۹۲.۷٪ در HumanEval با GPT-4 دست مییابد. برای دفترکلهای Beancount مبتنی بر git، الزام بازگشت به حالت قبل که محدودیت LATS در محیطهای عملیاتی است، به سادگی برآورده میشود.
درخت افکار (ToT) با سازماندهی استدلال مدل زبانی در یک درخت جستجوی شاخهای همراه با هرس و بازگشت به عقب، در بازی ۲۴ به دقت ۷۴٪ در مقابل ۴٪ برای CoT استاندارد GPT-4 دست مییابد؛ این موضوع پیامدهای مستقیمی برای طبقهبندی مالی چندمرحلهای و بهینهسازی مالیاتی در جریانهای کاری Beancount دارد.