ReDAct по умолчанию запускает малую модель и переходит к дорогостоящей модели только тогда, когда перплексия на уровне токенов сигнализирует о неопределенности. Это позволяет сэкономить 64% затрат по сравнению с использованием только GPT-5.2, сохраняя или превосходя её точность — паттерн, напрямую применимый для агентов категоризации транзакций Beancount.
InvestorBench (ACL 2025) тестирует 13 базовых моделей LLM на исторических данных торговли акциями, криптовалютой и ETF, используя накопленную доходность и коэффициент Шарпа вместо точности ответов. Qwen2.5-72B лидирует в торговле акциями с доходностью 46,15%; модели, дообученные на финансовых данных, показали обратный эффект на акциях. Размер модели предсказывает производительность надежнее, чем специализированная настройка под домен.
LATS (Language Agent Tree Search, ICML 2024) объединяет ReAct, Tree of Thoughts и Reflexion в единую структуру MCTS, достигая 92,7% pass@1 на HumanEval с GPT-4. Для Beancount-журналов на базе git требование возврата состояния, которое ограничивает LATS в производственных средах, выполняется тривиально.
Tree of Thoughts (ToT) достигает 74% в «Игре 24» против 4% у стандартного GPT-4 CoT, организуя рассуждения LLM в ветвящееся дерево поиска с отсечением и возвратом — это имеет прямое значение для многоэтапной финансовой классификации и налоговой оптимизации в рабочих процессах Beancount.