ReDAct за замовчуванням запускає малу модель і переходить до дорогої лише тоді, коли перплексія на рівні токенів сигналізує про невизначеність, досягаючи 64% економії коштів порівняно з використанням лише GPT-5.2 при відповідній або вищій точності — це патерн, що безпосередньо застосовується для агентів категоризації транзакцій Beancount.
InvestorBench (ACL 2025) тестує 13 базових моделей LLM на бектестованій торгівлі акціями, криптовалютою та ETF, використовуючи кумулятивну прибутковість та коефіцієнт Шарпа, а не точність відповідей. Qwen2.5-72B очолює таблицю лідерів акцій з прибутковістю 46,15% CR; моделі, налаштовані під фінанси, показують гірші результати на ринку акцій. Розмір моделі прогнозує ефективність надійніше, ніж доменне донавчання.
LATS (Language Agent Tree Search, ICML 2024) об'єднує ReAct, Tree of Thoughts та Reflexion в єдину структуру MCTS, досягаючи 92,7% pass@1 на HumanEval з GPT-4. Для Beancount-леджерів на базі git вимога повернення стану, яка обмежує LATS у виробничих середовищах, задовольняється тривіально.
Tree of Thoughts (ToT) досягає 74% у «Грі 24» проти 4% у стандартному GPT-4 CoT шляхом організації міркувань LLM у дерево пошуку з розгалуженням, відсіканням та поверненням назад — це має прямі наслідки для багатоетапної фінансової класифікації та оптимізації податків у робочих процесах Beancount.