Перейти к контенту
Decision-making

Все о Decision-making

4 статей
Data-driven decision making with financial insights

Учёт неопределенности при делегировании задач LLM-агентами: когда переходить от малых моделей к большим

ReDAct по умолчанию запускает малую модель и переходит к дорогостоящей модели только тогда, когда перплексия на уровне токенов сигнализирует о неопределенности. Это позволяет сэкономить 64% затрат по сравнению с использованием только GPT-5.2, сохраняя или превосходя её точность — паттерн, напрямую применимый для агентов категоризации транзакций Beancount.

InvestorBench: Тестирование LLM-агентов в принятии решений по финансовой торговле

InvestorBench (ACL 2025) тестирует 13 базовых моделей LLM на исторических данных торговли акциями, криптовалютой и ETF, используя накопленную доходность и коэффициент Шарпа вместо точности ответов. Qwen2.5-72B лидирует в торговле акциями с доходностью 46,15%; модели, дообученные на финансовых данных, показали обратный эффект на акциях. Размер модели предсказывает производительность надежнее, чем специализированная настройка под домен.

LATS: Поиск по дереву языковых агентов — рассуждение, действие и планирование в единой структуре

LATS (Language Agent Tree Search, ICML 2024) объединяет ReAct, Tree of Thoughts и Reflexion в единую структуру MCTS, достигая 92,7% pass@1 на HumanEval с GPT-4. Для Beancount-журналов на базе git требование возврата состояния, которое ограничивает LATS в производственных средах, выполняется тривиально.

Tree of Thoughts: осознанное решение задач с помощью поиска через LLM

Tree of Thoughts (ToT) достигает 74% в «Игре 24» против 4% у стандартного GPT-4 CoT, организуя рассуждения LLM в ветвящееся дерево поиска с отсечением и возвратом — это имеет прямое значение для многоэтапной финансовой классификации и налоговой оптимизации в рабочих процессах Beancount.