Преминете към основното съдържание
Decision-making

Всичко за Decision-making

4 статии
Data-driven decision making with financial insights

Отлагане с отчитане на неопределеността за LLM агенти: Кога да се ескалира от малки към големи модели

ReDAct изпълнява малък модел по подразбиране и ескалира към скъп модел само когато перплексията на ниво токен сигнализира за неопределеност, постигайки 64% спестяване на разходи спрямо използването само на GPT-5.2, като същевременно съответства на неговата точност или я надвишава — модел, директно приложим за агенти за категоризиране на трансакции в Beancount.

InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия

InvestorBench (ACL 2025) тества 13 базови LLM модела върху бектествана търговия с акции, криптовалути и ETF, използвайки кумулативна доходност и коефициент на Шарп — а не точност при въпроси и отговори. Qwen2.5-72B оглавява класацията за акции с 46,15% CR; моделите, фино настроени за финанси, показват лоши резултати при акциите. Размерът на модела предсказва производителността по-надеждно от специализираната домена настройка.

LATS: Language Agent Tree Search — Разсъждение, действие и планиране в една рамка

LATS (Language Agent Tree Search, ICML 2024) обединява ReAct, Tree of Thoughts и Reflexion в една MCTS рамка, постигайки 92,7% pass@1 на HumanEval с GPT-4. За базирани на git Beancount регистри, изискването за връщане на състоянието, което ограничава LATS в производствени среди, е тривиално изпълнено.

Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели

Дърво на мислите (ToT) постига 74% в Game of 24 срещу 4% за стандартен GPT-4 CoT чрез организиране на разсъжденията на модела в разклонено дърво за търсене с подрязване и връщане назад — с преки последици за многостъпковата финансова класификация и данъчната оптимизация в работните процеси на Beancount.