4 публикации маркиран с/със "Decision-making"

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Отлагане с отчитане на неопределеността за LLM агенти: Кога да се ескалира от малки към големи модели

ReDAct изпълнява малък модел по подразбиране и ескалира към скъп модел само когато перплексията на ниво токен сигнализира за неопределеност, постигайки 64% спестяване на разходи спрямо използването само на GPT-5.2, като същевременно съответства на неговата точност или я надвишава — модел, директно приложим за агенти за категоризиране на трансакции в Beancount.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия

InvestorBench (ACL 2025) тества 13 базови LLM модела върху бектествана търговия с акции, криптовалути и ETF, използвайки кумулативна доходност и коефициент на Шарп — а не точност при въпроси и отговори. Qwen2.5-72B оглавява класацията за акции с 46,15% CR; моделите, фино настроени за финанси, показват лоши резултати при акциите. Размерът на модела предсказва производителността по-надеждно от специализираната домена настройка.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Language Agent Tree Search — Разсъждение, действие и планиране в една рамка

LATS (Language Agent Tree Search, ICML 2024) обединява ReAct, Tree of Thoughts и Reflexion в една MCTS рамка, постигайки 92,7% pass@1 на HumanEval с GPT-4. За базирани на git Beancount регистри, изискването за връщане на състоянието, което ограничава LATS в производствени среди, е тривиално изпълнено.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели

Дърво на мислите (ToT) постига 74% в Game of 24 срещу 4% за стандартен GPT-4 CoT чрез организиране на разсъжденията на модела в разклонено дърво за търсене с подрязване и връщане назад — с преки последици за многостъпковата финансова класификация и данъчната оптимизация в работните процеси на Beancount.

Всичко за Decision-making

Отлагане с отчитане на неопределеността за LLM агенти: Кога да се ескалира от малки към големи модели

InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия

LATS: Language Agent Tree Search — Разсъждение, действие и планиране в една рамка

Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели

Започнете с Beancount.io

Първи стъпки

Функции

Общност

Правни въпроси