Prejsť na hlavný obsah
Decision-making

Všetko o Decision-making

4 články
Data-driven decision making with financial insights

Odkladanie s vedomím neistoty pre agentov LLM: Kedy prejsť z malých na veľké modely

ReDAct predvolene spúšťa malý model a eskaluje na drahý model len vtedy, keď perplexita na úrovni tokenov signalizuje neistotu, čím dosahuje 64 % úsporu nákladov oproti použitiu iba GPT-5.2 pri zachovaní alebo prekonaní jeho presnosti — model priamo aplikovateľný pre agentov kategorizácie transakcií v Beancounte.

InvestorBench: Benchmarking LLM agentov pri rozhodovaní o finančnom obchodovaní

InvestorBench (ACL 2025) testuje 13 základných LLM modelov na spätne testovanom obchodovaní s akciami, kryptomenami a ETF pomocou kumulatívneho výnosu a Sharpeho pomeru – nie presnosti otázok a odpovedí. Qwen2.5-72B vedie v rebríčku akcií s 46,15 % CR; modely vyladené pre financie pri akciách zlyhávajú. Veľkosť modelu predpovedá výkon spoľahlivejšie než doménové jemné doladenie.

LATS: Language Agent Tree Search — uvažovanie, konanie a plánovanie v jednom rámci

LATS (Language Agent Tree Search, ICML 2024) zjednocuje ReAct, Tree of Thoughts a Reflexion do jedného rámca MCTS, pričom dosahuje 92,7 % pass@1 v HumanEval s GPT-4. Pre účtovné knihy Beancount spravované cez git je požiadavka na vrátenie stavu, ktorá obmedzuje LATS v produkčných prostrediach, triviálne splnená.

Strom myšlienok: Premyslené riešenie problémov s vyhľadávaním pomocou LLM

Strom myšlienok (ToT) dosahuje 74 % v Hre 24 oproti 4 % pri štandardnom GPT-4 CoT organizovaním uvažovania LLM do rozvetveného vyhľadávacieho stromu s orezávaním a spätným vyhľadávaním — s priamymi dôsledkami pre viacstupňovú finančnú klasifikáciu a daňovú optimalizáciu v pracovných postupoch Beancount.