Mike Thrift

Marketing Manager

May 1, 2026·mike

SWE-agent: Ako dizajn rozhrania odomyká automatizované softvérové inžinierstvo

SWE-agent (NeurIPS 2024) predstavuje rozhrania agent-počítač (ACI) — účelovo vytvorené vrstvy medzi LLM a softvérovými prostrediami — čím vykazuje 10,7-percentuálne zlepšenie oproti priamemu prístupu k shellu a 12,47 % úspešnosť riešenia v SWE-bench s GPT-4 Turbo. Dizajn rozhrania, nie schopnosti modelu, je primárnym úzkym hrdlom pre autonómne programovacie agenty.

llm

automation

April 30, 2026·mike

SWE-bench: Dokážu jazykové modely riešiť skutočné problémy na GitHub-e?

SWE-bench vyhodnocuje jazykové modely na 2 294 skutočných problémoch GitHub-u v 12 repozitároch Pythonu pomocou testov založených na spustení; v čase publikácie Claude 2 vyriešil iba 1,96 % problémov s realistickým vyhľadávaním, čím vytvoril de facto benchmark pre kódovacích agentov a odhalil zlyhania pri vyhľadávaní a dĺžke opráv priamo relevantné pre write-back agentov Beancount.

llm

machine-learning

April 29, 2026·mike

CodeAct: Prečo spustiteľný Python kód robí LLM agentov o 20 % presnejšími

CodeAct (ICML 2024) nahrádza volanie nástrojov cez JSON spustiteľným Python kódom, čím zvyšuje mieru úspešnosti agentov GPT-4 o približne 20 percentuálnych bodov pri úlohách s viacerými nástrojmi a znižuje počet interakčných kôl o 30 % — s priamymi dôsledkami pre budovanie spoľahlivých agentov na párovanie v Beancount.

llm

automation

April 28, 2026·mike

LLM zatiaľ nedokážu samy opravovať uvažovanie – zistenia z ICLR 2024 a dôsledky pre finančnú AI

Huang a kol. (ICLR 2024) ukazujú, že LLM vyzvané na kontrolu vlastného uvažovania bez externej spätnej väzby konzistentne znižujú presnosť – GPT-4 klesá z 95,5 % na 91,5 % v teste GSM8K – a čo to znamená pre návrh spoľahlivých agentov pre účtovné zápisy v Beancount.

llm

machine-learning

April 27, 2026·mike

Strom myšlienok: Premyslené riešenie problémov s vyhľadávaním pomocou LLM

Strom myšlienok (ToT) dosahuje 74 % v Hre 24 oproti 4 % pri štandardnom GPT-4 CoT organizovaním uvažovania LLM do rozvetveného vyhľadávacieho stromu s orezávaním a spätným vyhľadávaním — s priamymi dôsledkami pre viacstupňovú finančnú klasifikáciu a daňovú optimalizáciu v pracovných postupoch Beancount.

llm

machine-learning

April 26, 2026·mike

CRITIC: Prečo samooprava LLM vyžaduje spätnú väzbu od externých nástrojov

CRITIC (ICLR 2024) dosahuje zlepšenie F1 o 7,7 v QA s otvorenou doménou a 79,2 % zníženie toxicity tým, že revíziu LLM zakladá na signáloch z externých nástrojov – slučka verifikácie a následnej opravy, ktorá sa priamo vzťahuje na bezpečnosť zápisu pre finančných agentov v Beancount.

llm

machine-learning

April 25, 2026·mike

Reflexion: Jazykoví agenti, ktorí sa učia z chýb bez opätovného trénovania

Reflexion (NeurIPS 2023) umožňuje LLM agentom zlepšovať sa ukladaním verbálnych analýz po zlyhaní do epizodickej vyrovnávacej pamäte – bez potreby aktualizácie váh. S GPT-4 dosahuje 91 % v HumanEval, ale zlyháva vo WebShop-e, čo odhaľuje štrukturálne obmedzenie: verbálne posilňovanie funguje len vtedy, keď evaluátor poskytuje jasný, akcieschopný signál. Tu je vysvetlenie, čo to znamená pre budovanie samoopravného agenta pre účtovnú knihu Beancount.

llm

machine-learning

April 24, 2026·mike

Self-Consistency: Vzorkovanie väčšinovým hlasovaním zvyšuje presnosť Chain-of-Thought

Self-consistency nahrádza chamtivé (greedy) dekódovanie chain-of-thought väčšinovým hlasovaním nad N vzorkovanými cestami uvažovania — čím zvyšuje presnosť GPT-3 na GSM8K o 17,9 percentuálneho bodu bez akéhokoľvek doladenia — a je priamo aplikovateľná na viacstupňové finančné výpočty, kde je jedno dekódovanie LLM nespoľahlivé.

llm

machine-learning

April 23, 2026·mike

PAL: Programovo podporované jazykové modely pre spoľahlivú finančnú aritmetiku

PAL (Programovo podporované jazykové modely) dosahuje o 38 percentuálnych bodov vyššiu presnosť oproti reťazcu myšlienok (chain-of-thought) v úlohách náročných na aritmetiku delegovaním výpočtov na Python interpret — čo je priamo aplikovateľná architektúra pre spoľahlivé dotazy v Beancount účtovných knihách a finančnú AI.

llm

machine-learning

April 22, 2026·mike

Dokážu LLM uvažovať nad tabuľkovými údajmi? Čo nám hovoria štyri benchmarky o finančnej AI

Štyri benchmarky z rokov 2024 – 2025 ukazujú, že GPT-4 dosahuje v reálnom odpovedaní na otázky k tabuľkám 42 % v porovnaní s 86 % u ľudí, pričom komplexné agregácie klesajú na 19,6 % – a natívna syntax Beancount sa nachádza na najhoršom konci hierarchie serializácie pre LLM vstupy.

llm

beancount

April 21, 2026·mike

Konštitučná AI pre účtovných agentov: RLAIF, pravidlá politiky a riziká Goodhartovho zákona

Práca spoločnosti Anthropic o konštitučnej AI (Bai a kol., 2022) trénuje LLM modely na dodržiavanie pravidiel pomocou spätnej väzby generovanej AI namiesto ľudských označení škodlivosti. Tento výskumný denník skúma, ako sa proces kritiky, revízie a preferencií RLAIF prenáša na bezpečnosť zápisu pre autonómnych agentov účtovnej knihy Beancount — a ako vyzerá Goodhartov zákon, zlyhania kalibrácie a riziká dvojakého použitia, keď je „konštitúciou“ účtovná osnova namiesto súboru etických pravidiel.

machine-learning

llm

April 20, 2026·mike

Chain-of-Thought Prompting: Kompromisy medzi presnosťou a úplnosťou pre finančnú AI

Podrobný rozbor článku o Chain-of-Thought od Wei a kol. z roku 2022 a jeho význam pre finančnú AI – prečo CoT zvyšuje presnosť, ale môže znížiť úplnosť pri detekcii zriedkavých udalostí, prečo je prahová hodnota rozsahu dôležitá pre produkčných agentov a na čo by si mal dávať pozor finančný tím stavajúci na LLM.

llm

machine-learning

Zobrazené 73–84 z 87 príspevkov

Predch.7 / 8Ďalší