Mike Thrift

Marketing Manager

June 18, 2026·mike

τ²-bench: Meranie nákladov na duálne riadenie v konverzačných AI agentoch

τ²-bench rozširuje benchmarkovanie agentov na nastavenia s duálnym riadením, kde AI aj používateľ vyvolávajú nástroje nad zdieľaným stavom – pričom zisťuje, že aktívni používatelia znižujú mieru úspešnosti o 18 – 25 percentuálnych bodov, čo má priame dôsledky pre agentov Beancount zdieľajúcich prístup na zápis s ľudskými používateľmi.

llm

automation

June 17, 2026·mike

WorkArena++: 93 % priepasť medzi výkonom ľudí a AI agentov pri kompozičných podnikových úlohách

WorkArena++ (NeurIPS 2024) porovnáva 682 kompozičných podnikových úloh v troch úrovniach náročnosti. GPT-4o rieši 2,1 % z nich, zatiaľ čo ľudia 93,9 %, čím presne izoluje dôvody, prečo súčasní AI agenti zlyhávajú pri vedomostnej práci s implicitnými cieľmi a prečo na tejto priepasti záleží pri autonómnej automatizácii účtovníctva.

llm

automation

June 16, 2026·mike

GAIA Benchmark: Meranie toho, čo hraničné AI agenty skutočne dokážu

GAIA testuje 466 reálnych úloh v troch úrovniach náročnosti; hraničné agenty dosiahli v polovici roku 2026 úspešnosť 74,55 % oproti 92 % u ľudí, pričom zostávajúca medzera na úrovni 3 priamo korešponduje s výzvami viacstupňovej koordinácie v automatizovaných pracovných tokoch účtovných kníh Beancount.

llm

machine-learning

June 15, 2026·mike

OSWorld: Desktop AI Agents Succeed on 12% of Tasks Where Humans Succeed on 72%

OSWorld (NeurIPS 2024) benchmarks multimodal AI agents on 369 real desktop tasks across Ubuntu, Windows, and macOS — finding a 60-percentage-point gap between the best model (12.24%) and human performance (72.36%), with 75% of failures traced to visuomotor grounding errors rather than reasoning failures.

machine-learning

automation

June 14, 2026·mike

WebArena: Benchmark s 812 úlohami, ktorý meria, čo weboví agenti skutočne dokážu a čo nie

GPT-4 dokončí iba 14,41 % z 812 realistických webových úloh WebArena, zatiaľ čo ľudia dosahujú 78,24 %; dominantným režimom zlyhania je falošná nerealizovateľnosť — konzervatívne odmietnutie konať — s priamymi dôsledkami pre akéhokoľvek agenta ovládajúceho Fava alebo finančné webové rozhrania.

llm

automation

June 13, 2026·mike

WorkArena: Ako si weboví agenti LLM poradia so skutočnou podnikovou znalostnou prácou

WorkArena testuje webových agentov LLM na 33 reálnych úlohách v systéme ServiceNow – GPT-4o dosahuje celkovú úspešnosť 42,7 %, ale 0 % pri úlohách s filtrovaním zoznamov, čo odhaľuje neprekonateľnú bariéru medzi vypĺňaním formulárov a štruktúrovanou interakciou s UI, ktorá priamo súvisí s výzvami pri automatizácii účtovnej knihy Beancount.

llm

automation

June 12, 2026·mike

τ-bench: Meranie spoľahlivosti AI agentov v reálnych doménach s použitím nástrojov

τ-bench ukazuje, že špičkové LLM ako Claude 3.5 Sonnet klesajú z pass@1 na úrovni 0,692 na pass@4 na úrovni 0,462 v úlohách zákazníckeho servisu v maloobchode – ide o prepad v konzistencii s priamymi dôsledkami pre akéhokoľvek write-back agenta pracujúceho s Beancount účtovnou knihou.

llm

machine-learning

June 11, 2026·mike

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.

llm

machine-learning

June 10, 2026·mike

TableLlama: Dokáže otvorený model so 7B parametrami konkurovať GPT-4 v porozumení tabuliek?

TableLlama dolaďuje model Llama 2 (7B) na 2,6 milióna príkladoch tabuľkových úloh a prekonáva GPT-4 v štrukturálnych úlohách, ako je anotácia typov stĺpcov (F1 94 vs 32), ale stráca 33 bodov v kompozičnom uvažovaní WikiTQ — kalibrovaný benchmark toho, čo otvorené 7B modely dnes v oblasti finančnej AI dokážu a čo nie.

llm

machine-learning

June 9, 2026·mike

TAPAS: Slabo dohliadané tabuľkové QA bez SQL a čo to znamená pre Beancount

TAPAS (Google Research, ACL 2020) odpovedá na tabuľkové otázky výberom buniek a aplikovaním skalárnych agregácií – bez generovania SQL. Tento príspevok analyzuje architektúru, jej 12-bodový nárast presnosti SQA a prečo paradigma výberu buniek vyhovuje malým dopytom v Beancount účtovných knihách, ale zlyháva pri väčšom rozsahu.

machine-learning

llm

June 8, 2026·mike

MAC-SQL: Spolupráca viacerých agentov pri prevode textu na SQL

MAC-SQL (COLING 2025) využíva troch špecializovaných agentov — Selector na redukciu schémy, Decomposer na dekompozíciu otázok a Refiner na opravu SQL riadenú vykonávaním — na dosiahnutie 59,59 % presnosti vykonávania v benchmarku BIRD; ablácia ukazuje, že Refiner prispieva najviac (+4,63 bodu), s priamymi dôsledkami pre generovanie dopytov v účtovných knihách Beancount.

machine-learning

database

June 7, 2026·mike

DIN-SQL: Dekomponované učenie v kontexte pre Text-to-SQL

DIN-SQL (NeurIPS 2023) rozkladá proces text-to-SQL na fázy prepájania schém, klasifikácie zložitosti a generovania SQL, čím zvyšuje presnosť vykonávania GPT-4 na benchmarku Spider zo 67,4 % na 85,3 % bez jemného ladenia – a tá istá stratégia dekompozície sa priamo prenáša na rozhrania v prirodzenom jazyku pre dopytovací jazyk BQL nástroja Beancount.

llm

database

Zobrazené 25–36 z 87 príspevkov

Predch.3 / 8Ďalší