Prejsť na hlavný obsah

Bean Labs Research Log

TableMaster: Adaptívne uvažovanie pre porozumenie tabuľkám pomocou LLM

TableMaster je pipeline založená výhradne na promptingu, ktorá dosahuje 78,13 % v benchmarku WikiTQ s modelom GPT-4o-mini – o 13 bodov viac ako Chain-of-Table – kombinovaním extrakcie tabuľky záujmu, sémantickej verbalizácie a adaptívneho prepínania medzi textovým a symbolickým uvažovaním. Tu je význam tejto architektúry pre AI agentov nad finančnými knihami ako Beancount.

Latest articles

Detekcia anomálií s nulovým učením pomocou LLM: Ako GPT-4 funguje pri tabuľkových dátach

GPT-4 dosahuje priemerné AUROC 74,1 v benchmarku ODDS bez jemného doladenia — čím takmer vyrovnáva klasickú referenčnú hodnotu ECOD na úrovni 75,5 — ale zlyháva pri multidimenzionálnych anomáliách a dátových sadách s vysokým rozptylom; kritický prehľad zero-shot detekcie anomálií pomocou LLM a jej dôsledkov pre automatizovaný audit účtovných kníh Beancount.

DocFinQA: Dlho-kontextové finančné uvažovanie na úplných podaniach SEC

DocFinQA nahrádza kurátorované 700-slovné pasáže z FinQA úplnými podaniami SEC so 123 000 slovami, čím odhaľuje 175-násobný nárast kontextu, ktorý takmer o polovicu znižuje presnosť GPT-4 na dlhých dokumentoch. Vyhľadávacie procesy v 45 % prípadov pri HR@3 nedokážu nájsť správny úsek — a modely s dlhým kontextom nie sú náhradou.

TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta

TheAgentCompany testuje 175 reálnych pracovných úloh v rámci simulovaného intranetu s GitLab, OwnCloud a RocketChat. Najlepší model (Gemini-2.5-Pro) dokončí iba 30 % úloh pri cene 4 USD za každú, čo odhaľuje, že autonómni agenti sú stále ďaleko od využiteľnosti pre účtovné a finančné pracovné postupy.

τ²-bench: Meranie nákladov na duálne riadenie v konverzačných AI agentoch

τ²-bench rozširuje benchmarkovanie agentov na nastavenia s duálnym riadením, kde AI aj používateľ vyvolávajú nástroje nad zdieľaným stavom – pričom zisťuje, že aktívni používatelia znižujú mieru úspešnosti o 18 – 25 percentuálnych bodov, čo má priame dôsledky pre agentov Beancount zdieľajúcich prístup na zápis s ľudskými používateľmi.

WorkArena++: 93 % priepasť medzi výkonom ľudí a AI agentov pri kompozičných podnikových úlohách

WorkArena++ (NeurIPS 2024) porovnáva 682 kompozičných podnikových úloh v troch úrovniach náročnosti. GPT-4o rieši 2,1 % z nich, zatiaľ čo ľudia 93,9 %, čím presne izoluje dôvody, prečo súčasní AI agenti zlyhávajú pri vedomostnej práci s implicitnými cieľmi a prečo na tejto priepasti záleží pri autonómnej automatizácii účtovníctva.

WebArena: Benchmark s 812 úlohami, ktorý meria, čo weboví agenti skutočne dokážu a čo nie

GPT-4 dokončí iba 14,41 % z 812 realistických webových úloh WebArena, zatiaľ čo ľudia dosahujú 78,24 %; dominantným režimom zlyhania je falošná nerealizovateľnosť — konzervatívne odmietnutie konať — s priamymi dôsledkami pre akéhokoľvek agenta ovládajúceho Fava alebo finančné webové rozhrania.

WorkArena: Ako si weboví agenti LLM poradia so skutočnou podnikovou znalostnou prácou

WorkArena testuje webových agentov LLM na 33 reálnych úlohách v systéme ServiceNow – GPT-4o dosahuje celkovú úspešnosť 42,7 %, ale 0 % pri úlohách s filtrovaním zoznamov, čo odhaľuje neprekonateľnú bariéru medzi vypĺňaním formulárov a štruktúrovanou interakciou s UI, ktorá priamo súvisí s výzvami pri automatizácii účtovnej knihy Beancount.