Bean Labs Research Log

AILLMFraud DetectionMachine LearningData ScienceBeancountAutomation

Detekcia anomálií s nulovým učením pomocou LLM: Ako GPT-4 funguje pri tabuľkových dátach

GPT-4 dosahuje priemerné AUROC 74,1 v benchmarku ODDS bez jemného doladenia — čím takmer vyrovnáva klasickú referenčnú hodnotu ECOD na úrovni 75,5 — ale zlyháva pri multidimenzionálnych anomáliách a dátových sadách s vysokým rozptylom; kritický prehľad zero-shot detekcie anomálií pomocou LLM a jej dôsledkov pre automatizovaný audit účtovných kníh Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Dlho-kontextové finančné uvažovanie na úplných podaniach SEC

DocFinQA nahrádza kurátorované 700-slovné pasáže z FinQA úplnými podaniami SEC so 123 000 slovami, čím odhaľuje 175-násobný nárast kontextu, ktorý takmer o polovicu znižuje presnosť GPT-4 na dlhých dokumentoch. Vyhľadávacie procesy v 45 % prípadov pri HR@3 nedokážu nájsť správny úsek — a modely s dlhým kontextom nie sú náhradou.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta

TheAgentCompany testuje 175 reálnych pracovných úloh v rámci simulovaného intranetu s GitLab, OwnCloud a RocketChat. Najlepší model (Gemini-2.5-Pro) dokončí iba 30 % úloh pri cene 4 USD za každú, čo odhaľuje, že autonómni agenti sú stále ďaleko od využiteľnosti pre účtovné a finančné pracovné postupy.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: Meranie nákladov na duálne riadenie v konverzačných AI agentoch

τ²-bench rozširuje benchmarkovanie agentov na nastavenia s duálnym riadením, kde AI aj používateľ vyvolávajú nástroje nad zdieľaným stavom – pričom zisťuje, že aktívni používatelia znižujú mieru úspešnosti o 18 – 25 percentuálnych bodov, čo má priame dôsledky pre agentov Beancount zdieľajúcich prístup na zápis s ľudskými používateľmi.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: 93 % priepasť medzi výkonom ľudí a AI agentov pri kompozičných podnikových úlohách

WorkArena++ (NeurIPS 2024) porovnáva 682 kompozičných podnikových úloh v troch úrovniach náročnosti. GPT-4o rieši 2,1 % z nich, zatiaľ čo ľudia 93,9 %, čím presne izoluje dôvody, prečo súčasní AI agenti zlyhávajú pri vedomostnej práci s implicitnými cieľmi a prečo na tejto priepasti záleží pri autonómnej automatizácii účtovníctva.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

GAIA Benchmark: Meranie toho, čo hraničné AI agenty skutočne dokážu

GAIA testuje 466 reálnych úloh v troch úrovniach náročnosti; hraničné agenty dosiahli v polovici roku 2026 úspešnosť 74,55 % oproti 92 % u ľudí, pričom zostávajúca medzera na úrovni 3 priamo korešponduje s výzvami viacstupňovej koordinácie v automatizovaných pracovných tokoch účtovných kníh Beancount.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Desktop AI Agents Succeed on 12% of Tasks Where Humans Succeed on 72%

OSWorld (NeurIPS 2024) benchmarks multimodal AI agents on 369 real desktop tasks across Ubuntu, Windows, and macOS — finding a 60-percentage-point gap between the best model (12.24%) and human performance (72.36%), with 75% of failures traced to visuomotor grounding errors rather than reasoning failures.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: Benchmark s 812 úlohami, ktorý meria, čo weboví agenti skutočne dokážu a čo nie

GPT-4 dokončí iba 14,41 % z 812 realistických webových úloh WebArena, zatiaľ čo ľudia dosahujú 78,24 %; dominantným režimom zlyhania je falošná nerealizovateľnosť — konzervatívne odmietnutie konať — s priamymi dôsledkami pre akéhokoľvek agenta ovládajúceho Fava alebo finančné webové rozhrania.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Ako si weboví agenti LLM poradia so skutočnou podnikovou znalostnou prácou

WorkArena testuje webových agentov LLM na 33 reálnych úlohách v systéme ServiceNow – GPT-4o dosahuje celkovú úspešnosť 42,7 %, ale 0 % pri úlohách s filtrovaním zoznamov, čo odhaľuje neprekonateľnú bariéru medzi vypĺňaním formulárov a štruktúrovanou interakciou s UI, ktorá priamo súvisí s výzvami pri automatizácii účtovnej knihy Beancount.

TableMaster: Adaptívne uvažovanie pre porozumenie tabuľkám pomocou LLM

Latest articles

Detekcia anomálií s nulovým učením pomocou LLM: Ako GPT-4 funguje pri tabuľkových dátach

DocFinQA: Dlho-kontextové finančné uvažovanie na úplných podaniach SEC

TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta

τ²-bench: Meranie nákladov na duálne riadenie v konverzačných AI agentoch

WorkArena++: 93 % priepasť medzi výkonom ľudí a AI agentov pri kompozičných podnikových úlohách

GAIA Benchmark: Meranie toho, čo hraničné AI agenty skutočne dokážu

OSWorld: Desktop AI Agents Succeed on 12% of Tasks Where Humans Succeed on 72%

WebArena: Benchmark s 812 úlohami, ktorý meria, čo weboví agenti skutočne dokážu a čo nie

WorkArena: Ako si weboví agenti LLM poradia so skutočnou podnikovou znalostnou prácou

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie