Bean Labs Research Log

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: Raonament adaptatiu per a la comprensió de taules amb LLM

TableMaster és un pipeline basat exclusivament en l'ús de promps que assoleix un 78,13% a WikiTQ amb GPT-4o-mini —13 punts per sobre de Chain-of-Table— combinant l'extracció de la taula de focus, la verbalització semàntica i el canvi adaptatiu entre el raonament textual i el simbòlic. Aquí s'explica què significa aquesta arquitectura per als agents d'IA sobre llibres majors financers com Beancount.

Latest articles

AILLMFraud DetectionMachine LearningData ScienceBeancountAutomation

Detecció d'anomalies Zero-Shot amb LLMs: Com es comporta GPT-4 amb dades tabulars

GPT-4 aconsegueix una mitjana de 74,1 AUROC al benchmark ODDS sense ajustament fi —gairebé igualant la línia base clàssica ECOD de 75,5— però falla en anomalies multidimensionals i conjunts de dades d'alta variància; una revisió crítica de la detecció d'anomalies zero-shot amb LLM i les seves implicacions per a l'auditoria automatitzada de llibres majors de Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Raonament financer de context llarg sobre presentacions completes de la SEC

DocFinQA substitueix els passatges seleccionats de 700 paraules de FinQA per presentacions completes de la SEC de 123.000 paraules, exposant un augment de context de 175 vegades que gairebé redueix a la meitat la precisió de GPT-4 en documents llargs. Els fluxos de recuperació no aconsegueixen trobar el fragment correcte el 45% de les vegades a HR@3 — i els models de context llarg no són un substitut.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Avaluació comparativa d'agents LLM en tasques empresarials del món real

TheAgentCompany avalua 175 tasques reals del lloc de treball en una intranet simulada amb GitLab, OwnCloud i RocketChat. El millor model (Gemini-2.5-Pro) completa només el 30% de les tasques a un cost de 4 $ per tasca, fet que revela que els agents autònoms encara estan lluny de ser viables per als fluxos de treball comptables i financers.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: Mesurant el cost del control dual en agents d'IA conversacional

τ²-bench amplia l'avaluació d'agents a entorns de control dual on tant l'IA com l'usuari invoquen eines sobre un estat compartit — descobrint que els usuaris actius redueixen les taxes d'èxit entre 18 i 25 punts percentuals, amb implicacions directes per als agents de Beancount que comparteixen accés d'escriptura amb usuaris humans.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: La bretxa del 93% entre el rendiment humà i el dels agents d'IA en tasques empresarials composicionals

WorkArena++ (NeurIPS 2024) avalua 682 tasques empresarials composicionals en tres nivells de dificultat. GPT-4o en resol el 2,1% mentre que els humans en resolen el 93,9%, identificant exactament per què els agents d'IA actuals fallen en el treball de coneixement amb objectius implícits i per què aquesta bretxa és rellevant per a l'automatització comptable autònoma.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

Rendiment GAIA: Mesurant què poden fer realment els agents d'IA de frontera

GAIA avalua 466 tasques del món real en tres nivells de dificultat; els agents de frontera van assolir el 74,55% a mitjans de 2026 enfront del 92% dels humans, i la bretxa restant del Nivell 3 es correspon directament amb els reptes de coordinació multietapa en els fluxos de treball automatitzats del llibre major de Beancount.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Desktop AI Agents Succeed on 12% of Tasks Where Humans Succeed on 72%

OSWorld (NeurIPS 2024) benchmarks multimodal AI agents on 369 real desktop tasks across Ubuntu, Windows, and macOS — finding a 60-percentage-point gap between the best model (12.24%) and human performance (72.36%), with 75% of failures traced to visuomotor grounding errors rather than reasoning failures.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: El referent de 812 tasques que mesura el que els agents web realment poden i no poden fer

El GPT-4 completa només el 14,41% de les 812 tasques web realistes de WebArena mentre que els humans arriben al 78,24%; el mode de fallada dominant és la falsa inviabilitat —rebuig conservador a actuar— amb implicacions directes per a qualsevol agent que operi Fava o interfícies web financeres.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Com es comporten els agents web d'LLM en treballs de coneixement empresarial reals

WorkArena avalua els agents web d'LLM en 33 tasques reals de ServiceNow: el GPT-4o arriba al 42,7% global, però al 0% en tasques de filtratge de llistes, revelant una barrera insuperable entre l'emplenat de formularis i la interacció amb la interfície d'usuari estructurada que es relaciona directament amb els reptes de l'automatització de llibres majors de Beancount.

Comença amb Beancount.io

Pren el control de les teves finances amb el nostre sistema de comptabilitat per partida doble de codi obert. Comença el teu llibre comptable avui mateix.

Comença gratis Veure preus

Creat amb transparència • Controlat per versions • Impulsat per IA