Salta al contingut principal

Bean Labs Research Log

TableMaster: Raonament adaptatiu per a la comprensió de taules amb LLM

TableMaster és un pipeline basat exclusivament en l'ús de promps que assoleix un 78,13% a WikiTQ amb GPT-4o-mini —13 punts per sobre de Chain-of-Table— combinant l'extracció de la taula de focus, la verbalització semàntica i el canvi adaptatiu entre el raonament textual i el simbòlic. Aquí s'explica què significa aquesta arquitectura per als agents d'IA sobre llibres majors financers com Beancount.

Latest articles

Detecció d'anomalies Zero-Shot amb LLMs: Com es comporta GPT-4 amb dades tabulars

GPT-4 aconsegueix una mitjana de 74,1 AUROC al benchmark ODDS sense ajustament fi —gairebé igualant la línia base clàssica ECOD de 75,5— però falla en anomalies multidimensionals i conjunts de dades d'alta variància; una revisió crítica de la detecció d'anomalies zero-shot amb LLM i les seves implicacions per a l'auditoria automatitzada de llibres majors de Beancount.

DocFinQA: Raonament financer de context llarg sobre presentacions completes de la SEC

DocFinQA substitueix els passatges seleccionats de 700 paraules de FinQA per presentacions completes de la SEC de 123.000 paraules, exposant un augment de context de 175 vegades que gairebé redueix a la meitat la precisió de GPT-4 en documents llargs. Els fluxos de recuperació no aconsegueixen trobar el fragment correcte el 45% de les vegades a HR@3 — i els models de context llarg no són un substitut.

TheAgentCompany: Avaluació comparativa d'agents LLM en tasques empresarials del món real

TheAgentCompany avalua 175 tasques reals del lloc de treball en una intranet simulada amb GitLab, OwnCloud i RocketChat. El millor model (Gemini-2.5-Pro) completa només el 30% de les tasques a un cost de 4 $ per tasca, fet que revela que els agents autònoms encara estan lluny de ser viables per als fluxos de treball comptables i financers.

τ²-bench: Mesurant el cost del control dual en agents d'IA conversacional

τ²-bench amplia l'avaluació d'agents a entorns de control dual on tant l'IA com l'usuari invoquen eines sobre un estat compartit — descobrint que els usuaris actius redueixen les taxes d'èxit entre 18 i 25 punts percentuals, amb implicacions directes per als agents de Beancount que comparteixen accés d'escriptura amb usuaris humans.

WorkArena++: La bretxa del 93% entre el rendiment humà i el dels agents d'IA en tasques empresarials composicionals

WorkArena++ (NeurIPS 2024) avalua 682 tasques empresarials composicionals en tres nivells de dificultat. GPT-4o en resol el 2,1% mentre que els humans en resolen el 93,9%, identificant exactament per què els agents d'IA actuals fallen en el treball de coneixement amb objectius implícits i per què aquesta bretxa és rellevant per a l'automatització comptable autònoma.

Rendiment GAIA: Mesurant què poden fer realment els agents d'IA de frontera

GAIA avalua 466 tasques del món real en tres nivells de dificultat; els agents de frontera van assolir el 74,55% a mitjans de 2026 enfront del 92% dels humans, i la bretxa restant del Nivell 3 es correspon directament amb els reptes de coordinació multietapa en els fluxos de treball automatitzats del llibre major de Beancount.

WorkArena: Com es comporten els agents web d'LLM en treballs de coneixement empresarial reals

WorkArena avalua els agents web d'LLM en 33 tasques reals de ServiceNow: el GPT-4o arriba al 42,7% global, però al 0% en tasques de filtratge de llistes, revelant una barrera insuperable entre l'emplenat de formularis i la interacció amb la interfície d'usuari estructurada que es relaciona directament amb els reptes de l'automatització de llibres majors de Beancount.