Mike Thrift

Marketing Manager

June 18, 2026·mike

τ²-bench: Mesurant el cost del control dual en agents d'IA conversacional

τ²-bench amplia l'avaluació d'agents a entorns de control dual on tant l'IA com l'usuari invoquen eines sobre un estat compartit — descobrint que els usuaris actius redueixen les taxes d'èxit entre 18 i 25 punts percentuals, amb implicacions directes per als agents de Beancount que comparteixen accés d'escriptura amb usuaris humans.

llm

automation

June 17, 2026·mike

WorkArena++: La bretxa del 93% entre el rendiment humà i el dels agents d'IA en tasques empresarials composicionals

WorkArena++ (NeurIPS 2024) avalua 682 tasques empresarials composicionals en tres nivells de dificultat. GPT-4o en resol el 2,1% mentre que els humans en resolen el 93,9%, identificant exactament per què els agents d'IA actuals fallen en el treball de coneixement amb objectius implícits i per què aquesta bretxa és rellevant per a l'automatització comptable autònoma.

llm

automation

June 16, 2026·mike

Rendiment GAIA: Mesurant què poden fer realment els agents d'IA de frontera

GAIA avalua 466 tasques del món real en tres nivells de dificultat; els agents de frontera van assolir el 74,55% a mitjans de 2026 enfront del 92% dels humans, i la bretxa restant del Nivell 3 es correspon directament amb els reptes de coordinació multietapa en els fluxos de treball automatitzats del llibre major de Beancount.

llm

machine-learning

June 15, 2026·mike

OSWorld: Desktop AI Agents Succeed on 12% of Tasks Where Humans Succeed on 72%

OSWorld (NeurIPS 2024) benchmarks multimodal AI agents on 369 real desktop tasks across Ubuntu, Windows, and macOS — finding a 60-percentage-point gap between the best model (12.24%) and human performance (72.36%), with 75% of failures traced to visuomotor grounding errors rather than reasoning failures.

machine-learning

automation

June 14, 2026·mike

WebArena: El referent de 812 tasques que mesura el que els agents web realment poden i no poden fer

El GPT-4 completa només el 14,41% de les 812 tasques web realistes de WebArena mentre que els humans arriben al 78,24%; el mode de fallada dominant és la falsa inviabilitat —rebuig conservador a actuar— amb implicacions directes per a qualsevol agent que operi Fava o interfícies web financeres.

llm

automation

June 13, 2026·mike

WorkArena: Com es comporten els agents web d'LLM en treballs de coneixement empresarial reals

WorkArena avalua els agents web d'LLM en 33 tasques reals de ServiceNow: el GPT-4o arriba al 42,7% global, però al 0% en tasques de filtratge de llistes, revelant una barrera insuperable entre l'emplenat de formularis i la interacció amb la interfície d'usuari estructurada que es relaciona directament amb els reptes de l'automatització de llibres majors de Beancount.

llm

automation

June 12, 2026·mike

τ-bench: Mesurant la fiabilitat dels agents d'IA en dominis d'ús d'eines del món real

τ-bench mostra que els millors LLM com Claude 3.5 Sonnet cauen d'un pass@1 de 0,692 a un pass@4 de 0,462 en tasques d'atenció al client minorista — un penya-segat de consistència amb implicacions directes per a qualsevol agent d'escriptura que operi en un llibre major de Beancount.

llm

machine-learning

June 11, 2026·mike

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.

llm

machine-learning

June 10, 2026·mike

TableLlama: Pot un model obert de 7B igualar GPT-4 en la comprensió de taules?

TableLlama realitza un ajustament fi de Llama 2 (7B) en 2,6 milions d'exemples de tasques amb taules i supera GPT-4 en tasques estructurals com l'anotació de tipus de columna (F1 94 vs 32), però es queda 33 punts per sota en el raonament compositiu de WikiTQ — un referent calibrat del que els models oberts de 7B poden i no poden fer en la IA financera actual.

llm

machine-learning

June 9, 2026·mike

TAPAS: Weakly Supervised Table QA Without SQL, and What It Means for Beancount

TAPAS (Google Research, ACL 2020) answers table questions by selecting cells and applying scalar aggregations — no SQL generated. This post analyzes the architecture, its 12-point SQA accuracy gain, and why the cell-selection paradigm fits small Beancount ledger queries but breaks down at scale.

machine-learning

llm

June 8, 2026·mike

MAC-SQL: Text-to-SQL col·laboratiu multiagent

MAC-SQL (COLING 2025) utilitza tres agents especialitzats — Selector per a la reducció d'esquema, Decomposer per a la descomposició de preguntes i Refiner per a la correcció de SQL guiada per l'execució — per assolir una precisió d'execució del 59,59% al banc de proves BIRD; l'ablació mostra que el Refiner és el que més contribueix (+4,63 punts), amb implicacions directes per a la generació de consultes de llibres majors de Beancount.

machine-learning

database

June 7, 2026·mike

DIN-SQL: Aprenentatge en context descompost per a Text-to-SQL

DIN-SQL (NeurIPS 2023) descomposa el text-a-SQL en etapes de vinculació d'esquemes, classificació de complexitat i generació de SQL, elevant el GPT-4 del 67,4% al 85,3% de precisió d'execució a Spider sense ajustos fins — i la mateixa estratègia de descomposició s'aplica directament a les interfícies de llenguatge natural per al llenguatge de consultes BQL de Beancount.

llm

database

Mostrant 25–36 de 87 articles

Anterior3 / 8Següent