Salta al contingut principal
Plain-Text Accounting

Tot Sobre Plain-Text Accounting

33 articles
Research grounded in plain-text accounting formats and workflows

Transferència basada en la incertesa per a agents LLM: quan escalar de models petits a grans

ReDAct executa un model petit per defecte i escala a un model car només quan la perplexitat a nivell de tòquens indica incertesa, aconseguint un estalvi de costos del 64% respecte a l'ús exclusiu de GPT-5.2 mentre iguala o supera la seva precisió — un patró aplicable directament als agents de categorització de transaccions de Beancount.

OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances

OpenHands és una plataforma d'agents amb llicència MIT i entorn Docker on CodeAct assoleix un 26% a SWE-Bench Lite — una referència aclaparadora que estableix el que els agents d'IA poden fer de manera fiable avui dia, i per què les primeres implementacions financeres productives haurien de tenir un abast limitat en lloc de ser autònomes.

Els LLM obtenen un 2,3% en la generació de DSL de Beancount: El benchmark LLMFinLiteracy

El benchmark LLMFinLiteracy revela que cinc models de pesos oberts d'uns 7B generen transaccions de Beancount completament correctes només el 2,3% de les vegades, amb errors concentrats en el raonament comptable —no en la sintaxi—, cosa que assenyala el feedback del compilador en el bucle com l'ingredient clau que falta per a agents d'escriptura fiables.

TableMaster: Raonament adaptatiu per a la comprensió de taules amb LLM

TableMaster és un pipeline basat exclusivament en l'ús de promps que assoleix un 78,13% a WikiTQ amb GPT-4o-mini —13 punts per sobre de Chain-of-Table— combinant l'extracció de la taula de focus, la verbalització semàntica i el canvi adaptatiu entre el raonament textual i el simbòlic. Aquí s'explica què significa aquesta arquitectura per als agents d'IA sobre llibres majors financers com Beancount.

τ²-bench: Mesurant el cost del control dual en agents d'IA conversacional

τ²-bench amplia l'avaluació d'agents a entorns de control dual on tant l'IA com l'usuari invoquen eines sobre un estat compartit — descobrint que els usuaris actius redueixen les taxes d'èxit entre 18 i 25 punts percentuals, amb implicacions directes per als agents de Beancount que comparteixen accés d'escriptura amb usuaris humans.

Rendiment GAIA: Mesurant què poden fer realment els agents d'IA de frontera

GAIA avalua 466 tasques del món real en tres nivells de dificultat; els agents de frontera van assolir el 74,55% a mitjans de 2026 enfront del 92% dels humans, i la bretxa restant del Nivell 3 es correspon directament amb els reptes de coordinació multietapa en els fluxos de treball automatitzats del llibre major de Beancount.

WorkArena: Com es comporten els agents web d'LLM en treballs de coneixement empresarial reals

WorkArena avalua els agents web d'LLM en 33 tasques reals de ServiceNow: el GPT-4o arriba al 42,7% global, però al 0% en tasques de filtratge de llistes, revelant una barrera insuperable entre l'emplenat de formularis i la interacció amb la interfície d'usuari estructurada que es relaciona directament amb els reptes de l'automatització de llibres majors de Beancount.

TableLlama: Pot un model obert de 7B igualar GPT-4 en la comprensió de taules?

TableLlama realitza un ajustament fi de Llama 2 (7B) en 2,6 milions d'exemples de tasques amb taules i supera GPT-4 en tasques estructurals com l'anotació de tipus de columna (F1 94 vs 32), però es queda 33 punts per sota en el raonament compositiu de WikiTQ — un referent calibrat del que els models oberts de 7B poden i no poden fer en la IA financera actual.