33 entrades etiquetades amb "Plain-Text Accounting"

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Transferència basada en la incertesa per a agents LLM: quan escalar de models petits a grans

ReDAct executa un model petit per defecte i escala a un model car només quan la perplexitat a nivell de tòquens indica incertesa, aconseguint un estalvi de costos del 64% respecte a l'ús exclusiu de GPT-5.2 mentre iguala o supera la seva precisió — un patró aplicable directament als agents de categorització de transaccions de Beancount.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances

OpenHands és una plataforma d'agents amb llicència MIT i entorn Docker on CodeAct assoleix un 26% a SWE-Bench Lite — una referència aclaparadora que estableix el que els agents d'IA poden fer de manera fiable avui dia, i per què les primeres implementacions financeres productives haurien de tenir un abast limitat en lloc de ser autònomes.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

Els LLM obtenen un 2,3% en la generació de DSL de Beancount: El benchmark LLMFinLiteracy

El benchmark LLMFinLiteracy revela que cinc models de pesos oberts d'uns 7B generen transaccions de Beancount completament correctes només el 2,3% de les vegades, amb errors concentrats en el raonament comptable —no en la sintaxi—, cosa que assenyala el feedback del compilador en el bucle com l'ingredient clau que falta per a agents d'escriptura fiables.

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: Raonament adaptatiu per a la comprensió de taules amb LLM

TableMaster és un pipeline basat exclusivament en l'ús de promps que assoleix un 78,13% a WikiTQ amb GPT-4o-mini —13 punts per sobre de Chain-of-Table— combinant l'extracció de la taula de focus, la verbalització semàntica i el canvi adaptatiu entre el raonament textual i el simbòlic. Aquí s'explica què significa aquesta arquitectura per als agents d'IA sobre llibres majors financers com Beancount.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: Mesurant el cost del control dual en agents d'IA conversacional

τ²-bench amplia l'avaluació d'agents a entorns de control dual on tant l'IA com l'usuari invoquen eines sobre un estat compartit — descobrint que els usuaris actius redueixen les taxes d'èxit entre 18 i 25 punts percentuals, amb implicacions directes per als agents de Beancount que comparteixen accés d'escriptura amb usuaris humans.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

Rendiment GAIA: Mesurant què poden fer realment els agents d'IA de frontera

GAIA avalua 466 tasques del món real en tres nivells de dificultat; els agents de frontera van assolir el 74,55% a mitjans de 2026 enfront del 92% dels humans, i la bretxa restant del Nivell 3 es correspon directament amb els reptes de coordinació multietapa en els fluxos de treball automatitzats del llibre major de Beancount.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Com es comporten els agents web d'LLM en treballs de coneixement empresarial reals

WorkArena avalua els agents web d'LLM en 33 tasques reals de ServiceNow: el GPT-4o arriba al 42,7% global, però al 0% en tasques de filtratge de llistes, revelant una barrera insuperable entre l'emplenat de formularis i la interacció amb la interfície d'usuari estructurada que es relaciona directament amb els reptes de l'automatització de llibres majors de Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Mesurant la fiabilitat dels agents d'IA en dominis d'ús d'eines del món real

τ-bench mostra que els millors LLM com Claude 3.5 Sonnet cauen d'un pass@1 de 0,692 a un pass@4 de 0,462 en tasques d'atenció al client minorista — un penya-segat de consistència amb implicacions directes per a qualsevol agent d'escriptura que operi en un llibre major de Beancount.

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Pot un model obert de 7B igualar GPT-4 en la comprensió de taules?

TableLlama realitza un ajustament fi de Llama 2 (7B) en 2,6 milions d'exemples de tasques amb taules i supera GPT-4 en tasques estructurals com l'anotació de tipus de columna (F1 94 vs 32), però es queda 33 punts per sota en el raonament compositiu de WikiTQ — un referent calibrat del que els models oberts de 7B poden i no poden fer en la IA financera actual.

Tot Sobre Plain-Text Accounting

Transferència basada en la incertesa per a agents LLM: quan escalar de models petits a grans

OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances

Els LLM obtenen un 2,3% en la generació de DSL de Beancount: El benchmark LLMFinLiteracy

TableMaster: Raonament adaptatiu per a la comprensió de taules amb LLM

τ²-bench: Mesurant el cost del control dual en agents d'IA conversacional

Rendiment GAIA: Mesurant què poden fer realment els agents d'IA de frontera

WorkArena: Com es comporten els agents web d'LLM en treballs de coneixement empresarial reals

τ-bench: Mesurant la fiabilitat dels agents d'IA en dominis d'ús d'eines del món real

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

TableLlama: Pot un model obert de 7B igualar GPT-4 en la comprensió de taules?

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal