57 entrades etiquetades amb "Automation"

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Poden els agents LLM ser CFO? La simulació de 132 mesos d'EnterpriseArena revela una gran bretxa

EnterpriseArena posa a prova 11 LLM a través d'una simulació de CFO de 132 mesos seguint la supervivència, la valoració final i les taxes de tancament de llibres. Només Qwen3.5-9B sobreviu al 80% de les execucions; GPT-5.4 i DeepSeek-V3.1 arriben al 0%. Els experts humans aconsegueixen una supervivència del 100% amb 5 vegades el valor final. El coll d'ampolla crític: els LLM ometen la conciliació del llibre major el 80% de les vegades, actuant sobre un estat financer obsolet.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real

WildToolBench (ICLR 2026) avalua 57 LLM en 1.024 tasques extretes del comportament real dels usuaris — cap model supera el 15% de precisió de sessió, sent l'orquestració compositiva, la intenció oculta i les transicions d'instruccions els tres modes de fallada més acusats.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: La complexitat dels esquemes del món real trenca les garanties de sortida estructurada dels LLM

JSONSchemaBench avalua 9.558 esquemes JSON del món real amb sis entorns de descodificació restringida i conclou que la complexitat dels esquemes provoca un col·lapse de la cobertura del 86% en esquemes simples al 3% en els complexos; XGrammar emet silenciosament 38 sortides no conformes i cap entorn cobreix les 45 categories de funcions de JSON Schema.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking d'agents LLM per a l'ús d'eines financeres del món real sota MCP

FinMCP-Bench avalua sis models LLM en 613 tasques reals d'ús d'eines financeres amb el suport de 65 servidors MCP: el millor model obté un 3,08% de coincidència exacta en tasques de múltiples torns, revelant un col·lapse del rendiment de 20 vegades des d'escenaris d'una sola eina a múltiples torns.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres

FinTrace avalua 13 LLM en 800 trajectòries de tasques financeres anotades per experts a través de 9 mètriques, trobant que els models de frontera aconsegueixen una selecció d'eines robusta (F1 ~0,9) però només obtenen una puntuació de 3,23/5 en utilització de la informació, el pas on els agents raonen sobre el que retornen les eines.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real

FinToolBench combina 760 eines d'API financeres en viu amb 295 consultes executables per avaluar agents LLM en tasques financeres reals — descobrint que la taxa d'invocació conservadora del 22,7% de GPT-4o ofereix una major qualitat de resposta (CSS 0,670) que el TIR agressiu del 87,1% de Qwen3-8B, mentre que el desajust d'intencions supera el 50% en tots els models provats.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

OmniEval (EMNLP 2025) avalua els sistemes RAG en 5 tipus de tasques × 16 temes financers utilitzant 11,4 mil casos de prova generats automàticament. Els millors sistemes només assoleixen un 36% de precisió numèrica — una prova concreta que els fluxos RAG necessiten capes de validació abans d'escriure en llibres comptables financers estructurats.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Trobats al mig: el calibratge del biaix d'atenció posicional millora el RAG de context llarg

Un calibratge en temps d'inferència sense entrenament resta el biaix posicional dels pesos d'atenció de l'LLM, recuperant fins a 15 punts percentuals de precisió en RAG quan els documents recuperats estan enterrats al mig del context, i què significa això per als fluxos de treball d'agents financers.

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Transferència basada en la incertesa per a agents LLM: quan escalar de models petits a grans

ReDAct executa un model petit per defecte i escala a un model car només quan la perplexitat a nivell de tòquens indica incertesa, aconseguint un estalvi de costos del 64% respecte a l'ús exclusiu de GPT-5.2 mentre iguala o supera la seva precisió — un patró aplicable directament als agents de categorització de transaccions de Beancount.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances

OpenHands és una plataforma d'agents amb llicència MIT i entorn Docker on CodeAct assoleix un 26% a SWE-Bench Lite — una referència aclaparadora que estableix el que els agents d'IA poden fer de manera fiable avui dia, i per què les primeres implementacions financeres productives haurien de tenir un abast limitat en lloc de ser autònomes.

Tot Sobre Automation

Poden els agents LLM ser CFO? La simulació de 132 mesos d'EnterpriseArena revela una gran bretxa

WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real

JSONSchemaBench: La complexitat dels esquemes del món real trenca les garanties de sortida estructurada dels LLM

FinMCP-Bench: Benchmarking d'agents LLM per a l'ús d'eines financeres del món real sota MCP

FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres

FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

Trobats al mig: el calibratge del biaix d'atenció posicional millora el RAG de context llarg

Transferència basada en la incertesa per a agents LLM: quan escalar de models petits a grans

OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal