Bean Labs Research Log

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Poden els agents LLM ser CFO? La simulació de 132 mesos d'EnterpriseArena revela una gran bretxa

EnterpriseArena posa a prova 11 LLM a través d'una simulació de CFO de 132 mesos seguint la supervivència, la valoració final i les taxes de tancament de llibres. Només Qwen3.5-9B sobreviu al 80% de les execucions; GPT-5.4 i DeepSeek-V3.1 arriben al 0%. Els experts humans aconsegueixen una supervivència del 100% amb 5 vegades el valor final. El coll d'ampolla crític: els LLM ometen la conciliació del llibre major el 80% de les vegades, actuant sobre un estat financer obsolet.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real

WildToolBench (ICLR 2026) avalua 57 LLM en 1.024 tasques extretes del comportament real dels usuaris — cap model supera el 15% de precisió de sessió, sent l'orquestració compositiva, la intenció oculta i les transicions d'instruccions els tres modes de fallada més acusats.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca

Una enquesta sistemàtica sobre els mètodes d'estimació de la confiança i el calibratge dels LLM —enfocaments logit de caixa blanca, SelfCheckGPT basat en la consistència i entropia semàntica— revela que les puntuacions de confiança verbalitzades del GPT-4 només assoleixen un AUROC del ~62,7%, a penes per sobre de l'atzar, amb implicacions directes per al desplegament d'agents conscients de la incertesa en les finances i la comptabilitat.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: La complexitat dels esquemes del món real trenca les garanties de sortida estructurada dels LLM

JSONSchemaBench avalua 9.558 esquemes JSON del món real amb sis entorns de descodificació restringida i conclou que la complexitat dels esquemes provoca un col·lapse de la cobertura del 86% en esquemes simples al 3% en els complexos; XGrammar emet silenciosament 38 sortides no conformes i cap entorn cobreix les 45 categories de funcions de JSON Schema.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking d'agents LLM per a l'ús d'eines financeres del món real sota MCP

FinMCP-Bench avalua sis models LLM en 613 tasques reals d'ús d'eines financeres amb el suport de 65 servidors MCP: el millor model obté un 3,08% de coincidència exacta en tasques de múltiples torns, revelant un col·lapse del rendiment de 20 vegades des d'escenaris d'una sola eina a múltiples torns.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres

FinTrace avalua 13 LLM en 800 trajectòries de tasques financeres anotades per experts a través de 9 mètriques, trobant que els models de frontera aconsegueixen una selecció d'eines robusta (F1 ~0,9) però només obtenen una puntuació de 3,23/5 en utilització de la informació, el pas on els agents raonen sobre el que retornen les eines.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real

FinToolBench combina 760 eines d'API financeres en viu amb 295 consultes executables per avaluar agents LLM en tasques financeres reals — descobrint que la taxa d'invocació conservadora del 22,7% de GPT-4o ofereix una major qualitat de resposta (CSS 0,670) que el TIR agressiu del 87,1% de Qwen3-8B, mentre que el desajust d'intencions supera el 50% en tots els models provats.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

OmniEval (EMNLP 2025) avalua els sistemes RAG en 5 tipus de tasques × 16 temes financers utilitzant 11,4 mil casos de prova generats automàticament. Els millors sistemes només assoleixen un 36% de precisió numèrica — una prova concreta que els fluxos RAG necessiten capes de validació abans d'escriure en llibres comptables financers estructurats.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent

Una lectura crítica de l'enquesta de Xu i Ding per a la NAACL 2025 sobre la detecció d'anomalies i OOD basada en LLM: la taxonomia detecció-vs-generació es manté, però l'absència gairebé total de cobertura tabular significa que els professionals de la IA financera han de sintetitzar els coneixements dels models de visió ells mateixos.

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

Latest articles

Poden els agents LLM ser CFO? La simulació de 132 mesos d'EnterpriseArena revela una gran bretxa

WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real

Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca

JSONSchemaBench: La complexitat dels esquemes del món real trenca les garanties de sortida estructurada dels LLM

FinMCP-Bench: Benchmarking d'agents LLM per a l'ús d'eines financeres del món real sota MCP

FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres

FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal