Ir al contenido principal
Plain-Text Accounting

Todo sobre Plain-Text Accounting

33 artículos
Research grounded in plain-text accounting formats and workflows

Aplazamiento con Conciencia de Incertidumbre para Agentes LLM: Cuándo Escalar de Modelos Pequeños a Grandes

ReDAct ejecuta un modelo pequeño por defecto y escala a uno costoso solo cuando la perplejidad a nivel de token indica incertidumbre, logrando un ahorro de costos del 64% respecto a usar solo GPT-5.2 y manteniendo o superando su precisión; un patrón aplicable directamente a los agentes de categorización de transacciones de Beancount.

OpenHands: Plataforma abierta para agentes de software de IA y lo que significa para la automatización financiera

OpenHands es una plataforma de agentes con licencia MIT y entorno de pruebas Docker donde CodeAct logra un 26% en SWE-Bench Lite — un benchmark revelador que establece lo que los agentes de IA pueden hacer de manera confiable hoy en día, y por qué los primeros despliegues financieros productivos deben tener un alcance limitado en lugar de ser autónomos.

Los LLM obtienen un 2,3% en la generación de DSL de Beancount: El benchmark LLMFinLiteracy

El benchmark LLMFinLiteracy revela que cinco modelos de pesos abiertos de ~7B generan transacciones de Beancount totalmente correctas solo el 2,3% de las veces, con fallos concentrados en el razonamiento contable —no en la sintaxis—, lo que señala al feedback del compilador en el bucle como el ingrediente crítico que falta para agentes de escritura fiables.

TableMaster: Razonamiento Adaptativo para la Comprensión de Tablas con LLMs

TableMaster es un pipeline basado únicamente en prompts que alcanza un 78.13% en WikiTQ con GPT-4o-mini —13 puntos por encima de Chain-of-Table— mediante la combinación de extracción de tabla de enfoque, verbalización semántica y cambio adaptativo entre el razonamiento textual y simbólico. He aquí lo que esta arquitectura significa para los agentes de IA sobre libros contables financieros como Beancount.

τ²-bench: Midiendo el costo del control dual en agentes de IA conversacional

τ²-bench extiende las pruebas de rendimiento de agentes a entornos de control dual donde tanto la IA como el usuario invocan herramientas sobre un estado compartido — encontrando que los usuarios activos reducen las tasas de éxito en 18–25 puntos porcentuales, con implicaciones directas para los agentes de Beancount que comparten acceso de escritura con usuarios humanos.

Benchmark GAIA: Midiendo lo que los agentes de IA de vanguardia realmente pueden hacer

GAIA evalúa 466 tareas del mundo real en tres niveles de dificultad; los agentes de vanguardia alcanzaron el 74.55% a mediados de 2026 frente al 92% de los humanos, y la brecha restante del Nivel 3 se vincula directamente con los desafíos de coordinación de múltiples pasos en los flujos de trabajo automatizados de libros contables de Beancount.

WorkArena: Cómo se desempeñan los agentes web de LLM en el trabajo de conocimiento empresarial real

WorkArena evalúa agentes web de LLM en 33 tareas reales de ServiceNow; GPT-4o alcanza un 42,7% global pero un 0% en tareas de filtrado de listas, exponiendo una barrera crítica entre el llenado de formularios y la interacción de interfaz de usuario estructurada que se traduce directamente en desafíos para la automatización de libros de Beancount.

Chain-of-Table: Evolución de tablas en la cadena de razonamiento de LLM

Chain-of-Table (ICLR 2024) mejora el razonamiento tabular de los LLM al evolucionar la propia tabla como estado intermedio, logrando un 67,31 % en WikiTQ frente al 61,48 % de las líneas base anteriores, con una ventaja de +10,25 puntos en tablas que superan los 4.000 tokens y aplicabilidad directa a agentes de consulta de libros mayores de Beancount.

TableLlama: ¿Puede un modelo abierto de 7B igualar a GPT-4 en la comprensión de tablas?

TableLlama ajusta Llama 2 (7B) con 2,6 millones de ejemplos de tareas de tablas y supera a GPT-4 en tareas estructurales como la anotación de tipos de columnas (F1 94 vs 32), pero queda 33 puntos por debajo en el razonamiento compositivo de WikiTQ; un referente calibrado de lo que los modelos abiertos de 7B pueden y no pueden hacer hoy en la IA financiera.