33 publicaciones etiquetadas con "Plain-Text Accounting"

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Aplazamiento con Conciencia de Incertidumbre para Agentes LLM: Cuándo Escalar de Modelos Pequeños a Grandes

ReDAct ejecuta un modelo pequeño por defecto y escala a uno costoso solo cuando la perplejidad a nivel de token indica incertidumbre, logrando un ahorro de costos del 64% respecto a usar solo GPT-5.2 y manteniendo o superando su precisión; un patrón aplicable directamente a los agentes de categorización de transacciones de Beancount.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Plataforma abierta para agentes de software de IA y lo que significa para la automatización financiera

OpenHands es una plataforma de agentes con licencia MIT y entorno de pruebas Docker donde CodeAct logra un 26% en SWE-Bench Lite — un benchmark revelador que establece lo que los agentes de IA pueden hacer de manera confiable hoy en día, y por qué los primeros despliegues financieros productivos deben tener un alcance limitado en lugar de ser autónomos.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

Los LLM obtienen un 2,3% en la generación de DSL de Beancount: El benchmark LLMFinLiteracy

El benchmark LLMFinLiteracy revela que cinco modelos de pesos abiertos de ~7B generan transacciones de Beancount totalmente correctas solo el 2,3% de las veces, con fallos concentrados en el razonamiento contable —no en la sintaxis—, lo que señala al feedback del compilador en el bucle como el ingrediente crítico que falta para agentes de escritura fiables.

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: Razonamiento Adaptativo para la Comprensión de Tablas con LLMs

TableMaster es un pipeline basado únicamente en prompts que alcanza un 78.13% en WikiTQ con GPT-4o-mini —13 puntos por encima de Chain-of-Table— mediante la combinación de extracción de tabla de enfoque, verbalización semántica y cambio adaptativo entre el razonamiento textual y simbólico. He aquí lo que esta arquitectura significa para los agentes de IA sobre libros contables financieros como Beancount.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: Midiendo el costo del control dual en agentes de IA conversacional

τ²-bench extiende las pruebas de rendimiento de agentes a entornos de control dual donde tanto la IA como el usuario invocan herramientas sobre un estado compartido — encontrando que los usuarios activos reducen las tasas de éxito en 18–25 puntos porcentuales, con implicaciones directas para los agentes de Beancount que comparten acceso de escritura con usuarios humanos.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

Benchmark GAIA: Midiendo lo que los agentes de IA de vanguardia realmente pueden hacer

GAIA evalúa 466 tareas del mundo real en tres niveles de dificultad; los agentes de vanguardia alcanzaron el 74.55% a mediados de 2026 frente al 92% de los humanos, y la brecha restante del Nivel 3 se vincula directamente con los desafíos de coordinación de múltiples pasos en los flujos de trabajo automatizados de libros contables de Beancount.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Cómo se desempeñan los agentes web de LLM en el trabajo de conocimiento empresarial real

WorkArena evalúa agentes web de LLM en 33 tareas reales de ServiceNow; GPT-4o alcanza un 42,7% global pero un 0% en tareas de filtrado de listas, exponiendo una barrera crítica entre el llenado de formularios y la interacción de interfaz de usuario estructurada que se traduce directamente en desafíos para la automatización de libros de Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Midiendo la confiabilidad de los agentes de IA en dominios de uso de herramientas del mundo real

τ-bench muestra que los LLM de primer nivel como Claude 3.5 Sonnet caen de un pass@1 de 0.692 a un pass@4 de 0.462 en tareas de servicio al cliente minorista — un abismo de consistencia con implicaciones directas para cualquier agente de escritura que opere en un libro mayor de Beancount.

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evolución de tablas en la cadena de razonamiento de LLM

Chain-of-Table (ICLR 2024) mejora el razonamiento tabular de los LLM al evolucionar la propia tabla como estado intermedio, logrando un 67,31 % en WikiTQ frente al 61,48 % de las líneas base anteriores, con una ventaja de +10,25 puntos en tablas que superan los 4.000 tokens y aplicabilidad directa a agentes de consulta de libros mayores de Beancount.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: ¿Puede un modelo abierto de 7B igualar a GPT-4 en la comprensión de tablas?

TableLlama ajusta Llama 2 (7B) con 2,6 millones de ejemplos de tareas de tablas y supera a GPT-4 en tareas estructurales como la anotación de tipos de columnas (F1 94 vs 32), pero queda 33 puntos por debajo en el razonamiento compositivo de WikiTQ; un referente calibrado de lo que los modelos abiertos de 7B pueden y no pueden hacer hoy en la IA financiera.

Todo sobre Plain-Text Accounting

Aplazamiento con Conciencia de Incertidumbre para Agentes LLM: Cuándo Escalar de Modelos Pequeños a Grandes

OpenHands: Plataforma abierta para agentes de software de IA y lo que significa para la automatización financiera

Los LLM obtienen un 2,3% en la generación de DSL de Beancount: El benchmark LLMFinLiteracy

TableMaster: Razonamiento Adaptativo para la Comprensión de Tablas con LLMs

τ²-bench: Midiendo el costo del control dual en agentes de IA conversacional

Benchmark GAIA: Midiendo lo que los agentes de IA de vanguardia realmente pueden hacer

WorkArena: Cómo se desempeñan los agentes web de LLM en el trabajo de conocimiento empresarial real

τ-bench: Midiendo la confiabilidad de los agentes de IA en dominios de uso de herramientas del mundo real

Chain-of-Table: Evolución de tablas en la cadena de razonamiento de LLM

TableLlama: ¿Puede un modelo abierto de 7B igualar a GPT-4 en la comprensión de tablas?

Comience con Beancount.io

Primeros pasos

Funciones

Comunidad

Legal