Saltar al contenido principal
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Ver todos los autores

SWE-agent: Cómo el diseño de interfaces desbloquea la ingeniería de software automatizada
·mike

SWE-agent: Cómo el diseño de interfaces desbloquea la ingeniería de software automatizada

SWE-agent (NeurIPS 2024) introduce las Interfaces Agente-Computadora (ACI) —capas diseñadas específicamente entre los LLM y los entornos de software— mostrando una mejora de 10.7 puntos porcentuales sobre el acceso directo a la shell y una resolución del 12.47% en SWE-bench con GPT-4 Turbo. El diseño de la interfaz, no la capacidad del modelo, es el principal cuello de botella para los agentes de codificación autónomos.

ai
llm
automation
machine-learning
+4
SWE-bench: ¿Pueden los modelos de lenguaje resolver problemas reales de GitHub?
·mike

SWE-bench: ¿Pueden los modelos de lenguaje resolver problemas reales de GitHub?

SWE-bench evalúa modelos de lenguaje en 2,294 problemas reales de GitHub en 12 repositorios de Python mediante pruebas basadas en ejecución; al momento de su publicación, Claude 2 resolvió solo el 1.96% de los problemas con una recuperación realista, estableciendo el benchmark de facto para agentes de codificación y revelando fallos en la recuperación y en la longitud de los parches directamente relevantes para los agentes de escritura de Beancount.

ai
llm
machine-learning
beancount
+3
CodeAct: Por qué el código ejecutable de Python hace que los agentes LLM sean un 20% más precisos
·mike

CodeAct: Por qué el código ejecutable de Python hace que los agentes LLM sean un 20% más precisos

CodeAct (ICML 2024) reemplaza las llamadas a herramientas mediante JSON con código Python ejecutable, mejorando las tasas de éxito de los agentes GPT-4 en aproximadamente 20 puntos porcentuales en tareas multiherramienta y reduciendo los turnos de interacción en un 30%, con implicaciones directas para la creación de agentes de conciliación de Beancount confiables.

ai
llm
automation
machine-learning
+3
Los LLM aún no pueden autocorregir su razonamiento — Hallazgos de ICLR 2024 e implicaciones para la IA en finanzas
·mike

Los LLM aún no pueden autocorregir su razonamiento — Hallazgos de ICLR 2024 e implicaciones para la IA en finanzas

Huang et al. (ICLR 2024) demuestran que los LLM a los que se les pide revisar su propio razonamiento sin retroalimentación externa degradan sistemáticamente su precisión (GPT-4 cae del 95,5 % al 91,5 % en GSM8K) y analizan qué significa esto para el diseño de agentes confiables de asientos contables en Beancount.

llm
ai
machine-learning
automation
+3
Árbol de Pensamientos: Resolución Deliberada de Problemas con Búsqueda de LLM
·mike

Árbol de Pensamientos: Resolución Deliberada de Problemas con Búsqueda de LLM

El Árbol de Pensamientos (ToT) logra un 74% en el Juego del 24 frente al 4% del CoT estándar de GPT-4 al organizar el razonamiento del LLM en un árbol de búsqueda ramificado con poda y retroceso, con implicaciones directas para la clasificación financiera de varios pasos y la optimización fiscal en los flujos de trabajo de Beancount.

ai
llm
machine-learning
automation
+2
CRITIC: Por qué la autocorrección de los LLM requiere retroalimentación de herramientas externas
·mike

CRITIC: Por qué la autocorrección de los LLM requiere retroalimentación de herramientas externas

CRITIC (ICLR 2024) logra mejoras de 7.7 en F1 en QA de dominio abierto y una reducción de toxicidad del 79.2% al basar la revisión de los LLM en señales de herramientas externas — un bucle de verificar-luego-corregir que se aplica directamente a la seguridad de escritura para agentes financieros de Beancount.

ai
llm
machine-learning
automation
+4
Reflexion: Agentes de lenguaje que aprenden de los errores sin reentrenamiento
·mike

Reflexion: Agentes de lenguaje que aprenden de los errores sin reentrenamiento

Reflexion (NeurIPS 2023) permite que los agentes LLM mejoren almacenando análisis post-mortem verbales en un búfer episódico, sin necesidad de actualizar pesos. Alcanza un 91% en HumanEval con GPT-4 pero falla en WebShop, revelando una limitación estructural: el refuerzo verbal solo funciona cuando el evaluador produce una señal clara y accionable. Esto es lo que significa para construir un agente de libro mayor de Beancount autocorregible.

ai
llm
machine-learning
automation
+2
Autoconsistencia: El muestreo por voto mayoritario aumenta la precisión de la cadena de pensamiento
·mike

Autoconsistencia: El muestreo por voto mayoritario aumenta la precisión de la cadena de pensamiento

La autoconsistencia reemplaza la decodificación codiciosa de la cadena de pensamiento con un voto mayoritario sobre N rutas de razonamiento muestreadas — aumentando la precisión de GPT-3 en GSM8K en 17,9 puntos porcentuales sin ajuste fino — y se aplica directamente a cálculos financieros de varios pasos donde una sola decodificación de LLM no es confiable.

ai
llm
machine-learning
automation
+3
PAL: Modelos de Lenguaje Ayudados por Programas para Aritmética Financiera Confiable
·mike

PAL: Modelos de Lenguaje Ayudados por Programas para Aritmética Financiera Confiable

PAL (Program-Aided Language Models) logra una ganancia de precisión de +38pp sobre la cadena de pensamiento en tareas con alta carga aritmética al delegar el cómputo a un intérprete de Python — una arquitectura directamente aplicable para consultas confiables de libros contables de Beancount e IA financiera.

ai
llm
machine-learning
beancount
+3
¿Pueden los LLM razonar sobre datos tabulares? Lo que cuatro evaluaciones nos dicen sobre la IA financiera
·mike

¿Pueden los LLM razonar sobre datos tabulares? Lo que cuatro evaluaciones nos dicen sobre la IA financiera

Cuatro evaluaciones de 2024–2025 muestran que GPT-4 obtiene un 42% en preguntas sobre tablas del mundo real frente al 86% de los humanos, con agregaciones complejas cayendo al 19,6%; además, la sintaxis nativa de Beancount se sitúa en el extremo de peor rendimiento de la jerarquía de serialización para la entrada de LLM.

ai
llm
beancount
data-science
+3
IA Constitucional para agentes contables: RLAIF, reglas de política y riesgos de Goodhart
·mike

IA Constitucional para agentes contables: RLAIF, reglas de política y riesgos de Goodhart

El artículo sobre IA Constitucional de Anthropic (Bai et al., 2022) entrena LLMs para seguir reglas utilizando retroalimentación generada por IA en lugar de etiquetas humanas de daño. Este registro de investigación examina cómo el flujo de trabajo de crítica-revisión-preferencia de RLAIF se aplica a la seguridad de escritura para agentes autónomos de libros contables Beancount — y qué aspecto tienen la ley de Goodhart, los fallos de calibración y los riesgos de doble uso cuando la "constitución" es un plan de cuentas en lugar de un conjunto de reglas éticas.

ai
machine-learning
llm
automation
+3
Prompting de Cadena de Pensamiento: Compensaciones entre Precisión y Sensibilidad para la IA en Finanzas
·mike

Prompting de Cadena de Pensamiento: Compensaciones entre Precisión y Sensibilidad para la IA en Finanzas

Una lectura detallada del artículo de 2022 de Wei et al. sobre la Cadena de Pensamiento y lo que significa para la IA en finanzas — por qué CoT aumenta la precisión pero puede reducir la sensibilidad en la detección de eventos raros, por qué el umbral de escala es importante para los agentes en producción y a qué debe prestar atención un equipo financiero que construye sobre LLMs.

ai
llm
machine-learning
data-science
+3
Mostrando 73–84 de 87 artículos