4 publicaciones etiquetadas con "Decision-making"

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Aplazamiento con Conciencia de Incertidumbre para Agentes LLM: Cuándo Escalar de Modelos Pequeños a Grandes

ReDAct ejecuta un modelo pequeño por defecto y escala a uno costoso solo cuando la perplejidad a nivel de token indica incertidumbre, logrando un ahorro de costos del 64% respecto a usar solo GPT-5.2 y manteniendo o superando su precisión; un patrón aplicable directamente a los agentes de categorización de transacciones de Beancount.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: Evaluación comparativa de agentes de LLM en decisiones de trading financiero

InvestorBench (ACL 2025) evalúa 13 arquitecturas de LLM en trading retroactivo de acciones, criptomonedas y ETF utilizando el rendimiento acumulado y el ratio de Sharpe, en lugar de la precisión de preguntas y respuestas. Qwen2.5-72B lidera la tabla de acciones con un 46.15% de CR; los modelos ajustados para finanzas fallan en las acciones. El tamaño del modelo predice el rendimiento de forma más fiable que el ajuste fino de dominio.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Búsqueda en Árbol de Agentes de Lenguaje — Razonamiento, Acción y Planificación en un solo Marco

LATS (Búsqueda en Árbol de Agentes de Lenguaje, ICML 2024) unifica ReAct, Árbol de Pensamientos y Reflexión en un único marco MCTS, logrando un 92,7% de pass@1 en HumanEval con GPT-4. Para los libros de contabilidad Beancount respaldados por git, el requisito de reversión de estado que limita a LATS en entornos de producción se satisface de manera trivial.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Árbol de Pensamientos: Resolución Deliberada de Problemas con Búsqueda de LLM

El Árbol de Pensamientos (ToT) logra un 74% en el Juego del 24 frente al 4% del CoT estándar de GPT-4 al organizar el razonamiento del LLM en un árbol de búsqueda ramificado con poda y retroceso, con implicaciones directas para la clasificación financiera de varios pasos y la optimización fiscal en los flujos de trabajo de Beancount.

Todo sobre Decision-making

Aplazamiento con Conciencia de Incertidumbre para Agentes LLM: Cuándo Escalar de Modelos Pequeños a Grandes

InvestorBench: Evaluación comparativa de agentes de LLM en decisiones de trading financiero

LATS: Búsqueda en Árbol de Agentes de Lenguaje — Razonamiento, Acción y Planificación en un solo Marco

Árbol de Pensamientos: Resolución Deliberada de Problemas con Búsqueda de LLM

Comience con Beancount.io

Primeros pasos

Funciones

Comunidad

Legal