Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Ver todos los autores

GuardAgent: Cumplimiento de seguridad determinista para agentes de LLM mediante ejecución de código
·mike

GuardAgent: Cumplimiento de seguridad determinista para agentes de LLM mediante ejecución de código

GuardAgent (ICML 2025) sitúa un agente de LLM independiente entre un agente objetivo y su entorno, verificando cada acción propuesta mediante la generación y ejecución de código Python; logra una precisión del 98.7% en la aplicación de políticas y mantiene el 100% de la finalización de tareas, en comparación con el 81% de precisión y el 29-71% de fallos en tareas de las reglas de seguridad integradas en el prompt.

ai
llm
automation
security
+3
Debate de LLM multiagente: Ganancias reales de precisión, cómputo no controlado y delusión colectiva
·mike

Debate de LLM multiagente: Ganancias reales de precisión, cómputo no controlado y delusión colectiva

Una lectura detallada del artículo sobre debate multiagente de Du et al. en ICML 2024 —que informa ganancias de precisión de 14.8 puntos en aritmética— junto con refutaciones de 2025 que muestran que los agentes individuales con el mismo presupuesto igualan el rendimiento del debate, y un análisis de por qué la delusión colectiva (65% de los fallos del debate) plantea riesgos específicos para los registros asistidos por IA.

ai
llm
machine-learning
automation
+2
Los LLM no son útiles para el pronóstico de series temporales: lo que NeurIPS 2024 significa para la IA financiera
·mike

Los LLM no son útiles para el pronóstico de series temporales: lo que NeurIPS 2024 significa para la IA financiera

Un artículo Spotlight de NeurIPS 2024 analiza tres métodos de pronóstico de series temporales basados en LLM (OneFitsAll, Time-LLM y CALF) y descubre que eliminar el modelo de lenguaje mejora la precisión en la mayoría de los casos, con una aceleración del entrenamiento de hasta 1,383 veces. Para aplicaciones de IA financiera como la predicción de saldos en Beancount, los modelos ligeros diseñados específicamente superan consistentemente a los LLM reutilizados.

ai
machine-learning
forecasting
data-science
+3
AuditCopilot: LLMs para la detección de fraude en contabilidad de partida doble
·mike

AuditCopilot: LLMs para la detección de fraude en contabilidad de partida doble

AuditCopilot aplica LLMs de código abierto (Mistral-8B, Gemma, Llama-3.1) a la detección de fraude en asientos de diario corporativos, reduciendo los falsos positivos de 942 a 12; sin embargo, la ablación revela que el LLM funciona principalmente como una capa de síntesis sobre las puntuaciones de Isolation Forest, no como un detector de anomalías independiente.

fraud-detection
llm
double-entry
journal-entries
+4
TAT-LLM: LLaMA 2 ajustado para razonamiento discreto sobre tablas y textos financieros
·mike

TAT-LLM: LLaMA 2 ajustado para razonamiento discreto sobre tablas y textos financieros

TAT-LLM ajusta LLaMA 2 7B con LoRA en benchmarks de QA de tablas y textos financieros, logrando un 64,60% de EM en FinQA — superando el 63,91% de GPT-4 — al descomponer el razonamiento en pasos deterministas de Extracción-Razonamiento-Ejecución que eliminan errores aritméticos.

llm
ai
machine-learning
finance
+3
Ajuste fino (Fine-Tuning) vs. RAG: Por qué la recuperación gana al inyectar nuevo conocimiento en LLMs
·mike

Ajuste fino (Fine-Tuning) vs. RAG: Por qué la recuperación gana al inyectar nuevo conocimiento en LLMs

La comparación empírica de RAG frente al ajuste fino no supervisado en LLMs de 7 mil millones de parámetros muestra que RAG alcanza una precisión de más de 0,875 en hechos posteriores al corte de conocimiento, mientras que el ajuste fino se estanca en 0,504, con implicaciones directas para el diseño de agentes de Beancount y cualquier sistema que requiera actualizaciones frecuentes de conocimiento.

ai
llm
machine-learning
data-science
+3
IRCoT: Entrelazando la Recuperación con Cadena de Pensamiento para QA de Múltiples Pasos
·mike

IRCoT: Entrelazando la Recuperación con Cadena de Pensamiento para QA de Múltiples Pasos

IRCoT entrelaza la recuperación BM25 con cada paso de un bucle de razonamiento de cadena de pensamiento, logrando +11.3 en recuperación y +7.1 en F1 en HotpotQA sobre RAG de un solo paso — y muestra que un modelo de 3B puede superar a GPT-3 de 175B cuando la estrategia de recuperación es la adecuada.

ai
llm
machine-learning
automation
+3
FLARE: Generación Aumentada por Recuperación Activa
·mike

FLARE: Generación Aumentada por Recuperación Activa

FLARE (EMNLP 2023) mejora el RAG estándar al activar la recuperación a mitad de la generación mediante umbrales de confianza de probabilidad de tokens, alcanzando un 51.0 EM en 2WikiMultihopQA frente al 39.4 de la recuperación única; sin embargo, los fallos de calibración en los modelos de chat ajustados por instrucciones limitan su fiabilidad para agentes financieros de producción.

ai
machine-learning
llm
retrieval-augmented-generation
+3
Generación aumentada por recuperación para tareas de PLN con uso intensivo de conocimiento
·mike

Generación aumentada por recuperación para tareas de PLN con uso intensivo de conocimiento

El artículo de Lewis et al. de NeurIPS 2020 introdujo la arquitectura híbrida RAG —un generador BART-large emparejado con un recuperador indexado por FAISS sobre 21 millones de pasajes de Wikipedia— logrando 44.5 EM en Natural Questions y estableciendo la división paramétrica/no paramétrica que ahora subyace en la mayoría de los sistemas de IA en producción. Esta revisión cubre los compromisos entre RAG-Sequence y RAG-Token, el modo de fallo de colapso de recuperación y lo que significan los índices obsoletos para la IA financiera construida sobre libros de contabilidad Beancount de solo adición.

ai
machine-learning
llm
data-science
+2
MultiHiertt: Evaluación del razonamiento numérico en tablas financieras multi-jerárquicas
·mike

MultiHiertt: Evaluación del razonamiento numérico en tablas financieras multi-jerárquicas

MultiHiertt (ACL 2022) presenta 10,440 pares de preguntas y respuestas de informes financieros reales con un promedio de 3.89 tablas jerárquicas cada uno; los modelos de vanguardia obtienen un F1 del 38% frente al 87% de los humanos, con una penalización de 15 puntos para las preguntas entre tablas, cuantificando la brecha de recuperación que la IA financiera debe cerrar.

ai
machine-learning
llm
financial-reporting
+3
ConvFinQA: QA financiero de turnos múltiples y la brecha de 21 puntos entre modelos y expertos humanos
·mike

ConvFinQA: QA financiero de turnos múltiples y la brecha de 21 puntos entre modelos y expertos humanos

ConvFinQA (EMNLP 2022) extiende FinQA a conversaciones de turnos múltiples sobre informes de ganancias del S&P 500, encontrando que el mejor modelo ajustado logra una precisión de ejecución del 68,9% frente al 89,4% de los expertos humanos, y cae al 52,4% en conversaciones híbridas de múltiples aspectos donde los modelos deben mantener el contexto numérico a través de diferentes temas financieros.

ai
llm
machine-learning
finance
+3
TAT-QA: Benchmark de QA Híbrido de Tabla y Texto para el Razonamiento de Informes Financieros Anuales
·mike

TAT-QA: Benchmark de QA Híbrido de Tabla y Texto para el Razonamiento de Informes Financieros Anuales

TAT-QA es un benchmark de 16.552 preguntas sobre contextos de informes financieros híbridos de tabla más texto que demostró que la fundamentación en la evidencia —no la aritmética— es el cuello de botella central en la IA financiera; para 2024, los LLM de 7B ajustados alcanzaron un 83% de F1, cerrando la mayor parte de la brecha frente al techo humano del 91%.

ai
machine-learning
llm
finance
+2
Mostrando 49–60 de 87 artículos