Mike Thrift

Marketing Manager

May 13, 2026·mike

FinQA: El benchmark que mide el razonamiento numérico de la IA en informes financieros

FinQA (EMNLP 2021) construyó 8,281 pares de preguntas y respuestas a partir de informes de ganancias del S&P 500 que requieren programas aritméticos de múltiples pasos. Los modelos neuronales obtuvieron una puntuación del 61% en el momento de su lanzamiento frente al 91% de los expertos humanos; la precisión se desploma al 22% en programas de tres o más pasos. Los modos de falla (constantes de dominio, fundamentación intermodal, longitud de la cadena) se corresponden directamente con los desafíos que enfrentan los agentes de Beancount hoy en día.

machine-learning

llm

May 12, 2026·mike

FinanceBench: Por qué el RAG de almacenamiento de vectores falla con documentos financieros reales

FinanceBench evalúa 16 configuraciones de IA frente a 10,231 preguntas de presentaciones reales ante la SEC; el RAG de almacenamiento de vectores compartido responde correctamente solo el 19% de las veces, e incluso GPT-4-Turbo con el pasaje del oráculo alcanza solo el 85% de precisión, lo que demuestra que el razonamiento numérico, no la recuperación, es la limitación crítica para la IA financiera empresarial.

llm

machine-learning

May 11, 2026·mike

DSPy: Reemplazando la Frágil Ingeniería de Prompts con Pipelines de LLM Compilados

DSPy reemplaza las cadenas de prompts hechas a mano con firmas declarativas y un compilador basado en métricas, elevando a Llama2-13b del 9.4% al 46.9% en razonamiento matemático GSM8K y ofreciendo un camino más mantenible para pipelines de IA financiera en producción.

llm

machine-learning

May 10, 2026·mike

LATS: Búsqueda en Árbol de Agentes de Lenguaje — Razonamiento, Acción y Planificación en un solo Marco

LATS (Búsqueda en Árbol de Agentes de Lenguaje, ICML 2024) unifica ReAct, Árbol de Pensamientos y Reflexión en un único marco MCTS, logrando un 92,7% de pass@1 en HumanEval con GPT-4. Para los libros de contabilidad Beancount respaldados por git, el requisito de reversión de estado que limita a LATS en entornos de producción se satisface de manera trivial.

llm

machine-learning

May 9, 2026·mike

Self-RAG: Recuperación Adaptativa y Autocrítica para LLMs

Self-RAG (ICLR 2024 Oral) entrena un modelo de lenguaje para decidir cuándo recuperar información y luego calificar sus propios resultados utilizando cuatro tokens de reflexión, alcanzando un 55.8% en PopQA y un 80.2 de FactScore en biografías, superando a ChatGPT en cinco pruebas de rendimiento. El análisis cubre el mecanismo, los resultados de ablación, los límites de reproducibilidad y las implicaciones para los agentes de IA financiera sobre libros mayores de Beancount.

machine-learning

llm

May 8, 2026·mike

Voyager: Bibliotecas de habilidades como base para el aprendizaje permanente de agentes de IA

Voyager, un agente de Minecraft impulsado por GPT-4 de NVIDIA y Caltech, demuestra que una biblioteca de habilidades de código persistente permite un aprendizaje permanente genuino sin ajuste fino, descubriendo 3,3 veces más elementos que el estado del arte anterior. El patrón se aplica directamente a la automatización de libros mayores de Beancount a largo plazo, aunque la corrección financiera exige capas de entorno de pruebas que los sandboxes de juegos nunca requieren.

llm

machine-learning

May 7, 2026·mike

HippoRAG: Memoria a largo plazo para LLMs inspirada en la neurobiología

HippoRAG (NeurIPS 2024) construye un grafo de conocimiento a partir de triples OpenIE y aplica PageRank Personalizado en el momento de la consulta, alcanzando un Recall@5 del 89,1% en 2WikiMultiHopQA frente al 68,2% de ColBERTv2, con implicaciones directas para consultar libros contables financieros complejos a través de historiales de transacciones de varios años.

llm

machine-learning

May 6, 2026·mike

AgentBench: Evaluación de LLMs como agentes — Lecciones para la fiabilidad de la IA en finanzas

AgentBench (Liu et al., ICLR 2024) evalúa 27 LLM en 8 entornos interactivos: GPT-4 obtuvo una puntuación general de 4,01 frente a 0,96 del mejor modelo de código abierto. Los tres modos de fallo dominantes (límite de tareas excedido en el 67,9% de los fallos de grafos de conocimiento, errores de formato en el 53,3% de los fallos de bases de datos y acciones inválidas) se corresponden directamente con los riesgos de desplegar un agente de escritura de Beancount en un libro mayor real.

llm

machine-learning

May 5, 2026·mike

BloombergGPT y los límites de los LLM especializados en finanzas

Bloomberg entrenó un LLM de 50 mil millones de parámetros con 569 mil millones de tokens de datos financieros y superó a los modelos generales en evaluaciones de sentimiento y razonamiento sobre tablas; luego, GPT-4 lo igualó sin ningún preentrenamiento específico en finanzas. Lo que el experimento de 10 millones de dólares revela sobre los compromisos del preentrenamiento de dominio, la tokenización de números y por qué el uso de herramientas es más confiable que los componentes internos del modelo para los agentes contables.

llm

machine-learning

May 4, 2026·mike

AutoGen: Marcos de Conversación Multi-Agente para IA en Finanzas

AutoGen (Wu et al., 2023) introduce un marco de conversación multi-agente donde los agentes respaldados por LLM intercambian mensajes para completar tareas; una configuración de dos agentes eleva la precisión de la referencia MATH del 55% al 69%, y un agente SafeGuard dedicado mejora la detección de código no seguro hasta en 35 puntos F1 — hallazgos directamente aplicables a la creación de flujos de automatización de Beancount seguros y modulares.

llm

automation

May 3, 2026·mike

Gorilla: Cómo el entrenamiento consciente de la recuperación reduce las alucinaciones de las API en los LLM del 78% al 11%

Gorilla (Patil et al., NeurIPS 2024) realiza un ajuste fino de un modelo LLaMA de 7B con Entrenamiento Consciente del Recuperador (RAT) sobre documentación de API recuperada, reduciendo las tasas de alucinación del 78% al 11% frente a GPT-4 zero-shot — con implicaciones directas para agentes de escritura de IA financiera donde los nombres de cuenta incorrectos o los signos invertidos son fallos de integridad, no simples molestias.

llm

machine-learning

May 2, 2026·mike

MemGPT: Gestión de contexto virtual para agentes de LLM

MemGPT aplica la paginación de memoria virtual al estilo de los sistemas operativos a los LLM, utilizando un almacenamiento de tres niveles (memoria de trabajo, recuperación y archivo) para dar a los agentes un recuerdo persistente entre sesiones; en pruebas de chat multisesión, MemGPT con GPT-4 alcanza una precisión del 92,5% frente a una base de referencia de contexto fijo del 32,1%.

llm

machine-learning

Mostrando 61–72 de 87 artículos

Anterior6 / 8Siguiente