Ir al contenido principal
Queries

Todo sobre Queries

8 artículos
Query generation, table reasoning, and structured data retrieval for financial AI

TableMaster: Razonamiento Adaptativo para la Comprensión de Tablas con LLMs

TableMaster es un pipeline basado únicamente en prompts que alcanza un 78.13% en WikiTQ con GPT-4o-mini —13 puntos por encima de Chain-of-Table— mediante la combinación de extracción de tabla de enfoque, verbalización semántica y cambio adaptativo entre el razonamiento textual y simbólico. He aquí lo que esta arquitectura significa para los agentes de IA sobre libros contables financieros como Beancount.

Chain-of-Table: Evolución de tablas en la cadena de razonamiento de LLM

Chain-of-Table (ICLR 2024) mejora el razonamiento tabular de los LLM al evolucionar la propia tabla como estado intermedio, logrando un 67,31 % en WikiTQ frente al 61,48 % de las líneas base anteriores, con una ventaja de +10,25 puntos en tablas que superan los 4.000 tokens y aplicabilidad directa a agentes de consulta de libros mayores de Beancount.

TableLlama: ¿Puede un modelo abierto de 7B igualar a GPT-4 en la comprensión de tablas?

TableLlama ajusta Llama 2 (7B) con 2,6 millones de ejemplos de tareas de tablas y supera a GPT-4 en tareas estructurales como la anotación de tipos de columnas (F1 94 vs 32), pero queda 33 puntos por debajo en el razonamiento compositivo de WikiTQ; un referente calibrado de lo que los modelos abiertos de 7B pueden y no pueden hacer hoy en la IA financiera.

TAPAS: Table QA débilmente supervisado sin SQL y qué significa para Beancount

TAPAS (Google Research, ACL 2020) responde preguntas sobre tablas seleccionando celdas y aplicando agregaciones escalares, sin generar SQL. Este post analiza la arquitectura, su ganancia de precisión de 12 puntos en SQA y por qué el paradigma de selección de celdas se adapta a consultas pequeñas de libros mayores de Beancount pero falla a gran escala.

MAC-SQL: Text-to-SQL colaborativo multi-agente

MAC-SQL (COLING 2025) utiliza tres agentes especializados — Selector para la reducción de esquemas, Decomposer para la descomposición de preguntas y Refiner para la corrección de SQL guiada por la ejecución — para alcanzar una precisión de ejecución del 59,59% en el benchmark BIRD; la ablación muestra que el Refiner es el que más contribuye (+4,63 puntos), con implicaciones directas para la generación de consultas en libros mayores de Beancount.

DIN-SQL: Aprendizaje en Contexto Descompuesto para Text-to-SQL

DIN-SQL (NeurIPS 2023) descompone text-to-SQL en etapas de vinculación de esquemas, clasificación de complejidad y generación de SQL, elevando la precisión de ejecución de GPT-4 en Spider del 67.4% al 85.3% sin ajuste fino — y la misma estrategia de descomposición se aplica directamente a las interfaces de lenguaje natural para el lenguaje de consulta BQL de Beancount.

GraphRAG: Del Resumen Local al Global Enfocado en Consultas

GraphRAG de Microsoft construye un grafo de entidades particionado por Leiden sobre un corpus de texto y precalcula resúmenes de comunidad para responder preguntas de comprensión global que el RAG vectorial estándar no puede manejar — pero una auditoría de sesgo de 2025 muestra que sus tasas de éxito del 72–83% colapsan tras corregir los artefactos de posición y longitud en la evaluación de LLM como juez.