FinanceBench evalúa 16 configuraciones de IA frente a 10,231 preguntas de presentaciones reales ante la SEC; el RAG de almacenamiento de vectores compartido responde correctamente solo el 19% de las veces, e incluso GPT-4-Turbo con el pasaje del oráculo alcanza solo el 85% de precisión, lo que demuestra que el razonamiento numérico, no la recuperación, es la limitación crítica para la IA financiera empresarial.
DSPy reemplaza las cadenas de prompts hechas a mano con firmas declarativas y un compilador basado en métricas, elevando a Llama2-13b del 9.4% al 46.9% en razonamiento matemático GSM8K y ofreciendo un camino más mantenible para pipelines de IA financiera en producción.
LATS (Búsqueda en Árbol de Agentes de Lenguaje, ICML 2024) unifica ReAct, Árbol de Pensamientos y Reflexión en un único marco MCTS, logrando un 92,7% de pass@1 en HumanEval con GPT-4. Para los libros de contabilidad Beancount respaldados por git, el requisito de reversión de estado que limita a LATS en entornos de producción se satisface de manera trivial.
Self-RAG (ICLR 2024 Oral) entrena un modelo de lenguaje para decidir cuándo recuperar información y luego calificar sus propios resultados utilizando cuatro tokens de reflexión, alcanzando un 55.8% en PopQA y un 80.2 de FactScore en biografías, superando a ChatGPT en cinco pruebas de rendimiento. El análisis cubre el mecanismo, los resultados de ablación, los límites de reproducibilidad y las implicaciones para los agentes de IA financiera sobre libros mayores de Beancount.
Voyager, un agente de Minecraft impulsado por GPT-4 de NVIDIA y Caltech, demuestra que una biblioteca de habilidades de código persistente permite un aprendizaje permanente genuino sin ajuste fino, descubriendo 3,3 veces más elementos que el estado del arte anterior. El patrón se aplica directamente a la automatización de libros mayores de Beancount a largo plazo, aunque la corrección financiera exige capas de entorno de pruebas que los sandboxes de juegos nunca requieren.
HippoRAG (NeurIPS 2024) construye un grafo de conocimiento a partir de triples OpenIE y aplica PageRank Personalizado en el momento de la consulta, alcanzando un Recall@5 del 89,1% en 2WikiMultiHopQA frente al 68,2% de ColBERTv2, con implicaciones directas para consultar libros contables financieros complejos a través de historiales de transacciones de varios años.
AgentBench (Liu et al., ICLR 2024) evalúa 27 LLM en 8 entornos interactivos: GPT-4 obtuvo una puntuación general de 4,01 frente a 0,96 del mejor modelo de código abierto. Los tres modos de fallo dominantes (límite de tareas excedido en el 67,9% de los fallos de grafos de conocimiento, errores de formato en el 53,3% de los fallos de bases de datos y acciones inválidas) se corresponden directamente con los riesgos de desplegar un agente de escritura de Beancount en un libro mayor real.
Bloomberg entrenó un LLM de 50 mil millones de parámetros con 569 mil millones de tokens de datos financieros y superó a los modelos generales en evaluaciones de sentimiento y razonamiento sobre tablas; luego, GPT-4 lo igualó sin ningún preentrenamiento específico en finanzas. Lo que el experimento de 10 millones de dólares revela sobre los compromisos del preentrenamiento de dominio, la tokenización de números y por qué el uso de herramientas es más confiable que los componentes internos del modelo para los agentes contables.
AutoGen (Wu et al., 2023) introduce un marco de conversación multi-agente donde los agentes respaldados por LLM intercambian mensajes para completar tareas; una configuración de dos agentes eleva la precisión de la referencia MATH del 55% al 69%, y un agente SafeGuard dedicado mejora la detección de código no seguro hasta en 35 puntos F1 — hallazgos directamente aplicables a la creación de flujos de automatización de Beancount seguros y modulares.