Ir al contenido principal

Bean Labs Research Log

FinQA: El benchmark que mide el razonamiento numérico de la IA en informes financieros

FinQA (EMNLP 2021) construyó 8,281 pares de preguntas y respuestas a partir de informes de ganancias del S&P 500 que requieren programas aritméticos de múltiples pasos. Los modelos neuronales obtuvieron una puntuación del 61% en el momento de su lanzamiento frente al 91% de los expertos humanos; la precisión se desploma al 22% en programas de tres o más pasos. Los modos de falla (constantes de dominio, fundamentación intermodal, longitud de la cadena) se corresponden directamente con los desafíos que enfrentan los agentes de Beancount hoy en día.

Latest articles

FinanceBench: Por qué el RAG de almacenamiento de vectores falla con documentos financieros reales

FinanceBench evalúa 16 configuraciones de IA frente a 10,231 preguntas de presentaciones reales ante la SEC; el RAG de almacenamiento de vectores compartido responde correctamente solo el 19% de las veces, e incluso GPT-4-Turbo con el pasaje del oráculo alcanza solo el 85% de precisión, lo que demuestra que el razonamiento numérico, no la recuperación, es la limitación crítica para la IA financiera empresarial.

LATS: Búsqueda en Árbol de Agentes de Lenguaje — Razonamiento, Acción y Planificación en un solo Marco

LATS (Búsqueda en Árbol de Agentes de Lenguaje, ICML 2024) unifica ReAct, Árbol de Pensamientos y Reflexión en un único marco MCTS, logrando un 92,7% de pass@1 en HumanEval con GPT-4. Para los libros de contabilidad Beancount respaldados por git, el requisito de reversión de estado que limita a LATS en entornos de producción se satisface de manera trivial.

Self-RAG: Recuperación Adaptativa y Autocrítica para LLMs

Self-RAG (ICLR 2024 Oral) entrena un modelo de lenguaje para decidir cuándo recuperar información y luego calificar sus propios resultados utilizando cuatro tokens de reflexión, alcanzando un 55.8% en PopQA y un 80.2 de FactScore en biografías, superando a ChatGPT en cinco pruebas de rendimiento. El análisis cubre el mecanismo, los resultados de ablación, los límites de reproducibilidad y las implicaciones para los agentes de IA financiera sobre libros mayores de Beancount.

Voyager: Bibliotecas de habilidades como base para el aprendizaje permanente de agentes de IA

Voyager, un agente de Minecraft impulsado por GPT-4 de NVIDIA y Caltech, demuestra que una biblioteca de habilidades de código persistente permite un aprendizaje permanente genuino sin ajuste fino, descubriendo 3,3 veces más elementos que el estado del arte anterior. El patrón se aplica directamente a la automatización de libros mayores de Beancount a largo plazo, aunque la corrección financiera exige capas de entorno de pruebas que los sandboxes de juegos nunca requieren.

HippoRAG: Memoria a largo plazo para LLMs inspirada en la neurobiología

HippoRAG (NeurIPS 2024) construye un grafo de conocimiento a partir de triples OpenIE y aplica PageRank Personalizado en el momento de la consulta, alcanzando un Recall@5 del 89,1% en 2WikiMultiHopQA frente al 68,2% de ColBERTv2, con implicaciones directas para consultar libros contables financieros complejos a través de historiales de transacciones de varios años.

AgentBench: Evaluación de LLMs como agentes — Lecciones para la fiabilidad de la IA en finanzas

AgentBench (Liu et al., ICLR 2024) evalúa 27 LLM en 8 entornos interactivos: GPT-4 obtuvo una puntuación general de 4,01 frente a 0,96 del mejor modelo de código abierto. Los tres modos de fallo dominantes (límite de tareas excedido en el 67,9% de los fallos de grafos de conocimiento, errores de formato en el 53,3% de los fallos de bases de datos y acciones inválidas) se corresponden directamente con los riesgos de desplegar un agente de escritura de Beancount en un libro mayor real.

BloombergGPT y los límites de los LLM especializados en finanzas

Bloomberg entrenó un LLM de 50 mil millones de parámetros con 569 mil millones de tokens de datos financieros y superó a los modelos generales en evaluaciones de sentimiento y razonamiento sobre tablas; luego, GPT-4 lo igualó sin ningún preentrenamiento específico en finanzas. Lo que el experimento de 10 millones de dólares revela sobre los compromisos del preentrenamiento de dominio, la tokenización de números y por qué el uso de herramientas es más confiable que los componentes internos del modelo para los agentes contables.

AutoGen: Marcos de Conversación Multi-Agente para IA en Finanzas

AutoGen (Wu et al., 2023) introduce un marco de conversación multi-agente donde los agentes respaldados por LLM intercambian mensajes para completar tareas; una configuración de dos agentes eleva la precisión de la referencia MATH del 55% al 69%, y un agente SafeGuard dedicado mejora la detección de código no seguro hasta en 35 puntos F1 — hallazgos directamente aplicables a la creación de flujos de automatización de Beancount seguros y modulares.