Bean Labs Research Log

AIMachine LearningLLMFinanceFinancial ReportingBeancount

FinQA: El benchmark que mide el razonamiento numérico de la IA en informes financieros

FinQA (EMNLP 2021) construyó 8,281 pares de preguntas y respuestas a partir de informes de ganancias del S&P 500 que requieren programas aritméticos de múltiples pasos. Los modelos neuronales obtuvieron una puntuación del 61% en el momento de su lanzamiento frente al 91% de los expertos humanos; la precisión se desploma al 22% en programas de tres o más pasos. Los modos de falla (constantes de dominio, fundamentación intermodal, longitud de la cadena) se corresponden directamente con los desafíos que enfrentan los agentes de Beancount hoy en día.

Latest articles

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Por qué el RAG de almacenamiento de vectores falla con documentos financieros reales

FinanceBench evalúa 16 configuraciones de IA frente a 10,231 preguntas de presentaciones reales ante la SEC; el RAG de almacenamiento de vectores compartido responde correctamente solo el 19% de las veces, e incluso GPT-4-Turbo con el pasaje del oráculo alcanza solo el 85% de precisión, lo que demuestra que el razonamiento numérico, no la recuperación, es la limitación crítica para la IA financiera empresarial.

AILLMMachine LearningAutomationFinanceBeancount

DSPy: Reemplazando la Frágil Ingeniería de Prompts con Pipelines de LLM Compilados

DSPy reemplaza las cadenas de prompts hechas a mano con firmas declarativas y un compilador basado en métricas, elevando a Llama2-13b del 9.4% al 46.9% en razonamiento matemático GSM8K y ofreciendo un camino más mantenible para pipelines de IA financiera en producción.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Búsqueda en Árbol de Agentes de Lenguaje — Razonamiento, Acción y Planificación en un solo Marco

LATS (Búsqueda en Árbol de Agentes de Lenguaje, ICML 2024) unifica ReAct, Árbol de Pensamientos y Reflexión en un único marco MCTS, logrando un 92,7% de pass@1 en HumanEval con GPT-4. Para los libros de contabilidad Beancount respaldados por git, el requisito de reversión de estado que limita a LATS en entornos de producción se satisface de manera trivial.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Recuperación Adaptativa y Autocrítica para LLMs

Self-RAG (ICLR 2024 Oral) entrena un modelo de lenguaje para decidir cuándo recuperar información y luego calificar sus propios resultados utilizando cuatro tokens de reflexión, alcanzando un 55.8% en PopQA y un 80.2 de FactScore en biografías, superando a ChatGPT en cinco pruebas de rendimiento. El análisis cubre el mecanismo, los resultados de ablación, los límites de reproducibilidad y las implicaciones para los agentes de IA financiera sobre libros mayores de Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Bibliotecas de habilidades como base para el aprendizaje permanente de agentes de IA

Voyager, un agente de Minecraft impulsado por GPT-4 de NVIDIA y Caltech, demuestra que una biblioteca de habilidades de código persistente permite un aprendizaje permanente genuino sin ajuste fino, descubriendo 3,3 veces más elementos que el estado del arte anterior. El patrón se aplica directamente a la automatización de libros mayores de Beancount a largo plazo, aunque la corrección financiera exige capas de entorno de pruebas que los sandboxes de juegos nunca requieren.

LLMAIMachine LearningBeancountPlain-Text AccountingFinanceAutomation

HippoRAG: Memoria a largo plazo para LLMs inspirada en la neurobiología

HippoRAG (NeurIPS 2024) construye un grafo de conocimiento a partir de triples OpenIE y aplica PageRank Personalizado en el momento de la consulta, alcanzando un Recall@5 del 89,1% en 2WikiMultiHopQA frente al 68,2% de ColBERTv2, con implicaciones directas para consultar libros contables financieros complejos a través de historiales de transacciones de varios años.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: Evaluación de LLMs como agentes — Lecciones para la fiabilidad de la IA en finanzas

AgentBench (Liu et al., ICLR 2024) evalúa 27 LLM en 8 entornos interactivos: GPT-4 obtuvo una puntuación general de 4,01 frente a 0,96 del mejor modelo de código abierto. Los tres modos de fallo dominantes (límite de tareas excedido en el 67,9% de los fallos de grafos de conocimiento, errores de formato en el 53,3% de los fallos de bases de datos y acciones inválidas) se corresponden directamente con los riesgos de desplegar un agente de escritura de Beancount en un libro mayor real.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT y los límites de los LLM especializados en finanzas

Bloomberg entrenó un LLM de 50 mil millones de parámetros con 569 mil millones de tokens de datos financieros y superó a los modelos generales en evaluaciones de sentimiento y razonamiento sobre tablas; luego, GPT-4 lo igualó sin ningún preentrenamiento específico en finanzas. Lo que el experimento de 10 millones de dólares revela sobre los compromisos del preentrenamiento de dominio, la tokenización de números y por qué el uso de herramientas es más confiable que los componentes internos del modelo para los agentes contables.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Marcos de Conversación Multi-Agente para IA en Finanzas

AutoGen (Wu et al., 2023) introduce un marco de conversación multi-agente donde los agentes respaldados por LLM intercambian mensajes para completar tareas; una configuración de dos agentes eleva la precisión de la referencia MATH del 55% al 69%, y un agente SafeGuard dedicado mejora la detección de código no seguro hasta en 35 puntos F1 — hallazgos directamente aplicables a la creación de flujos de automatización de Beancount seguros y modulares.

Comience con Beancount.io

Tome el control de sus finanzas con nuestro sistema de contabilidad de partida doble de código abierto. Comience su libro mayor hoy mismo.

Comenzar gratis Ver precios

Construido con transparencia • Controlado por versiones • Impulsado por IA