Bean Labs Research Log

Fraud DetectionLLMDouble-EntryJournal EntriesAIMachine LearningComplianceBookkeeping

AuditCopilot: LLMs para la detección de fraude en contabilidad de partida doble

AuditCopilot aplica LLMs de código abierto (Mistral-8B, Gemma, Llama-3.1) a la detección de fraude en asientos de diario corporativos, reduciendo los falsos positivos de 942 a 12; sin embargo, la ablación revela que el LLM funciona principalmente como una capa de síntesis sobre las puntuaciones de Isolation Forest, no como un detector de anomalías independiente.

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: LLaMA 2 ajustado para razonamiento discreto sobre tablas y textos financieros

TAT-LLM ajusta LLaMA 2 7B con LoRA en benchmarks de QA de tablas y textos financieros, logrando un 64,60% de EM en FinQA — superando el 63,91% de GPT-4 — al descomponer el razonamiento en pasos deterministas de Extracción-Razonamiento-Ejecución que eliminan errores aritméticos.

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

Ajuste fino (Fine-Tuning) vs. RAG: Por qué la recuperación gana al inyectar nuevo conocimiento en LLMs

La comparación empírica de RAG frente al ajuste fino no supervisado en LLMs de 7 mil millones de parámetros muestra que RAG alcanza una precisión de más de 0,875 en hechos posteriores al corte de conocimiento, mientras que el ajuste fino se estanca en 0,504, con implicaciones directas para el diseño de agentes de Beancount y cualquier sistema que requiera actualizaciones frecuentes de conocimiento.

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT: Entrelazando la Recuperación con Cadena de Pensamiento para QA de Múltiples Pasos

IRCoT entrelaza la recuperación BM25 con cada paso de un bucle de razonamiento de cadena de pensamiento, logrando +11.3 en recuperación y +7.1 en F1 en HotpotQA sobre RAG de un solo paso — y muestra que un modelo de 3B puede superar a GPT-3 de 175B cuando la estrategia de recuperación es la adecuada.

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE: Generación Aumentada por Recuperación Activa

FLARE (EMNLP 2023) mejora el RAG estándar al activar la recuperación a mitad de la generación mediante umbrales de confianza de probabilidad de tokens, alcanzando un 51.0 EM en 2WikiMultihopQA frente al 39.4 de la recuperación única; sin embargo, los fallos de calibración en los modelos de chat ajustados por instrucciones limitan su fiabilidad para agentes financieros de producción.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancount

Generación aumentada por recuperación para tareas de PLN con uso intensivo de conocimiento

El artículo de Lewis et al. de NeurIPS 2020 introdujo la arquitectura híbrida RAG —un generador BART-large emparejado con un recuperador indexado por FAISS sobre 21 millones de pasajes de Wikipedia— logrando 44.5 EM en Natural Questions y estableciendo la división paramétrica/no paramétrica que ahora subyace en la mayoría de los sistemas de IA en producción. Esta revisión cubre los compromisos entre RAG-Sequence y RAG-Token, el modo de fallo de colapso de recuperación y lo que significan los índices obsoletos para la IA financiera construida sobre libros de contabilidad Beancount de solo adición.

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt: Evaluación del razonamiento numérico en tablas financieras multi-jerárquicas

MultiHiertt (ACL 2022) presenta 10,440 pares de preguntas y respuestas de informes financieros reales con un promedio de 3.89 tablas jerárquicas cada uno; los modelos de vanguardia obtienen un F1 del 38% frente al 87% de los humanos, con una penalización de 15 puntos para las preguntas entre tablas, cuantificando la brecha de recuperación que la IA financiera debe cerrar.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: QA financiero de turnos múltiples y la brecha de 21 puntos entre modelos y expertos humanos

ConvFinQA (EMNLP 2022) extiende FinQA a conversaciones de turnos múltiples sobre informes de ganancias del S&P 500, encontrando que el mejor modelo ajustado logra una precisión de ejecución del 68,9% frente al 89,4% de los expertos humanos, y cae al 52,4% en conversaciones híbridas de múltiples aspectos donde los modelos deben mantener el contexto numérico a través de diferentes temas financieros.

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA: Benchmark de QA Híbrido de Tabla y Texto para el Razonamiento de Informes Financieros Anuales

TAT-QA es un benchmark de 16.552 preguntas sobre contextos de informes financieros híbridos de tabla más texto que demostró que la fundamentación en la evidencia —no la aritmética— es el cuello de botella central en la IA financiera; para 2024, los LLM de 7B ajustados alcanzaron un 83% de F1, cerrando la mayor parte de la brecha frente al techo humano del 91%.

Los LLM no son útiles para el pronóstico de series temporales: lo que NeurIPS 2024 significa para la IA financiera

Latest articles

AuditCopilot: LLMs para la detección de fraude en contabilidad de partida doble

TAT-LLM: LLaMA 2 ajustado para razonamiento discreto sobre tablas y textos financieros

Ajuste fino (Fine-Tuning) vs. RAG: Por qué la recuperación gana al inyectar nuevo conocimiento en LLMs

IRCoT: Entrelazando la Recuperación con Cadena de Pensamiento para QA de Múltiples Pasos

FLARE: Generación Aumentada por Recuperación Activa

Generación aumentada por recuperación para tareas de PLN con uso intensivo de conocimiento

MultiHiertt: Evaluación del razonamiento numérico en tablas financieras multi-jerárquicas

ConvFinQA: QA financiero de turnos múltiples y la brecha de 21 puntos entre modelos y expertos humanos

TAT-QA: Benchmark de QA Híbrido de Tabla y Texto para el Razonamiento de Informes Financieros Anuales

Comience con Beancount.io

Primeros pasos

Funciones

Comunidad

Legal