Bean Labs Research Log

Fraud DetectionLLMDouble-EntryJournal EntriesAIMachine LearningComplianceBookkeeping

AuditCopilot: LLMs per a la detecció de frau en la comptabilitat de partida doble

AuditCopilot aplica LLM de codi obert (Mistral-8B, Gemma, Llama-3.1) a la detecció de frau en assentaments comptables corporatius, reduint els falsos positius de 942 a 12 — però l'ablació revela que l'LLM funciona principalment com una capa de síntesi sobre les puntuacions d'Isolation Forest, no com un detector d'anomalies independent.

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: LLaMA 2 ajustat per al raonament discret sobre taules i textos financers

TAT-LLM ajusta LLaMA 2 7B amb LoRA en referents de preguntes i respostes de taules i textos financers, assolint un 64,60% d'EM a FinQA —superant el 63,91% de GPT-4— mitjançant la descomposició del raonament en passos deterministes d'Extracció-Raonament-Execució que eliminen els errors aritmètics.

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

Ajustament fi vs. RAG: Per què la recuperació guanya per injectar nous coneixements als LLM

La comparació empírica de RAG vs. l'ajustament fi no supervisat en LLM de 7.000 milions de paràmetres mostra que el RAG aconsegueix una precisió de més de 0,875 en fets posteriors a la data de tall, mentre que l'ajustament fi s'estanca en 0,504, amb implicacions directes per al disseny d'agents de Beancount i qualsevol sistema que requereixi actualitzacions freqüents de coneixement.

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT: Entrellaçament de la recuperació amb la cadena de pensament per a preguntes i respostes de múltiples passos

IRCoT entrellaça la recuperació BM25 amb cada pas d'un bucle de raonament de cadena de pensament, aconseguint +11,3 en recuperació i +7,1 en F1 a HotpotQA respecte al RAG d'un sol pas — i demostra que un model de 3B pot superar el GPT-3 de 175B quan l'estratègia de recuperació és la correcta.

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE: Generació Augmentada per Recuperació Activa

FLARE (EMNLP 2023) millora el RAG estàndard activant la recuperació a mitja generació mitjançant llindars de confiança de probabilitat de tokens, assolint un 51,0 EM a 2WikiMultihopQA en comparació amb el 39,4 de la recuperació única — però els errors de calibratge en models de xat ajustats per instruccions limiten la seva fiabilitat per a agents financers de producció.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancount

Generació augmentada per recuperació per a tasques de PNL amb un ús intensiu del coneixement

L'article de Lewis et al. per al NeurIPS 2020 va introduir l'arquitectura híbrida RAG —un generador BART-large emparellat amb un recuperador indexat per FAISS sobre 21 milions de passatges de la Viquipèdia— assolint un 44,5 d'EM en Natural Questions i establint la divisió paramètrica/no paramètrica que actualment sustenta la majoria de sistemes d'IA en producció. Aquesta revisió cobreix les compensacions entre RAG-Sequence i RAG-Token, el mode de fallada per col·lapse de recuperació i què signifiquen els índexs obsolets per a la IA financera basada en llibres de comptabilitat Beancount de només addició.

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt: Avaluació comparativa del raonament numèric en taules financeres multi-jeràrquiques

MultiHiertt (ACL 2022) presenta 10.440 parells de preguntes i respostes d'informes financers reals amb una mitjana de 3,89 taules jeràrquiques cadascun; els models d'última generació obtenen un 38% de puntuació F1 en comparació amb el 87% dels humans, amb una penalització de 15 punts per a les preguntes entre taules, quantificant la bretxa de recuperació que l'IA financera ha de tancar.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans

ConvFinQA (EMNLP 2022) estén FinQA a converses multi-torn sobre informes de resultats de l'S&P 500, trobant que el millor model ajustat aconsegueix un 68,9% de precisió d'execució enfront del 89,4% dels experts humans—i cau al 52,4% en converses híbrides on els models han de mantenir el context numèric entre diferents temes financers.

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA: un benchmark de QA híbrid de taula i text per al raonament d'informes anuals financers

TAT-QA és un benchmark de 16.552 preguntes sobre contextos híbrids de taula i text d'informes financers que ha demostrat que la fonamentació de l'evidència —i no l'aritmètica— és el coll d'ampolla principal en l'IA financera; el 2024, els LLM de 7B ajustats van assolir un F1 del 83%, tancant la major part de la bretxa respecte al sostre humà del 91%.

Els LLM no són útils per a la previsió de sèries temporals: què significa NeurIPS 2024 per a la IA financera

Latest articles

AuditCopilot: LLMs per a la detecció de frau en la comptabilitat de partida doble

TAT-LLM: LLaMA 2 ajustat per al raonament discret sobre taules i textos financers

Ajustament fi vs. RAG: Per què la recuperació guanya per injectar nous coneixements als LLM

IRCoT: Entrellaçament de la recuperació amb la cadena de pensament per a preguntes i respostes de múltiples passos

FLARE: Generació Augmentada per Recuperació Activa

Generació augmentada per recuperació per a tasques de PNL amb un ús intensiu del coneixement

MultiHiertt: Avaluació comparativa del raonament numèric en taules financeres multi-jeràrquiques

ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans

TAT-QA: un benchmark de QA híbrid de taula i text per al raonament d'informes anuals financers

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal