Bean Labs Research Log

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Transferència basada en la incertesa per a agents LLM: quan escalar de models petits a grans

ReDAct executa un model petit per defecte i escala a un model car només quan la perplexitat a nivell de tòquens indica incertesa, aconseguint un estalvi de costos del 64% respecte a l'ús exclusiu de GPT-5.2 mentre iguala o supera la seva precisió — un patró aplicable directament als agents de categorització de transaccions de Beancount.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances

OpenHands és una plataforma d'agents amb llicència MIT i entorn Docker on CodeAct assoleix un 26% a SWE-Bench Lite — una referència aclaparadora que estableix el que els agents d'IA poden fer de manera fiable avui dia, i per què les primeres implementacions financeres productives haurien de tenir un abast limitat en lloc de ser autònomes.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

Fin-RATE avalua 17 LLM en 7.500 parells de preguntes i respostes seleccionades per experts de 2.472 documents de la SEC, revelant un col·lapse de la precisió del 18,60% en el seguiment longitudinal i una caiguda de 54 punts per al model Fin-R1 especialitzat en finances en tasques entre entitats, amb el pipeline de recuperació, i no el model base, com el coll d'ampolla principal.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer

FinDER avalua el RAG sobre 5.703 consultes reals d'analistes de fons de cobertura front a informes 10-K de l'S&P 500; E5-Mistral només aconsegueix un 25,95% de recuperació de context, i les consultes amb moltes abreviatures costen 8,2 punts de precisió — evidència que la normalització de consultes, i no millors embeddings, és la primera solució per als pipelines d'IA en finances.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

L'article de TACL 2024 de Liu et al. mostra que els LLM funcionen fins a 20 punts pitjor amb la informació enterrada al mig de contextos llargs —una degradació en forma de U que afecta tots els models provats, inclòs Claude-1.3-100K— amb implicacions concretes sobre com les canalitzacions RAG haurien d'ordenar els fragments recuperats en aplicacions de finances i comptabilitat.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

Benchmark AD-LLM: GPT-4o assoleix un AUROC de 0,93+ en detecció d'anomalies de text zero-shot

AD-LLM avalua GPT-4o i Llama 3.1 8B en tres rols de detecció d'anomalies —detector zero-shot, augmentador de dades i selector de models— en cinc conjunts de dades de PNL; GPT-4o arriba a un AUROC de 0,93–0,99 zero-shot, però la selecció de models basada en LLM continua sent poc fiable, amb implicacions directes per a la IA d'auditoria financera.

LLMAIMachine LearningFraud DetectionData ScienceAnomaly DetectionBeancount

CausalTAD: Ordenació Causal de Columnes per a la Detecció d'Anomalies Tabulars amb LLM

CausalTAD millora la detecció d'anomalies tabulars basada en LLM reordenant les columnes de la taula per respectar les dependències causals abans de la serialització, augmentant l'AUC-ROC mitjà de 0,803 a 0,834 respecte a AnoLLM en bancs de proves de tipus mixt — amb implicacions directes per detectar anomalies en dades estructurades de llibres comptables.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: Ajust finit d'LLMs per a la detecció d'anomalies tabulars en dades financeres

AnoLLM (ICLR 2025) reformula la detecció d'anomalies tabulars com una estimació de densitat d'LLM — ajustant el model amb files normals i puntuant mitjançant la log-versemblança negativa. Supera els mètodes clàssics en conjunts de dades de frau de tipus mixt, però no ofereix cap avantatge en dades purament numèriques, amb implicacions reals per detectar anomalies en les entrades del llibre major de Beancount.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

Els LLM obtenen un 2,3% en la generació de DSL de Beancount: El benchmark LLMFinLiteracy

El benchmark LLMFinLiteracy revela que cinc models de pesos oberts d'uns 7B generen transaccions de Beancount completament correctes només el 2,3% de les vegades, amb errors concentrats en el raonament comptable —no en la sintaxi—, cosa que assenyala el feedback del compilador en el bucle com l'ingredient clau que falta per a agents d'escriptura fiables.

Trobats al mig: el calibratge del biaix d'atenció posicional millora el RAG de context llarg

Latest articles

Transferència basada en la incertesa per a agents LLM: quan escalar de models petits a grans

OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

Benchmark AD-LLM: GPT-4o assoleix un AUROC de 0,93+ en detecció d'anomalies de text zero-shot

CausalTAD: Ordenació Causal de Columnes per a la Detecció d'Anomalies Tabulars amb LLM

AnoLLM: Ajust finit d'LLMs per a la detecció d'anomalies tabulars en dades financeres

Els LLM obtenen un 2,3% en la generació de DSL de Beancount: El benchmark LLMFinLiteracy

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal