Mike Thrift
Marketing Manager
OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances
OpenHands és una plataforma d'agents amb llicència MIT i entorn Docker on CodeAct assoleix un 26% a SWE-Bench Lite — una referència aclaparadora que estableix el que els agents d'IA poden fer de manera fiable avui dia, i per què les primeres implementacions financeres productives haurien de tenir un abast limitat en lloc de ser autònomes.
Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats
Fin-RATE avalua 17 LLM en 7.500 parells de preguntes i respostes seleccionades per experts de 2.472 documents de la SEC, revelant un col·lapse de la precisió del 18,60% en el seguiment longitudinal i una caiguda de 54 punts per al model Fin-R1 especialitzat en finances en tasques entre entitats, amb el pipeline de recuperació, i no el model base, com el coll d'ampolla principal.
FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer
FinDER avalua el RAG sobre 5.703 consultes reals d'analistes de fons de cobertura front a informes 10-K de l'S&P 500; E5-Mistral només aconsegueix un 25,95% de recuperació de context, i les consultes amb moltes abreviatures costen 8,2 punts de precisió — evidència que la normalització de consultes, i no millors embeddings, és la primera solució per als pipelines d'IA en finances.
Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera
L'article de TACL 2024 de Liu et al. mostra que els LLM funcionen fins a 20 punts pitjor amb la informació enterrada al mig de contextos llargs —una degradació en forma de U que afecta tots els models provats, inclòs Claude-1.3-100K— amb implicacions concretes sobre com les canalitzacions RAG haurien d'ordenar els fragments recuperats en aplicacions de finances i comptabilitat.
Benchmark AD-LLM: GPT-4o assoleix un AUROC de 0,93+ en detecció d'anomalies de text zero-shot
AD-LLM avalua GPT-4o i Llama 3.1 8B en tres rols de detecció d'anomalies —detector zero-shot, augmentador de dades i selector de models— en cinc conjunts de dades de PNL; GPT-4o arriba a un AUROC de 0,93–0,99 zero-shot, però la selecció de models basada en LLM continua sent poc fiable, amb implicacions directes per a la IA d'auditoria financera.
CausalTAD: Ordenació Causal de Columnes per a la Detecció d'Anomalies Tabulars amb LLM
CausalTAD millora la detecció d'anomalies tabulars basada en LLM reordenant les columnes de la taula per respectar les dependències causals abans de la serialització, augmentant l'AUC-ROC mitjà de 0,803 a 0,834 respecte a AnoLLM en bancs de proves de tipus mixt — amb implicacions directes per detectar anomalies en dades estructurades de llibres comptables.
AnoLLM: Ajust finit d'LLMs per a la detecció d'anomalies tabulars en dades financeres
AnoLLM (ICLR 2025) reformula la detecció d'anomalies tabulars com una estimació de densitat d'LLM — ajustant el model amb files normals i puntuant mitjançant la log-versemblança negativa. Supera els mètodes clàssics en conjunts de dades de frau de tipus mixt, però no ofereix cap avantatge en dades purament numèriques, amb implicacions reals per detectar anomalies en les entrades del llibre major de Beancount.
Els LLM obtenen un 2,3% en la generació de DSL de Beancount: El benchmark LLMFinLiteracy
El benchmark LLMFinLiteracy revela que cinc models de pesos oberts d'uns 7B generen transaccions de Beancount completament correctes només el 2,3% de les vegades, amb errors concentrats en el raonament comptable —no en la sintaxi—, cosa que assenyala el feedback del compilador en el bucle com l'ingredient clau que falta per a agents d'escriptura fiables.
TableMaster: Raonament adaptatiu per a la comprensió de taules amb LLM
TableMaster és un pipeline basat exclusivament en l'ús de promps que assoleix un 78,13% a WikiTQ amb GPT-4o-mini —13 punts per sobre de Chain-of-Table— combinant l'extracció de la taula de focus, la verbalització semàntica i el canvi adaptatiu entre el raonament textual i el simbòlic. Aquí s'explica què significa aquesta arquitectura per als agents d'IA sobre llibres majors financers com Beancount.
Detecció d'anomalies Zero-Shot amb LLMs: Com es comporta GPT-4 amb dades tabulars
GPT-4 aconsegueix una mitjana de 74,1 AUROC al benchmark ODDS sense ajustament fi —gairebé igualant la línia base clàssica ECOD de 75,5— però falla en anomalies multidimensionals i conjunts de dades d'alta variància; una revisió crítica de la detecció d'anomalies zero-shot amb LLM i les seves implicacions per a l'auditoria automatitzada de llibres majors de Beancount.
DocFinQA: Raonament financer de context llarg sobre presentacions completes de la SEC
DocFinQA substitueix els passatges seleccionats de 700 paraules de FinQA per presentacions completes de la SEC de 123.000 paraules, exposant un augment de context de 175 vegades que gairebé redueix a la meitat la precisió de GPT-4 en documents llargs. Els fluxos de recuperació no aconsegueixen trobar el fragment correcte el 45% de les vegades a HR@3 — i els models de context llarg no són un substitut.
TheAgentCompany: Avaluació comparativa d'agents LLM en tasques empresarials del món real
TheAgentCompany avalua 175 tasques reals del lloc de treball en una intranet simulada amb GitLab, OwnCloud i RocketChat. El millor model (Gemini-2.5-Pro) completa només el 30% de les tasques a un cost de 4 $ per tasca, fet que revela que els agents autònoms encara estan lluny de ser viables per als fluxos de treball comptables i financers.